TE
科技回声
首页24小时热榜最新最佳问答展示工作
GitHubTwitter
首页

科技回声

基于 Next.js 构建的科技新闻平台,提供全球科技新闻和讨论内容。

GitHubTwitter

首页

首页最新最佳问答展示工作

资源链接

HackerNews API原版 HackerNewsNext.js

© 2025 科技回声. 版权所有。

llama.cpp now supports StarCoder model series

6 点作者 wsxiaoys超过 1 年前

1 comment

wsxiaoys超过 1 年前
For the 1B version of the model, it operates at approximately 100 tokens per second when decoding with Metal on an Apple M2 Max.<p>llama_print_timings: load time = 114.00 ms<p>llama_print_timings: sample time = 0.00 ms &#x2F; 1 runs ( 0.00 ms per token, inf tokens per second)<p>llama_print_timings: prompt eval time = 107.79 ms &#x2F; 22 tokens ( 4.90 ms per token, 204.11 tokens per second)<p>llama_print_timings: eval time = 1315.10 ms &#x2F; 127 runs ( 10.36 ms per token, 96.57 tokens per second)<p>llama_print_timings: total time = 1427.08 ms<p>(Disclaimer: I submited the PR)