TE
科技回声
首页24小时热榜最新最佳问答展示工作
GitHubTwitter
首页

科技回声

基于 Next.js 构建的科技新闻平台,提供全球科技新闻和讨论内容。

GitHubTwitter

首页

首页最新最佳问答展示工作

资源链接

HackerNews API原版 HackerNewsNext.js

© 2025 科技回声. 版权所有。

Ask HN: Best practice to use Llama 3 8B on production server

3 点作者 andrew_zhong大约 1 年前
The new Llama 3 8b in on par with 22b models, better but could be 10x cheaper than GPT3.5<p>AI builders, if you are using Llama 3 in backend, where do you host it or what API do you use? (For production usecases with good speed and rate limits close to ChatGPT or Claude)<p>-AWS sagemaker<p>-Self host on cloud GPUs<p>-Replicate API (just found them, 0.05&#x2F;1m token, legit?)<p>-AWS bedrock (seems pricy)<p>-Others - pls comment<p>Any feedback is welcome!

1 comment

whereismyacc大约 1 年前
$0.05 is per million token input, it&#x27;s $0.25 for output tokens