TE
科技回声
首页24小时热榜最新最佳问答展示工作
GitHubTwitter
首页

科技回声

基于 Next.js 构建的科技新闻平台,提供全球科技新闻和讨论内容。

GitHubTwitter

首页

首页最新最佳问答展示工作

资源链接

HackerNews API原版 HackerNewsNext.js

© 2025 科技回声. 版权所有。

CTranslate2: An efficient inference engine for Transformer models

2 点作者 wsxiaoys大约 2 年前

1 comment

wsxiaoys大约 2 年前
A less hyped inference engine with INT8&#x2F;FP16 inference supports on both CPU &#x2F; GPU (cuda).<p>Model supports list: GPT-2, GPT-J, GPT-NeoX, OPT, BLOOM, LLAMA, T5, WHISPER<p>( Found this library during my research on alternatives to triton&#x2F;FasterTransformer in Tabby <a href="https:&#x2F;&#x2F;github.com&#x2F;TabbyML&#x2F;tabby">https:&#x2F;&#x2F;github.com&#x2F;TabbyML&#x2F;tabby</a>)