TE
科技回声
首页24小时热榜最新最佳问答展示工作
GitHubTwitter
首页

科技回声

基于 Next.js 构建的科技新闻平台,提供全球科技新闻和讨论内容。

GitHubTwitter

首页

首页最新最佳问答展示工作

资源链接

HackerNews API原版 HackerNewsNext.js

© 2025 科技回声. 版权所有。

Synthetic RLHF w up to 66% success rate

2 点作者 reality_inspctr大约 2 年前

1 comment

reality_inspctr大约 2 年前
&quot;We are releasing AlpacaFarm, a simulator enabling everyone to run and study the full RLHF pipeline at a fraction of the time (&lt;24h) and cost (&lt;$200) w&#x2F; LLM-simulated annotators. Starting w&#x2F; Alpaca, we show RLHF gives big 10+% winrate gains vs davinci003 (<a href="http:&#x2F;&#x2F;crfm.stanford.edu&#x2F;2023&#x2F;05&#x2F;22&#x2F;alpaca-farm.html" rel="nofollow">http:&#x2F;&#x2F;crfm.stanford.edu&#x2F;2023&#x2F;05&#x2F;22&#x2F;alpaca-farm.html</a>)&quot;