TE
科技回声
首页24小时热榜最新最佳问答展示工作
GitHubTwitter
首页

科技回声

基于 Next.js 构建的科技新闻平台,提供全球科技新闻和讨论内容。

GitHubTwitter

首页

首页最新最佳问答展示工作

资源链接

HackerNews API原版 HackerNewsNext.js

© 2025 科技回声. 版权所有。

The most widely used benchmarks for evaluating LLMs

1 点作者 kavaivaleri大约 1 年前
Commonsense Reasoning - HellaSwag - Winogrande - PIQA - SIQA - OpenBookQA - ARC - CommonsenseQA<p>Logical Reasoning - MMLU - BBHard<p>Mathematical Reasoning - GSM-8K - MATH - MGSM - DROP<p>Code Generation - HumanEval - MBPP<p>World Knowledge &amp; QA - NaturalQuestions - TriviaQA - MMMU - TruthfulQA<p>I collected their descriptions and links to their original papers here: https:&#x2F;&#x2F;www.turingpost.com&#x2F;p&#x2F;llm-benchmarks

1 comment

andy99大约 1 年前
I&#x27;ve never been able to click on a Turingpost link, they all give an SSL error...