TE
科技回声
首页
24小时热榜
最新
最佳
问答
展示
工作
中文
GitHub
Twitter
返回个人资料
zone411 的提交内容
1
Public Goods Game Benchmark: Contribute and Punish, a Multi-Agent Benchmark
7 点
作者
zone411
大约 2 个月前
暂无评论
2
Elimination Game: Multi-Agent LLM Social Reasoning, Strategy, and Deception
5 点
作者
zone411
3 个月前
暂无评论
3
SWE-Lancer: a benchmark of freelance software engineering tasks from Upwork
111 点
作者
zone411
3 个月前
74 条评论
4
LLM Hallucination Benchmark: R1, o1, o3-mini, Gemini 2.0 Flash Think Exp 01-21
17 点
作者
zone411
3 个月前
3 条评论
5
Multi-Agent Step Race Benchmark: LLM Collaboration and Deception Under Pressure
7 点
作者
zone411
4 个月前
1 comment
6
Show HN: LLM Thematic Generalization Benchmark
6 点
作者
zone411
4 个月前
暂无评论
7
Show HN: LLM Creative Story-Writing Benchmark
5 点
作者
zone411
4 个月前
暂无评论
8
Show HN: LLM Divergent Thinking Creativity Benchmark
8 点
作者
zone411
4 个月前
暂无评论
← 上一页
下一页 →