首页 24小时热榜最新最佳问答展示工作

返回个人资料

zone411 的提交内容

科技回声

基于 Next.js 构建的科技新闻平台，提供全球科技新闻和讨论内容。

首页

首页最新最佳问答展示工作

资源链接

HackerNews API 原版 HackerNews Next.js

© 2025 科技回声. 版权所有。

1

Public Goods Game Benchmark: Contribute and Punish, a Multi-Agent Benchmark

7 点作者 zone411大约 2 个月前

2

Elimination Game: Multi-Agent LLM Social Reasoning, Strategy, and Deception

5 点作者 zone4113 个月前

3

SWE-Lancer: a benchmark of freelance software engineering tasks from Upwork

111 点作者 zone4113 个月前

4

LLM Hallucination Benchmark: R1, o1, o3-mini, Gemini 2.0 Flash Think Exp 01-21

17 点作者 zone4113 个月前

5

Multi-Agent Step Race Benchmark: LLM Collaboration and Deception Under Pressure

7 点作者 zone4114 个月前

6

Show HN: LLM Thematic Generalization Benchmark

6 点作者 zone4114 个月前

7

Show HN: LLM Creative Story-Writing Benchmark

5 点作者 zone4114 个月前

8

Show HN: LLM Divergent Thinking Creativity Benchmark

8 点作者 zone4114 个月前

← 上一页