TE
科技回声
首页
24小时热榜
最新
最佳
问答
展示
工作
中文
GitHub
Twitter
首页
My benchmark for large language models
4 点
作者
cheviethai123
超过 1 年前
1 comment
cheviethai123
超过 1 年前
Collapse
Consider how low the score of Gemini here compared to the other LLM test. And I'm impressed by the evaluation method's ability to assess performance without relying on tailored prompts.
评论 #39450244 未加载