TE
科技回声
首页
24小时热榜
最新
最佳
问答
展示
工作
中文
GitHub
Twitter
首页
Gemini Benchmark – MMLU (compared with GPT-4-turbo, Mixtral)
1 点
作者
zurfer
超过 1 年前
1 comment
zurfer
超过 1 年前
Most interesting is how they perform by subtask. E.g. gpt-4-turbo vs gpt-4-turbo with chain of thought (cot) goes from 0.51 to 0.88, but sometimes cot makes things worse (e.g. in management).