30 pointsby maurycy5 months ago

2 comments

Wow, the demo where the user asks for untraceable payments shows some pretty sophisticated reasoning. The word "crafty" comes to mind.

og_kalu5 months ago

New SOTA's on:<p>SWE-Bench - 71.7<p>Competition Code - 2727<p>ARC (Semi Private Eval) - 75.7 on low, 87.5% on high compute<p>Frontier Math (previous SOTA was 2%) - 25% on high compute

Early Evals for OpenAI O3

2 comments

Early Evals for OpenAI O3

2 comments