GPT-5がリリースされたばかりです。複雑な AGI のような機能を実現する際のパフォーマンスを評価してみましょう。 - @grok 4 (思考) は、ARC-AGI-2 (複雑な推論) と ARC-AGI-1 (それほど要求が厳しくない) テストの両方で @OpenAI GPT-5 (高) を上回っています。 - Grok 4 の優れた精度には、タスクあたりのコストが 2 ドルから 4 ドルの範囲で大幅に高くなります。 - より軽量な GPT-5 バリアント (ミニ/ナノ) は、これらのベンチマークでパフォーマンスとコストのバランスの取れたトレードオフを提供します。 ARC-AGI-3 テストは現在進行中であり、上記のテストの結果はモデルの優位性を意味するものではないことに注意してください。 H/T @arcprize
1.13K