私たちは評価の表面をなぞっただけです。ナレッジワーカーのタスクのかなりの部分は、今日の最も一般的なベンチマークでは捉えられていません。 関連する機能は、多くの場合、既存のコーディングや数学の評価から推定できますが、これらは、法律、金融サービス、会計、コンサルティングなどの多くの分野での現実世界のタスクの複雑さを完全に表すものではありません。 私たちは間もなく、これらのワークフローを追求することがコーディングと同じくらい貴重な時代に突入するでしょう。これは、企業における AI エージェントのユースケースの次の波にとって大きなロック解除となるでしょう。
will depue
will depue9月5日 07:02
多くの場合、研究者が能力を反復する能力は、その能力を測定する能力によって制限されます。私は、進歩は人々が思っているよりも評価に制限されていると信じています。 評価は因果関係を感じることがあります。SWE-Benchはエージェントコーディングに従いましたか、それともエージェントコーディングはSWE-benchに従いましたか? 非常に長い期間のタスク (数週間、数か月) を解決したり、AGI には継続的な学習が必要であるとかなどについてよく耳にしますが、ここでモデルの欠陥を証明するための評価はどこにあるのでしょうか? より多くの人に、AGI で完了した評価、経済的価値と影響を真に追跡する評価、1 か月にわたるタスクなどに取り組んでもらいたいです。
82.25K