私たちは評価の表面をなぞっただけです。ナレッジワーカーのタスクの大部分は、今日の最も一般的なベンチマークでは捉えられていません。 多くの場合、機能の品質は既存のコーディングや数学の評価から推定できますが、これらはこれらの現実世界のタスクの複雑さを完全に表しているわけではありません。 私たちは間もなく、法務、金融サービス、製造、会計、コンサルティング、 その他多くの価値の高い分野は、コーディングと同じくらい高く評価されるでしょう。
will depue
will depue9月5日 07:02
多くの場合、研究者が能力を反復する能力は、その能力を測定する能力によって制限されます。私は、進歩は人々が思っているよりも評価に制限されていると信じています。 評価は因果関係を感じることがあります。SWE-Benchはエージェントコーディングに従いましたか、それともエージェントコーディングはSWE-benchに従いましたか? 非常に長い期間のタスク (数週間、数か月) を解決したり、AGI には継続的な学習が必要であるとかなどについてよく耳にしますが、ここでモデルの欠陥を証明するための評価はどこにあるのでしょうか? より多くの人に、AGI で完了した評価、経済的価値と影響を真に追跡する評価、1 か月にわたるタスクなどに取り組んでもらいたいです。
4.7K