多くの場合、研究者が能力を反復する能力は、その能力を測定する能力によって制限されます。私は、進歩は人々が思っているよりも評価に制限されていると信じています。 評価は因果関係を感じることがあります。SWE-Benchはエージェントコーディングに従いましたか、それともエージェントコーディングはSWE-benchに従いましたか? 非常に長い期間のタスク (数週間、数か月) を解決したり、AGI には継続的な学習が必要であるとかなどについてよく耳にしますが、ここでモデルの欠陥を証明するための評価はどこにあるのでしょうか? より多くの人に、AGI で完了した評価、経済的価値と影響を真に追跡する評価、1 か月にわたるタスクなどに取り組んでもらいたいです。
124.72K