バークレーAgentXサミットでベンチマークと評価トラックで1位を獲得しました!チームの:)、おめでとうございます
Daniel Kang
Daniel Kang2025年7月9日
AI エージェントが現実世界で使用されるのに近い場合、実際に何ができるかをどうやって知ることができるのでしょうか?信頼できるベンチマークは重要ですが、エージェントのベンチマークは破られます。 例: WebArena は、期間計算タスクで「45+8 分」を正解としてマークします (実際の答え: 「63 分」)。他のベンチマークでは、エージェントの能力が1.6〜100%誤って推定されています。 エージェントシステムの評価基盤が脆弱なのはなぜですか?スレッドとリンクについては以下を参照してください 1/8
1K