トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
バークレーAgentXサミットでベンチマークと評価トラックで1位を獲得しました!チームの:)、おめでとうございます


2025年7月9日
AI エージェントが現実世界で使用されるのに近い場合、実際に何ができるかをどうやって知ることができるのでしょうか?信頼できるベンチマークは重要ですが、エージェントのベンチマークは破られます。
例: WebArena は、期間計算タスクで「45+8 分」を正解としてマークします (実際の答え: 「63 分」)。他のベンチマークでは、エージェントの能力が1.6〜100%誤って推定されています。
エージェントシステムの評価基盤が脆弱なのはなぜですか?スレッドとリンクについては以下を参照してください
1/8
1K
トップ
ランキング
お気に入り