プレスの新鮮な紙: 収益逓減の錯覚: LLM におけるロング ホライズン実行の測定。 スモールモデルはエージェントAIの未来なのか?LLM コンピューティングのスケーリングは、収益が逓減するため、コストに見合う価値はありませんか?自己回帰型LLMは破滅する運命にあり、思考は幻想なのでしょうか? LLM スケーリングのベアケースはすべて、Long Horizon Execution という 1 つの機能に接続されています。ただし、まさにそれが、モデルサイズのスケーリングとテスト時のコンピューティングに強気であるべき理由です。 > まず、METRプロットを覚えていますか?これは、@ylecunの複合誤差モデルによって説明されるかもしれません >、モデルの地平線の長さは、1 ステップの精度で超指数関数的 (@DaveShapi) 増加します。 > 結果 1: 一般的な短期タスクのベンチマークの進捗が遅いことにだまされないでください >、地平線の長さが指数関数的に増加するには十分です。 しかし、私たちは@ylecunのモデルを超えて、LLM を経験的にテストします... > LLM にとって、必要な計画や知識を提供したとしても、実行だけでは困難です。 > 実行の失敗を「推論」できないと誤解してはなりません。 > 小規模なモデルがシングルステップの精度が 100% の場合でも、大規模なモデルでは成功率のしきい値を超えるターンをはるかに多く実行できます。 > タスクが長くなるにつれてエージェントのパフォーマンスが悪化することに気づきましたか? それは単なる長いコンテキストの制限ではありません。 > 私たちが観察する: 自己調整効果! > モデルが履歴の初期に犯したエラーを確認すると、将来のターンでエラーを犯す可能性が高くなります。 > モデルサイズを大きくすると、この問題はさらに悪化します - 逆スケーリングのまれなケースです。 では、考えるのは...? > 考えることは幻想ではありません。実行のエンジンです! > ディープシークv3でもキミK2がCoTなしで処刑を命じると潜伏して5ターンも実行できないところ... > CoTを使用すると、10倍のことができます。 では、フロンティアはどうでしょうか? ...