トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
プレスの新鮮な紙: 収益逓減の錯覚: LLM におけるロング ホライズン実行の測定。
スモールモデルはエージェントAIの未来なのか?LLM コンピューティングのスケーリングは、収益が逓減するため、コストに見合う価値はありませんか?自己回帰型LLMは破滅する運命にあり、思考は幻想なのでしょうか?
LLM スケーリングのベアケースはすべて、Long Horizon Execution という 1 つの機能に接続されています。ただし、まさにそれが、モデルサイズのスケーリングとテスト時のコンピューティングに強気であるべき理由です。
> まず、METRプロットを覚えていますか?これは、@ylecunの複合誤差モデルによって説明されるかもしれません
>、モデルの地平線の長さは、1 ステップの精度で超指数関数的 (@DaveShapi) 増加します。
> 結果 1: 一般的な短期タスクのベンチマークの進捗が遅いことにだまされないでください
>、地平線の長さが指数関数的に増加するには十分です。
しかし、私たちは@ylecunのモデルを超えて、LLM を経験的にテストします...
> LLM にとって、必要な計画や知識を提供したとしても、実行だけでは困難です。
> 実行の失敗を「推論」できないと誤解してはなりません。
> 小規模なモデルがシングルステップの精度が 100% の場合でも、大規模なモデルでは成功率のしきい値を超えるターンをはるかに多く実行できます。
> タスクが長くなるにつれてエージェントのパフォーマンスが悪化することに気づきましたか? それは単なる長いコンテキストの制限ではありません。
> 私たちが観察する: 自己調整効果!
> モデルが履歴の初期に犯したエラーを確認すると、将来のターンでエラーを犯す可能性が高くなります。
> モデルサイズを大きくすると、この問題はさらに悪化します - 逆スケーリングのまれなケースです。
では、考えるのは...?
> 考えることは幻想ではありません。実行のエンジンです!
> ディープシークv3でもキミK2がCoTなしで処刑を命じると潜伏して5ターンも実行できないところ...
> CoTを使用すると、10倍のことができます。
では、フロンティアはどうでしょうか?
...

トップ
ランキング
お気に入り