熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
新鮮出爐的論文:收益遞減的幻覺:在LLM中測量長時間執行。
小模型是代理AI的未來嗎?由於收益遞減,擴展LLM計算是否不值得成本?自迴歸LLM註定要失敗,思考是一種幻覺嗎?
LLM擴展的熊市案例都與一個單一能力相關:長時間執行。然而,這正是你應該看好擴展模型規模和測試時計算的原因!
> 首先,記得METR圖嗎?它可能可以通過@ylecun的複合錯誤模型來解釋
> 模型的視野長度在單步準確性上以超指數方式增長(@DaveShapi)。
> 結論1:不要被典型短任務基準上進展緩慢所迷惑
> 這足以實現視野長度的指數增長。
但我們超越了@ylecun的模型,進行了實證測試LLM...
> 僅僅執行對LLM來說也是困難的,即使你提供了所需的計劃和知識。
> 我們不應該誤解執行失敗為“推理”的無能。
> 即使小模型的單步準確率為100%,較大的模型在成功率閾值以上可以執行更多的回合。
> 注意到當任務變長時你的代理表現更差嗎?這不僅僅是長上下文的限制……
> 我們觀察到:自我條件效應!
> 當模型看到它們在歷史上犯的錯誤時,它們在未來的回合中更可能犯錯誤。
> 增加模型規模使這個問題更糟 - 這是逆向擴展的罕見案例!
那麼思考呢……?
> 思考不是幻覺。它是執行的引擎!
> 即使DeepSeek v3、Kimi K2在沒有CoT的情況下被要求執行5個回合時也無法執行……
> 有了CoT,它們可以多做10倍。
那麼前沿呢?
...

熱門
排行
收藏