新鮮出爐的論文:收益遞減的幻覺:在LLM中測量長時間執行。 小模型是代理AI的未來嗎?由於收益遞減,擴展LLM計算是否不值得成本?自迴歸LLM註定要失敗,思考是一種幻覺嗎? LLM擴展的熊市案例都與一個單一能力相關:長時間執行。然而,這正是你應該看好擴展模型規模和測試時計算的原因! > 首先,記得METR圖嗎?它可能可以通過@ylecun的複合錯誤模型來解釋 > 模型的視野長度在單步準確性上以超指數方式增長(@DaveShapi)。 > 結論1:不要被典型短任務基準上進展緩慢所迷惑 > 這足以實現視野長度的指數增長。 但我們超越了@ylecun的模型,進行了實證測試LLM... > 僅僅執行對LLM來說也是困難的,即使你提供了所需的計劃和知識。 > 我們不應該誤解執行失敗為“推理”的無能。 > 即使小模型的單步準確率為100%,較大的模型在成功率閾值以上可以執行更多的回合。 > 注意到當任務變長時你的代理表現更差嗎?這不僅僅是長上下文的限制…… > 我們觀察到:自我條件效應! > 當模型看到它們在歷史上犯的錯誤時,它們在未來的回合中更可能犯錯誤。 > 增加模型規模使這個問題更糟 - 這是逆向擴展的罕見案例! 那麼思考呢……? > 思考不是幻覺。它是執行的引擎! > 即使DeepSeek v3、Kimi K2在沒有CoT的情況下被要求執行5個回合時也無法執行…… > 有了CoT,它們可以多做10倍。 那麼前沿呢? ...