新鲜出炉的论文:收益递减的幻觉:在LLM中测量长时间执行。 小模型是代理AI的未来吗?由于收益递减,扩展LLM计算是否不值得成本?自回归LLM注定要失败,思考是一种幻觉吗? LLM扩展的熊市案例都与一个单一能力相关:长时间执行。然而,这正是你应该看好扩展模型规模和测试时计算的原因! > 首先,记得METR图吗?它可能可以通过@ylecun的复合错误模型来解释 > 模型的视野长度在单步准确性上以超指数方式增长(@DaveShapi)。 > 结论1:不要被典型短任务基准上进展缓慢所迷惑 > 这足以实现视野长度的指数增长。 但我们超越了@ylecun的模型,进行了实证测试LLM... > 仅仅执行对LLM来说也是困难的,即使你提供了所需的计划和知识。 > 我们不应该误解执行失败为“推理”的无能。 > 即使小模型的单步准确率为100%,较大的模型在成功率阈值以上可以执行更多的回合。 > 注意到当任务变长时你的代理表现更差吗?这不仅仅是长上下文的限制…… > 我们观察到:自我条件效应! > 当模型看到它们在历史上犯的错误时,它们在未来的回合中更可能犯错误。 > 增加模型规模使这个问题更糟 - 这是逆向扩展的罕见案例! 那么思考呢……? > 思考不是幻觉。它是执行的引擎! > 即使DeepSeek v3、Kimi K2在没有CoT的情况下被要求执行5个回合时也无法执行…… > 有了CoT,它们可以多做10倍。 那么前沿呢? ...