一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

新鲜出炉的论文：收益递减的幻觉：在LLM中测量长时间执行。小模型是代理AI的未来吗？由于收益递减，扩展LLM计算是否不值得成本？自回归LLM注定要失败，思考是一种幻觉吗？ LLM扩展的熊市案例都与一个单一能力相关：长时间执行。然而，这正是你应该看好扩展模型规模和测试时计算的原因！ > 首先，记得METR图吗？它可能可以通过@ylecun的复合错误模型来解释 > 模型的视野长度在单步准确性上以超指数方式增长（@DaveShapi）。 > 结论1：不要被典型短任务基准上进展缓慢所迷惑 > 这足以实现视野长度的指数增长。但我们超越了@ylecun的模型，进行了实证测试LLM... > 仅仅执行对LLM来说也是困难的，即使你提供了所需的计划和知识。 > 我们不应该误解执行失败为“推理”的无能。 > 即使小模型的单步准确率为100%，较大的模型在成功率阈值以上可以执行更多的回合。 > 注意到当任务变长时你的代理表现更差吗？这不仅仅是长上下文的限制…… > 我们观察到：自我条件效应！ > 当模型看到它们在历史上犯的错误时，它们在未来的回合中更可能犯错误。 > 增加模型规模使这个问题更糟 - 这是逆向扩展的罕见案例！那么思考呢……？ > 思考不是幻觉。它是执行的引擎！ > 即使DeepSeek v3、Kimi K2在没有CoT的情况下被要求执行5个回合时也无法执行…… > 有了CoT，它们可以多做10倍。那么前沿呢？ ...