热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
新鲜出炉的论文:收益递减的幻觉:在LLM中测量长时间执行。
小模型是代理AI的未来吗?由于收益递减,扩展LLM计算是否不值得成本?自回归LLM注定要失败,思考是一种幻觉吗?
LLM扩展的熊市案例都与一个单一能力相关:长时间执行。然而,这正是你应该看好扩展模型规模和测试时计算的原因!
> 首先,记得METR图吗?它可能可以通过@ylecun的复合错误模型来解释
> 模型的视野长度在单步准确性上以超指数方式增长(@DaveShapi)。
> 结论1:不要被典型短任务基准上进展缓慢所迷惑
> 这足以实现视野长度的指数增长。
但我们超越了@ylecun的模型,进行了实证测试LLM...
> 仅仅执行对LLM来说也是困难的,即使你提供了所需的计划和知识。
> 我们不应该误解执行失败为“推理”的无能。
> 即使小模型的单步准确率为100%,较大的模型在成功率阈值以上可以执行更多的回合。
> 注意到当任务变长时你的代理表现更差吗?这不仅仅是长上下文的限制……
> 我们观察到:自我条件效应!
> 当模型看到它们在历史上犯的错误时,它们在未来的回合中更可能犯错误。
> 增加模型规模使这个问题更糟 - 这是逆向扩展的罕见案例!
那么思考呢……?
> 思考不是幻觉。它是执行的引擎!
> 即使DeepSeek v3、Kimi K2在没有CoT的情况下被要求执行5个回合时也无法执行……
> 有了CoT,它们可以多做10倍。
那么前沿呢?
...

热门
排行
收藏