热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
测量推理模型中的思维效率:缺失的基准
我们测量了推理模型中的令牌使用情况:开放模型在相同任务上输出的令牌数量是封闭模型的1.5-4倍,但根据任务类型的不同,差异巨大(在简单问题上可达10倍)。
这种隐藏成本往往抵消了按令牌定价的优势。令牌效率应成为与准确性基准并重的主要目标,特别是在考虑非推理用例时。
在我们与驻校研究员Tim合作的最新博客文章中,详细回顾了开放和封闭模型领域的推理效率。
在这里查看更多他们的工作:

19.38K
热门
排行
收藏