测量推理模型中的思维效率:缺失的基准 我们测量了推理模型中的令牌使用情况:开放模型在相同任务上输出的令牌数量是封闭模型的1.5-4倍,但根据任务类型的不同,差异巨大(在简单问题上可达10倍)。 这种隐藏成本往往抵消了按令牌定价的优势。令牌效率应成为与准确性基准并重的主要目标,特别是在考虑非推理用例时。 在我们与驻校研究员Tim合作的最新博客文章中,详细回顾了开放和封闭模型领域的推理效率。 在这里查看更多他们的工作:
19.38K