測量推理模型中的思維效率:缺失的基準 我們測量了推理模型中的令牌使用情況:開放模型在相同任務上輸出的令牌數量是封閉模型的1.5-4倍,但根據任務類型的不同,差異巨大(在簡單問題上可達10倍)。 這種隱藏成本往往抵消了按令牌定價的優勢。令牌效率應成為與準確性基準並重的主要目標,特別是在考慮非推理用例時。 在我們與駐校研究員Tim合作的最新博客文章中,詳細回顧了開放和封閉模型領域的推理效率。 在這裡查看更多他們的工作:
19.38K