熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
測量推理模型中的思維效率:缺失的基準
我們測量了推理模型中的令牌使用情況:開放模型在相同任務上輸出的令牌數量是封閉模型的1.5-4倍,但根據任務類型的不同,差異巨大(在簡單問題上可達10倍)。
這種隱藏成本往往抵消了按令牌定價的優勢。令牌效率應成為與準確性基準並重的主要目標,特別是在考慮非推理用例時。
在我們與駐校研究員Tim合作的最新博客文章中,詳細回顧了開放和封閉模型領域的推理效率。
在這裡查看更多他們的工作:

19.38K
熱門
排行
收藏