一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

基於平均對數概率的簡單信心度量用於過濾推理軌跡。再次強調，得益於高質量開源模型的訪問，這項研究非常出色。期待越來越強大的管道，採用"生成器-驗證器"架構來修剪不良結果。驗證器可以是模型實例，或者某種數學函數，比如本文中開發的內部信心度指標。現有模型在與這種管道和大令牌預算結合使用時非常強大。（在這裡，AIME 2025使用了大約1E8個令牌。） "DeepConf利用模型內部的信心信號，在生成過程中或之後動態過濾低質量的推理軌跡。它不需要額外的模型訓練或超參數調整，可以無縫集成到現有的服務框架中。我們在各種推理任務和最新的開源模型上評估DeepConf，包括Qwen 3和GPT-OSS系列。值得注意的是，在AIME 2025等具有挑戰性的基準測試中，DeepConf@512的準確率高達99.9%，並且與完全並行思維相比，生成的令牌減少了多達84.7%。" 注意這些Meta研究人員使用開源模型Qwen、GPT-OSS和DeepSeek，但沒有使用Llama的諷刺 😢

4.99K