基於平均對數概率的簡單信心度量用於過濾推理軌跡。再次強調,得益於高質量開源模型的訪問,這項研究非常出色。 期待越來越強大的管道,採用"生成器-驗證器"架構來修剪不良結果。驗證器可以是模型實例,或者某種數學函數,比如本文中開發的內部信心度指標。現有模型在與這種管道和大令牌預算結合使用時非常強大。(在這裡,AIME 2025使用了大約1E8個令牌。) "DeepConf利用模型內部的信心信號,在生成過程中或之後動態過濾低質量的推理軌跡。它不需要額外的模型訓練或超參數調整,可以無縫集成到現有的服務框架中。我們在各種推理任務和最新的開源模型上評估DeepConf,包括Qwen 3和GPT-OSS系列。值得注意的是,在AIME 2025等具有挑戰性的基準測試中,DeepConf@512的準確率高達99.9%,並且與完全並行思維相比,生成的令牌減少了多達84.7%。" 注意這些Meta研究人員使用開源模型Qwen、GPT-OSS和DeepSeek,但沒有使用Llama的諷刺 😢
Jiawei Zhao
Jiawei Zhao8月23日 04:00
介紹 DeepConf:自信地深思 🚀 首個使用開源模型在 AIME 2025 上實現 99.9% 的方法!即使沒有工具,使用 GPT-OSS-120B,我們也達到了幾乎完美的準確率,同時節省了多達 85% 的生成令牌。 它還為並行思維提供了許多強大的優勢: 🔥 性能提升:模型和數據集的準確率提高約 10% ⚡ 超高效:生成的令牌減少多達 85% 🔧 即插即用:與任何現有模型兼容 - 無需訓練(也無需超參數調整!) ⭐ 易於部署:在 vLLM 中只需 ~50 行代碼(見下面的 PR) 📚 論文: 🌐 項目: 與以下人員共同合作:@FuYichao123 , xuewei_wang, @tydsh (請查看下面的評論中的詳細信息)
4.99K