Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Простые меры уверенности, основанные на среднем логарифмическом вероятности, используются для фильтрации следов рассуждений. Еще раз, очень хорошее исследование, обеспеченное доступом к высококачественным моделям с открытым исходным кодом. Ожидайте все более мощные конвейеры с архитектурой "генератор-проверяющий", которая отсекает плохие результаты. Проверяющий может быть экземпляром модели или какой-то математической функцией, такой как внутренние метрики уверенности, разработанные в этой статье. Существующие модели очень мощные, когда используются с таким типом конвейера и большими бюджетами токенов. (Здесь ~1E8 токенов использовано для AIME 2025.) "DeepConf использует внутренние сигналы уверенности модели для динамической фильтрации низкокачественных следов рассуждений во время или после генерации. Он не требует дополнительного обучения модели или настройки гиперпараметров и может быть бесшовно интегрирован в существующие фреймворки обслуживания. Мы оцениваем DeepConf по различным задачам рассуждений и последним моделям с открытым исходным кодом, включая Qwen 3 и серию GPT-OSS. Примечательно, что на сложных контрольных точках, таких как AIME 2025, DeepConf@512 достигает до 99.9% точности и снижает количество сгенерированных токенов до 84.7% по сравнению с полным параллельным мышлением." Обратите внимание на иронию этих исследователей Meta, использующих модели с открытым исходным кодом Qwen, GPT-OSS и DeepSeek, но не Llama 😢

5K

Топ

Рейтинг

Избранное

В тренде ончейн

В тренде в Х

Самые инвестируемые

Наиболее известные