Medidas de confiança simples baseadas na probabilidade logarítmica média usadas para filtrar rastros de raciocínio. Mais uma vez, uma pesquisa muito interessante possibilitada pelo acesso a modelos de código aberto de alta qualidade. Procure por pipelines cada vez mais poderosos com a arquitetura "gerador-verificador" que elimina resultados ruins. O verificador pode ser uma instância de modelo ou algum tipo de função matemática, como as métricas de confiança internas desenvolvidas neste artigo. Modelos existentes são muito poderosos quando usados com esse tipo de pipeline e grandes orçamentos de tokens. (Aqui, ~1E8 tokens usados para AIME 2025.) "DeepConf aproveita sinais de confiança internos do modelo para filtrar dinamicamente rastros de raciocínio de baixa qualidade durante ou após a geração. Não requer treinamento adicional do modelo ou ajuste de hiperparâmetros e pode ser integrado perfeitamente em estruturas de serviço existentes. Avaliamos o DeepConf em uma variedade de tarefas de raciocínio e os mais recentes modelos de código aberto, incluindo Qwen 3 e a série GPT-OSS. Notavelmente, em benchmarks desafiadores como AIME 2025, o DeepConf@512 alcança até 99,9% de precisão e reduz os tokens gerados em até 84,7% em comparação com o pensamento paralelo completo." Note a ironia desses pesquisadores da Meta usando modelos de código aberto Qwen, GPT-OSS e DeepSeek, mas nenhum Llama 😢
Jiawei Zhao
Jiawei Zhao23/08, 04:00
Apresentando o DeepConf: Pense Profundamente com Confiança 🚀 Primeiro método para alcançar 99,9% no AIME 2025 com modelos de código aberto! Usando o GPT-OSS-120B mesmo sem ferramentas, alcançamos essa precisão quase perfeita enquanto economizamos até 85% dos tokens gerados. Ele também oferece muitas vantagens fortes para o pensamento paralelo: 🔥 Aumento de desempenho: ~10% de precisão em modelos e conjuntos de dados ⚡ Ultra-eficiente: Até 85% menos tokens gerados 🔧 Plug & play: Funciona com QUALQUER modelo existente - zero treinamento necessário (sem ajuste de hiperparâmetros também!) ⭐ Fácil de implantar: Apenas ~50 linhas de código no vLLM (veja o PR abaixo) 📚 Artigo: 🌐 Projeto: trabalho conjunto com: @FuYichao123 , xuewei_wang, @tydsh (veja os detalhes nos comentários abaixo)
5K