Medidas de confianza simples basadas en la probabilidad logarítmica promedio utilizadas para filtrar trazas de razonamiento. Una vez más, una investigación muy interesante habilitada por el acceso a modelos de código abierto de alta calidad. Busque más y más potentes canalizaciones con arquitectura "generador-verificador" que eliminan resultados malos. El verificador puede ser una instancia de modelo, o algún tipo de función matemática como las métricas de confianza internas desarrolladas en este documento. Los modelos existentes son muy potentes cuando se utilizan con este tipo de canalización y grandes presupuestos de tokens. (Aquí, ~1E8 tokens utilizados para AIME 2025.) "DeepConf aprovecha las señales de confianza internas del modelo para filtrar dinámicamente trazas de razonamiento de baja calidad durante o después de la generación. No requiere entrenamiento adicional del modelo ni ajuste de hiperparámetros y se puede integrar sin problemas en los marcos de servicio existentes. Evaluamos DeepConf en una variedad de tareas de razonamiento y los últimos modelos de código abierto, incluidos Qwen 3 y la serie GPT-OSS. Notablemente, en bancos de pruebas desafiantes como AIME 2025, DeepConf@512 logra hasta un 99.9% de precisión y reduce los tokens generados en hasta un 84.7% en comparación con el pensamiento paralelo completo." Note la ironía de estos investigadores de Meta utilizando modelos de código abierto Qwen, GPT-OSS y DeepSeek, pero sin Llama 😢
Jiawei Zhao
Jiawei Zhao23 ago, 04:00
Presentamos DeepConf: Piensa Profundamente con Confianza 🚀 ¡Primer método para alcanzar el 99.9% en AIME 2025 con modelos de código abierto! Usando GPT-OSS-120B incluso sin herramientas, logramos esta precisión casi perfecta mientras ahorramos hasta un 85% de tokens generados. También ofrece muchas ventajas fuertes para el pensamiento paralelo: 🔥 Aumento de rendimiento: ~10% de precisión en modelos y conjuntos de datos ⚡ Ultraeficiente: Hasta un 85% menos de tokens generados 🔧 Plug & play: Funciona con CUALQUIER modelo existente - sin necesidad de entrenamiento (¡sin ajuste de hiperparámetros también!) ⭐ Fácil de implementar: Solo ~50 líneas de código en vLLM (ver PR abajo) 📚 Documento: 🌐 Proyecto: trabajo conjunto con: @FuYichao123, xuewei_wang, @tydsh (ver detalles en los comentarios abajo)
5,08K