Medidas de confianza simples basadas en la probabilidad logarítmica promedio utilizadas para filtrar los rastros de razonamiento. Una vez más, una investigación muy buena habilitada por el acceso a modelos de código abierto de alta calidad. Busque canalizaciones cada vez más potentes con una arquitectura de "generador-verificador" que reproduzca los malos resultados. El verificador puede ser una instancia de modelo o algún tipo de función matemática como las métricas de confianza internas desarrolladas en este documento. Los modelos existentes son muy poderosos cuando se usan con este tipo de canalización y grandes presupuestos de tokens. (Aquí, ~1E8 tokens utilizados para AIME 2025). "DeepConf aprovecha las señales de confianza internas del modelo para filtrar dinámicamente los rastros de razonamiento de baja calidad durante o después de la generación. No requiere entrenamiento adicional del modelo ni ajuste de hiperparámetros y se puede integrar sin problemas en los marcos de servicio existentes. Evaluamos DeepConf en una variedad de tareas de razonamiento y los últimos modelos de código abierto, incluidas las series Qwen 3 y GPT-OSS. En particular, en puntos de referencia desafiantes como AIME 2025, DeepConf@512 logra hasta un 99,9% de precisión y reduce los tokens generados hasta en un 84,7% en comparación con el pensamiento paralelo completo". Tenga en cuenta la ironía de estos investigadores de Meta que usan modelos de sistema operativo Qwen, GPT-OSS y DeepSeek, pero no Llama 😢
Jiawei Zhao
Jiawei Zhao23 ago, 04:00
Presentamos DeepConf: Deep Think with Confidence 🚀 ¡Primer método para lograr el 99,9% en AIME 2025 con modelos de código abierto! Usando GPT-OSS-120B incluso sin herramientas, alcanzamos esta precisión casi perfecta mientras ahorramos hasta un 85% de tokens generados. También ofrece muchas ventajas importantes para el pensamiento paralelo: 🔥 Aumento del rendimiento: ~10% de precisión en todos los modelos y conjuntos de datos ⚡ Ultraeficiente: hasta un 85% menos de tokens generados 🔧 Plug & play: Funciona con CUALQUIER modelo existente - no se necesita entrenamiento (¡no se necesita ajuste de hiperparámetros también!) ⭐ Fácil de implementar: solo ~ 50 líneas de código en vLLM (consulte PR a continuación) 📚 Papel: 🌐 Proyecto: Trabajo conjunto con: @FuYichao123 , xuewei_wang, @tydsh (ver detalles en los comentarios a continuación)
4.99K