Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Medidas de confianza simples basadas en la probabilidad logarítmica promedio utilizadas para filtrar trazas de razonamiento. Una vez más, una investigación muy interesante habilitada por el acceso a modelos de código abierto de alta calidad.
Busque más y más potentes canalizaciones con arquitectura "generador-verificador" que eliminan resultados malos. El verificador puede ser una instancia de modelo, o algún tipo de función matemática como las métricas de confianza internas desarrolladas en este documento. Los modelos existentes son muy potentes cuando se utilizan con este tipo de canalización y grandes presupuestos de tokens. (Aquí, ~1E8 tokens utilizados para AIME 2025.)
"DeepConf aprovecha las señales de confianza internas del modelo para filtrar dinámicamente trazas de razonamiento de baja calidad durante o después de la generación. No requiere entrenamiento adicional del modelo ni ajuste de hiperparámetros y se puede integrar sin problemas en los marcos de servicio existentes. Evaluamos DeepConf en una variedad de tareas de razonamiento y los últimos modelos de código abierto, incluidos Qwen 3 y la serie GPT-OSS. Notablemente, en bancos de pruebas desafiantes como AIME 2025, DeepConf@512 logra hasta un 99.9% de precisión y reduce los tokens generados en hasta un 84.7% en comparación con el pensamiento paralelo completo."
Note la ironía de estos investigadores de Meta utilizando modelos de código abierto Qwen, GPT-OSS y DeepSeek, pero sin Llama 😢


23 ago, 04:00
Presentamos DeepConf: Piensa Profundamente con Confianza
🚀 ¡Primer método para alcanzar el 99.9% en AIME 2025 con modelos de código abierto! Usando GPT-OSS-120B incluso sin herramientas, logramos esta precisión casi perfecta mientras ahorramos hasta un 85% de tokens generados.
También ofrece muchas ventajas fuertes para el pensamiento paralelo:
🔥 Aumento de rendimiento: ~10% de precisión en modelos y conjuntos de datos
⚡ Ultraeficiente: Hasta un 85% menos de tokens generados
🔧 Plug & play: Funciona con CUALQUIER modelo existente - sin necesidad de entrenamiento (¡sin ajuste de hiperparámetros también!)
⭐ Fácil de implementar: Solo ~50 líneas de código en vLLM (ver PR abajo)
📚 Documento:
🌐 Proyecto:
trabajo conjunto con: @FuYichao123, xuewei_wang, @tydsh
(ver detalles en los comentarios abajo)
5,08K
Parte superior
Clasificación
Favoritos