Tienda de dapps | Hub de Web3 para eventos y juegos

Temas en tendencia

Medidas de confianza simples basadas en la probabilidad logarítmica promedio utilizadas para filtrar los rastros de razonamiento. Una vez más, una investigación muy buena habilitada por el acceso a modelos de código abierto de alta calidad. Busque canalizaciones cada vez más potentes con una arquitectura de "generador-verificador" que reproduzca los malos resultados. El verificador puede ser una instancia de modelo o algún tipo de función matemática como las métricas de confianza internas desarrolladas en este documento. Los modelos existentes son muy poderosos cuando se usan con este tipo de canalización y grandes presupuestos de tokens. (Aquí, ~1E8 tokens utilizados para AIME 2025). "DeepConf aprovecha las señales de confianza internas del modelo para filtrar dinámicamente los rastros de razonamiento de baja calidad durante o después de la generación. No requiere entrenamiento adicional del modelo ni ajuste de hiperparámetros y se puede integrar sin problemas en los marcos de servicio existentes. Evaluamos DeepConf en una variedad de tareas de razonamiento y los últimos modelos de código abierto, incluidas las series Qwen 3 y GPT-OSS. En particular, en puntos de referencia desafiantes como AIME 2025, DeepConf@512 logra hasta un 99,9% de precisión y reduce los tokens generados hasta en un 84,7% en comparación con el pensamiento paralelo completo". Tenga en cuenta la ironía de estos investigadores de Meta que usan modelos de sistema operativo Qwen, GPT-OSS y DeepSeek, pero no Llama 😢

4.99K

Populares

Ranking

Favoritas

Onchain en tendencia

Tendencia en X

Principales fondos recientes

Más destacadas