DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Medidas de confianza simples basadas en la probabilidad logarítmica promedio utilizadas para filtrar trazas de razonamiento. Una vez más, una investigación muy interesante habilitada por el acceso a modelos de código abierto de alta calidad. Busque más y más potentes canalizaciones con arquitectura "generador-verificador" que eliminan resultados malos. El verificador puede ser una instancia de modelo, o algún tipo de función matemática como las métricas de confianza internas desarrolladas en este documento. Los modelos existentes son muy potentes cuando se utilizan con este tipo de canalización y grandes presupuestos de tokens. (Aquí, ~1E8 tokens utilizados para AIME 2025.) "DeepConf aprovecha las señales de confianza internas del modelo para filtrar dinámicamente trazas de razonamiento de baja calidad durante o después de la generación. No requiere entrenamiento adicional del modelo ni ajuste de hiperparámetros y se puede integrar sin problemas en los marcos de servicio existentes. Evaluamos DeepConf en una variedad de tareas de razonamiento y los últimos modelos de código abierto, incluidos Qwen 3 y la serie GPT-OSS. Notablemente, en bancos de pruebas desafiantes como AIME 2025, DeepConf@512 logra hasta un 99.9% de precisión y reduce los tokens generados en hasta un 84.7% en comparación con el pensamiento paralelo completo." Note la ironía de estos investigadores de Meta utilizando modelos de código abierto Qwen, GPT-OSS y DeepSeek, pero sin Llama 😢

5,08K

Parte superior

Clasificación

Favoritos

En tendencia on-chain

En tendencia en X

Principales fondos recientes

Más destacado