Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
A mucha gente le gusta comparar diferentes clases de modelos como "razonamiento" o "no razonamiento", donde en realidad ahora todos están entrenados con una buena cantidad de las mismas técnicas de aprendizaje por refuerzo (y otras cosas).
El punto de vista correcto es ver cada lanzamiento de modelo en un espectro de esfuerzo de razonamiento. Muchos dicen que el Claude es un modelo sin razonamiento, sin embargo, fueron uno de los primeros en tener tokens especiales y una UX para "pensar profundamente, esperar" (mucho antes de su modo de pensamiento extendido). Lo mismo podría ser cierto para DeepSeek v3.1, que se lanzó pero aún no es fácil de usar. No tenemos idea de cuántos tokens por respuesta se usan en las versiones de chat de estos modelos de forma predeterminada.
Las API con recuentos exactos de tokens son la única fuente de verdad y deben comunicarse con mucha más frecuencia.
Luego, dentro de los modelos de razonamiento hay una gran variación en la cantidad de tokens utilizados. El precio de los modelos debe ser la consideración final del esfuerzo, una combinación de los parámetros activos totales y la cantidad de tokens utilizados. Escuchando a Dylan Patel en el podcast a16z, parece que una de las grandes victorias de GPT-5 en el modo de pensamiento que me encanta (similar a o3) fue obtener resultados ligeramente mejores con casi un 50% menos de tokens. He sentido esto un poco, es más en la tarea que o3.
Otro punto es que la segunda generación de R1, R1-0528 mejoró los puntajes al usar mucho más razonamiento. Qwen ha sido similar. Esto no siempre es muy valioso para el usuario.
A nivel técnico, resolvemos esto informando la cantidad de tokens utilizados por modelo en los resultados de la evaluación (especialmente en relación con los pares). El problema es que los lanzamientos de IA ahora son bastante convencionales y es un detalle técnico matizado para comunicar.
En el lado de la investigación, por ejemplo, puede aumentar significativamente sus puntajes de evaluación evaluando su modelo de razonamiento en un contexto más largo que sus compañeros.
El esfuerzo de razonamiento en tokens y, a veces, en el indicador del sistema, ahora es una variable compleja, pero no un simple sí / no en todas estas versiones.
A continuación se muestra una captura de pantalla de una publicación que discute esto antes de que se lanzara o1 (12 de septiembre del año pasado) y una captura de pantalla de un usuario de reddit que descubrió el comportamiento de pensamiento de Claude.
Guardo esta diatriba para futuras referencias porque necesito repetirla todo el tiempo.


25.01K
Populares
Ranking
Favoritas