Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Documento recién salido de la prensa: La ilusión de los rendimientos decrecientes: Midiendo la ejecución a largo plazo en LLMs.
¿Son los modelos pequeños el futuro de la IA agente? ¿No vale la pena escalar el cómputo de LLM debido a los rendimientos decrecientes? ¿Están condenados los LLMs autorregresivos, y es el pensamiento una ilusión?
Los casos pesimistas para la escalabilidad de LLM están todos conectados a una única capacidad: Ejecución a Largo Plazo. Sin embargo, por eso mismo deberías ser optimista sobre escalar el tamaño del modelo y el cómputo en tiempo de prueba.
> Primero, ¿recuerdas el gráfico METR? Podría explicarse por el modelo de errores acumulativos de @ylecun
> la longitud del horizonte de un modelo crece de manera super-exponencial (@DaveShapi) en precisión de un solo paso.
> Conclusión 1: No te dejes engañar por el progreso lento en los benchmarks típicos de tareas cortas
> eso es suficiente para un crecimiento exponencial en la longitud del horizonte.
Pero vamos más allá del modelo de @ylecun, probando LLMs empíricamente...
> Solo la ejecución también es difícil para los LLMs, incluso cuando les proporcionas el plan y el conocimiento necesarios.
> No deberíamos malinterpretar los fracasos de ejecución como una incapacidad para "razonar".
> Incluso cuando un modelo pequeño tiene un 100% de precisión en un solo paso, los modelos más grandes pueden ejecutar muchas más acciones por encima de un umbral de tasa de éxito.
> ¿Notaste cómo tu agente rinde peor a medida que la tarea se alarga? No son solo limitaciones de contexto largo..
> Observamos: ¡El Efecto de Auto-Condicionamiento!
> Cuando los modelos ven errores que cometieron anteriormente en su historia, se vuelven más propensos a cometer errores en futuros turnos.
> Aumentar el tamaño del modelo empeora este problema - ¡un raro caso de escalado inverso!
¿Y qué pasa con el pensamiento...?
> Pensar no es una ilusión. ¡Es el motor de la ejecución!
> Donde incluso DeepSeek v3, Kimi K2 no logran ejecutar ni 5 turnos latentes cuando se les pide ejecutar sin CoT...
> Con CoT, pueden hacer 10 veces más.
¿Y qué pasa con la frontera?
...

Parte superior
Clasificación
Favoritos