Documento recién salido de la prensa: La ilusión de los rendimientos decrecientes: Midiendo la ejecución a largo plazo en LLMs. ¿Son los modelos pequeños el futuro de la IA agente? ¿No vale la pena escalar el cómputo de LLM debido a los rendimientos decrecientes? ¿Están condenados los LLMs autorregresivos, y es el pensamiento una ilusión? Los casos pesimistas para la escalabilidad de LLM están todos conectados a una única capacidad: Ejecución a Largo Plazo. Sin embargo, por eso mismo deberías ser optimista sobre escalar el tamaño del modelo y el cómputo en tiempo de prueba. > Primero, ¿recuerdas el gráfico METR? Podría explicarse por el modelo de errores acumulativos de @ylecun > la longitud del horizonte de un modelo crece de manera super-exponencial (@DaveShapi) en precisión de un solo paso. > Conclusión 1: No te dejes engañar por el progreso lento en los benchmarks típicos de tareas cortas > eso es suficiente para un crecimiento exponencial en la longitud del horizonte. Pero vamos más allá del modelo de @ylecun, probando LLMs empíricamente... > Solo la ejecución también es difícil para los LLMs, incluso cuando les proporcionas el plan y el conocimiento necesarios. > No deberíamos malinterpretar los fracasos de ejecución como una incapacidad para "razonar". > Incluso cuando un modelo pequeño tiene un 100% de precisión en un solo paso, los modelos más grandes pueden ejecutar muchas más acciones por encima de un umbral de tasa de éxito. > ¿Notaste cómo tu agente rinde peor a medida que la tarea se alarga? No son solo limitaciones de contexto largo.. > Observamos: ¡El Efecto de Auto-Condicionamiento! > Cuando los modelos ven errores que cometieron anteriormente en su historia, se vuelven más propensos a cometer errores en futuros turnos. > Aumentar el tamaño del modelo empeora este problema - ¡un raro caso de escalado inverso! ¿Y qué pasa con el pensamiento...? > Pensar no es una ilusión. ¡Es el motor de la ejecución! > Donde incluso DeepSeek v3, Kimi K2 no logran ejecutar ni 5 turnos latentes cuando se les pide ejecutar sin CoT... > Con CoT, pueden hacer 10 veces más. ¿Y qué pasa con la frontera? ...