Papel recién salido de la imprenta: La ilusión de rendimientos decrecientes: medición de la ejecución a largo plazo en LLM. ¿Son los modelos pequeños el futuro de la IA agencial? ¿No vale la pena escalar el cálculo de LLM debido a la disminución de los rendimientos? ¿Están condenados los LLM autorregresivos y el pensamiento es una ilusión? Los casos bajistas para el escalado de LLM están todos conectados a una sola capacidad: Ejecución de largo horizonte. Sin embargo, esa es exactamente la razón por la que debe ser optimista sobre el escalado del tamaño del modelo y el cálculo en tiempo de prueba. > Primero, ¿recuerdas el gráfico de METR? Podría explicarse por el modelo de errores de composición de @ylecun > la longitud del horizonte de un modelo crece de forma superexponencial (@DaveShapi) en la precisión de un solo paso. > Resultado 1: No se deje engañar por la ralentización del progreso en los típicos puntos de referencia de tareas cortas > eso es suficiente para un crecimiento exponencial en la longitud del horizonte. Pero vamos más allá del modelo de @ylecun, probando los LLM empíricamente... > La ejecución justa también es difícil para los LLM, incluso cuando les proporciona el plan y el conocimiento necesarios. > No debemos malinterpretar los fallos de ejecución como una incapacidad para "razonar". > Incluso cuando un modelo pequeño tiene una precisión del 100% en un solo paso, los modelos más grandes pueden ejecutar muchos más giros por encima de un umbral de tasa de éxito. > ¿Has notado cómo tu agente se desempeña peor a medida que la tarea se alarga? No son solo limitaciones de contexto largo.. > Observamos: ¡El efecto de autocondicionamiento! > Cuando los modelos ven errores que cometieron anteriormente en su historia, es más probable que cometan errores en giros futuros. > Aumentar el tamaño del modelo empeora este problema, ¡un caso raro de escala inversa! Entonces, ¿qué pasa con pensar ...? > Pensar no es una ilusión. ¡Es el motor de la ejecución! > Donde incluso DeepSeek v3, Kimi K2 no puede ejecutar ni siquiera 5 turnos de forma latente cuando se le pide que ejecute sin CoT ... > Con CoT, pueden hacer 10 veces más. Entonces, ¿qué pasa con la frontera? ...