Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Papel recién salido de la imprenta: La ilusión de rendimientos decrecientes: medición de la ejecución a largo plazo en LLM.
¿Son los modelos pequeños el futuro de la IA agencial? ¿No vale la pena escalar el cálculo de LLM debido a la disminución de los rendimientos? ¿Están condenados los LLM autorregresivos y el pensamiento es una ilusión?
Los casos bajistas para el escalado de LLM están todos conectados a una sola capacidad: Ejecución de largo horizonte. Sin embargo, esa es exactamente la razón por la que debe ser optimista sobre el escalado del tamaño del modelo y el cálculo en tiempo de prueba.
> Primero, ¿recuerdas el gráfico de METR? Podría explicarse por el modelo de errores de composición de @ylecun
> la longitud del horizonte de un modelo crece de forma superexponencial (@DaveShapi) en la precisión de un solo paso.
> Resultado 1: No se deje engañar por la ralentización del progreso en los típicos puntos de referencia de tareas cortas
> eso es suficiente para un crecimiento exponencial en la longitud del horizonte.
Pero vamos más allá del modelo de @ylecun, probando los LLM empíricamente...
> La ejecución justa también es difícil para los LLM, incluso cuando les proporciona el plan y el conocimiento necesarios.
> No debemos malinterpretar los fallos de ejecución como una incapacidad para "razonar".
> Incluso cuando un modelo pequeño tiene una precisión del 100% en un solo paso, los modelos más grandes pueden ejecutar muchos más giros por encima de un umbral de tasa de éxito.
> ¿Has notado cómo tu agente se desempeña peor a medida que la tarea se alarga? No son solo limitaciones de contexto largo..
> Observamos: ¡El efecto de autocondicionamiento!
> Cuando los modelos ven errores que cometieron anteriormente en su historia, es más probable que cometan errores en giros futuros.
> Aumentar el tamaño del modelo empeora este problema, ¡un caso raro de escala inversa!
Entonces, ¿qué pasa con pensar ...?
> Pensar no es una ilusión. ¡Es el motor de la ejecución!
> Donde incluso DeepSeek v3, Kimi K2 no puede ejecutar ni siquiera 5 turnos de forma latente cuando se le pide que ejecute sin CoT ...
> Con CoT, pueden hacer 10 veces más.
Entonces, ¿qué pasa con la frontera?
...

Populares
Ranking
Favoritas