Artigo fresquinho: A Ilusão dos Retornos Decrescentes: Medindo a Execução de Longo Prazo em LLMs. Serão os modelos pequenos o futuro da IA agente? A escalabilidade do cálculo em LLM não vale o custo devido aos retornos decrescentes? Estão os LLMs autoregressivos condenados, e o pensamento é uma ilusão? Os casos pessimistas para a escalabilidade dos LLMs estão todos conectados a uma única capacidade: Execução de Longo Prazo. No entanto, é exatamente por isso que você deve ser otimista em relação ao aumento do tamanho do modelo e ao cálculo em tempo de teste! > Primeiro, lembra do gráfico METR? Pode ser explicado pelo modelo de erros acumulados do @ylecun > o comprimento do horizonte de um modelo cresce super-exponencialmente (@DaveShapi) em precisão de um único passo. > Conclusão 1: Não se deixe enganar pelo progresso lento em benchmarks típicos de tarefas curtas > que é suficiente para um crescimento exponencial no comprimento do horizonte. Mas vamos além do modelo do @ylecun, testando LLMs empiricamente... > Apenas a execução também é difícil para os LLMs, mesmo quando você fornece o plano e o conhecimento necessários. > Não devemos interpretar falhas de execução como uma incapacidade de "raciocinar". > Mesmo quando um modelo pequeno tem 100% de precisão em um único passo, modelos maiores podem executar muito mais turnos acima de um limite de taxa de sucesso. > Notou como seu agente se sai pior à medida que a tarefa se torna mais longa? Não são apenas limitações de contexto longo.. > Observamos: O Efeito de Auto-Condicionamento! > Quando os modelos veem erros que cometeram anteriormente em sua história, eles se tornam mais propensos a cometer erros em turnos futuros. > Aumentar o tamanho do modelo agrava esse problema - um caso raro de escalabilidade inversa! E quanto ao pensamento...? > Pensar não é uma ilusão. É o motor da execução! > Onde até o DeepSeek v3, Kimi K2 falham em executar até 5 turnos latentemente quando solicitados a executar sem CoT... > Com CoT, eles podem fazer 10x mais. E quanto à fronteira? ...