Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Artigo fresquinho: A Ilusão dos Retornos Decrescentes: Medindo a Execução de Longo Prazo em LLMs.
Serão os modelos pequenos o futuro da IA agente? A escalabilidade do cálculo em LLM não vale o custo devido aos retornos decrescentes? Estão os LLMs autoregressivos condenados, e o pensamento é uma ilusão?
Os casos pessimistas para a escalabilidade dos LLMs estão todos conectados a uma única capacidade: Execução de Longo Prazo. No entanto, é exatamente por isso que você deve ser otimista em relação ao aumento do tamanho do modelo e ao cálculo em tempo de teste!
> Primeiro, lembra do gráfico METR? Pode ser explicado pelo modelo de erros acumulados do @ylecun
> o comprimento do horizonte de um modelo cresce super-exponencialmente (@DaveShapi) em precisão de um único passo.
> Conclusão 1: Não se deixe enganar pelo progresso lento em benchmarks típicos de tarefas curtas
> que é suficiente para um crescimento exponencial no comprimento do horizonte.
Mas vamos além do modelo do @ylecun, testando LLMs empiricamente...
> Apenas a execução também é difícil para os LLMs, mesmo quando você fornece o plano e o conhecimento necessários.
> Não devemos interpretar falhas de execução como uma incapacidade de "raciocinar".
> Mesmo quando um modelo pequeno tem 100% de precisão em um único passo, modelos maiores podem executar muito mais turnos acima de um limite de taxa de sucesso.
> Notou como seu agente se sai pior à medida que a tarefa se torna mais longa? Não são apenas limitações de contexto longo..
> Observamos: O Efeito de Auto-Condicionamento!
> Quando os modelos veem erros que cometeram anteriormente em sua história, eles se tornam mais propensos a cometer erros em turnos futuros.
> Aumentar o tamanho do modelo agrava esse problema - um caso raro de escalabilidade inversa!
E quanto ao pensamento...?
> Pensar não é uma ilusão. É o motor da execução!
> Onde até o DeepSeek v3, Kimi K2 falham em executar até 5 turnos latentemente quando solicitados a executar sem CoT...
> Com CoT, eles podem fazer 10x mais.
E quanto à fronteira?
...

Top
Classificação
Favoritos