Papir ferskt av pressen: Illusjonen om avtagende avkastning: Måling av langsiktig utførelse i LLM-er. Er små modeller fremtiden for agentisk AI? Er skalering av LLM-beregning ikke verdt kostnaden på grunn av avtagende avkastning? Er autoregressive LLM-er dømt, og tenkning en illusjon? Bear-tilfellene for LLM-skalering er alle koblet til en enkelt funksjon: Long Horizon Execution. Det er imidlertid nettopp derfor du bør være bullish når det gjelder skalering av modellstørrelse og testtidsberegning! > Først, husker du METR-plottet? Det kan forklares med @ylecun modell for sammensatte feil > vokser horisontlengden til en modell supereksponentielt (@DaveShapi) i enkelttrinns nøyaktighet. > Upshot 1: Ikke la deg lure av å bremse fremdriften på typiske benchmarks for korte oppgaver > det er nok for eksponentiell vekst i horisontlengde. Men vi går utover @ylecun modell, og tester LLM-er empirisk ... > Rettferdig utførelse er også vanskelig for LLM-er, selv når du gir dem den nødvendige planen og kunnskapen. > Vi bør ikke feiltolke utførelsesfeil som en manglende evne til å "resonnere". > Selv når en liten modell har 100 % nøyaktighet i ett trinn, kan større modeller utføre langt flere svinger over en suksessrateterskel. > lagt merke til hvordan agenten din presterer dårligere etter hvert som oppgaven blir lengre? Det er ikke bare begrensninger i lang kontekst. > Vi observerer: Den selvbetingende effekten! > Når modeller ser feil de har gjort tidligere i historien, blir det mer sannsynlig at de gjør feil i fremtidige svinger. > Økende modellstørrelse forverrer dette problemet - et sjeldent tilfelle av omvendt skalering! Så hva med å tenke...? > Tenkning er ikke en illusjon. Det er motoren for utførelse! > Der til og med DeepSeek v3, Kimi K2 ikke klarer å utføre selv 5 svinger latent når han blir bedt om å utføre uten CoT ... > Med CoT kan de gjøre 10 ganger mer. Så hva med grensen? ...