Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Papir ferskt av pressen: Illusjonen om avtagende avkastning: Måling av langsiktig utførelse i LLM-er.
Er små modeller fremtiden for agentisk AI? Er skalering av LLM-beregning ikke verdt kostnaden på grunn av avtagende avkastning? Er autoregressive LLM-er dømt, og tenkning en illusjon?
Bear-tilfellene for LLM-skalering er alle koblet til en enkelt funksjon: Long Horizon Execution. Det er imidlertid nettopp derfor du bør være bullish når det gjelder skalering av modellstørrelse og testtidsberegning!
> Først, husker du METR-plottet? Det kan forklares med @ylecun modell for sammensatte feil
> vokser horisontlengden til en modell supereksponentielt (@DaveShapi) i enkelttrinns nøyaktighet.
> Upshot 1: Ikke la deg lure av å bremse fremdriften på typiske benchmarks for korte oppgaver
> det er nok for eksponentiell vekst i horisontlengde.
Men vi går utover @ylecun modell, og tester LLM-er empirisk ...
> Rettferdig utførelse er også vanskelig for LLM-er, selv når du gir dem den nødvendige planen og kunnskapen.
> Vi bør ikke feiltolke utførelsesfeil som en manglende evne til å "resonnere".
> Selv når en liten modell har 100 % nøyaktighet i ett trinn, kan større modeller utføre langt flere svinger over en suksessrateterskel.
> lagt merke til hvordan agenten din presterer dårligere etter hvert som oppgaven blir lengre? Det er ikke bare begrensninger i lang kontekst.
> Vi observerer: Den selvbetingende effekten!
> Når modeller ser feil de har gjort tidligere i historien, blir det mer sannsynlig at de gjør feil i fremtidige svinger.
> Økende modellstørrelse forverrer dette problemet - et sjeldent tilfelle av omvendt skalering!
Så hva med å tenke...?
> Tenkning er ikke en illusjon. Det er motoren for utførelse!
> Der til og med DeepSeek v3, Kimi K2 ikke klarer å utføre selv 5 svinger latent når han blir bedt om å utføre uten CoT ...
> Med CoT kan de gjøre 10 ganger mer.
Så hva med grensen?
...

Topp
Rangering
Favoritter