Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vers van de pers: De Illusie van Diminishing Returns: Het Meten van Langdurige Uitvoering in LLM's.
Zijn kleine modellen de toekomst van agentische AI? Is het opschalen van LLM-rekenkracht de kosten niet waard vanwege afnemende rendementen? Zijn autoregressieve LLM's gedoemd, en is denken een illusie?
De berenargumenten voor het opschalen van LLM's zijn allemaal verbonden met één enkele capaciteit: Langdurige Uitvoering. Dat is echter precies waarom je optimistisch zou moeten zijn over het opschalen van modelgrootte en test-tijd rekenkracht!
> Ten eerste, herinner je je de METR-plot? Het kan worden verklaard door het model van @ylecun over samengestelde fouten
> de horizonlengte van een model groeit super-exponentieel (@DaveShapi) in nauwkeurigheid per enkele stap.
> Upshot 1: Laat je niet misleiden door de vertraagde vooruitgang op typische korte-taak benchmarks
> dat is genoeg voor exponentiële groei in horizonlengte.
Maar we gaan verder dan het model van @ylecun, we testen LLM's empirisch...
> Gewoon uitvoering is ook moeilijk voor LLM's, zelfs wanneer je ze het benodigde plan en kennis biedt.
> We moeten uitvoeringsfouten niet verkeerd interpreteren als een onvermogen om te "redeneren".
> Zelfs wanneer een klein model 100% nauwkeurigheid per enkele stap heeft, kunnen grotere modellen veel meer stappen uitvoeren boven een succespercentage drempel.
> Opgevallen hoe je agent slechter presteert naarmate de taak langer wordt? Het zijn niet alleen de beperkingen van lange contexten..
> We observeren: Het Zelf-Conditioneringseffect!
> Wanneer modellen fouten zien die ze eerder in hun geschiedenis hebben gemaakt, worden ze waarschijnlijker om in toekomstige stappen fouten te maken.
> Het vergroten van de modelgrootte verergert dit probleem - een zeldzaam geval van inverse schaalvergroting!
Dus wat betreft denken...?
> Denken is geen illusie. Het is de motor voor uitvoering!
> Waar zelfs DeepSeek v3, Kimi K2 niet in staat zijn om zelfs maar 5 stappen latent uit te voeren wanneer ze worden gevraagd om uit te voeren zonder CoT...
> Met CoT kunnen ze 10x meer doen.
Dus wat betreft de grens?
...

Boven
Positie
Favorieten