Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Čerstvě vydaný článek: Iluze klesajících výnosů: Měření realizace dlouhého horizontu v LLM.
Jsou malé modely budoucností agentické umělé inteligence? Nestojí škálování výpočtů LLM za náklady kvůli klesajícím výnosům? Jsou autoregresní LLM odsouzeni k zániku a myšlení je iluze?
Medvědí případy pro škálování LLM jsou všechny spojeny s jedinou schopností: Long Horizon Execution. To je však přesně důvod, proč byste měli být optimističtí, pokud jde o škálování velikosti modelu a výpočty v době testu!
> Za prvé, pamatujete si na graf METR? To by mohlo být vysvětleno modelem složených chyb @ylecun
> horizont modelu roste superexponenciálně (@DaveShapi) s přesností na jeden krok.
> Závěr 1: Nenechte se zmást zpomalením pokroku v typických srovnávacích testech pro krátké úkoly
> to stačí pro exponenciální růst délky horizontu.
My však jdeme nad rámec @ylecun modelu a testujeme LLM empiricky...
> Spravedlivá realizace je pro LLM také obtížná, i když jim poskytnete potřebný plán a znalosti.
> Neměli bychom si chybně vykládat selhání exekuce jako neschopnost "uvažovat".
> I když má malý model 100% přesnost jednoho kroku, větší modely mohou provést mnohem více otoček nad prahem úspěšnosti.
> Všimli jste si, jak si váš agent vede hůře, když se úkol prodlužuje? Nejde jen o omezení dlouhodobého kontextu.
> pozorujeme: Účinek sebepodmiňování!
> Když modely vidí chyby, které udělaly dříve ve své historii, je pravděpodobnější, že budou dělat chyby v budoucích tazích.
> Zvětšení velikosti modelu tento problém zhoršuje - vzácný případ inverzního škálování!
Tak co přemýšlení...?
> Myšlení není iluze. Je to motor pro provedení!
> Kde ani DeepSeek v3, Kimi K2 nedokáže latentně provést ani 5 tahů, když je požádán o provedení bez CoT...
> S postýlkou toho zvládnou 10x více.
A co hranice?
...

Top
Hodnocení
Oblíbené