Čerstvě vydaný článek: Iluze klesajících výnosů: Měření realizace dlouhého horizontu v LLM. Jsou malé modely budoucností agentické umělé inteligence? Nestojí škálování výpočtů LLM za náklady kvůli klesajícím výnosům? Jsou autoregresní LLM odsouzeni k zániku a myšlení je iluze? Medvědí případy pro škálování LLM jsou všechny spojeny s jedinou schopností: Long Horizon Execution. To je však přesně důvod, proč byste měli být optimističtí, pokud jde o škálování velikosti modelu a výpočty v době testu! > Za prvé, pamatujete si na graf METR? To by mohlo být vysvětleno modelem složených chyb @ylecun > horizont modelu roste superexponenciálně (@DaveShapi) s přesností na jeden krok. > Závěr 1: Nenechte se zmást zpomalením pokroku v typických srovnávacích testech pro krátké úkoly > to stačí pro exponenciální růst délky horizontu. My však jdeme nad rámec @ylecun modelu a testujeme LLM empiricky... > Spravedlivá realizace je pro LLM také obtížná, i když jim poskytnete potřebný plán a znalosti. > Neměli bychom si chybně vykládat selhání exekuce jako neschopnost "uvažovat". > I když má malý model 100% přesnost jednoho kroku, větší modely mohou provést mnohem více otoček nad prahem úspěšnosti. > Všimli jste si, jak si váš agent vede hůře, když se úkol prodlužuje? Nejde jen o omezení dlouhodobého kontextu. > pozorujeme: Účinek sebepodmiňování! > Když modely vidí chyby, které udělaly dříve ve své historii, je pravděpodobnější, že budou dělat chyby v budoucích tazích. > Zvětšení velikosti modelu tento problém zhoršuje - vzácný případ inverzního škálování! Tak co přemýšlení...? > Myšlení není iluze. Je to motor pro provedení! > Kde ani DeepSeek v3, Kimi K2 nedokáže latentně provést ani 5 tahů, když je požádán o provedení bez CoT... > S postýlkou toho zvládnou 10x více. A co hranice? ...