Tuoretta paperia lehdistöstä: Illuusio vähenevästä tuotosta: Pitkän horisontin toteutuksen mittaaminen LLM:issä. Ovatko pienet mallit agentisen tekoälyn tulevaisuus? Eikö LLM-laskennan skaalaaminen ole kustannusten arvoista pienenevän tuoton vuoksi? Ovatko autoregressiiviset LLM:t tuhoon tuomittuja ja ajattelu illuusio? LLM-skaalauksen karhutapaukset liittyvät kaikki yhteen ominaisuuteen: Long Horizon Execution -toimintoon. Juuri siksi sinun pitäisi kuitenkin olla positiivinen mallin koon skaalaamisen ja testiaikaisen laskennan suhteen! > Ensinnäkin, muistatko METR-käyrän? Se saattaa selittyä @ylecun:n yhdistelmävirheiden mallilla > mallin horisontin pituus kasvaa supereksponentiaalisesti (@DaveShapi) yksivaiheisella tarkkuudella. > Lopputulos 1: Älä anna hämätä, jos hidastat edistymistä tyypillisissä lyhyiden tehtävien vertailuarvoissa > se riittää horisontin pituuden eksponentiaaliseen kasvuun. Mutta menemme @ylecun mallia pidemmälle ja testaamme LLM:iä empiirisesti... > Oikeudenmukainen toteutus on myös vaikeaa LLM-tutkinnon suorittajille, vaikka tarjoaisit heille tarvittavan suunnitelman ja tiedon. > Meidän ei pitäisi tulkita väärin suoritusvirheitä kyvyttömyydeksi "päätellä". > Vaikka pienellä mallilla olisi 100 %:n yksivaiheinen tarkkuus, suuremmat mallit voivat suorittaa paljon enemmän kierroksia onnistumisprosentin kynnyksen yläpuolella. > Huomasitko, kuinka agenttisi suoriutuu huonommin, kun tehtävä pitenee? Se ei ole vain pitkän kontekstin rajoituksia. > Huomaamme: Itseehdollistava vaikutus! > Kun mallit näkevät aiemmin historiassaan tekemiään virheitä, he tekevät todennäköisemmin virheitä tulevissa käännöksissä. > Mallin koon kasvattaminen pahentaa tätä ongelmaa - harvinainen käänteinen skaalaus! Entä sitten ajattelu...? > Ajattelu ei ole illuusio. Se on toteutuksen moottori! > Siinä missä edes DeepSeek v3, Kimi K2 ei suorita edes 5 kierrosta piilevästi, kun niitä pyydetään suorittamaan ilman CoT:tä... > CoT:n avulla he voivat tehdä 10 kertaa enemmän. Entä sitten raja? ...