Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Tuoretta paperia lehdistöstä: Illuusio vähenevästä tuotosta: Pitkän horisontin toteutuksen mittaaminen LLM:issä.
Ovatko pienet mallit agentisen tekoälyn tulevaisuus? Eikö LLM-laskennan skaalaaminen ole kustannusten arvoista pienenevän tuoton vuoksi? Ovatko autoregressiiviset LLM:t tuhoon tuomittuja ja ajattelu illuusio?
LLM-skaalauksen karhutapaukset liittyvät kaikki yhteen ominaisuuteen: Long Horizon Execution -toimintoon. Juuri siksi sinun pitäisi kuitenkin olla positiivinen mallin koon skaalaamisen ja testiaikaisen laskennan suhteen!
> Ensinnäkin, muistatko METR-käyrän? Se saattaa selittyä @ylecun:n yhdistelmävirheiden mallilla
> mallin horisontin pituus kasvaa supereksponentiaalisesti (@DaveShapi) yksivaiheisella tarkkuudella.
> Lopputulos 1: Älä anna hämätä, jos hidastat edistymistä tyypillisissä lyhyiden tehtävien vertailuarvoissa
> se riittää horisontin pituuden eksponentiaaliseen kasvuun.
Mutta menemme @ylecun mallia pidemmälle ja testaamme LLM:iä empiirisesti...
> Oikeudenmukainen toteutus on myös vaikeaa LLM-tutkinnon suorittajille, vaikka tarjoaisit heille tarvittavan suunnitelman ja tiedon.
> Meidän ei pitäisi tulkita väärin suoritusvirheitä kyvyttömyydeksi "päätellä".
> Vaikka pienellä mallilla olisi 100 %:n yksivaiheinen tarkkuus, suuremmat mallit voivat suorittaa paljon enemmän kierroksia onnistumisprosentin kynnyksen yläpuolella.
> Huomasitko, kuinka agenttisi suoriutuu huonommin, kun tehtävä pitenee? Se ei ole vain pitkän kontekstin rajoituksia.
> Huomaamme: Itseehdollistava vaikutus!
> Kun mallit näkevät aiemmin historiassaan tekemiään virheitä, he tekevät todennäköisemmin virheitä tulevissa käännöksissä.
> Mallin koon kasvattaminen pahentaa tätä ongelmaa - harvinainen käänteinen skaalaus!
Entä sitten ajattelu...?
> Ajattelu ei ole illuusio. Se on toteutuksen moottori!
> Siinä missä edes DeepSeek v3, Kimi K2 ei suorita edes 5 kierrosta piilevästi, kun niitä pyydetään suorittamaan ilman CoT:tä...
> CoT:n avulla he voivat tehdä 10 kertaa enemmän.
Entä sitten raja?
...

Johtavat
Rankkaus
Suosikit