Färskt papper från pressen: Illusionen av minskande avkastning: Mätning av Long Horizon Execution i LLM. Är små modeller framtiden för agentisk AI? Är skalning av LLM-beräkning inte värt kostnaden på grund av minskande avkastning? Är autoregressiva LLM:er dömda och tänker en illusion? Björnfallen för LLM-skalning är alla anslutna till en enda kapacitet: Long Horizon Execution. Men det är just därför du bör vara hausse på skalning, modellstorlek och beräkning vid testtid! > Kommer du först ihåg METR-handlingen? Det kan förklaras av @ylecun s modell för sammansättningsfel > horisontlängden för en modell växer superexponentiellt (@DaveShapi) med noggrannhet i ett steg. > Resultat 1: Låt dig inte luras av att sakta ner framstegen på typiska riktmärken för korta uppgifter > det räcker för exponentiell tillväxt i horisontlängd. Men vi går längre än @ylecun:s modell och testar LLM:er empiriskt... > Rättvist utförande är också svårt för LLM:er, även när du ger dem den nödvändiga planen och kunskapen. > Vi bör inte misstolka exekveringsmisslyckanden som en oförmåga att "resonera". > Även när en liten modell har 100 % noggrannhet i ett steg kan större modeller utföra mycket fler varv över tröskelvärdet för framgångsfrekvens. > Har du märkt att din agent presterar sämre när uppgiften blir längre? Det är inte bara begränsningar i långa sammanhang. > Vi observerar: Den självbetingande effekten! > När modeller ser fel som de har gjort tidigare i sin historik blir de mer benägna att göra fel i framtida svängar. > Ökad modellstorlek förvärrar det här problemet – ett sällsynt fall av omvänd skalning! Så vad sägs om att tänka...? > Att tänka är inte en illusion. Det är motorn för utförande! > Där även DeepSeek v3, Kimi K2 misslyckas med att utföra ens 5 varv latent när de ombeds att köra utan Cot ... > Med CoT kan de göra 10 gånger mer. Hur är det då med gränsen? ...