Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Färskt papper från pressen: Illusionen av minskande avkastning: Mätning av Long Horizon Execution i LLM.
Är små modeller framtiden för agentisk AI? Är skalning av LLM-beräkning inte värt kostnaden på grund av minskande avkastning? Är autoregressiva LLM:er dömda och tänker en illusion?
Björnfallen för LLM-skalning är alla anslutna till en enda kapacitet: Long Horizon Execution. Men det är just därför du bör vara hausse på skalning, modellstorlek och beräkning vid testtid!
> Kommer du först ihåg METR-handlingen? Det kan förklaras av @ylecun s modell för sammansättningsfel
> horisontlängden för en modell växer superexponentiellt (@DaveShapi) med noggrannhet i ett steg.
> Resultat 1: Låt dig inte luras av att sakta ner framstegen på typiska riktmärken för korta uppgifter
> det räcker för exponentiell tillväxt i horisontlängd.
Men vi går längre än @ylecun:s modell och testar LLM:er empiriskt...
> Rättvist utförande är också svårt för LLM:er, även när du ger dem den nödvändiga planen och kunskapen.
> Vi bör inte misstolka exekveringsmisslyckanden som en oförmåga att "resonera".
> Även när en liten modell har 100 % noggrannhet i ett steg kan större modeller utföra mycket fler varv över tröskelvärdet för framgångsfrekvens.
> Har du märkt att din agent presterar sämre när uppgiften blir längre? Det är inte bara begränsningar i långa sammanhang.
> Vi observerar: Den självbetingande effekten!
> När modeller ser fel som de har gjort tidigare i sin historik blir de mer benägna att göra fel i framtida svängar.
> Ökad modellstorlek förvärrar det här problemet – ett sällsynt fall av omvänd skalning!
Så vad sägs om att tänka...?
> Att tänka är inte en illusion. Det är motorn för utförande!
> Där även DeepSeek v3, Kimi K2 misslyckas med att utföra ens 5 varv latent när de ombeds att köra utan Cot ...
> Med CoT kan de göra 10 gånger mer.
Hur är det då med gränsen?
...

Topp
Rankning
Favoriter