Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Lucrare proaspătă a presei: Iluzia randamentelor în scădere: măsurarea execuției la orizont lung în LLM-uri.
Sunt modelele mici viitorul AI agentic? Scalarea calculului LLM nu merită costul din cauza randamentelor în scădere? Sunt LLM-urile autoregresive condamnate și gândirea o iluzie?
Cazurile bear pentru scalarea LLM sunt toate conectate la o singură capacitate: Long Horizon Execution. Cu toate acestea, tocmai de aceea ar trebui să fii optimist în ceea ce privește scalarea dimensiunii modelului și calculul în timpul testului!
> În primul rând, vă amintiți graficul METR? Ar putea fi explicat prin modelul @ylecun al erorilor de compugere
> lungimea orizontului unui model crește super-exponențial (@DaveShapi) cu precizie într-un singur pas.
> Rezultatul 1: Nu vă lăsați păcăliți de încetinirea progresului pe benchmark-urile tipice de sarcini scurte
> este suficient pentru o creștere exponențială a lungimii orizontului.
Dar mergem dincolo de modelul lui @ylecun, testând LLM-uri empiric...
> Execuția justă este, de asemenea, dificilă pentru LLM-uri, chiar și atunci când le oferiți planul și cunoștințele necesare.
> Nu ar trebui să interpretăm greșit eșecurile de execuție ca o incapacitate de a "raționa".
> Chiar și atunci când un model mic are o precizie de 100% într-un singur pas, modelele mai mari pot executa mult mai multe viraje peste pragul ratei de succes.
> Ați observat cum agentul dumneavoastră se comportă mai rău pe măsură ce sarcina devine mai lungă? Nu sunt doar limitări de context îndelungate.
> Observăm: Efectul de auto-condiționare!
> Când modelele văd erori pe care le-au făcut mai devreme în istoria lor, devin mai predispuse să facă erori în virajele viitoare.
> Creșterea dimensiunii modelului agravează această problemă - un caz rar de scalare inversă!
Deci, cum rămâne cu gândul...?
> Gândirea nu este o iluzie. Este motorul execuției!
> În timp ce nici măcar DeepSeek v3, Kimi K2 nu reușește să execute nici măcar 5 ture latente atunci când i se cere să execute fără CoT...
> Cu CoT, pot face de 10 ori mai mult.
Deci, cum rămâne cu frontiera?
...

Limită superioară
Clasament
Favorite