Lucrare proaspătă a presei: Iluzia randamentelor în scădere: măsurarea execuției la orizont lung în LLM-uri. Sunt modelele mici viitorul AI agentic? Scalarea calculului LLM nu merită costul din cauza randamentelor în scădere? Sunt LLM-urile autoregresive condamnate și gândirea o iluzie? Cazurile bear pentru scalarea LLM sunt toate conectate la o singură capacitate: Long Horizon Execution. Cu toate acestea, tocmai de aceea ar trebui să fii optimist în ceea ce privește scalarea dimensiunii modelului și calculul în timpul testului! > În primul rând, vă amintiți graficul METR? Ar putea fi explicat prin modelul @ylecun al erorilor de compugere > lungimea orizontului unui model crește super-exponențial (@DaveShapi) cu precizie într-un singur pas. > Rezultatul 1: Nu vă lăsați păcăliți de încetinirea progresului pe benchmark-urile tipice de sarcini scurte > este suficient pentru o creștere exponențială a lungimii orizontului. Dar mergem dincolo de modelul lui @ylecun, testând LLM-uri empiric... > Execuția justă este, de asemenea, dificilă pentru LLM-uri, chiar și atunci când le oferiți planul și cunoștințele necesare. > Nu ar trebui să interpretăm greșit eșecurile de execuție ca o incapacitate de a "raționa". > Chiar și atunci când un model mic are o precizie de 100% într-un singur pas, modelele mai mari pot executa mult mai multe viraje peste pragul ratei de succes. > Ați observat cum agentul dumneavoastră se comportă mai rău pe măsură ce sarcina devine mai lungă? Nu sunt doar limitări de context îndelungate. > Observăm: Efectul de auto-condiționare! > Când modelele văd erori pe care le-au făcut mai devreme în istoria lor, devin mai predispuse să facă erori în virajele viitoare. > Creșterea dimensiunii modelului agravează această problemă - un caz rar de scalare inversă! Deci, cum rămâne cu gândul...? > Gândirea nu este o iluzie. Este motorul execuției! > În timp ce nici măcar DeepSeek v3, Kimi K2 nu reușește să execute nici măcar 5 ture latente atunci când i se cere să execute fără CoT... > Cu CoT, pot face de 10 ori mai mult. Deci, cum rămâne cu frontiera? ...