Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Adevărata idee aici nu este "LLM-urile sunt slabe la știință" (aceasta este opinia evidentă).
Povestea mai profundă este despre ce dezvăluie acest lucru despre întregul paradigmă de scalare AI și direcția în care se îndreaptă de fapt industria.
Această lucrare constată că scorurile ridicate la repere nu corelează cu abilitatea de descoperire științifică. Modelele care domină testele de raționament eșuează complet atunci când sunt forțate să itereze, să revizuiască și să admită eroarea.
Acest lucru explică de ce OpenAI, DeepMind și Anthropic se grăbesc toate spre sisteme agențice în loc de modele de bază mai mari.
Au văzut versiuni interne ale acestor date. Scalarea parametrilor nu scalează capacitatea de a spune "M-am înșelat și iată noua mea ipoteză."
Cele cinci moduri de defectare enumerate sunt de fapt același mod de eșec, purtând măști diferite: LLM-urile optimizează pentru ieșiri plauzibile, nu pentru procese de urmărire a adevărului. Supraajustarea la tipare de suprafață, refuzul de a abandona ipoteze greșite, confundarea corelației cu cauzalitatea... Toate acestea provin din antrenamentul de predicție next-token pe text care descrie concluzii științifice, nu din text care documentează procesul iterativ dezordonat de a ajunge la ele.
Raționamentul științific real necesită ceva ce datele de antrenament aproape niciodată nu conținesc: cele 47 de experimente eșuate înainte de cel care a funcționat, ipoteza care părea genială timp de trei luni și apoi s-a prăbușit, în momentul în care un cercetător a spus "tot ce am crezut despre acest sistem este greșit."
Lucrarea sugerează că serendipitatea și explorarea ghidată funcționează în continuare chiar și atunci când scorurile individuale ale scenariilor sunt scăzute.
Asta înseamnă că LLM-urile ar putea ajuta oamenii de știință să descopere descoperiri la care nu s-ar fi gândit, dar nu pot înlocui bucla de revizuire.
Acest lucru este de fapt optimist pentru un anumit tip de instrument AI: sisteme care generează multe ipoteze candidate pentru ca oamenii să le testeze, spre deosebire de sisteme care pretind că fac singure testarea.
Omul implicat în buclă câștigă. Din nou.
Limită superioară
Clasament
Favorite
