Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Abia zgâriem suprafața evaluărilor. O parte semnificativă a sarcinilor lucrătorilor din domeniul cunoașterii nu sunt incluse în cele mai populare benchmark-uri de astăzi.
În timp ce capacitățile relevante pot fi adesea extrapolate din evaluările de codare și matematică existente, acestea nu reprezintă pe deplin complexitatea sarcinilor din lumea reală în multe domenii, cum ar fi juridic, servicii financiare, contabilitate sau consultanță.
Vom intra în curând într-o eră în care urmărirea acestor fluxuri de lucru va fi la fel de apreciată ca și codificarea. Acesta va fi un deblocaj uriaș pentru următorul val de cazuri de utilizare a agenților AI din companie.

5 sept., 07:02
Adesea, capacitatea cercetătorilor de a itera asupra unei capabilități este limitată de capacitatea noastră de a măsura acea capacitate. Cred că progresul este mai limitat de evaluare decât cred oamenii.
uneori evaluările se simt cauzale. SWE-Bench a urmat codificarea agentică sau codificarea agentică a urmat SWE-bench?
Auzim adesea despre rezolvarea sarcinilor cu orizont foarte lung (săptămâni, luni) sau despre învățarea continuă necesară pentru AGI etc. Totuși, unde sunt evaluările pentru a dovedi deficiențele modelelor noastre aici?
Mi-ar plăcea ca mai mulți oameni să lucreze la evaluări complete AGI, evaluări care urmăresc cu adevărat valoarea și impactul economic, sarcini de o lună etc.
82,25K
Limită superioară
Clasament
Favorite