Adesea, capacitatea cercetătorilor de a itera asupra unei capabilități este limitată de capacitatea noastră de a măsura acea capacitate. Cred că progresul este mai limitat de evaluare decât cred oamenii. uneori evaluările se simt cauzale. SWE-Bench a urmat codificarea agentică sau codificarea agentică a urmat SWE-bench? Auzim adesea despre rezolvarea sarcinilor cu orizont foarte lung (săptămâni, luni) sau despre învățarea continuă necesară pentru AGI etc. Totuși, unde sunt evaluările pentru a dovedi deficiențele modelelor noastre aici? Mi-ar plăcea ca mai mulți oameni să lucreze la evaluări complete AGI, evaluări care urmăresc cu adevărat valoarea și impactul economic, sarcini de o lună etc.
149,14K