Seringkali kemampuan peneliti untuk mengulangi suatu kemampuan dibatasi oleh kemampuan kita untuk mengukur kemampuan itu. Saya percaya kemajuan lebih terbatas daripada yang dipikirkan orang. Terkadang evals terasa kausal. apakah SWE-Bench mengikuti pengkodean agen, atau apakah pengkodean agen mengikuti SWE-bench? Kita sering mendengar tentang memecahkan tugas cakrawala yang sangat panjang (minggu, bulan), atau pembelajaran berkelanjutan yang diperlukan untuk AGI, dll. Namun di mana EVAL untuk membuktikan kekurangan model kita di sini? Saya ingin lebih banyak orang mengerjakan evaluasi lengkap AGI, evals yang benar-benar melacak nilai & dampak ekonomi, tugas selama sebulan, dll.
149,15K