Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kami hampir tidak menggaruk permukaan pada eval. Sebagian besar tugas pekerja pengetahuan tidak tertangkap dalam tolok ukur paling populer saat ini.
Meskipun kualitas kemampuan seringkali dapat diekstrapolasi dari pengkodean dan evaluasi matematika yang ada, ini tidak sepenuhnya mewakili kompleksitas tugas-tugas dunia nyata ini.
Kita akan segera memasuki era di mana mengejar pekerjaan di bidang hukum, jasa keuangan, manufaktur, akuntansi, konsultasi,
dan banyak bidang bernilai tinggi lainnya akan sama berharganya dengan pengkodean.

5 Sep, 07.02
Seringkali kemampuan peneliti untuk mengulangi suatu kemampuan dibatasi oleh kemampuan kita untuk mengukur kemampuan itu. Saya percaya kemajuan lebih terbatas daripada yang dipikirkan orang.
Terkadang evals terasa kausal. apakah SWE-Bench mengikuti pengkodean agen, atau apakah pengkodean agen mengikuti SWE-bench?
Kita sering mendengar tentang memecahkan tugas cakrawala yang sangat panjang (minggu, bulan), atau pembelajaran berkelanjutan yang diperlukan untuk AGI, dll. Namun di mana EVAL untuk membuktikan kekurangan model kita di sini?
Saya ingin lebih banyak orang mengerjakan evaluasi lengkap AGI, evals yang benar-benar melacak nilai & dampak ekonomi, tugas selama sebulan, dll.
4,7K
Teratas
Peringkat
Favorit