Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Kami hampir tidak menggaruk permukaan pada eval. Sebagian besar tugas pekerja pengetahuan tidak tertangkap dalam tolok ukur paling populer saat ini.
Meskipun kemampuan yang relevan sering kali dapat diekstrapolasi dari pengkodean dan evaluasi matematika yang ada, ini tidak sepenuhnya mewakili kompleksitas tugas dunia nyata di banyak bidang seperti hukum, layanan keuangan, akuntansi, atau konsultasi.
Kita akan segera memasuki era di mana mengejar alur kerja ini akan sama berharganya dengan pengkodean. Ini akan menjadi pembukaan besar untuk gelombang kasus penggunaan agen AI berikutnya di perusahaan.

5 Sep, 07.02
Seringkali kemampuan peneliti untuk mengulangi suatu kemampuan dibatasi oleh kemampuan kita untuk mengukur kemampuan itu. Saya percaya kemajuan lebih terbatas daripada yang dipikirkan orang.
Terkadang evals terasa kausal. apakah SWE-Bench mengikuti pengkodean agen, atau apakah pengkodean agen mengikuti SWE-bench?
Kita sering mendengar tentang memecahkan tugas cakrawala yang sangat panjang (minggu, bulan), atau pembelajaran berkelanjutan yang diperlukan untuk AGI, dll. Namun di mana EVAL untuk membuktikan kekurangan model kita di sini?
Saya ingin lebih banyak orang mengerjakan evaluasi lengkap AGI, evals yang benar-benar melacak nilai & dampak ekonomi, tugas selama sebulan, dll.
82,26K
Teratas
Peringkat
Favorit