Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Makalah segar dari pers: Ilusi Pengembalian yang Berkurang: Mengukur Eksekusi Cakrawala Panjang di LLM.
Apakah model kecil adalah masa depan AI agen? Apakah penskalaan komputasi LLM tidak sepadan dengan biaya karena pengembalian yang berkurang? Apakah LLM autoregresif ditakdirkan, dan berpikir adalah ilusi?
Kasus beruang untuk penskalaan LLM semuanya terhubung ke satu kemampuan: Eksekusi Long Horizon. Namun, itulah mengapa Anda harus optimis pada penskalaan, ukuran model, dan komputasi waktu pengujian!
> Pertama, ingat plot METR? Ini mungkin dijelaskan oleh model kesalahan peracikan @ylecun
> panjang cakrawala model tumbuh secara super-eksponensial (@DaveShapi) dalam akurasi satu langkah.
> Hasil 1: Jangan tertipu dengan memperlambat kemajuan pada tolok ukur tugas pendek yang khas
> itu cukup untuk pertumbuhan eksponensial dalam panjang cakrawala.
Tapi kami melampaui model @ylecun, menguji LLM secara empiris...
> Eksekusi yang adil juga sulit bagi LLM, bahkan ketika Anda memberi mereka rencana dan pengetahuan yang dibutuhkan.
> Kita tidak boleh salah menafsirkan kegagalan eksekusi sebagai ketidakmampuan untuk "bernalar".
> Bahkan ketika model kecil memiliki akurasi satu langkah 100%, model yang lebih besar dapat mengeksekusi jauh lebih banyak putaran di atas ambang batas tingkat keberhasilan.
> Memperhatikan bagaimana kinerja agen Anda lebih buruk seiring dengan semakin lama tugas? Ini bukan hanya keterbatasan konteks panjang ..
> Kami mengamati: Efek Pengkondisian Diri!
> Ketika model melihat kesalahan yang mereka buat sebelumnya dalam riwayat mereka, mereka menjadi lebih mungkin membuat kesalahan di belokan mendatang.
> Meningkatkan ukuran model memperburuk masalah ini - kasus penskalaan terbalik yang langka!
Jadi bagaimana dengan berpikir...?
> Berpikir bukanlah ilusi. Ini adalah mesin untuk eksekusi!
> Di mana bahkan DeepSeek v3, Kimi K2 gagal mengeksekusi bahkan 5 putaran secara laten ketika diminta untuk mengeksekusi tanpa CoT...
> Dengan CoT, mereka dapat melakukan 10x lebih banyak.
Jadi bagaimana dengan perbatasan?
...

Teratas
Peringkat
Favorit