DApp Store | Pusat Web3 untuk Event & Game

Topik trending

Derya Unutmaz, MD

Profesor, ilmuwan biomedis, ahli imunologi manusia, penuaan & imunoterapi kanker. SEMUA ADA DI AI. Minat: BioAI, robotika, Space Scifi Chess. Pendapat pribadi

Ini adalah makalah yang sangat menarik dan, saya percaya, penting. Pemikiran konteks panjang adalah fitur yang sangat penting, menurut saya. Bayangkan saja model AI yang dapat berpikir sejuta langkah ke depan! ✅GPT-5 Thinking jauh di depan semua model lain yang kami uji. Itu dapat menjalankan 1000+ tugas langkah sekaligus. ✅Di urutan kedua dengan 432 langkah adalah Claude 4 Soneta ... dan kemudian Grok-4 di 384 ✅Gemini 2.5 Pro dan DeepSeek R1 tertinggal jauh, hanya 120.

Makalah segar dari pers: Ilusi Pengembalian yang Berkurang: Mengukur Eksekusi Cakrawala Panjang di LLM. Apakah model kecil adalah masa depan AI agen? Apakah penskalaan komputasi LLM tidak sepadan dengan biaya karena pengembalian yang berkurang? Apakah LLM autoregresif ditakdirkan, dan berpikir adalah ilusi? Kasus beruang untuk penskalaan LLM semuanya terhubung ke satu kemampuan: Eksekusi Long Horizon. Namun, itulah mengapa Anda harus optimis pada penskalaan, ukuran model, dan komputasi waktu pengujian! > Pertama, ingat plot METR? Ini mungkin dijelaskan oleh model kesalahan peracikan @ylecun > panjang cakrawala model tumbuh secara super-eksponensial (@DaveShapi) dalam akurasi satu langkah. > Hasil 1: Jangan tertipu dengan memperlambat kemajuan pada tolok ukur tugas pendek yang khas > itu cukup untuk pertumbuhan eksponensial dalam panjang cakrawala. Tapi kami melampaui model @ylecun, menguji LLM secara empiris... > Eksekusi yang adil juga sulit bagi LLM, bahkan ketika Anda memberi mereka rencana dan pengetahuan yang dibutuhkan. > Kita tidak boleh salah menafsirkan kegagalan eksekusi sebagai ketidakmampuan untuk "bernalar". > Bahkan ketika model kecil memiliki akurasi satu langkah 100%, model yang lebih besar dapat mengeksekusi jauh lebih banyak putaran di atas ambang batas tingkat keberhasilan. > Memperhatikan bagaimana kinerja agen Anda lebih buruk seiring dengan semakin lama tugas? Ini bukan hanya keterbatasan konteks panjang .. > Kami mengamati: Efek Pengkondisian Diri! > Ketika model melihat kesalahan yang mereka buat sebelumnya dalam riwayat mereka, mereka menjadi lebih mungkin membuat kesalahan di belokan mendatang. > Meningkatkan ukuran model memperburuk masalah ini - kasus penskalaan terbalik yang langka! Jadi bagaimana dengan berpikir...? > Berpikir bukanlah ilusi. Ini adalah mesin untuk eksekusi! > Di mana bahkan DeepSeek v3, Kimi K2 gagal mengeksekusi bahkan 5 putaran secara laten ketika diminta untuk mengeksekusi tanpa CoT... > Dengan CoT, mereka dapat melakukan 10x lebih banyak. Jadi bagaimana dengan perbatasan? > GPT-5 Thinking jauh di depan semua model lain yang kami uji. Itu dapat menjalankan 1000+ tugas langkah sekaligus. > Di urutan kedua dengan 432 langkah adalah Claude 4 Soneta... dan kemudian Grok-4 di 384 > Gemini 2.5 Pro dan DeepSeek R1 tertinggal jauh, hanya 120. > Apakah itu sebabnya GPT-5 diberi nama kode Horizon? 🤔 > Open-source memiliki ;) yang panjang cara untuk pergi! > Mari kita kembangkan bersama! Kami merilis semua kode dan data. Kami melakukan penyelaman mendalam, dan menyajikan kepada Anda takeaways terbaik dengan plot luar biasa di bawah ini 👇

Teratas

Peringkat

Favorit