Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Derya Unutmaz, MD
Profesor, ilmuwan biomedis, ahli imunologi manusia, penuaan & imunoterapi kanker. SEMUA ADA DI AI. Minat: BioAI, robotika, Space Scifi Chess. Pendapat pribadi
Saat ini, "kecerdasan tukang ledeng" lebih berharga daripada kecerdasan tingkat PhD karena model AI telah melampaui yang terakhir pada tingkat kognitif tetapi tertinggal jauh di belakang dalam kecerdasan fisik. Namun, paradoks ini tidak akan berlangsung lama; itu hanyalah perbatasan berikutnya untuk ditaklukkan.
57
Ini adalah makalah yang sangat menarik dan, saya percaya, penting. Pemikiran konteks panjang adalah fitur yang sangat penting, menurut saya. Bayangkan saja model AI yang dapat berpikir sejuta langkah ke depan!
✅GPT-5 Thinking jauh di depan semua model lain yang kami uji. Itu dapat menjalankan 1000+ tugas langkah sekaligus.
✅Di urutan kedua dengan 432 langkah adalah Claude 4 Soneta ... dan kemudian Grok-4 di 384
✅Gemini 2.5 Pro dan DeepSeek R1 tertinggal jauh, hanya 120.

Shashwat Goel12 Sep, 23.42
Makalah segar dari pers: Ilusi Pengembalian yang Berkurang: Mengukur Eksekusi Cakrawala Panjang di LLM.
Apakah model kecil adalah masa depan AI agen? Apakah penskalaan komputasi LLM tidak sepadan dengan biaya karena pengembalian yang berkurang? Apakah LLM autoregresif ditakdirkan, dan berpikir adalah ilusi?
Kasus beruang untuk penskalaan LLM semuanya terhubung ke satu kemampuan: Eksekusi Long Horizon. Namun, itulah mengapa Anda harus optimis pada penskalaan, ukuran model, dan komputasi waktu pengujian!
> Pertama, ingat plot METR? Ini mungkin dijelaskan oleh model kesalahan peracikan @ylecun
> panjang cakrawala model tumbuh secara super-eksponensial (@DaveShapi) dalam akurasi satu langkah.
> Hasil 1: Jangan tertipu dengan memperlambat kemajuan pada tolok ukur tugas pendek yang khas
> itu cukup untuk pertumbuhan eksponensial dalam panjang cakrawala.
Tapi kami melampaui model @ylecun, menguji LLM secara empiris...
> Eksekusi yang adil juga sulit bagi LLM, bahkan ketika Anda memberi mereka rencana dan pengetahuan yang dibutuhkan.
> Kita tidak boleh salah menafsirkan kegagalan eksekusi sebagai ketidakmampuan untuk "bernalar".
> Bahkan ketika model kecil memiliki akurasi satu langkah 100%, model yang lebih besar dapat mengeksekusi jauh lebih banyak putaran di atas ambang batas tingkat keberhasilan.
> Memperhatikan bagaimana kinerja agen Anda lebih buruk seiring dengan semakin lama tugas? Ini bukan hanya keterbatasan konteks panjang ..
> Kami mengamati: Efek Pengkondisian Diri!
> Ketika model melihat kesalahan yang mereka buat sebelumnya dalam riwayat mereka, mereka menjadi lebih mungkin membuat kesalahan di belokan mendatang.
> Meningkatkan ukuran model memperburuk masalah ini - kasus penskalaan terbalik yang langka!
Jadi bagaimana dengan berpikir...?
> Berpikir bukanlah ilusi. Ini adalah mesin untuk eksekusi!
> Di mana bahkan DeepSeek v3, Kimi K2 gagal mengeksekusi bahkan 5 putaran secara laten ketika diminta untuk mengeksekusi tanpa CoT...
> Dengan CoT, mereka dapat melakukan 10x lebih banyak.
Jadi bagaimana dengan perbatasan?
> GPT-5 Thinking jauh di depan semua model lain yang kami uji. Itu dapat menjalankan 1000+ tugas langkah sekaligus.
> Di urutan kedua dengan 432 langkah adalah Claude 4 Soneta... dan kemudian Grok-4 di 384
> Gemini 2.5 Pro dan DeepSeek R1 tertinggal jauh, hanya 120.
> Apakah itu sebabnya GPT-5 diberi nama kode Horizon? 🤔
> Open-source memiliki ;) yang panjang cara untuk pergi!
> Mari kita kembangkan bersama! Kami merilis semua kode dan data.
Kami melakukan penyelaman mendalam, dan menyajikan kepada Anda takeaways terbaik dengan plot luar biasa di bawah ini 👇

57
Prestasi lain yang membingungkan dari GPT-5 Pro: mendiagnosis kelainan dermatologis genetik yang tidak biasa pada seorang anak dari satu foto!
Ini adalah pasien teman dokter & menetapkan diagnosis kebenaran dasar dari kasus ini telah memakan waktu berbulan-bulan & membutuhkan analisis patologis terperinci!
196
Teratas
Peringkat
Favorit