Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
SWE-BENCH PRO dirilis
Bahkan model pengkodean AI terkuat pun berjuang ketika tes menjadi lebih sulit.
Di SWE-BENCH Verified mereka mencetak sekitar 70%. Pada SWE-BENCH PRO yang lebih tangguh, itu turun menjadi di bawah 25%.
SWE-BENCH Verified berantakan dan terlalu mudah, model telah melihat jawabannya selama pelatihan, dan masalahnya tidak mencerminkan pekerjaan perangkat lunak yang sebenarnya. PRO memperbaikinya dengan menambahkan proyek panjang tingkat perusahaan yang lebih dekat dengan kehidupan nyata.
- Di lokasi syuting publik: GPT-5 menyelesaikan 23,3%, Claude Opus 4,1 menyelesaikan 22,7%.
- Di Set Komersial: Bahkan lebih sulit. Claude mendapat skor 17,8%, skor GPT-5 14,9%.
Tiga hal yang kami pelajari
1. Model besar menabrak dinding pemikiran. GPT-5 dan Claude dapat menulis kode bersih dan menggunakan alat, tetapi mereka sering salah dalam logika.
2. Model yang lebih kecil gagal lebih awal. Mereka melanggar dasar-dasar seperti sintaks, pemformatan, atau penggunaan alat.
3. Setiap model memiliki titik lemahnya sendiri. Soneta kehabisan jendela konteks. Gemini membuat campuran kesalahan alat, sintaks, dan penalaran.
Model menangani Python dan Go lebih baik. Mereka masih berjuang keras di JavaScript dan TypeScript.
AI saat ini jauh dari insinyur perangkat lunak yang andal. Keberhasilan dalam tugas-tugas sederhana menyesatkan. Tantangan sebenarnya sekarang bukanlah menulis kode, melainkan memikirkan masalahnya.


Teratas
Peringkat
Favorit