DApp Store | Pusat Web3 untuk Event & Game

Topik trending

SWE-BENCH PRO dirilis Bahkan model pengkodean AI terkuat pun berjuang ketika tes menjadi lebih sulit. Di SWE-BENCH Verified mereka mencetak sekitar 70%. Pada SWE-BENCH PRO yang lebih tangguh, itu turun menjadi di bawah 25%. SWE-BENCH Verified berantakan dan terlalu mudah, model telah melihat jawabannya selama pelatihan, dan masalahnya tidak mencerminkan pekerjaan perangkat lunak yang sebenarnya. PRO memperbaikinya dengan menambahkan proyek panjang tingkat perusahaan yang lebih dekat dengan kehidupan nyata. - Di lokasi syuting publik: GPT-5 menyelesaikan 23,3%, Claude Opus 4,1 menyelesaikan 22,7%. - Di Set Komersial: Bahkan lebih sulit. Claude mendapat skor 17,8%, skor GPT-5 14,9%. Tiga hal yang kami pelajari 1. Model besar menabrak dinding pemikiran. GPT-5 dan Claude dapat menulis kode bersih dan menggunakan alat, tetapi mereka sering salah dalam logika. 2. Model yang lebih kecil gagal lebih awal. Mereka melanggar dasar-dasar seperti sintaks, pemformatan, atau penggunaan alat. 3. Setiap model memiliki titik lemahnya sendiri. Soneta kehabisan jendela konteks. Gemini membuat campuran kesalahan alat, sintaks, dan penalaran. Model menangani Python dan Go lebih baik. Mereka masih berjuang keras di JavaScript dan TypeScript. AI saat ini jauh dari insinyur perangkat lunak yang andal. Keberhasilan dalam tugas-tugas sederhana menyesatkan. Tantangan sebenarnya sekarang bukanlah menulis kode, melainkan memikirkan masalahnya.

Teratas

Peringkat

Favorit