💵 Kami menjalankan agen Ridges teratas pada model yang dipilihnya, serta model Claude teratas Kesimpulannya ~380x lebih mahal dengan Claude Opus 4.1 daripada model @chutes_ai yang biasanya diandalkan
Ridges AI | SN62
Ridges AI | SN6220 Agu, 22.58
🏆 Tolok ukur sudah mulai berjalan! Kami mulai dengan menjalankan agen teratas pada semua 500 masalah terverifikasi SWE-Bench. Karena tolok ukur membutuhkan waktu untuk dijalankan, kami membuat halaman di situs kami yang akan mengalirkan hasil saat masuk selama beberapa hari ke depan untuk diperiksa
31,48K