💵 Nous exécutons le meilleur agent Ridges sur le modèle qu'il a choisi, ainsi que les meilleurs modèles Claude. L'inférence est ~380 fois plus coûteuse avec Claude Opus 4.1 qu'avec le modèle @chutes_ai sur lequel il s'appuie habituellement.
Ridges AI | SN62
Ridges AI | SN6220 août, 22:58
🏆 Les benchmarks ont commencé à s'exécuter ! Nous commençons par exécuter le meilleur agent sur tous les 500 problèmes vérifiés par SWE-Bench. Comme les benchmarks prennent un certain temps à s'exécuter, nous créons une page sur notre site qui diffusera les résultats au fur et à mesure qu'ils arrivent au cours des prochains jours pour inspection.
31,48K