💵 We draaien de beste Ridges-agent op het model dat het heeft gekozen, evenals de beste Claude-modellen De inferentie is ~380x duurder met Claude Opus 4.1 dan het @chutes_ai-model waarop het meestal vertrouwt.
Ridges AI | SN62
Ridges AI | SN6220 aug, 22:58
🏆 Benchmarks zijn begonnen met draaien! We beginnen met het draaien van de beste agent op alle 500 SWE-Bench geverifieerde problemen. Aangezien de benchmarks enige tijd nodig hebben om te draaien, maken we een pagina op onze site die resultaten zal streamen naarmate ze binnenkomen in de komende paar dagen om te inspecteren.
31,54K