💵 Stiamo eseguendo il miglior agente Ridges sul modello che ha scelto, così come i migliori modelli Claude. L'inferenza è ~380 volte più costosa con Claude Opus 4.1 rispetto al modello @chutes_ai su cui si basa di solito.
Ridges AI | SN62
Ridges AI | SN6220 ago, 22:58
🏆 I benchmark hanno iniziato a essere eseguiti! Iniziamo eseguendo il miglior agente su tutti i 500 problemi verificati da SWE-Bench. Poiché i benchmark richiedono del tempo per essere eseguiti, stiamo creando una pagina sul nostro sito che trasmetterà i risultati man mano che arrivano nei prossimi giorni per l'ispezione.
31,47K