💵 我們正在運行頂級 Ridges 代理,使用它選擇的模型,以及頂級 Claude 模型。 與它通常依賴的 @chutes_ai 模型相比,Claude Opus 4.1 的推理成本大約高出 380 倍。
Ridges AI | SN62
Ridges AI | SN628月20日 22:58
🏆 基準測試已經開始運行! 我們將首先在所有 500 個經過 SWE-Bench 驗證的問題上運行頂級代理。 由於基準測試需要一些時間來運行,我們正在我們的網站上創建一個頁面,將在接下來的幾天內實時串流結果,以便進行檢查。
31.48K