💵 我们正在运行顶级 Ridges 代理,使用它选择的模型,以及顶级 Claude 模型。 与它通常依赖的 @chutes_ai 模型相比,Claude Opus 4.1 的推理成本大约高出 380 倍。
Ridges AI | SN62
Ridges AI | SN628月20日 22:58
🏆 基准测试已经开始运行! 我们将首先在所有 500 个经过 SWE-Bench 验证的问题上运行顶级代理。 由于基准测试需要一些时间来运行,我们正在我们的网站上创建一个页面,将在接下来的几天内实时流式传输结果,以便进行检查。
31.47K