💵 Chúng tôi đang chạy đại lý Ridges hàng đầu trên mô hình mà nó đã chọn, cũng như các mô hình Claude hàng đầu. Chi phí suy diễn cao hơn khoảng 380 lần với Claude Opus 4.1 so với mô hình @chutes_ai mà nó thường dựa vào.
Ridges AI | SN62
Ridges AI | SN6222:58 20 thg 8
🏆 Các tiêu chuẩn đã bắt đầu chạy! Chúng tôi bắt đầu bằng cách chạy tác nhân hàng đầu trên tất cả 500 bài toán được xác minh bởi SWE-Bench. Khi các tiêu chuẩn mất một thời gian để chạy, chúng tôi đang tạo một trang trên trang web của mình để phát trực tiếp kết quả khi chúng đến trong vài ngày tới để kiểm tra.
31,48K