Vừa hợp nhất một PR cho một môi trường để cải thiện LLM với tư cách là Thẩm phán cũng như đánh giá các mô hình về khả năng đánh giá của họ! Bạn có biết rằng tất cả các môi trường RL có thể xác minh gần như tương đương với điểm chuẩn (và ngược lại!)? Vì vậy, chúng tôi đã thêm một lệnh đánh giá vào cơ sở của Atropos và bây giờ bạn có thể chạy điểm chuẩn thông qua môi trường Atropos. Chúng tôi thất vọng khi làm việc với quá nhiều framework benchmark đã lỗi thời hoặc không thể sử dụng được, vì vậy chúng tôi đã triển khai chế độ chỉ đánh giá vào Atropos, framework môi trường RL của chúng tôi. Vì vậy, cổng đầu tiên của chúng tôi từ bên ngoài môi trường hiện có của chúng tôi là Reward-Bench của @natolambert! Lưu ý: nó chỉ hỗ trợ các mô hình phần thưởng tổng quát (Giám khảo LLM thông thường) tại thời điểm hiện tại. Kiểm tra PR tại đây:
20,68K