Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vừa hợp nhất một PR cho một môi trường để cải thiện LLM với tư cách là Thẩm phán cũng như đánh giá các mô hình về khả năng đánh giá của họ!
Bạn có biết rằng tất cả các môi trường RL có thể xác minh gần như tương đương với điểm chuẩn (và ngược lại!)? Vì vậy, chúng tôi đã thêm một lệnh đánh giá vào cơ sở của Atropos và bây giờ bạn có thể chạy điểm chuẩn thông qua môi trường Atropos.
Chúng tôi thất vọng khi làm việc với quá nhiều framework benchmark đã lỗi thời hoặc không thể sử dụng được, vì vậy chúng tôi đã triển khai chế độ chỉ đánh giá vào Atropos, framework môi trường RL của chúng tôi.
Vì vậy, cổng đầu tiên của chúng tôi từ bên ngoài môi trường hiện có của chúng tôi là Reward-Bench của @natolambert!
Lưu ý: nó chỉ hỗ trợ các mô hình phần thưởng tổng quát (Giám khảo LLM thông thường) tại thời điểm hiện tại.
Kiểm tra PR tại đây:

20,68K
Hàng đầu
Thứ hạng
Yêu thích