Bạn đang trong một cuộc phỏng vấn Kỹ sư ML tại Perplexity, và người phỏng vấn hỏi:
"Mô hình LLM của bạn tạo ra hàng triệu phản hồi mỗi ngày. Làm thế nào bạn đánh giá chất lượng mà không cần xem xét thủ công?"
Đây là cách bạn trả lời:
Trong tuần qua, tôi đã nghiên cứu sâu về các môi trường RL.
Một blog sẽ sớm ra mắt.
Tôi có thể nói rằng, các đánh giá là đủ tốt cho LLMs, nhưng đối với các tác nhân, chúng ta cần những môi trường mà nó có thể học với phản hồi.
Blog này sẽ chủ yếu nói về việc viết các môi trường với các bộ xác minh.
@willccbb và @PrimeIntellect đã thực hiện một số công việc rất có ảnh hưởng!