Có rất nhiều sự nhầm lẫn trên mạng về việc môi trường RL thực sự là gì. Nó thực sự chỉ là một tiêu chuẩn. - Một môi trường - Một trạng thái khởi đầu - Một bộ kiểm tra xác minh xem trạng thái kết thúc có đúng hoặc chấp nhận được hay không Môi trường là một cái sandbox nhỏ cho phép LLM thực sự tương tác — thực hiện hành động, xem kết quả và ảnh hưởng đến thế giới mà nó đang ở. Trong trường hợp của TerminalBench, nó chỉ là một container Docker mô phỏng một terminal phát triển thực sự, với đầy đủ các tệp, phụ thuộc và công cụ hệ thống mà mô hình có thể sử dụng. Trạng thái khởi đầu xác định những gì mô hình thấy khi nhiệm vụ bắt đầu — các đầu vào, ngữ cảnh và điều kiện ban đầu. Trong một tiêu chuẩn lập trình, điều này có thể là trạng thái của một kho Git khi người dùng lần đầu tiên bắt đầu làm việc: các tệp, báo cáo lỗi, các bài kiểm tra không thành công và lời nhắc khởi đầu của người dùng cho biết mô hình cần làm gì. Đó là "cài đặt vấn đề", được đóng băng trong thời gian, để mọi mô hình bắt đầu từ cùng một vị trí và kết quả có thể được so sánh một cách công bằng. Cuối cùng, bộ kiểm tra là thứ làm cho toàn bộ điều này có thể đo lường được. Nó là phần kiểm tra xem mô hình thực sự đã giải quyết được nhiệm vụ hay không — thẩm phán tự động biến các đầu ra lộn xộn thành một điểm số đơn giản hoặc tín hiệu đỗ/trượt. Đó là lý do tại sao bạn nghe mọi người ở các phòng thí nghiệm nói "chúng tôi đã đào tạo trên các bộ kiểm tra". Họ đang nói về việc có một cách tự động để chấm điểm hành vi của mô hình. Điều này sau đó trở thành hàm thưởng cho RL, hoặc tín hiệu đỗ/trượt cho các tiêu chuẩn.