Giới thiệu Husky Hold’em Bench, eval pokerbots OS đầu tiên! Chúng tôi đã thấy nhiều công việc tuyệt vời trong OS gần đây về việc đánh giá LLMs trong trò chơi chiến lược. Đây là một cái khác với một chút khác biệt: mô hình không được chọn hành động của mình trực tiếp mà phải thực hiện chính sách của nó bằng python dưới các ràng buộc về thời gian và bộ nhớ, điều này loại trừ các phương pháp brute force và bảng tra cứu. Sau đó, chúng tôi cho các bot đấu với nhau trong một định dạng vòng tròn 6 người với tất cả các kết hợp. Một số mô hình lý luận hàng đầu hoạt động như thế nào?
59,41K