Tôi hơi ngạc nhiên khi không ai đã tạo ra một máy chủ Dwarf Fortress MCP cho phép một tác nhân như Codex hoặc Claude Code điều khiển trò chơi một cách hiệu quả và theo dõi trạng thái cũng như tiến trình. Tôi chưa bao giờ thực sự chơi nó, chỉ tải về và xem qua một chút khoảng 10 năm trước, nhưng tôi thích đọc về nó. Có vẻ như đây sẽ là một bài kiểm tra rất tốt cho một LLM để xem nó có thể giữ cho những người lùn sống sót và phát triển trong bao lâu. Bởi vì mỗi trò chơi cuối cùng đều dẫn đến một thảm họa dây chuyền khiến tất cả những người lùn chết, nên sẽ có một điểm dừng tự nhiên cho nó, điều này khiến nó trở thành một ứng cử viên tốt cho việc đánh giá. Ít nhất đó là hiểu biết của tôi về nó (khẩu hiệu của người chơi là "Thua là vui"). Thực hiện tốt công việc với trò chơi này sẽ phụ thuộc vào độ chính xác trong việc gọi công cụ và khả năng duy trì sự nhất quán trong các nhiệm vụ dài hạn, cộng với khả năng theo dõi và hiểu động lực của một hệ thống phức tạp và thực hiện các can thiệp kịp thời để dự đoán và chống lại các vấn đề. Và vì nó là bản gốc của terminal, nó có thể được truyền tải và xử lý một cách hiệu quả bằng cách sử dụng các token thông thường mà không cần xử lý hình ảnh đa phương thức, điều này sẽ khiến nó hiệu quả hơn nhiều so với các trò chơi khác. Hơn nữa, bạn biết rằng không có phòng thí nghiệm AI nào đã được đào tạo cho điều này (chưa!), vì vậy nó chưa bị ảnh hưởng bởi "benchmaxxing."
4,06K