Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Dưới đây là một cái nhìn sâu sắc về lý do tại sao tự chơi hoạt động hiệu quả cho các trò chơi hai người có tổng bằng không (2p0s) như Go/Poker/Starcraft nhưng lại khó sử dụng hơn trong các lĩnh vực "thế giới thực". tóm tắt: tự chơi hội tụ về minimax trong các trò chơi 2p0s, và minimax thực sự hữu ích trong những trò chơi đó.
Mỗi trò chơi 2p0s hữu hạn đều có một điểm cân bằng minimax, về cơ bản là một chiến lược không thể bị đánh bại theo kỳ vọng (giả sử các người chơi thay phiên nhau). Trong trò chơi kéo giấy đá, ví dụ, minimax là 1/3 cho mỗi hành động.
Liệu minimax có phải là điều chúng ta muốn không? Không nhất thiết. Nếu bạn chơi minimax trong trò chơi Kéo Giấy Đá khi mà phần lớn chiến lược của đối thủ là "luôn ném đá" thì bạn rõ ràng là không tối ưu, mặc dù bạn không thua theo kỳ vọng. Điều này đặc biệt quan trọng trong một trò chơi như poker vì chơi minimax có nghĩa là bạn có thể không kiếm được nhiều tiền từ những người chơi yếu như bạn có thể nếu bạn khai thác tối đa họ.
Nhưng đảm bảo rằng "bạn sẽ không thua theo kỳ vọng" là điều rất tốt để có. Và trong các trò chơi như Cờ Vua và Go, sự khác biệt giữa một chiến lược minimax và một chiến lược khai thác tối ưu dân số đối thủ là không đáng kể. Vì lý do đó, minimax thường được coi là mục tiêu cho một trò chơi hai người có tổng bằng không. Ngay cả trong poker, tri thức thông thường giữa các chuyên gia hàng đầu là chơi minimax (lý thuyết trò chơi tối ưu) và chỉ lệch hướng nếu bạn phát hiện ra những điểm yếu rõ ràng ở đối thủ.
Tự chơi hợp lý, ngay cả từ đầu, được đảm bảo sẽ hội tụ về một điểm cân bằng minimax trong các trò chơi 2p0s hữu hạn. Thật tuyệt vời! Bằng cách đơn giản là mở rộng bộ nhớ và tính toán, và không cần dữ liệu con người, chúng ta có thể hội tụ về một chiến lược không thể bị đánh bại theo kỳ vọng.
Còn các trò chơi không phải 2p0s thì sao? Thật không may, tự chơi thuần túy, không có dữ liệu con người, không còn được đảm bảo sẽ hội tụ về một chiến lược hữu ích. Điều này có thể được thấy rõ trong Trò Chơi Ultimatum. Alice phải đề nghị Bob $0-100. Bob sau đó chấp nhận hoặc từ chối. Nếu Bob chấp nhận, tiền sẽ được chia theo đề xuất của Alice. Nếu Bob từ chối, cả hai sẽ nhận $0.
Chiến lược cân bằng (cụ thể là cân bằng hoàn hảo trong trò chơi con) là đề nghị 1 xu và Bob chấp nhận. Nhưng trong thế giới thực, con người không phải lúc nào cũng hợp lý. Nếu Alice cố gắng áp dụng chiến lược đó với những người thực, cô ấy sẽ kết thúc với rất ít tiền. Tự chơi trở nên không gắn bó với những gì mà chúng ta, với tư cách là con người, thấy hữu ích.
Nhiều người đã đề xuất các trò chơi như "một giáo viên LLM đề xuất các bài toán khó, và một học sinh LLM cố gắng giải quyết chúng" để đạt được đào tạo tự chơi, nhưng điều này gặp phải những vấn đề tương tự như trò chơi Ultimatum, nơi mà điểm cân bằng không gắn bó với những gì mà chúng ta, với tư cách là con người, thấy hữu ích.
Phần thưởng cho giáo viên trong một trò chơi như vậy nên là gì? Nếu nó là 2p0s thì giáo viên sẽ được thưởng nếu học sinh không thể giải quyết vấn đề, vì vậy giáo viên sẽ đặt ra những vấn đề không thể. Được rồi, nếu chúng ta thưởng cho nó dựa trên tỷ lệ thành công 50% của học sinh? Thì giáo viên có thể chỉ cần tung đồng xu và hỏi học sinh xem nó có rơi vào mặt ngửa không. Hoặc giáo viên có thể yêu cầu học sinh giải mã một thông điệp thông qua việc tìm kiếm khóa toàn diện. Việc định hình phần thưởng để đạt được hành vi mong muốn trở thành một thách thức lớn. Điều này không phải là vấn đề trong các trò chơi 2p0s.
Tôi thực sự tin vào tự chơi. Nó cung cấp một nguồn đào tạo vô hạn, và nó liên tục ghép một tác nhân với một đối tác có kỹ năng tương đương. Chúng tôi cũng đã thấy nó hoạt động trong một số bối cảnh không phải 2p0s phức tạp như Diplomacy và Hanabi. Nhưng việc áp dụng nó bên ngoài các trò chơi 2p0s khó hơn nhiều so với Go, Poker, Dota và Starcraft.

Hàng đầu
Thứ hạng
Yêu thích