Di bawah ini adalah penyelaman mendalam tentang mengapa permainan mandiri berfungsi untuk permainan zero-sum (2p0s) dua pemain seperti Go/Poker/Starcraft tetapi jauh lebih sulit digunakan di domain "dunia nyata". Tl; DR: Permainan mandiri menyatu ke Minimax dalam game 2P0S, dan Minimax sangat berguna dalam game tersebut. Setiap permainan 2p0s terbatas memiliki keseimbangan minimax, yang pada dasarnya merupakan strategi yang tak terkalahkan dalam harapan (dengan asumsi pemain bergantian sisi). Dalam gunting kertas batu, misalnya, minimax adalah 1/3 pada setiap tindakan. Apakah minimax yang kita inginkan? Belum tentu. Jika Anda bermain minimax di Rock Paper Scissors ketika sebagian besar strategi lawan adalah "selalu melempar Batu" maka Anda jelas tidak optimal, meskipun Anda tidak kalah dalam harapan. Ini sangat penting dalam permainan seperti poker karena bermain minimax berarti Anda mungkin tidak menghasilkan uang sebanyak yang Anda bisa dari pemain lemah jika Anda mengeksploitasi mereka secara maksimal. Tetapi jaminan "Anda tidak akan kalah dalam harapan" sangat bagus untuk dimiliki. Dan dalam game seperti Chess and Go, perbedaan antara strategi minimax dan strategi yang mengeksploitasi populasi lawan secara optimal dapat diabaikan. Untuk alasan itu, minimax biasanya dianggap sebagai tujuan untuk permainan zero-sum dua pemain. Bahkan dalam poker, kebijaksanaan konvensional di antara para profesional top adalah bermain minimax (teori permainan optimal) dan kemudian hanya menyimpang jika Anda melihat kelemahan yang jelas pada lawan. Permainan mandiri yang suara, bahkan dari awal, dijamin akan menyatu ke keseimbangan minimax dalam game 2p0-an yang terbatas. Itu luar biasa! Hanya dengan menskalakan memori dan komputasi, dan tanpa data manusia, kita dapat menyatu ke strategi yang tidak ada duanya dalam harapan. Bagaimana dengan game non-2p0s? Sayangnya, permainan mandiri murni, tanpa data manusia, tidak lagi dijamin akan menyatu ke strategi yang berguna. Hal ini dapat dilihat dengan jelas dalam Ultimatum Game. Alice harus menawarkan Bob $0-100. Bob kemudian menerima atau menolak. Jika Bob menerima, uang itu dibagi sesuai dengan proposal Alice. Jika Bob menolak, keduanya menerima $0. Strategi keseimbangan (khususnya, keseimbangan sempurna subgame) adalah menawarkan 1 sen dan untuk diterima oleh Bob. Tetapi di dunia nyata, orang tidak begitu rasional. Jika Alice mencoba strategi itu dengan manusia sungguhan, dia akan berakhir dengan sedikit uang. Permainan diri menjadi tidak terikat dari apa yang kita sebagai manusia anggap berguna. Banyak orang telah mengusulkan permainan seperti "seorang guru LLM mengusulkan masalah matematika yang sulit, dan seorang siswa LLM mencoba menyelesaikannya" untuk mencapai pelatihan bermain mandiri, tetapi ini mengalami masalah yang sama dengan permainan Ultimatum di mana keseimbangan tidak terikat dari apa yang kita sebagai manusia anggap berguna. Apa hadiah yang seharusnya diberikan kepada guru dalam permainan seperti itu? Jika 2p0s maka guru diberi imbalan jika siswa tidak dapat menyelesaikan masalah, sehingga guru akan menimbulkan masalah yang mustahil. Oke, bagaimana jika kita menghadiahinya untuk siswa yang memiliki tingkat keberhasilan 50%? Kemudian guru bisa melempar koin dan bertanya kepada siswa apakah itu mendaratkan Kepala. Atau guru dapat meminta siswa untuk mendekripsi pesan melalui pencarian kunci yang menyeluruh. Pembentukan penghargaan untuk mencapai perilaku yang diinginkan menjadi tantangan besar. Ini bukan masalah dalam game 2p0s. Saya percaya pada permainan diri. Ini memberikan sumber pelatihan yang tak terbatas, dan terus menerus mencocokkan agen dengan rekan yang sama terampilnya. Kami juga telah melihatnya bekerja di beberapa pengaturan non-2p0 yang kompleks seperti Diplomasi dan Hanabi. Tetapi menerapkannya di luar permainan 2p0s jauh lebih sulit daripada untuk Go, Poker, Dota, dan Starcraft.