Poniżej znajduje się szczegółowa analiza, dlaczego samodzielna gra działa w dwuosobowych grach o sumie zerowej (2p0s) takich jak Go/Poker/Starcraft, ale jest znacznie trudniejsza do zastosowania w "rzeczywistych" dziedzinach. tl;dr: samodzielna gra zbiega do minimax w grach 2p0s, a minimax jest naprawdę przydatny w tych grach. Każda skończona gra 2p0s ma równowagę minimax, która jest zasadniczo niepokonaną strategią w oczekiwaniu (zakładając, że gracze zmieniają strony). W papier-kamień-nożyczki, na przykład, minimax to 1/3 na każdą akcję. Czy minimax to to, czego chcemy? Niekoniecznie. Jeśli grasz minimax w Papier-Kamień-Nożyczki, gdy strategie większości przeciwników to "zawsze rzucaj Kamień", to wyraźnie jesteś suboptymalny, nawet jeśli nie przegrywasz w oczekiwaniu. To ma szczególne znaczenie w grze takiej jak poker, ponieważ granie minimax oznacza, że możesz nie zarobić tyle pieniędzy na słabych graczach, ile mógłbyś, gdybyś maksymalnie ich wykorzystywał. Ale gwarancja "nie przegrasz w oczekiwaniu" jest naprawdę miła do posiadania. A w grach takich jak Szachy i Go różnica między strategią minimax a strategią, która optymalnie wykorzystuje populację przeciwników, jest znikoma. Z tego powodu minimax jest zazwyczaj uważany za cel w dwuosobowej grze o sumie zerowej. Nawet w pokerze, konwencjonalna mądrość wśród najlepszych profesjonalistów to grać minimax (optymalnie z teorii gier), a następnie tylko odchodzić od tego, jeśli dostrzegasz wyraźne słabości u przeciwnika. Dobrze zorganizowana samodzielna gra, nawet od podstaw, gwarantuje zbieżność do równowagi minimax w skończonych grach 2p0s. To niesamowite! Po prostu skalując pamięć i obliczenia, i bez danych od ludzi, możemy zbiegać do strategii, która jest niepokonana w oczekiwaniu. A co z grami nie-2p0s? Niestety, czysta samodzielna gra, bez danych od ludzi, nie jest już gwarantowana, aby zbiegać do użytecznej strategii. Można to wyraźnie zobaczyć w Grze Ultimatum. Alice musi zaoferować Bobowi $0-100. Bob następnie akceptuje lub odrzuca. Jeśli Bob zaakceptuje, pieniądze są dzielone zgodnie z propozycją Alice. Jeśli Bob odrzuci, oboje otrzymują $0. Równowaga (konkretnie, równowaga doskonała w podgrach) strategii polega na zaoferowaniu 1 grosza i na tym, że Bob akceptuje. Ale w rzeczywistym świecie ludzie nie są tacy racjonalni. Jeśli Alice spróbowałaby tej strategii z prawdziwymi ludźmi, skończyłaby z bardzo małą ilością pieniędzy. Samodzielna gra staje się odłączona od tego, co my jako ludzie uważamy za użyteczne. Wielu ludzi zaproponowało gry takie jak "nauczyciel LLM proponuje trudne problemy matematyczne, a student LLM próbuje je rozwiązać", aby osiągnąć trening samodzielnej gry, ale napotyka to podobne problemy jak gra Ultimatum, gdzie równowaga jest odłączona od tego, co my jako ludzie uważamy za użyteczne. Jaka powinna być nagroda dla nauczyciela w takiej grze? Jeśli to 2p0s, to nauczyciel jest nagradzany, jeśli student nie mógł rozwiązać problemu, więc nauczyciel będzie stawiał niemożliwe problemy. Dobrze, a co jeśli nagradzamy go za to, że student ma 50% wskaźnik sukcesu? Wtedy nauczyciel mógłby po prostu rzucić monetą i zapytać studenta, czy wylądowała na orzełku. Albo nauczyciel mógłby poprosić studenta o odszyfrowanie wiadomości poprzez wyczerpujące przeszukiwanie kluczy. Kształtowanie nagród w celu osiągnięcia zamierzonego zachowania staje się dużym wyzwaniem. To nie jest problem w grach 2p0s. Wierzę w samodzielną grę. Zapewnia ona nieskończone źródło treningu i ciągle dopasowuje agenta z równorzędnym rówieśnikiem. Widzieliśmy również, że działa w niektórych złożonych ustawieniach nie-2p0s, takich jak Dyplomacja i Hanabi. Ale zastosowanie jej poza grami 2p0s jest znacznie trudniejsze niż w przypadku Go, Pokera, Dota i Starcraft.