Hieronder volgt een diepgaande analyse van waarom zelfspel werkt voor twee-speler nul-som (2p0s) spellen zoals Go/Poker/Starcraft, maar veel moeilijker te gebruiken is in "echte wereld" domeinen. tl;dr: zelfspel convergeert naar minimax in 2p0s spellen, en minimax is echt nuttig in die spellen. Elk eindig 2p0s spel heeft een minimax evenwicht, wat in wezen een onverslaanbare strategie in verwachting is (ervan uitgaande dat de spelers van kant wisselen). In steen, papier, schaar is minimax bijvoorbeeld 1/3 op elke actie. Is minimax wat we willen? Niet noodzakelijk. Als je minimax speelt in Steen Papier Schaar terwijl de meeste tegenstanders' strategieën "altijd Steen gooien" zijn, dan ben je duidelijk suboptimaal, ook al verlies je niet in verwachting. Dit is vooral belangrijk in een spel zoals poker, omdat het spelen van minimax betekent dat je misschien niet zoveel geld verdient van zwakke spelers als je zou kunnen als je ze maximaal zou exploiteren. Maar de garantie van "je zult niet verliezen in verwachting" is echt fijn om te hebben. En in spellen zoals Schaken en Go is het verschil tussen een minimax strategie en een strategie die optimaal de populatie van tegenstanders exploiteert verwaarloosbaar. Om die reden wordt minimax doorgaans beschouwd als het doel voor een twee-speler nul-som spel. Zelfs in poker is de conventionele wijsheid onder topprofessionals om minimax (game theory optimal) te spelen en alleen af te wijken als je duidelijke zwaktes bij de tegenstander ziet. Gezond zelfspel, zelfs vanaf nul, is gegarandeerd om te convergeren naar een minimax evenwicht in eindige 2p0s spellen. Dat is geweldig! Door simpelweg geheugen en rekenkracht te schalen, en zonder menselijke data, kunnen we convergeren naar een strategie die onverslaanbaar is in verwachting. Wat betreft niet-2p0s spellen? Helaas, puur zelfspel, zonder menselijke data, is niet langer gegarandeerd om te convergeren naar een nuttige strategie. Dit is duidelijk te zien in het Ultimatumspel. Alice moet Bob $0-100 aanbieden. Bob accepteert of weigert dan. Als Bob accepteert, wordt het geld verdeeld volgens Alice's voorstel. Als Bob weigert, ontvangen beiden $0. De evenwichtstrategie (specifiek, subgame perfect evenwicht) is om 1 cent aan te bieden en voor Bob om te accepteren. Maar in de echte wereld zijn mensen niet zo rationeel. Als Alice die strategie met echte mensen zou proberen, zou ze eindigen met heel weinig geld. Zelfspel raakt los van wat wij als mensen nuttig vinden. Veel mensen hebben spellen voorgesteld zoals "een LLM-docent stelt moeilijke wiskundeproblemen voor, en een student LLM probeert ze op te lossen" om zelfspeltraining te bereiken, maar dit loopt tegen vergelijkbare problemen aan als het Ultimatumspel waar het evenwicht losgekoppeld is van wat wij als mensen nuttig vinden. Wat zou de beloning voor de docent moeten zijn in zo'n spel? Als het 2p0s is, dan wordt de docent beloond als de student het probleem niet kon oplossen, dus de docent zal onmogelijke problemen stellen. Oké, wat als we het belonen voor de student met een succespercentage van 50%? Dan zou de docent gewoon een munt kunnen opgooien en de student kunnen vragen of het op Kop is gevallen. Of de docent zou de student kunnen vragen om een bericht te ontcijferen via een uitputtende sleutelzoektocht. Beloningsvormgeving om het bedoelde gedrag te bereiken wordt een grote uitdaging. Dit is geen probleem in 2p0s spellen. Ik geloof echt in zelfspel. Het biedt een oneindige bron van training, en het matcht continu een agent met een even vaardige gelijke. We hebben ook gezien dat het werkt in enkele complexe niet-2p0s instellingen zoals Diplomacy en Hanabi. Maar het toepassen ervan buiten 2p0s spellen is veel moeilijker dan het was voor Go, Poker, Dota en Starcraft.