Nedenfor er et dypdykk i hvorfor selvspill fungerer for to-spillers nullsumspill (2p0s) som Go/Poker/Starcraft, men er så mye vanskeligere å bruke i "virkelige verden"-domener. Tl; DR: Selvspill konvergerer til Minimax i 2P0S-spill, og Minimax er veldig nyttig i disse spillene. Hvert begrenset 2p0s-spill har en minimax-likevekt, som i hovedsak er en uslåelig strategi i forventning (forutsatt at spillerne bytter side). I steinpapirsaks, for eksempel, er minimax 1/3 på hver handling. Er minimax det vi ønsker? Ikke nødvendigvis. Hvis du spiller minimax i Rock Paper Scissors når de fleste motstandernes strategier er "alltid kaste stein", er du helt klart suboptimal, selv om du ikke taper i forventning. Dette er spesielt viktig i et spill som poker fordi å spille minimax betyr at du kanskje ikke tjener så mye penger på svake spillere som du kunne hvis du utnyttet dem maksimalt. Men garantien om "du vil ikke tape i forventning" er veldig fin å ha. Og i spill som Chess and Go er forskjellen mellom en minimax-strategi og en strategi som optimalt utnytter motstanderpopulasjonen ubetydelig. Av den grunn regnes minimax vanligvis som målet for et nullsumspill for to spillere. Selv i poker er den konvensjonelle visdommen blant toppproffer å spille minimax (spillteori optimal) og deretter bare avvike hvis du oppdager klare svakheter hos motstanderen. Godt selvspill, selv fra bunnen av, vil garantert konvergere til en minimax-likevekt i endelige 2p0s-spill. Det er utrolig! Ved ganske enkelt å skalere minne og databehandling, og uten menneskelige data, kan vi konvergere til en strategi som er uslåelig i forventning. Hva med ikke-2p0s-spill? Dessverre er det ikke lenger garantert at ren selvlek, uten menneskelige data, konvergerer til en nyttig strategi. Dette kan tydelig sees i Ultimatum-spillet. Alice må tilby Bob $0-100. Bob aksepterer eller avviser deretter. Hvis Bob aksepterer, deles pengene i henhold til Alices forslag. Hvis Bob avviser, mottar begge $0. Likevektsstrategien (nærmere bestemt underspillet perfekt likevekt) er å tilby 1 penny og for Bob å akseptere. Men i den virkelige verden er ikke folk så rasjonelle. Hvis Alice skulle prøve den strategien med ekte mennesker, ville hun ende opp med veldig lite penger. Selvlek blir løsrevet fra det vi som mennesker finner nyttig. Mange mennesker har foreslått spill som "en LLM-lærer foreslår vanskelige matematiske problemer, og en student LLM prøver å løse dem" for å oppnå selvspilltrening, men dette støter på lignende problemer som Ultimatum-spillet der likevekten er løsrevet fra det vi som mennesker finner nyttig. Hva bør belønningen for læreren være i et slikt spill? Hvis det er 2p0s, blir læreren belønnet hvis eleven ikke kunne løse problemet, så læreren vil stille umulige problemer. Ok, hva om vi belønner det for at studenten har en suksessrate på 50 %? Så kunne læreren bare kaste en mynt og spørre eleven om den landet Heads. Eller læreren kan be eleven om å dekryptere en melding via et uttømmende nøkkelsøk. Belønningsforming for å oppnå tiltenkt atferd blir en stor utfordring. Dette er ikke et problem i 2p0s-spill. Jeg tror på selvlek. Det gir en uendelig kilde til opplæring, og det matcher kontinuerlig en agent med en like dyktig kollega. Vi har også sett det fungere i noen komplekse ikke-2p0-settinger som diplomati og hanabi. Men å bruke det utenfor 2p0s-spill er mye vanskeligere enn det var for Go, Poker, Dota og Starcraft.