Mai jos este o scufundare profundă în motivul pentru care jocul propriu funcționează pentru jocurile cu sumă zero (2p0) cu doi jucători, cum ar fi Go/Poker/Starcraft, dar este mult mai greu de utilizat în domeniile "lumii reale". Tl; DR: Self-play converge la minimax în jocurile 2p0s, iar minimax este foarte util în acele jocuri. Fiecare joc finit de 2p0 are un echilibru minimax, care este în esență o strategie imbatabilă în așteptare (presupunând că jucătorii alternează tabăra). În foarfecele de hârtie de piatră, de exemplu, minimaxul este de 1/3 pe fiecare acțiune. Este minimax ceea ce ne dorim? Nu neapărat. Dacă joci minimax în Rock Paper Scissors când majoritatea strategiilor adversarilor sunt "aruncă întotdeauna piatra", atunci ești clar suboptim, chiar dacă nu pierzi în așteptări. Acest lucru contează mai ales într-un joc precum pokerul, deoarece jocul minimax înseamnă că s-ar putea să nu câștigi atât de mulți bani de pe urma jucătorilor slabi ca dacă i-ai exploata la maximum. Dar garanția de "nu vei pierde în așteptări" este foarte plăcută de avut. Iar în jocuri precum Chess and Go, diferența dintre o strategie minimax și o strategie care exploatează în mod optim populația de adversari este neglijabilă. Din acest motiv, minimax este de obicei considerat obiectivul pentru un joc cu sumă zero cu doi jucători. Chiar și în poker, înțelepciunea convențională printre profesioniștii de top este să joci minimax (teoria jocului optimă) și apoi să deviezi doar dacă observi slăbiciuni clare la adversar. Sunetul auto-jocului, chiar și de la zero, este garantat să convergă către un echilibru minimax în jocurile finite 2p0s. Este uimitor! Prin simpla scalare a memoriei și a calculului și fără date umane, putem converge către o strategie care este imbatabilă în așteptări. Dar jocurile non-2p0s? Din păcate, jocul de sine pur, fără date umane, nu mai este garantat să convergă către o strategie utilă. Acest lucru poate fi văzut clar în jocul Ultimatum. Alice trebuie să-i ofere lui Bob 0-100 $. Bob acceptă sau respinge apoi. Dacă Bob acceptă, banii sunt împărțiți conform propunerii lui Alice. Dacă Bob respinge, ambii primesc $0. Strategia de echilibru (în special, echilibrul perfect al subjocului) este de a oferi 1 ban și pentru Bob să accepte. Dar în lumea reală, oamenii nu sunt atât de raționali. Dacă Alice ar încerca această strategie cu oameni adevărați, ar sfârși cu foarte puțini bani. Jocul de sine devine desprins de ceea ce noi, ca oameni, găsim util. O mulțime de oameni au propus jocuri precum "un profesor de LLM propune probleme dificile de matematică, iar un elev LLM încearcă să le rezolve" pentru a obține antrenament de auto-joc, dar acest lucru se lovește de probleme similare cu jocul Ultimatum, unde echilibrul este liber de ceea ce noi, ca oameni, găsim util. Care ar trebui să fie recompensa pentru profesor într-un astfel de joc? Dacă este 2p0s, atunci profesorul este recompensat dacă elevul nu a putut rezolva problema, așa că profesorul va pune probleme imposibile. Bine, ce se întâmplă dacă îl recompensam pentru că elevul are o rată de succes de 50%? Apoi profesorul putea arunca o monedă și să-l întrebe pe elev dacă aterizează Capete. Sau profesorul ar putea cere elevului să decripteze un mesaj printr-o căutare exhaustivă a cheilor. Modelarea recompensei pentru a atinge comportamentul intenționat devine o provocare majoră. Aceasta nu este o problemă în jocurile 2p0s. Cred în jocul de sine. Oferă o sursă infinită de instruire și potrivește continuu un agent cu un coleg la fel de calificat. Am văzut că funcționează și în unele setări complexe non-2p0, cum ar fi Diplomacy și Hanabi. Dar aplicarea în afara jocurilor 2p0s este mult mai dificilă decât a fost pentru Go, Poker, Dota și Starcraft.