Di seguito è un'analisi approfondita su perché il self play funziona per i giochi a somma zero a due giocatori (2p0s) come Go/Poker/Starcraft, ma è molto più difficile da utilizzare nei domini "reali". tl;dr: il self play converge al minimax nei giochi 2p0s e il minimax è davvero utile in quei giochi. Ogni gioco 2p0s finito ha un equilibrio minimax, che è essenzialmente una strategia imbattibile in aspettativa (supponendo che i giocatori alternino i lati). In carta forbice sasso, ad esempio, il minimax è 1/3 su ciascuna azione. È il minimax ciò che vogliamo? Non necessariamente. Se stai giocando minimax a Carta Forbice Sasso quando la maggior parte delle strategie degli avversari è "lancia sempre Sasso", allora sei chiaramente subottimale, anche se non stai perdendo in aspettativa. Questo è particolarmente importante in un gioco come il poker, perché giocare minimax significa che potresti non guadagnare tanto denaro dai giocatori deboli quanto potresti se li sfruttassi al massimo. Ma la garanzia di "non perderai in aspettativa" è davvero piacevole da avere. E in giochi come Scacchi e Go, la differenza tra una strategia minimax e una strategia che sfrutta ottimamente la popolazione di avversari è trascurabile. Per questo motivo, il minimax è generalmente considerato l'obiettivo per un gioco a somma zero a due giocatori. Anche nel poker, la saggezza convenzionale tra i migliori professionisti è di giocare minimax (teoria dei giochi ottimale) e poi deviare solo se noti chiare debolezze nell'avversario. Il self play solido, anche da zero, è garantito per convergere a un equilibrio minimax nei giochi 2p0s finiti. È incredibile! Semplicemente scalando memoria e calcolo, e senza dati umani, possiamo convergere a una strategia che è imbattibile in aspettativa. E per i giochi non 2p0s? Purtroppo, il puro self play, senza dati umani, non è più garantito per convergere a una strategia utile. Questo può essere chiaramente visto nel Gioco dell'Ultimatum. Alice deve offrire a Bob $0-100. Bob poi accetta o rifiuta. Se Bob accetta, il denaro viene diviso secondo la proposta di Alice. Se Bob rifiuta, entrambi ricevono $0. La strategia di equilibrio (specificamente, equilibrio perfetto nei sottogiochi) è offrire 1 centesimo e per Bob accettare. Ma nel mondo reale, le persone non sono così razionali. Se Alice provasse quella strategia con esseri umani reali, finirebbe con molto poco denaro. Il self play diventa scollegato da ciò che noi come esseri umani troviamo utile. Molti hanno proposto giochi come "un insegnante LLM propone problemi matematici difficili, e uno studente LLM cerca di risolverli" per raggiungere un addestramento di self-play, ma questo incontra problemi simili a quelli del gioco dell'ultimatum dove l'equilibrio è scollegato da ciò che noi come esseri umani troviamo utile. Quale dovrebbe essere la ricompensa per l'insegnante in un tale gioco? Se è 2p0s, allora l'insegnante è ricompensato se lo studente non riesce a risolvere il problema, quindi l'insegnante porrà problemi impossibili. Va bene, e se lo ricompensiamo per avere una percentuale di successo del 50%? Allora l'insegnante potrebbe semplicemente lanciare una moneta e chiedere allo studente se è uscito Testa. Oppure l'insegnante potrebbe chiedere allo studente di decrittare un messaggio tramite una ricerca esaustiva della chiave. La modellazione della ricompensa per ottenere il comportamento desiderato diventa una grande sfida. Questo non è un problema nei giochi 2p0s. Credo nel self play. Fornisce una fonte infinita di addestramento e abbina continuamente un agente con un pari di pari abilità. Abbiamo anche visto funzionare in alcuni contesti complessi non 2p0s come Diplomacy e Hanabi. Ma applicarlo al di fuori dei giochi 2p0s è molto più difficile di quanto non fosse per Go, Poker, Dota e Starcraft.