A continuación, se presenta un análisis profundo de por qué el autojuego funciona para juegos de suma cero de dos jugadores (2p0s) como Go/Póker/Starcraft, pero es mucho más difícil de usar en dominios del "mundo real". Resumen: el autojuego converge a minimax en juegos 2p0s, y minimax es realmente útil en esos juegos. Cada juego finito 2p0s tiene un equilibrio minimax, que es esencialmente una estrategia imbatible en expectativa (suponiendo que los jugadores alternen lados). En piedra, papel o tijera, por ejemplo, minimax es 1/3 en cada acción. ¿Es minimax lo que queremos? No necesariamente. Si estás jugando minimax en Piedra, Papel o Tijera cuando la mayoría de las estrategias de los oponentes son "siempre lanzar Piedra", entonces claramente estás en una posición subóptima, aunque no estés perdiendo en expectativa. Esto es especialmente importante en un juego como el póker porque jugar minimax significa que podrías no ganar tanto dinero de los jugadores débiles como podrías si los explotaras al máximo. Pero la garantía de "no perderás en expectativa" es realmente agradable de tener. Y en juegos como el Ajedrez y Go, la diferencia entre una estrategia minimax y una estrategia que explota óptimamente a la población de oponentes es negligible. Por esa razón, minimax se considera típicamente el objetivo para un juego de suma cero de dos jugadores. Incluso en póker, la sabiduría convencional entre los mejores profesionales es jugar minimax (teoría de juegos óptima) y luego solo desviarse si detectas debilidades claras en el oponente. El autojuego sólido, incluso desde cero, está garantizado para converger a un equilibrio minimax en juegos finitos 2p0s. ¡Eso es asombroso! Simplemente escalando la memoria y el cómputo, y sin datos humanos, podemos converger a una estrategia que es imbatible en expectativa. ¿Qué pasa con los juegos no 2p0s? Lamentablemente, el autojuego puro, sin datos humanos, ya no está garantizado para converger a una estrategia útil. Esto se puede ver claramente en el Juego del Ultimátum. Alice debe ofrecer a Bob $0-100. Bob luego acepta o rechaza. Si Bob acepta, el dinero se divide de acuerdo con la propuesta de Alice. Si Bob rechaza, ambos reciben $0. La estrategia de equilibrio (específicamente, el equilibrio perfecto en subjuegos) es ofrecer 1 centavo y que Bob acepte. Pero en el mundo real, las personas no son tan racionales. Si Alice intentara esa estrategia con humanos reales, terminaría con muy poco dinero. El autojuego se desvincula de lo que nosotros, como humanos, consideramos útil. Muchos han propuesto juegos como "un profesor LLM propone problemas matemáticos difíciles, y un estudiante LLM intenta resolverlos" para lograr un entrenamiento de autojuego, pero esto enfrenta problemas similares al juego del ultimátum donde el equilibrio está desvinculado de lo que nosotros, como humanos, consideramos útil. ¿Cuál debería ser la recompensa para el profesor en tal juego? Si es 2p0s, entonces el profesor es recompensado si el estudiante no pudo resolver el problema, por lo que el profesor planteará problemas imposibles. Bien, ¿qué pasa si lo recompensamos por tener una tasa de éxito del 50%? Entonces el profesor podría simplemente lanzar una moneda y preguntar al estudiante si cayó en cara. O el profesor podría pedir al estudiante que descifre un mensaje mediante una búsqueda exhaustiva de claves. La modelación de recompensas para lograr el comportamiento deseado se convierte en un gran desafío. Este no es un problema en juegos 2p0s. Creo en el autojuego. Proporciona una fuente infinita de entrenamiento y empareja continuamente a un agente con un par de habilidades iguales. También hemos visto que funciona en algunos entornos complejos no 2p0s como Diplomacia y Hanabi. Pero aplicarlo fuera de los juegos 2p0s es mucho más difícil de lo que fue para Go, Póker, Dota y Starcraft.