DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Abaixo está um mergulho profundo em por que o auto-jogo funciona para jogos de soma zero (2p0s) para dois jogadores, como Go / Poker / Starcraft, mas é muito mais difícil de usar em domínios do "mundo real". Tl; dr: o jogo próprio converge para o minimax em jogos 2p0s, e o minimax é realmente útil nesses jogos. Todo jogo finito de 2p0s tem um equilíbrio minimax, que é essencialmente uma estratégia imbatível na expectativa (assumindo que os jogadores alternem os lados). Em pedra, papel, tesoura, por exemplo, minimax é 1/3 em cada ação. Minimax é o que queremos? Não necessariamente. Se você está jogando minimax em Rock Paper Scissors quando as estratégias da maioria dos oponentes são "sempre jogue Rock", então você está claramente abaixo do ideal, mesmo que não esteja perdendo na expectativa. Isso é especialmente importante em um jogo como o pôquer, porque jogar minimax significa que você pode não ganhar tanto dinheiro com jogadores fracos quanto poderia se os explorasse ao máximo. Mas a garantia de "você não vai perder na expectativa" é muito bom de se ter. E em jogos como Xadrez e Go, a diferença entre uma estratégia minimax e uma estratégia que explora de forma otimizada a população de oponentes é insignificante. Por esse motivo, o minimax é normalmente considerado o objetivo de um jogo de soma zero para dois jogadores. Mesmo no pôquer, a sabedoria convencional entre os melhores profissionais é jogar minimax (teoria do jogo ideal) e só se desviar se você detectar fraquezas claras no oponente. O auto-jogo sólido, mesmo do zero, é garantido para convergir para um equilíbrio minimax em jogos finitos de 2p0s. Isso é incrível! Simplesmente dimensionando a memória e a computação, e sem dados humanos, podemos convergir para uma estratégia imbatível em expectativa. E os jogos não-2p0s? Infelizmente, o puro jogo pessoal, sem dados humanos, não é mais garantido que convirja para uma estratégia útil. Isso pode ser visto claramente no Jogo do Ultimato. Alice deve oferecer a Bob $ 0-100. Bob então aceita ou rejeita. Se Bob aceitar, o dinheiro é dividido de acordo com a proposta de Alice. Se Bob rejeitar, ambos recebem $ 0. A estratégia de equilíbrio (especificamente, equilíbrio perfeito do subjogo) é oferecer 1 centavo e para Bob aceitar. Mas no mundo real, as pessoas não são tão racionais. Se Alice tentasse essa estratégia com humanos reais, ela acabaria com muito pouco dinheiro. O auto-jogo se desvincula do que nós, como humanos, achamos útil. Muitas pessoas propuseram jogos como "um professor de LLM propõe problemas difíceis de matemática e um aluno LLM tenta resolvê-los" para obter o treinamento de auto-jogo, mas isso se depara com problemas semelhantes aos do jogo Ultimatum, onde o equilíbrio é desvinculado do que nós, como humanos, achamos útil. Qual deve ser a recompensa para o professor em tal jogo? Se for 2p0s, o professor é recompensado se o aluno não conseguir resolver o problema, então o professor apresentará problemas impossíveis. Ok, e se recompensarmos o aluno com uma taxa de sucesso de 50%? Então o professor poderia simplesmente jogar uma moeda e perguntar ao aluno se ela deu cara. Ou o professor pode pedir ao aluno para descriptografar uma mensagem por meio de uma pesquisa exaustiva de chaves. A modelagem de recompensas para alcançar o comportamento pretendido torna-se um grande desafio. Isso não é um problema em jogos 2p0s. Eu acredito em auto-jogo. Ele fornece uma fonte infinita de treinamento e combina continuamente um agente com um colega igualmente habilidoso. Também vimos isso funcionar em algumas configurações complexas não 2p0s, como Diplomacia e Hanabi. Mas aplicá-lo fora dos jogos 2p0s é muito mais difícil do que era para Go, Poker, Dota e Starcraft.

Melhores

Classificação

Favoritos