以下是对自我对弈为何在像围棋/扑克/星际争霸这样的两人零和(2p0s)游戏中有效,但在“现实世界”领域中使用起来却困难得多的深入分析。简而言之:自我对弈在2p0s游戏中收敛到极小极大值,而极小极大值在这些游戏中非常有用。 每个有限的2p0s游戏都有一个极小极大值均衡,这本质上是在期望上不可战胜的策略(假设玩家轮流选择)。例如,在石头剪子布中,极小极大值是每个动作的1/3。 极小极大值是我们想要的吗?不一定。如果你在石头剪子布中使用极小极大值,而大多数对手的策略是“总是出石头”,那么你显然是次优的,即使在期望上你没有输。这在像扑克这样的游戏中尤其重要,因为使用极小极大值意味着你可能无法从弱玩家那里赚到尽可能多的钱。 但“你在期望上不会输”的保证是非常好的。在像国际象棋和围棋这样的游戏中,极小极大值策略与最优利用对手群体的策略之间的差异微不足道。因此,极小极大值通常被认为是两人零和游戏的目标。即使在扑克中,顶级职业玩家的传统智慧也是玩极小极大值(博弈论最优),然后只有在发现对手明显弱点时才偏离。 即使从零开始,合理的自我对弈也保证在有限的2p0s游戏中收敛到极小极大值均衡。这太棒了!通过简单地扩展内存和计算能力,并且没有人类数据,我们可以收敛到一个在期望上不可战胜的策略。 那么非2p0s游戏呢?可悲的是,纯自我对弈,没有人类数据,不再保证收敛到有用的策略。这在最后通牒游戏中可以清楚地看到。爱丽丝必须给鲍勃提供$0-100。然后鲍勃接受或拒绝。如果鲍勃接受,钱将根据爱丽丝的提议进行分配。如果鲍勃拒绝,两人都将得到$0。 均衡(具体来说,子博弈完美均衡)策略是提供1美分并让鲍勃接受。但在现实世界中,人们并不是那么理性。如果爱丽丝试图用这种策略与真实的人类互动,她最终会得到很少的钱。自我对弈与我们人类认为有用的东西脱节。 很多人提出了像“一个LLM老师提出困难的数学问题,而一个学生LLM尝试解决它们”这样的游戏来实现自我对弈训练,但这与最后通牒游戏遇到类似的问题,即均衡与我们人类认为有用的东西脱节。 在这样的游戏中,老师的奖励应该是什么?如果是2p0s,那么如果学生无法解决问题,老师就会获得奖励,因此老师会提出不可能的问题。好吧,如果我们奖励学生有50%的成功率呢?那么老师可以随便掷硬币,问学生是否是正面。或者老师可以要求学生通过穷举密钥搜索来解密一条消息。为了实现预期行为而进行的奖励塑造成为一个重大挑战。这在2p0s游戏中不是问题。 我确实相信自我对弈。它提供了无限的训练来源,并且不断将代理与同等技能的对手匹配。我们也看到它在一些复杂的非2p0s环境中有效,如外交和汉诺塔。但在2p0s游戏之外应用它比在围棋、扑克、Dota和星际争霸中要困难得多。