自我对弈在国际象棋、围棋和扑克中效果很好,因为这些游戏是双人零和游戏。这简化了很多问题。现实世界更复杂,这就是为什么我们在大型语言模型(LLMs)中还没有看到自我对弈的许多成功。 顺便说一下,@karpathy 表现得很好,我大部分时间都同意他的观点!