自我對弈在棋類、圍棋和撲克中運作得如此良好,因為這些遊戲是雙人零和遊戲。這簡化了許多問題。現實世界則更為複雜,這就是為什麼我們尚未在大型語言模型中看到自我對弈的許多成功。 順便提一下,@karpathy 表現得很好,我大部分時間都同意他的看法!