熱門話題
#
Bonk 生態迷因幣展現強韌勢頭
#
有消息稱 Pump.fun 計劃 40 億估值發幣,引發市場猜測
#
Solana 新代幣發射平臺 Boop.Fun 風頭正勁
以下是深入探討為什麼自我對弈在像圍棋/撲克/星際爭霸這樣的兩人零和(2p0s)遊戲中有效,但在「現實世界」領域中卻難以使用的原因。簡而言之:自我對弈在2p0s遊戲中收斂到最小最大值,而最小最大值在這些遊戲中非常有用。
每個有限的2p0s遊戲都有一個最小最大值均衡,這本質上是一種在期望上無法被擊敗的策略(假設玩家交替出牌)。例如,在石頭剪刀布中,最小最大值在每個行動上都是1/3。
最小最大值是我們想要的嗎?不一定。如果你在石頭剪刀布中使用最小最大值,而大多數對手的策略是「總是出石頭」,那麼你顯然是次優的,即使你在期望上不會輸。這在撲克這樣的遊戲中特別重要,因為使用最小最大值意味著你可能無法從弱玩家那裡獲得你本可以最大化的利潤。
但「你不會在期望上輸」的保證是非常好的。在像國際象棋和圍棋這樣的遊戲中,最小最大值策略和最佳利用對手群體的策略之間的差異微不足道。因此,最小最大值通常被認為是兩人零和遊戲的目標。即使在撲克中,頂尖專業人士的傳統智慧也是玩最小最大值(遊戲理論最佳),然後只有在發現對手明顯弱點時才偏離。
即使從零開始,健全的自我對弈也保證在有限的2p0s遊戲中收斂到最小最大值均衡。這真是太棒了!只需擴展記憶體和計算能力,並且不需要人類數據,我們就能收斂到一種在期望上無法被擊敗的策略。
那麼非2p0s遊戲呢?可悲的是,純自我對弈,沒有任何人類數據,已不再保證收斂到有用的策略。這在最後通牒遊戲中可以清楚地看到。愛麗絲必須給鮑勃提供$0-100。然後鮑勃接受或拒絕。如果鮑勃接受,則根據愛麗絲的提議分配金錢。如果鮑勃拒絕,則兩人都獲得$0。
均衡(具體來說,子遊戲完美均衡)策略是提供1美分,然後鮑勃接受。但在現實世界中,人們並不是這麼理性。如果愛麗絲試圖用這種策略與真實人類互動,她將會得到很少的錢。自我對弈變得與我們人類認為有用的東西脫節。
許多人提出了像「一個LLM老師提出困難的數學問題,而一個學生LLM試圖解決它們」這樣的遊戲來實現自我對弈訓練,但這與最後通牒遊戲面臨類似的問題,即均衡與我們人類認為有用的東西脫節。
在這樣的遊戲中,老師的獎勵應該是什麼?如果是2p0s,那麼如果學生無法解決問題,老師就會獲得獎勵,因此老師會提出不可能的問題。好吧,如果我們根據學生的成功率為50%來獎勵呢?那麼老師可以隨便擲硬幣,問學生是否是正面。或者老師可以要求學生通過穷举密钥搜索來解密一條消息。為了實現預期行為而進行獎勵塑造成為一個主要挑戰。在2p0s遊戲中這不是問題。
我確實相信自我對弈。它提供了無限的訓練來源,並且不斷將代理與同等技能的對手匹配。我們也看到它在一些複雜的非2p0s環境中有效,如外交和花火。但在2p0s遊戲之外應用它比在圍棋、撲克、Dota和星際爭霸中要困難得多。

熱門
排行
收藏