トレンドトピック
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
以下は、セルフプレイが囲碁/ポーカー/スタークラフトなどの 2 人用ゼロサム (2p0) ゲームでは機能するが、「現実世界」の領域では使用が非常に難しい理由を深く掘り下げたものです。tl;DR: セルフプレイは 2P0 のゲームではミニマックスに収束し、ミニマックスはそれらのゲームで非常に役立ちます。
すべての有限の 2p0 ゲームにはミニマックス均衡があり、これは基本的に無敵の戦略です (プレイヤーが交互に陣営すると仮定します)。たとえば、じゃんけんでは、ミニマックスは各アクションの 1/3 です。
ミニマックスは私たちが望むものですか?強ち。ほとんどの対戦相手の戦略が「常にロックを投げる」のときにじゃんけんでミニマックスをプレイしている場合、期待に負けていないにもかかわらず、明らかに最適ではありません。これは、ポーカーのようなゲームでは特に重要であり、ミニマックスをプレイすると、弱いプレイヤーを最大限に活用した場合ほど多くのお金を稼ぐことができない可能性があるためです。
でも「期待に負けない」という保証があるのは本当に嬉しいですね。そして、チェスや囲碁のようなゲームでは、ミニマックス戦略と対戦相手の人口を最適に利用する戦略の違いはごくわずかです。そのため、ミニマックスは通常、2 人プレイのゼロサム ゲームの目標と見なされます。ポーカーでも、トッププロの通念はミニマックス(ゲーム理論最適)をプレイし、相手の明確な弱点を見つけた場合にのみ逸脱することです。
健全なセルフプレイは、ゼロからであっても、有限の 2p0 ゲームではミニマックス均衡に収束することが保証されています。すごいですね!メモリとコンピューティングをスケーリングするだけで、人間のデータなしで、期待に値しない戦略に収束できます。
2p0 以外のゲームはどうですか?悲しいことに、人間のデータのない純粋なセルフプレイは、もはや有用な戦略に収束することが保証されていません。これは最後通告ゲームでもよく分かる。アリスはボブに0ドルから100ドルを提示する必要があります。その後、ボブは受け入れるか拒否します。ご飯が受け入れると、アリスの提案に従ってお金が分割されます。Bob が拒否した場合、両方とも $0 を受け取ります。
均衡(具体的にはサブゲーム完全均衡)戦略は、1ペニーを提供し、ボブが受け入れることです。しかし、現実の世界では、人々はそれほど合理的ではありません。アリスが本物の人間にその戦略を試すとしたら、彼女はほとんどお金を手に入れることになるでしょう。セルフプレイは、私たち人間が有用だと考えるものから解放されます。
多くの人が、セルフプレイトレーニングを実現するために「LLMの教師が難しい数学の問題を提案し、学生のLLMがそれを解こうとする」などのゲームを提案してきましたが、これは、バランスが私たち人間が有用だと考えるものから解放される最後通牒ゲームと同様の問題に遭遇します。
そのようなゲームでは、教師への報酬は何であるべきですか?2p0の場合、生徒が問題を解決できなかった場合、教師は報酬を得るため、教師は不可能な問題を提起します。さて、成功率が50%の生徒に報酬を与えたらどうなるでしょうか?その後、教師はコインを投げて、それが頭が着地したかどうかを生徒に尋ねることができます。または、教師は生徒に、徹底的なキー検索を通じてメッセージを復号化するように依頼することもできます。意図した行動を達成するための報酬形成は大きな課題になります。これは 2p0 ゲームでは問題になりません。
私はセルフプレイを信じています。これは無限のトレーニングソースを提供し、エージェントを同等のスキルを持つ仲間と継続的にマッチングします。また、Diplomacy や Hanabi などの複雑な非 2p0 設定でも機能するのを見てきました。しかし、2p0 ゲーム以外でそれを適用するのは、囲碁、ポーカー、Dota、スタークラフトの場合よりもはるかに困難です。

トップ
ランキング
お気に入り