Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Im Folgenden wird erläutert, warum Selbstspiel bei Zwei-Spieler-Nullsummenspielen (2p0s) wie Go/Poker/Starcraft funktioniert, aber in "realen" Bereichen viel schwieriger anzuwenden ist. tl;dr: Selbstspiel konvergiert zu Minimax in 2p0s-Spielen, und Minimax ist in diesen Spielen wirklich nützlich.
Jedes endliche 2p0s-Spiel hat ein Minimax-Gleichgewicht, das im Wesentlichen eine unschlagbare Strategie in der Erwartung darstellt (vorausgesetzt, die Spieler wechseln die Seiten). Bei Schere, Stein, Papier ist Minimax beispielsweise 1/3 für jede Aktion.
Ist Minimax das, was wir wollen? Nicht unbedingt. Wenn du Minimax in Schere, Stein, Papier spielst, während die meisten Gegnerstrategien "immer Stein werfen" sind, bist du eindeutig suboptimal, auch wenn du in der Erwartung nicht verlierst. Das ist besonders wichtig in einem Spiel wie Poker, denn Minimax zu spielen bedeutet, dass du möglicherweise nicht so viel Geld von schwachen Spielern verdienen kannst, wie du es könntest, wenn du sie maximal ausnutzen würdest.
Aber die Garantie, dass "du in der Erwartung nicht verlieren wirst", ist wirklich schön zu haben. Und in Spielen wie Schach und Go ist der Unterschied zwischen einer Minimax-Strategie und einer Strategie, die die Bevölkerung der Gegner optimal ausnutzt, vernachlässigbar. Aus diesem Grund wird Minimax typischerweise als das Ziel für ein Zwei-Spieler-Nullsummenspiel angesehen. Selbst im Poker ist die allgemeine Weisheit unter den besten Profis, Minimax (spieltheoretisch optimal) zu spielen und nur abzuwichen, wenn man klare Schwächen beim Gegner erkennt.
Ein solides Selbstspiel, selbst von Grund auf, garantiert, dass es in endlichen 2p0s-Spielen zu einem Minimax-Gleichgewicht konvergiert. Das ist erstaunlich! Indem wir einfach den Speicher und die Rechenleistung skalieren und ohne menschliche Daten arbeiten, können wir zu einer Strategie konvergieren, die in der Erwartung unschlagbar ist.
Was ist mit Nicht-2p0s-Spielen? Leider ist reines Selbstspiel, ohne menschliche Daten, nicht mehr garantiert, dass es zu einer nützlichen Strategie konvergiert. Dies ist deutlich im Ultimatumspiel zu sehen. Alice muss Bob $0-100 anbieten. Bob akzeptiert oder lehnt dann ab. Wenn Bob akzeptiert, wird das Geld gemäß Alices Vorschlag aufgeteilt. Wenn Bob ablehnt, erhalten beide $0.
Die Gleichgewichtstrategie (insbesondere das subspielperfekte Gleichgewicht) besteht darin, 1 Cent anzubieten und dass Bob akzeptiert. Aber in der realen Welt sind die Menschen nicht so rational. Wenn Alice versuchen würde, diese Strategie mit echten Menschen anzuwenden, würde sie am Ende sehr wenig Geld haben. Selbstspiel wird von dem, was wir als Menschen nützlich finden, entkoppelt.
Viele Leute haben Spiele vorgeschlagen wie "ein LLM-Lehrer schlägt schwierige Mathematikprobleme vor, und ein Schüler-LLM versucht, sie zu lösen", um Selbstspieltraining zu erreichen, aber das stößt auf ähnliche Probleme wie das Ultimatumspiel, bei dem das Gleichgewicht von dem, was wir als Menschen nützlich finden, entkoppelt ist.
Was sollte die Belohnung für den Lehrer in einem solchen Spiel sein? Wenn es 2p0s ist, wird der Lehrer belohnt, wenn der Schüler das Problem nicht lösen konnte, also wird der Lehrer unmögliche Probleme stellen. Okay, was ist, wenn wir es belohnen, wenn der Schüler eine Erfolgsquote von 50 % hat? Dann könnte der Lehrer einfach eine Münze werfen und den Schüler fragen, ob sie auf Kopf gelandet ist. Oder der Lehrer könnte den Schüler bitten, eine Nachricht durch eine erschöpfende Schlüsselsuche zu entschlüsseln. Die Belohnungsformung, um das beabsichtigte Verhalten zu erreichen, wird zu einer großen Herausforderung. Das ist in 2p0s-Spielen kein Problem.
Ich glaube an Selbstspiel. Es bietet eine unendliche Quelle des Trainings und bringt kontinuierlich einen Agenten mit einem gleichwertig qualifizierten Partner zusammen. Wir haben auch gesehen, dass es in einigen komplexen Nicht-2p0s-Einstellungen wie Diplomacy und Hanabi funktioniert. Aber die Anwendung außerhalb von 2p0s-Spielen ist viel schwieriger als es bei Go, Poker, Dota und Starcraft der Fall war.

Top
Ranking
Favoriten