Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Noam Brown
Logisches Denken @OpenAI erforschen | Mitentwickelt von übermenschlichen Poker-KIs von Libratus/Pluribus, CICERO Diplomacy AI und OpenAI o3 / o1 / 🍓 Reasoning-Modellen
Im Folgenden wird erläutert, warum Selbstspiel bei Zwei-Spieler-Nullsummenspielen (2p0s) wie Go/Poker/Starcraft funktioniert, aber in "realen" Bereichen viel schwieriger anzuwenden ist. tl;dr: Selbstspiel konvergiert zu Minimax in 2p0s-Spielen, und Minimax ist in diesen Spielen wirklich nützlich.
Jedes endliche 2p0s-Spiel hat ein Minimax-Gleichgewicht, das im Wesentlichen eine unschlagbare Strategie in der Erwartung darstellt (vorausgesetzt, die Spieler wechseln die Seiten). Bei Schere, Stein, Papier ist Minimax beispielsweise 1/3 für jede Aktion.
Ist Minimax das, was wir wollen? Nicht unbedingt. Wenn du Minimax in Schere, Stein, Papier spielst, während die meisten Gegnerstrategien "immer Stein werfen" sind, bist du eindeutig suboptimal, auch wenn du in der Erwartung nicht verlierst. Das ist besonders wichtig in einem Spiel wie Poker, denn Minimax zu spielen bedeutet, dass du möglicherweise nicht so viel Geld von schwachen Spielern verdienen kannst, wie du es könntest, wenn du sie maximal ausnutzen würdest.
Aber die Garantie, dass "du in der Erwartung nicht verlieren wirst", ist wirklich schön zu haben. Und in Spielen wie Schach und Go ist der Unterschied zwischen einer Minimax-Strategie und einer Strategie, die die Bevölkerung der Gegner optimal ausnutzt, vernachlässigbar. Aus diesem Grund wird Minimax typischerweise als das Ziel für ein Zwei-Spieler-Nullsummenspiel angesehen. Selbst im Poker ist die allgemeine Weisheit unter den besten Profis, Minimax (spieltheoretisch optimal) zu spielen und nur abzuwichen, wenn man klare Schwächen beim Gegner erkennt.
Ein solides Selbstspiel, selbst von Grund auf, garantiert, dass es in endlichen 2p0s-Spielen zu einem Minimax-Gleichgewicht konvergiert. Das ist erstaunlich! Indem wir einfach den Speicher und die Rechenleistung skalieren und ohne menschliche Daten arbeiten, können wir zu einer Strategie konvergieren, die in der Erwartung unschlagbar ist.
Was ist mit Nicht-2p0s-Spielen? Leider ist reines Selbstspiel, ohne menschliche Daten, nicht mehr garantiert, dass es zu einer nützlichen Strategie konvergiert. Dies ist deutlich im Ultimatumspiel zu sehen. Alice muss Bob $0-100 anbieten. Bob akzeptiert oder lehnt dann ab. Wenn Bob akzeptiert, wird das Geld gemäß Alices Vorschlag aufgeteilt. Wenn Bob ablehnt, erhalten beide $0.
Die Gleichgewichtstrategie (insbesondere das subspielperfekte Gleichgewicht) besteht darin, 1 Cent anzubieten und dass Bob akzeptiert. Aber in der realen Welt sind die Menschen nicht so rational. Wenn Alice versuchen würde, diese Strategie mit echten Menschen anzuwenden, würde sie am Ende sehr wenig Geld haben. Selbstspiel wird von dem, was wir als Menschen nützlich finden, entkoppelt.
Viele Leute haben Spiele vorgeschlagen wie "ein LLM-Lehrer schlägt schwierige Mathematikprobleme vor, und ein Schüler-LLM versucht, sie zu lösen", um Selbstspieltraining zu erreichen, aber das stößt auf ähnliche Probleme wie das Ultimatumspiel, bei dem das Gleichgewicht von dem, was wir als Menschen nützlich finden, entkoppelt ist.
Was sollte die Belohnung für den Lehrer in einem solchen Spiel sein? Wenn es 2p0s ist, wird der Lehrer belohnt, wenn der Schüler das Problem nicht lösen konnte, also wird der Lehrer unmögliche Probleme stellen. Okay, was ist, wenn wir es belohnen, wenn der Schüler eine Erfolgsquote von 50 % hat? Dann könnte der Lehrer einfach eine Münze werfen und den Schüler fragen, ob sie auf Kopf gelandet ist. Oder der Lehrer könnte den Schüler bitten, eine Nachricht durch eine erschöpfende Schlüsselsuche zu entschlüsseln. Die Belohnungsformung, um das beabsichtigte Verhalten zu erreichen, wird zu einer großen Herausforderung. Das ist in 2p0s-Spielen kein Problem.
Ich glaube an Selbstspiel. Es bietet eine unendliche Quelle des Trainings und bringt kontinuierlich einen Agenten mit einem gleichwertig qualifizierten Partner zusammen. Wir haben auch gesehen, dass es in einigen komplexen Nicht-2p0s-Einstellungen wie Diplomacy und Hanabi funktioniert. Aber die Anwendung außerhalb von 2p0s-Spielen ist viel schwieriger als es bei Go, Poker, Dota und Starcraft der Fall war.


Noam BrownVor 16 Stunden
Selbstspiel funktioniert so gut in Schach, Go und Poker, weil diese Spiele Zwei-Spieler-Nullsummenspiele sind. Das vereinfacht viele Probleme. Die reale Welt ist chaotischer, weshalb wir bisher nicht viele Erfolge von Selbstspiel in LLMs gesehen haben.
Übrigens hat @karpathy großartige Arbeit geleistet und ich stimme ihm größtenteils zu!
137,29K
Selbstspiel funktioniert so gut in Schach, Go und Poker, weil diese Spiele Zwei-Spieler-Nullsummenspiele sind. Das vereinfacht viele Probleme. Die reale Welt ist chaotischer, weshalb wir bisher nicht viele Erfolge von Selbstspiel in LLMs gesehen haben.
Übrigens hat @karpathy großartige Arbeit geleistet und ich stimme ihm größtenteils zu!

Dwarkesh Patel21. Okt., 02:03
.@karpathy sagt, dass LLMs derzeit die kulturelle Akkumulation und das Selbstspiel fehlen, die die Menschen aus der Savanne herausgeführt haben:
Kultur: > „Warum kann ein LLM kein Buch für die anderen LLMs schreiben? Warum können andere LLMs dieses Buch des LLMs nicht lesen und davon inspiriert oder schockiert werden?“
Selbstspiel: > „Es ist extrem mächtig. Die Evolution hat viel Wettbewerb, der Intelligenz und Evolution antreibt. AlphaGo spielt gegen sich selbst und so lernt es, wirklich gut in Go zu werden. Es gibt kein Äquivalent zum Selbstspiel in LLMs. Warum kann ein LLM zum Beispiel nicht eine Menge von Problemen erstellen, die ein anderes LLM zu lösen lernt? Dann versucht das LLM immer, immer schwierigere Probleme zu bedienen.“
Ich habe Karpathy gefragt, warum LLMs immer noch nicht in der Lage sind, Kultur aufzubauen, wie es die Menschen tun.
> „Die dümmeren Modelle ähneln bemerkenswert einem Kindergartenkind. [Die intelligentesten Modelle fühlen sich jedoch immer noch wie] Grundschüler an. Irgendwie haben wir immer noch nicht genug abgeschlossen, wo [diese Modelle] übernehmen können. Mein Claude Code oder Codex, sie fühlen sich immer noch wie dieses Grundschulkind an. Ich weiß, dass sie PhD-Quizze bestehen können, aber sie fühlen sich immer noch kognitiv wie ein Kindergartenkind an.“
> „Ich glaube nicht, dass sie Kultur schaffen können, weil sie immer noch Kinder sind. Sie sind savant Kinder. Sie haben ein perfektes Gedächtnis. Sie können überzeugend alle Arten von Unsinn erstellen, die wirklich gut aussehen. Aber ich denke immer noch, dass sie nicht wirklich wissen, was sie tun. Sie haben nicht wirklich die Kognition über all diese kleinen Kontrollkästchen, die wir immer noch sammeln müssen.
202,08K
.@Stanford-Kurse sind von hoher Qualität, aber die Richtlinien sind definitiv veraltet. Ich höre von weit verbreitetem, offensichtlichem Betrug, bei dem Studenten die Fragen direkt in ChatGPT während der Prüfungen eingeben, aber die Professoren dürfen die Prüfungen aufgrund des Ehrenkodex nicht überwachen.
Die Professoren wollen die Richtlinie ändern, aber die Universitätsbürokratie muss einen mehrjährigen Prozess durchlaufen, bevor sie geändert werden kann.

Zara Zhang14. Okt., 23:06
Studierende von Harvard und Stanford erzählen mir, dass ihre Professoren KI nicht verstehen und die Kurse veraltet sind.
Wenn selbst Elite-Schulen nicht mithalten können, ist das Wettrüsten um Abschlüsse vorbei. Selbstlernen ist jetzt der einzige Weg.
180,16K
Top
Ranking
Favoriten