Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Voici une analyse approfondie sur pourquoi le jeu autonome fonctionne pour les jeux à somme nulle à deux joueurs (2p0s) comme le Go, le Poker ou Starcraft, mais est beaucoup plus difficile à utiliser dans des domaines "réels". En résumé : le jeu autonome converge vers le minimax dans les jeux 2p0s, et le minimax est vraiment utile dans ces jeux.
Chaque jeu 2p0s fini a un équilibre minimax, qui est essentiellement une stratégie imbattable en espérance (en supposant que les joueurs alternent les côtés). Dans pierre-papier-ciseaux, par exemple, le minimax est de 1/3 pour chaque action.
Le minimax est-il ce que nous voulons ? Pas nécessairement. Si vous jouez minimax dans Pierre-Papier-Ciseaux alors que la plupart des stratégies des adversaires sont "toujours jouer Pierre", alors vous êtes clairement sous-optimal, même si vous ne perdez pas en espérance. Cela est particulièrement important dans un jeu comme le poker, car jouer minimax signifie que vous pourriez ne pas gagner autant d'argent contre des joueurs faibles que vous le pourriez si vous les exploitiez au maximum.
Mais la garantie de "vous ne perdrez pas en espérance" est vraiment agréable à avoir. Et dans des jeux comme les Échecs et le Go, la différence entre une stratégie minimax et une stratégie qui exploite de manière optimale la population d'adversaires est négligeable. Pour cette raison, le minimax est généralement considéré comme l'objectif d'un jeu à somme nulle à deux joueurs. Même dans le poker, la sagesse conventionnelle parmi les meilleurs pros est de jouer minimax (théorie du jeu optimale) et de ne dévier que si vous repérez des faiblesses claires chez l'adversaire.
Un jeu autonome solide, même depuis le début, est garanti de converger vers un équilibre minimax dans les jeux 2p0s finis. C'est incroyable ! En simplement augmentant la mémoire et le calcul, et sans données humaines, nous pouvons converger vers une stratégie qui est imbattable en espérance.
Qu'en est-il des jeux non-2p0s ? Malheureusement, le jeu autonome pur, sans données humaines, n'est plus garanti de converger vers une stratégie utile. Cela peut être clairement vu dans le jeu de l'Ultimatum. Alice doit offrir à Bob entre 0 et 100 $. Bob accepte ou rejette ensuite. Si Bob accepte, l'argent est partagé selon la proposition d'Alice. Si Bob rejette, les deux reçoivent 0 $.
La stratégie d'équilibre (spécifiquement, l'équilibre parfait de sous-jeu) est d'offrir 1 centime et que Bob accepte. Mais dans le monde réel, les gens ne sont pas si rationnels. Si Alice essayait cette stratégie avec de vraies personnes, elle finirait avec très peu d'argent. Le jeu autonome devient détaché de ce que nous, en tant qu'humains, trouvons utile.
Beaucoup de gens ont proposé des jeux comme "un enseignant LLM propose des problèmes mathématiques difficiles, et un étudiant LLM essaie de les résoudre" pour atteindre un entraînement par jeu autonome, mais cela rencontre des problèmes similaires à ceux du jeu de l'Ultimatum où l'équilibre est détaché de ce que nous, en tant qu'humains, trouvons utile.
Quelle devrait être la récompense pour l'enseignant dans un tel jeu ? Si c'est 2p0s, alors l'enseignant est récompensé si l'étudiant ne peut pas résoudre le problème, donc l'enseignant posera des problèmes impossibles. D'accord, que se passe-t-il si nous le récompensons pour que l'étudiant ait un taux de réussite de 50 % ? Alors l'enseignant pourrait simplement lancer une pièce et demander à l'étudiant si elle est tombée sur face. Ou l'enseignant pourrait demander à l'étudiant de déchiffrer un message via une recherche exhaustive de clé. La mise en forme des récompenses pour atteindre le comportement souhaité devient un défi majeur. Ce n'est pas un problème dans les jeux 2p0s.
Je crois en le jeu autonome. Il fournit une source infinie d'entraînement, et il associe continuellement un agent à un pair de compétence équivalente. Nous avons également vu cela fonctionner dans certains contextes non-2p0s complexes comme Diplomacy et Hanabi. Mais l'appliquer en dehors des jeux 2p0s est beaucoup plus difficile que cela ne l'était pour le Go, le Poker, Dota et Starcraft.

Meilleurs
Classement
Favoris