Нижче наведено глибоке занурення в те, чому самостійна гра працює в іграх з нульовою сумою (2p0) для двох гравців, таких як Go/Poker/Starcraft, але її набагато складніше використовувати в доменах «реального світу». тл; Д.Р.: Самостійна гра сходиться з Minimax в іграх 2P0s, і Minimax дійсно корисний в цих іграх. Кожна скінченна гра 2p0s має мінімаксну рівновагу, що, по суті, є непереможною стратегією в очікуванні (за умови, що гравці чергують сторони). У ножицях для кам'яного паперу, наприклад, мінімакс становить 1/3 на кожну дію. Мінімакс – це те, чого ми хочемо? Не обов'язково. Якщо ви граєте в мінімакс в Rock Paper Scissors, коли стратегії більшості опонентів «завжди кидати камінь», то ви явно неоптимальні, навіть якщо ви не програєте в очікуванні. Це особливо важливо в такій грі, як покер, тому що гра в мінімакс означає, що ви, можливо, не заробите стільки грошей на слабких гравцях, скільки могли б, якби максимально їх використовували. А ось гарантію «ви не прогадаєте в очікуванні» дійсно приємно мати. А в таких іграх, як шахи і го, різниця між мінімакс-стратегією і стратегією, яка оптимально експлуатує популяцію опонентів, незначна. З цієї причини мінімакс зазвичай вважається метою для гри з нульовою сумою для двох гравців. Навіть у покері загальноприйнята думка серед топ-професіоналів полягає в тому, щоб грати в мінімакс (оптимальна теорія гри), а потім відхилятися лише в тому випадку, якщо ви помічаєте явні слабкі місця в опонента. Звукова самостійна гра, навіть з нуля, гарантовано зійде до мінімаксної рівноваги в скінченних іграх 2p0s. Це дивовижно! Просто масштабуючи пам'ять і обчислення, не маючи людських даних, ми можемо прийти до стратегії, яка є неперевершеною в очікуванні. А як щодо ігор без 2p0s? На жаль, чиста гра в себе, без людських даних, більше не гарантовано зводиться до корисної стратегії. Це добре видно на прикладі «Ультиматумної гри». Аліса повинна запропонувати Бобу 0-100 доларів. Тоді Боб приймає або відхиляє. Якщо Боб погоджується, гроші діляться відповідно до пропозиції Аліси. Якщо Боб відхиляє, обидва отримують по 0 доларів. Стратегія рівноваги (точніше, ідеальної рівноваги в підгрі) полягає в тому, щоб запропонувати 1 пенні, а Боб погодився. Але в реальному світі люди не такі раціональні. Якби Аліса спробувала цю стратегію з реальними людьми, вона б отримала дуже мало грошей. Самостійна гра стає відірваною від того, що ми, як люди, вважаємо корисним. Багато людей пропонували ігри на кшталт «вчитель LLM пропонує складні математичні задачі, а учень LLM намагається їх вирішити», щоб досягти тренування самостійної гри, але це стикається з тими ж проблемами, що й гра Ultimatum, де рівновага не пов'язана з тим, що ми, як люди, вважаємо корисним. Якою має бути нагорода для вчителя в такій грі? Якщо це 2p0, то вчитель винагороджується, якщо учень не зміг вирішити проблему, тому вчитель створить неможливі проблеми. Гаразд, а якщо ми винагородимо його за те, що учень має 50% успішності? Тоді вчитель може просто підкинути монетку і запитати у учня, чи приземлилася вона орлом. Або вчитель може попросити учня розшифрувати повідомлення за допомогою вичерпного пошуку ключів. Формування винагороди для досягнення запланованої поведінки стає серйозною проблемою. Це не проблема в іграх 2p0s. Я вірю в гру в себе. Він є нескінченним джерелом тренувань і постійно поєднує агента з не менш кваліфікованим однолітком. Ми також бачили, як він працює в деяких складних налаштуваннях, відмінних від 2p0, таких як Diplomacy та Hanabi. Але застосувати його поза іграми 2p0s набагато складніше, ніж це було для Го, Покеру, Dota та Starcraft.