Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Нижче наведено глибоке занурення в те, чому самостійна гра працює в іграх з нульовою сумою (2p0) для двох гравців, таких як Go/Poker/Starcraft, але її набагато складніше використовувати в доменах «реального світу». тл; Д.Р.: Самостійна гра сходиться з Minimax в іграх 2P0s, і Minimax дійсно корисний в цих іграх. Кожна скінченна гра 2p0s має мінімаксну рівновагу, що, по суті, є непереможною стратегією в очікуванні (за умови, що гравці чергують сторони). У ножицях для кам'яного паперу, наприклад, мінімакс становить 1/3 на кожну дію. Мінімакс – це те, чого ми хочемо? Не обов'язково. Якщо ви граєте в мінімакс в Rock Paper Scissors, коли стратегії більшості опонентів «завжди кидати камінь», то ви явно неоптимальні, навіть якщо ви не програєте в очікуванні. Це особливо важливо в такій грі, як покер, тому що гра в мінімакс означає, що ви, можливо, не заробите стільки грошей на слабких гравцях, скільки могли б, якби максимально їх використовували. А ось гарантію «ви не прогадаєте в очікуванні» дійсно приємно мати. А в таких іграх, як шахи і го, різниця між мінімакс-стратегією і стратегією, яка оптимально експлуатує популяцію опонентів, незначна. З цієї причини мінімакс зазвичай вважається метою для гри з нульовою сумою для двох гравців. Навіть у покері загальноприйнята думка серед топ-професіоналів полягає в тому, щоб грати в мінімакс (оптимальна теорія гри), а потім відхилятися лише в тому випадку, якщо ви помічаєте явні слабкі місця в опонента. Звукова самостійна гра, навіть з нуля, гарантовано зійде до мінімаксної рівноваги в скінченних іграх 2p0s. Це дивовижно! Просто масштабуючи пам'ять і обчислення, не маючи людських даних, ми можемо прийти до стратегії, яка є неперевершеною в очікуванні. А як щодо ігор без 2p0s? На жаль, чиста гра в себе, без людських даних, більше не гарантовано зводиться до корисної стратегії. Це добре видно на прикладі «Ультиматумної гри». Аліса повинна запропонувати Бобу 0-100 доларів. Тоді Боб приймає або відхиляє. Якщо Боб погоджується, гроші діляться відповідно до пропозиції Аліси. Якщо Боб відхиляє, обидва отримують по 0 доларів. Стратегія рівноваги (точніше, ідеальної рівноваги в підгрі) полягає в тому, щоб запропонувати 1 пенні, а Боб погодився. Але в реальному світі люди не такі раціональні. Якби Аліса спробувала цю стратегію з реальними людьми, вона б отримала дуже мало грошей. Самостійна гра стає відірваною від того, що ми, як люди, вважаємо корисним. Багато людей пропонували ігри на кшталт «вчитель LLM пропонує складні математичні задачі, а учень LLM намагається їх вирішити», щоб досягти тренування самостійної гри, але це стикається з тими ж проблемами, що й гра Ultimatum, де рівновага не пов'язана з тим, що ми, як люди, вважаємо корисним. Якою має бути нагорода для вчителя в такій грі? Якщо це 2p0, то вчитель винагороджується, якщо учень не зміг вирішити проблему, тому вчитель створить неможливі проблеми. Гаразд, а якщо ми винагородимо його за те, що учень має 50% успішності? Тоді вчитель може просто підкинути монетку і запитати у учня, чи приземлилася вона орлом. Або вчитель може попросити учня розшифрувати повідомлення за допомогою вичерпного пошуку ключів. Формування винагороди для досягнення запланованої поведінки стає серйозною проблемою. Це не проблема в іграх 2p0s. Я вірю в гру в себе. Він є нескінченним джерелом тренувань і постійно поєднує агента з не менш кваліфікованим однолітком. Ми також бачили, як він працює в деяких складних налаштуваннях, відмінних від 2p0, таких як Diplomacy та Hanabi. Але застосувати його поза іграми 2p0s набагато складніше, ніж це було для Го, Покеру, Dota та Starcraft.

Найкращі

Рейтинг

Вибране