Ниже представлен глубокий анализ того, почему самоигра работает для двухигроковых нулевых сумм (2p0s) игр, таких как Го/Покер/Звездные войны, но ее гораздо сложнее использовать в "реальных" областях. Кратко: самоигра сходится к минимаксу в 2p0s играх, а минимакс действительно полезен в этих играх. Каждая конечная 2p0s игра имеет минимаксное равновесие, которое по сути является непобедимой стратегией в ожидании (при условии, что игроки чередуют стороны). Например, в камень-ножницы-бумага минимакс составляет 1/3 на каждое действие. Является ли минимакс тем, что нам нужно? Не обязательно. Если вы играете по минимаксу в камень-ножницы-бумага, когда стратегии большинства противников — "всегда бросать камень", то вы явно не оптимальны, даже если не проигрываете в ожидании. Это особенно важно в игре, такой как покер, потому что играя по минимаксу, вы можете не заработать столько денег на слабых игроках, сколько могли бы, если бы максимально их эксплуатировали. Но гарантия "вы не проиграете в ожидании" действительно приятна. А в таких играх, как шахматы и Го, разница между стратегией минимакса и стратегией, которая оптимально эксплуатирует популяцию противников, незначительна. По этой причине минимакс обычно считается целью для двухигроковой нулевой суммы. Даже в покере общепринятая мудрость среди лучших профессионалов заключается в том, чтобы играть по минимаксу (оптимально с точки зрения теории игр), а затем отклоняться только в том случае, если вы заметите явные слабости у противника. Звуковая самоигра, даже с нуля, гарантированно сойдется к минимаксному равновесию в конечных 2p0s играх. Это удивительно! Просто увеличив память и вычисления, и без человеческих данных, мы можем прийти к стратегии, которая непобедима в ожидании. А что насчет не-2p0s игр? К сожалению, чистая самоигра, без человеческих данных, больше не гарантирует сходиться к полезной стратегии. Это можно четко увидеть в игре Ультиматум. Алиса должна предложить Бобу $0-100. Затем Боб принимает или отклоняет. Если Боб принимает, деньги делятся в соответствии с предложением Алисы. Если Боб отклоняет, оба получают $0. Равновесие (в частности, подигровое совершенное равновесие) стратегии заключается в том, чтобы предложить 1 цент, и чтобы Боб принял. Но в реальном мире люди не так рациональны. Если бы Алиса попыталась использовать эту стратегию с реальными людьми, она бы в итоге получила очень мало денег. Самоигра становится отвязанной от того, что мы, как люди, считаем полезным. Многие люди предложили игры, такие как "учитель LLM предлагает сложные математические задачи, а студент LLM пытается их решить", чтобы достичь обучения через самоигру, но это сталкивается с аналогичными проблемами, как в игре Ультиматум, где равновесие отвязано от того, что мы, как люди, считаем полезным. Какова должна быть награда для учителя в такой игре? Если это 2p0s, то учитель получает награду, если студент не смог решить задачу, так что учитель будет задавать невозможные задачи. Хорошо, а если мы вознаградим его за 50% успеха студента? Тогда учитель мог бы просто подбросить монету и спросить студента, выпала ли решка. Или учитель мог бы попросить студента расшифровать сообщение с помощью исчерпывающего поиска ключа. Формирование награды для достижения желаемого поведения становится серьезной проблемой. Это не проблема в 2p0s играх. Я действительно верю в самоигру. Она предоставляет бесконечный источник обучения и постоянно сопоставляет агента с равным по навыкам соперником. Мы также видели, как это работает в некоторых сложных не-2p0s условиях, таких как Дипломатия и Ханаби. Но применение этого вне 2p0s игр гораздо сложнее, чем это было для Го, Покера, Доты и Звездных войн.