المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
فيما يلي نظرة عميقة على سبب عمل اللعب الذاتي لألعاب محصلتها صفر (2p0s) المكونة من لاعبين مثل Go / Poker / Starcraft ولكن من الصعب جدا استخدامها في مجالات "العالم الحقيقي". TL; دكتور: يتقارب اللعب الذاتي مع MiniMax في ألعاب 2p0s ، و Minimax مفيد حقا في تلك الألعاب.
تحتوي كل لعبة محدودة 2p0s على توازن الحد الأدنى ، وهو في الأساس استراتيجية لا تقبل المنافسة في التوقعات (بافتراض أن اللاعبين يتناوبون الجانبين). في مقص الورق الصخري ، على سبيل المثال ، الحد الأدنى هو 1/3 في كل إجراء.
هل minimax ما نريد؟ ليس بالضرورة. إذا كنت تلعب minimax في Rock Paper Scissors عندما تكون معظم استراتيجيات الخصوم "دائما رمي الصخرة" ، فمن الواضح أنك دون المستوى الأمثل ، على الرغم من أنك لا تخسر في التوقعات. هذا مهم بشكل خاص في لعبة مثل البوكر لأن لعب minimax يعني أنك قد لا تجني الكثير من المال من اللاعبين الضعفاء قدر الإمكان إذا استغلتهم إلى أقصى حد.
لكن ضمان "لن تخسر في التوقعات" أمر جيد حقا. وفي ألعاب مثل Chess and Go ، فإن الفرق بين استراتيجية الحد الأدنى والاستراتيجية التي تستغل سكان الخصوم على النحو الأمثل لا يكاد يذكر. لهذا السبب ، يعتبر minimax عادة الهدف للعبة محصلتها صفر للاعبين. حتى في لعبة البوكر ، فإن الحكمة التقليدية بين أفضل المحترفين هي لعب minimax (نظرية اللعبة المثلى) ثم الانحراف فقط إذا اكتشفت نقاط ضعف واضحة في الخصم.
اللعب الذاتي الصوتي ، حتى من الصفر ، مضمون للتقارب إلى الحد الأدنى من التوازن في ألعاب 2p0s المحدودة. هذا مدهش! بمجرد توسيع نطاق الذاكرة والحوسبة ، وبدون بيانات بشرية ، يمكننا التقارب مع استراتيجية لا تقبل المنافسة في التوقعات.
ماذا عن الألعاب غير 2p0s؟ للأسف ، لم يعد اللعب الذاتي الخالص ، بدون بيانات بشرية ، مضمونا للتقارب مع استراتيجية مفيدة. يمكن رؤية ذلك بوضوح في لعبة الإنذار. يجب أن تقدم أليس لبوب 0-100 دولار. ثم يقبل بوب أو يرفض. إذا وافق بوب ، يتم تقسيم الأموال وفقا لاقتراح أليس. إذا رفض بوب ، يحصل كلاهما على 0 دولار.
تتمثل استراتيجية التوازن (على وجه التحديد ، التوازن المثالي للعبة الفرعية) في تقديم 1 بنس واحد وقبول بوب. لكن في العالم الحقيقي ، الناس ليسوا عقلانيين جدا. إذا جربت أليس هذه الإستراتيجية مع بشر حقيقيين ، فسينتهي بها الأمر بقليل جدا من المال. يصبح اللعب الذاتي غير مقيد بما نجده كبشر مفيدا.
اقترح الكثير من الناس ألعابا مثل "يقترح مدرس ماجستير في القانون مسائل رياضية صعبة ، ويحاول طالب ماجستير في القانون حلها" لتحقيق التدريب على اللعب الذاتي ، ولكن هذا يواجه مشاكل مماثلة للعبة Ultimatum حيث يكون التوازن غير مقيد بما نجده كبشر مفيدا.
ماذا يجب أن تكون مكافأة المعلم في مثل هذه اللعبة؟ إذا كانت 2p0s ، مكافأة المعلم إذا لم يتمكن الطالب من حل المشكلة ، لذلك سيطرح المعلم مشاكل مستحيلة. حسنا ، ماذا لو كافئناها على الطالب الذي حصل على معدل نجاح 50٪؟ ثم يمكن للمعلم أن يقلب عملة معدنية ويسأل الطالب عما إذا كانت قد هبطت على الرؤوس. أو يمكن للمعلم أن يطلب من الطالب فك تشفير رسالة عبر بحث شامل عن المفاتيح. يصبح تشكيل المكافأة لتحقيق السلوك المقصود تحديا كبيرا. هذه ليست مشكلة في ألعاب 2p0s.
أنا أؤمن باللعب الذاتي. إنه يوفر مصدرا لا حصر له للتدريب ، ويطابق باستمرار وكيلا مع نظير ماهر بنفس القدر. لقد رأينا أيضا أنه يعمل في بعض الإعدادات المعقدة غير 2p0s مثل الدبلوماسية و Hanabi. لكن تطبيقه خارج ألعاب 2p0s أصعب بكثير مما كان عليه بالنسبة ل Go و Poker و Dota و Starcraft.

الأفضل
المُتصدِّرة
التطبيقات المفضلة