حول الشطرنج. وليس فقط

اليوم لن تكون هناك أفكار صعبة حول حاضر ومستقبل صناعة الكمبيوتر. اليوم أريد أن أتحدث عن إحدى هواياتي. ألعب العديد من الألعاب المختلفة: كرة القدم ، والهوكي ، والتنس (الكبيرة والصغيرة) ، والبوكر ، والتفضيل ، والبورصة ، إلخ. لكن الرياضة "الشخصية" الخاصة بي هي لعبة الشطرنج. لم تتقدم مسيرتي المهنية في هذا المجال إلى أبعد من مجرد مرشح للماجستير ، لكنني أبقت حبي للعبة القديمة لمدة 4 عقود. ومن المثير للاهتمام ، أنها "دخلت" في هواية أخرى - البرمجة ، مما أدى إلى زيادة الاهتمام بالذكاء الاصطناعي ونظرية الألعاب. وبالطبع ، فإن الإنجازات الأخيرة في هذا المجال المرتبطة بالنجاح الهائل لمشروع AlphaZero لم تستطع تجاوزها .



صورة






ثم جلست للتو وأعجبت بـ AlphaZero مقابل Stockfish . والآن عدت إلى الموضوع فيما يتعلق بمهمة تحسين الشبكات العصبية ، والتي يجب القيام بها أحيانًا في العمل (للأسف ، أقل مما نود). يبدو لي أن هذه المهام قد تكون مرتبطة ارتباطًا وثيقًا ، لذلك أردت تنظيم أفكاري بطريقة ما.



الشطرنج هي لعبة تحتوي على معلومات كاملة ، تستند إلى تعداد الخيارات (بالإضافة إلى لعبة الداما ، انطلق ، إلخ).



صورة






ومع ذلك ، فإن المشكلة تكمن في أن شجرة التباين في الشطرنج تنمو بسرعة كبيرة (على الرغم من أنها أبطأ بكثير من Go). على سبيل المثال ، مع وجود لوحة كاملة من القطع في وضع هادئ ، يكون لكل جانب حوالي 10 تتابعات معقولة. وهكذا ، في 3 حركات بالأبيض والأسود (6 حركات نصفية) يمكننا الحصول على مليون موضع من هذا. أيضًا ، لنأخذ في الاعتبار أن متوسط ​​اللعبة بين الأشخاص يدوم 40-50 حركة (بين أجهزة الكمبيوتر - 80-100). وبالتالي ، سنصل إلى استنتاج مفاده أن الحساب الكامل لشجرة المتغيرات أمر مستحيل بالنسبة لمعظم المواضع ، مما يعني أنه يجب علينا التركيز على القطع الجزئي لشجرة البحث ، من حيث العرض والعمق. الآن دعونا نرى كيف تعامل البشر والآلات مع هذه المشكلة. سأبدأ بنظرة تاريخية بسيطة.



"بروتين الشطرنج".



عُرف الشطرنج منذ حوالي 1400 عام ، لكن أولى البطولات الكبيرة فيه بدأت في منتصف القرن التاسع عشر. كان وقت المعارك المفتوحة والرومانسية. حاول الخصوم إدخال القطع بسرعة في المعركة ، وفتح الموقع وبدء هجوم على الملك. لا أحد يعتبر بشكل خاص التنازلات المادية والموضوعية. لكن من المدهش أن خصم الشطرنج الرومانسي ، فيلهلم شتاينتس ، أصبح أول بطل رسمي للعالم .



صورة






لقد أرسى أسس اللعب التمركزي . بفضل Steinitz إلى حد كبير ، بدأنا العمل بمفاهيم مثل "هيكل البيدق" ، "المربعات القوية والضعيفة" ، "القطع الجيدة والسيئة". هذا هو ما أدخل في لعبة الشطرنج عنصر الإستراتيجية القائمة على المزايا طويلة المدى. طور شتاينتس نهجًا موضعيًا وعاقب خصومه بلا هوادة على التضحيات المادية والعيوب الموضعية. تحدث إيمانويل لاسكر ، الذي خلفه على عرش الشطرنج ، بشكل جيد للغاية عن البطل الأول : " كانت موهبة شتاينتس كلاعب عملي أقل من موهبة بلاكبيرن أو زوكيرتورت ، الذي هزمه رغم ذلك ، لأنه كان مفكرًا عظيمًا ، لكنهم لم يكونوا كذلك ".صاغ شتاينتس المبادئ الأساسية لتقييم الموقف وخطط اللعبة الناتجة بلغة عالية المستوى (في هذه الحالة ، الألمانية).

وبناءً عليه ، جعلهم متاحين للدراسة من قبل أشخاص آخرين
. شكل هذا ما نسميه النهج البشري للشطرنج. نحن جادون جدًا في تقليم شجرة التباين في الشطرنج بناءً على مبادئ الوضعية. يتم تجاهل بعض الحركات لأنها تؤدي إلى وضع سيئ في الأفق المحسوب. بعضها لأنها تؤدي إلى تنازلات طويلة الأمد ، والبعض الآخر لأنها بلا هدف. نتيجة لذلك ، نحسب جزءًا صغيرًا جدًا من الخيارات الممكنة.



مزيد من الفهم للشطرنج كان في الأساس تطورًا للأفكار التي وضعها البطل الأول. ظهرت مفاهيم مثل الحصار والوقاية والسيطرة. بدأ لاعبو الشطرنج بدراسة مبادئ لعب المواضع النموذجية الناشئة عن الفتحات المختلفة (سلاسل مغلقة ، بيدق معزول ، إلخ) بطريقة أو بأخرى ، تمت دراسة المواقف القريبة من توازن المواد. ولكن كانت هناك أيضًا استثناءات - على سبيل المثال ، لعب الشاب ميخائيل تال بأسلوب مختلف. لقد ابتكر مواقف غير متوازنة حادة مع انتهاك نسبة المواد (لاحقًا أظهر غاري كاسباروف أيضًا لعبة مماثلة). غير معتاد على مثل هذه اللعبة ، يتناقل الخصوم واحدًا تلو الآخر. أصبح تال بطل العالم في عام 1960 ، لكنه خسر مباراة العودة بعد عام. في النصف الثاني من القرن العشرين ، تحول تركيز البحث نحو بداية اللعبة - الافتتاح. بفضل اليد الخفيفة لميخائيل بوتفينيك (بطل العالم السادس) وغاري كاسباروف (المركز الثالث عشر) ، بدأ لاعبو الشطرنج في تكريس نصيب الأسد من وقتهم للعمل على اختلافات افتتاحية محددة. تزايد استخدام أجهزة الكمبيوتر في هذه العملية. نتيجة لذلك ، تم تطوير العديد من الاختلافات في الفتحات الشعبية وصولاً إلى المواقف التي يتم فيها تحديد نتيجة اللعبة مسبقًا. يؤدي هذا إلى إضعاف معين للشطرنج ، فضلاً عن الحاجة إلى حفظ عدد كبير من الاختلافات حتى لا تتعرض للهزيمة بالفعل في الافتتاح. ليس من المستغرب أن يتأرجح البندول مؤخرًا في الاتجاه المعاكس. بطل العالم الحاليبدلاً من ذلك ، يسعى Magnus Carlsen إلى عدم الحصول على ميزة في نهاية الافتتاح ، ولكن للحصول على موضع لعب لا يتم "اختراقه" بواسطة محركات الكمبيوتر. يتم نقل شدة الصراع إلى المراحل اللاحقة من اللعبة (منتصف اللعبة ، نهاية اللعبة).



"سيليكون الشطرنج".



وفقًا للتعبير المناسب لألكسندر كرونرود ، فإن الشطرنج هو "ذبابة الفاكهة" للذكاء الاصطناعي. من دراسة بدأت مع ظهور أجهزة الكمبيوتر الأولى وجذبت هذه الرواد كما آلان تورينج و كلود شانون.... كان شانون هو الذي طرح التقدير الأول لقيمة قطع الشطرنج "الملك = 200 ، الملكة = 9 ، الرخ = 5 ، الأسقف = 3 ، الفارس = 3 ، البيدق = 1". ومن الغريب أن هذا التقييم البسيط هو الذي حدد تطور برمجة الشطرنج على مدار السبعين عامًا القادمة. تنبأ شانون أيضًا بتقسيم برامج الشطرنج إلى "سريع" (القوة الغاشمة) و "ذكي" (ذكي). تمر البرامج "السريعة" بالكامل من خلال جميع الخيارات الممكنة إلى عمق معين ، وتقييم الوضع باستخدام وظيفة تقييم بسيطة (مثل نسبة المواد) واختيار أفضل حركة باستخدام مبدأ minimax... تستخدم البرامج "الذكية" خوارزميات أكثر تعقيدًا وتختلف في عمق البحث بنفس الطريقة التي يستخدمها الإنسان. شارك بطل العالم السادس ميخائيل بوتفينيك في إنشاء مثل هذه الخوارزمية في السنوات الأخيرة من حياته. ومع ذلك ، دون نجاح كبير ، مثل العديد من مبتكري البرامج "الذكية". ففي تنبؤاته الثالثة ، كان شانون مخطئًا - فالبرامج "الذكية" فشلت باستمرار في محاربة البرامج "السريعة". والسبب هو أن القوة الغاشمة متوازية ومُحسَّنة جيدًا. واتضح أن تقدير شانون البسيط كان مستقرًا وقويًا. لأنه كما يعلم لاعبو الشطرنج ، فإن أي ميزة موضعية ستتحول عاجلاً أم آجلاً إلى ميزة مادية. في حين أن مبادئ تقييم الموقف تصلح لإضفاء الطابع الرسمي أسوأ بكثير.



فهي تتطلب عمليات حسابية متسلسلة مرهقة ويتم تحسينها بشكل سيئ. ونتيجة لذلك ، مع زيادة أداء الكمبيوتر ، بدأت البرامج "السريعة" بالهيمنة. هذه هي الطريقة التي تم بها تشكيل التيار الرئيسي لشطرنج الكمبيوتر ، والذي يختلف بشكل لافت للنظر عن الشطرنج البشري - الخرق إلى عمق معين باستخدام قص ألفا بيتا (وبعض الأساليب التجريبية الأخرى) وتقدير الموقع وفقًا لشانون. أيضًا ، بدأت البرامج في تطوير واستخدام قواعد الفتح (عندما لم تكن اللعبة قد ابتعدت عن الموضع الأولي بعد) ونهاية اللعبة (عندما يكون عدد القطع صغيرًا ويمكن حساب شجرة الاختلافات تمامًا). ونما أداء أجهزة الكمبيوتر طوال الوقت ، ولم يجلس المبرمجون أيضًا في وضع الخمول ، ويعملون باستمرار على تحسين المحركات. في 11 مايو 1997 ، حدث حدث من صنع العصرهزم جهاز ديب بلو للكمبيوتر بطل العالم جاري كاسباروف في مباراة 6 مباريات.



صورة






بعد ذلك مباشرة ، أغلقت شركة IBM هذا المشروع غير الرخيص. تم إنشاء الرقائق التي تسرع حسابات الشطرنج خصيصًا لـ Deep Blue ! ومع ذلك ، حتى بدونها ، كان تفوق الكمبيوتر على الشخص واضحًا بالفعل. بدأ ديب فريتز ، ديب جونيور ، ريبكا ، كومودو ، ستوكفيش في تحطيم الأساتذة الرائدين بلا رحمة ، حتى منحهم المواد في المقدمة ... ومع ذلك ، فقد لعبوا فيما بينهم بنجاح متفاوت - يمكن العثور هنا على نتائج بطولة العالم بين البرامج .



تغير كل شيء عندما بدأ مبدعو AlphaZero ، بعد فوزهم على بطل العالم في لعبة اللعب في Li Sedol ، في الشطرنج أخيرًا. كانت النتيجة مذهلة - بعد 4 ساعات من اللعب مع نفسيهزم AlphaZero StockFish بفوزه بـ 28 مباراة ورسم 72. بعد عام ، قام DeepMind بتجربة أكثر نظافة ، مما سمح لـ Stockfish باستخدام كتابي الافتتاح ونهاية اللعبة. ومع ذلك ، فإن النتيجة +155 -6 = 839 لا تدع مجالًا للشك حول من هو أقوى لاعب في العالم في الوقت الحالي.



دعونا نفهم كيف رتبت هذه المعجزة الجديدة. (يوجد بالفعل كتاب كامل لأولئك الذين يريدون التعمق أكثر في نصوص البايثون ). الخوارزمية الرئيسية هي بحث شجرة مونت كارلو... هذا ، بالطبع ، مبالغة ، مما يجعل AlphaZero مشابهًا لبرامج الشطرنج الأخرى. ولكن لا ينبغي أن تكون كلمة مونت كارلو مضللة - فالبحث يتم التحكم فيه بواسطة شبكة عصبية (بالنسبة إلى Go ، كان مكونًا من 80 طبقة ، ولا أعرف أي واحد هنا) وهو مستهدف بدقة. AlphaZero يقطع شجرة القوة الغاشمة لاعتبارات موضعية ، تمامًا كما يفعل الإنسان! مقارنةً بـ Stockfish ، يمر Alphazero بخيارات أقل بنحو 1000 مرة... إنها تجرف "القمامة" بدرجة أقل بكثير ، لكنها تحسب الخيارات الأقوى على الأرجح بشكل أعمق وأكثر دقة. لذلك ، فإنه يفوز حتى مع وقت أقل أو على أجهزة أضعف. والشيء الأكثر أهمية هو أن AlphaZero "درست" الشطرنج حصريًا على "تجربتها الخاصة". لم يكن لديها معلومات مسبقة. "فهمها" لا يشوبه "تقييم شانون". لديها فهمها الفريد لرؤية الشطرنج وأسلوب اللعب ، والذي غالبًا ما يتجاهل التوازن المادي (مثل تال الصغير!).



ما هي الاستنتاجات التي يمكننا استخلاصها من هذه التجربة الرائعة؟



  1. إنه يدحض بشكل قاطع كل الاعتبارات المتعلقة بإضعاف الشطرنج. إن ظهور اللاعب الذي يلعب بأسلوب لم يسبق له مثيل ويظهر تفوقًا تامًا على المنافسين يشير إلى أن إمكانيات اللعبة بعيدة عن أن تكون مستنفدة.
  2. . 4 (« ») ! – ( -) . . . AlphaZero () .
  3. – ? – , , .. , . AlphaZero – – –. ? , , . , . . . . SkyNet سيصبح أقل بعدًا قليلاً وأكثر شراً قليلاً ... في غضون ذلك ، سأكون ممتنًا للروابط والمقالات والأفكار حول كيفية التعامل مع هذه المشكلة.


ملاحظة. ولكن سوف مشاهدة المباريات . لقد حصلت على متعة لا تضاهى.



All Articles