آلفا زیرو

آلفا زیرو یک برنامه کامپیوتری است که توسط شرکت تحقیقاتی هوش مصنوعی آلفابت دیپ مایند گسترش یافته و روشی شبیه آلفاگو زیرو است. در ۵ دسامبر ۲۰۱۷ تیم دیپ مایند یک پیشوند را برای معرفی آلفازیرو ارائه کرد، که طی ۲۴ ساعت، با شکست دادن برنامه‌های قهرمان جهان، استوک‌فیش و نسخه ۳ روزه آلفاگو زیرو به سطح فوق‌العاده ای از بازی در مقابل این سه بازی دست یافت. آلفا زیرو تنها از طریق ۵٬۰۰۰ بازی با خود با ۶۴ TPU نسل دوم آموزش دید و برای تربیت شبکه‌های عصبی، فقط به صورت رایانش موازی، بدون دسترسی به کتاب بازبینی شطرنج یا جداول پایان بازی، آموزش داده شد. پس از ۴ ساعت آموزش، دیپ مایند برآورد کرد که آلفازیرو در سطح بالاتری از استوک‌فیش نسخهٔ ۸ بازی می‌کند؛ بعد از ۹ ساعت آموزش، این الگوریتم به‌طور قطعی استوک‌فیش را در یک تورنمنت ۱۰۰ بازی زماندار شکست داد. الگوریتم آموزش‌دیده روی یک ماشین واحد با چهار TPU بازی کرد.

ارتباط با آلفاگو زیرو

آلفا زیرو (AZ) یک متغیر کلی از الگوریتم آلفا گو زیرو (AGZ) است و می‌تواند شوگی، شطرنج و گو بازی کند. تفاوت‌های بین این دو عبارتند از:

AZ دارای قوانین سخت‌افزاری برای تنظیم هایپرپارامتر جستجو است.
شبکه عصبی به‌طور مداوم به روز می‌شود.
گو (بر خلاف شطرنج) تحت بازتاب‌ها و چرخش‌های خاص متقارن است؛ آلفا گو زیرو برای استفاده از این تقارن‌ها برنامه‌ریزی شده بود؛ ولی آلفا زیرو این چنین نیست.
شطرنج برخلاف گو می‌تواند با تساوی خاتمه یابد؛ بنابراین می‌توانید احتمال یک بازی را در نظر بگیرید.

آلفازیرو در مقابل المو و استوک فیش

با مقایسه جستجوی درخت مو نت کارلو در می‌یابیم که، آلفازیرو تنها ۸۰٬۰۰۰ موقعیت در ثانیه در شطرنج و۴۰۰۰۰ تا در شوگی در مقایسه با ۷۰ میلیون برای stockfish و ۳۵ میلیون برای elmo جستجو می‌کند. آلفازیرو با استفاده از شبکه عصبی عمیق خود، تعداد کم ارزیابی‌ها را جبران می‌کند تا تمرکز بیشتری بر انتخاب‌های خاص داشته باشد.

آموزش

آلفازیرو تنها از طریق خود بازی، با استفاده از ۵۰۰۰ نسل اول TPU برای تولید بازی‌ها و ۶۴ نسل دوم TPU برای شبکه‌های عصبی آموزش داده شد. به موازات آن، آلفازیرو در دوره آموزشی در برابر معیارهای خود(Stockfish, elmo، یا AlphaGo Zero) در بازی‌های کوتاه‌مدت با یکدیگر تطبیق داده شد تا مشخص شود که سطح آموزش تا چه حد پیشرفت کرده‌است. دیپ مایند تشخیص داد که عملکرد آلفا زیرو نیاز به بیش از ۴ ساعت تمرین برای استوک فیش، دو ساعت برای المو و ۸ ساعت برای آلفاگو زیرو دارد.

نتایج

شطرنج

در مسابقات شطرنج آلفازیرو در برابر استوک فیش ۸ (قهرمان جهان 2016 TCEC)، به هر برنامه یک دقیقه زمان برای تفکر در هر حرکت داده شد. استوک فیش، ۶۴ رشته و یک اندازه هش ۱ گیگابایتی را به یک مجموعه اختصاص داد. تنظیماتی که ترد رمستاد بعداً از آن به عنوان زیرمجموعه انتقاد کرد. آلفا زیرو در شطرنج فقط ۹ ساعت قبل از مسابقات آموزش داده شده بود. در طول این مسابقات، آلفازیرو با چهار TPU مخصوص به برنامه، یک ماشین تک منظوره را اجرا کرد. در ۱۰۰ بازی از موقعیت آغاز نورمال، آلفازیرو ۲۵ بازی را به عنوان سفید برد، ۳ بازی را سیاه برد، و ۷۲ راند باقی‌مانده را به تساوی کشید. در یک سری مسابقات دوازده‌گانه با ۱۰۰ بازی (با محدودیت زمانی نامعلوم یا محدودیت منابع) در برابر استوک فیش، آلفازیرو ۱۲ تا را برنده شد، ۸۸۶ را به تساوی کشید و ۲۴ تا را باخت.

شوگی

آلفازیرو در مجموع ۱۲ ساعت قبل از این مسابقات برای شوگی آموزش‌دیده بود. در صد بازی شوگی در برابر المو، آلفازیرو نود بار برنده شد، هشت بار باخت و دو بار از بازی دست کشید. همانند بازی‌های شطرنج، در هر برنامه به ازای هر حرکت یک دقیقه به طول انجامید و به المو ۶۴ نخ و اندازه هش ۱ گیگابایت داده شد.

گو

بعد از ۳۴ ساعت خودآموزشی گو در مقابله با آلفاگوزیرو، آلفا زیرو ۶۰ بازی را برد و ۴۰ تا را باخت.

تحلیل و بررسی

دیپ مایند در پیش‌نویس خود بیان کرد که بازی شطرنج بیش از چندین دهه نشان دهنده اوج تحقیق AI است.برنامه‌های مربوط به هنر مبتنی بر موتورهایی قدرتمند هستند که میلیونها موقعیت را با استفاده از تخصص حوزه هنر و سازگاری با دامنه پیچیده جستجو می‌کنند. آلفازیرو یک الگوریتم یادگیری تقویتی است که در اصل برای بازی گو طراحی شد و در عرض چند ساعت نتایج بسیار خوبی را دریافت کرد. دمیس هاسابیس، شطرنج ساز معروف گفته‌است آلفازیرو یک نوع بیگانه است. با توجه به مشکلاتی که در شطرنج برای پیروزی مقابل یک رقیب قوی وجود دارد، نتیجه 28-72-0 حاشیه قابل توجهی از پیروزی است. برخی از اساتید بزرگ مانند هیکارو ناکامورا و لاری کاوفمن پیروزی‌های آلفازیرو را کم اهمیت جلوه دادند. رمستاد علاوه بر این خاطر نشان ساخت که استوک فیش برای حرکات ثابت زمان ثابت و نسخه مورد استفاده یک ساله بهینه نشده‌است.

واکنش ها و انتقادات

در مقالات مطرح شده‌است که آموزش شطرنج فقط چهار ساعت طول می‌کشد: " کمی بیش از زمان بین صبحانه و ناهار." مجله وایرد این بازی را به عنوان "نخستین قهرمان چندملیتی" معرفی کرد. به گفته جوانا برینسون، متخصص هوش مصنوعی، "مهارت برای تبلیغات خوب"، آن رادر جایگاه قویتری در مقابل رقیب قرار می‌دهد. این متن دربارهٔ استخدام بهترین برنامه نویسان نیست بلکه بسیار سیاسی است چون به شرکت گوگل در هنگام مذاکره با دولت و قانون گذاران در نگاه به بخش هوش مصنوعی کمک می‌کند. شطرنج بازان بزرگ شطرنج تحت‌تاثیر آلفازیرو قرار گرفته بودند. پیتر هینه نیلسن استاد بزرگ دانمارکی،‌ آلفازیرو را به عنوان یکی از انواع ناسازگار اما برتر معرفی کرد. جان لودویج هامر، استاد بزرگ نروژی، بازی آلفازیرو را به عنوان "شطرنج با جنون حمله" با درک عمیق توصیف کرد.گری کاسپاروف، قهرمان سابق شطرنج، گفت: " دستاوردی که حاصل شده، قابل توجه است، حتی اگر ما آن را از آلفاگو انتظار داشته باشیم. استاد بزرگ هیکارو ناکامورا کمتر تحت تأثیر قرار گرفت و گفت: من برای این نتایج اعتبار خاصی قائل نیستم چون بر این عقیده ام که آلفازیرو با استفاده از سوپرکامپیوتر گوگل کار می‌کند، استوک فیش بر روی سخت افزار کار نمی‌کند و اگر تمایل دارید قابل‌مقایسه باشید،باید استوک فیش را مثل ابر کامپیوتر اداره کنید. ولف مارو بازیکن برتر شطرنج ایالات‌متحده نیز تحت‌تاثیر قرار نگرفته‌است و ادعا می‌کندکه آلفازیرو احتمالا نمی‌تواند به نیمه‌نهایی یک رقابت عادلانه مانند TCEC که در آن همه موتورها با سخت‌افزار مساوی بازی می‌کنند، دست پیدا کند. یانرواو سازند المو اظهار کرد که اگرچه آلفازیرو به‌طور کامل آن را مورد ضربت قرار داد، امتیاز آلفازیرو در شوگی در نقطه‌ای که در حداکثر ۱۰۰ درجه بالاتر از المو قرار دارد متوقف شد.

جستارهای وابسته

منابع

https://en.wiki.x.io/wiki/AlphaZero