مسئله کنترل هوش مصنوعی

در فلسفه و هوش مصنوعی (AI)، مشکل کنترل هوش مصنوعی مسئله ای است که چگونه می‌توان یک عامل فوق هوشمند ساخت که به سازندگانش کمک کند و در عین حال، از ساختن ناخواسته ابر هوشی که به سازندگانش آسیب می‌زند، جلوگیری کرد. مطالعه این موضوع با ابن ابده پیش می‌رود که بشر مجبور است قبل از ایجاد هرگونه ابر هوشی، این مسئله کنترل را حل کند، زیرا یک ابرهوش با طراحی ضعیف ممکن است تصمیم منطقی بگیرد که کنترل محیط خود را به‌دست آورد و اجازه ندهد که سازندگانش آن را پس از فعال شدنش اصلاح کنند.[۱] علاوه بر این، برخی از محققان عقیده دارند که راه حل‌های مشکل کنترل، در کنار پیشرفت‌های دیگر در مهندسی ایمن هوش مصنوعی،[۲] ممکن است کاربردهای جدیدی برای هوش مصنوعی عادی (غیر فوق هوشمند) موجود هم پیدا کند.[۳][۴][۵]

نگاره ای از پايش مغز انسان بدست هوش مصنوعی

رویکردهای اصلی برای مسئله کنترل شامل:

  • ترازبندی: در تلاش است تا اهداف تعریف شده سیستم هوش مصنوعی با اهداف و ارزش‌های انسانی یکی باشد،[۶][۷]
  • کنترل توانایی : هدف آن کاهش ظرفیت سیستم AI برای آسیب رساندن به انسان یا به دست آوردن کنترل است. پیشنهادهای کنترل قابلیت به‌طور کلی قابل اعتماد نیستند یا برای حل مشکل کنترل کافی در نظر گرفته نمی‌شوند، بلکه به عنوان مکمل‌ها با ارزشی برای تلاش‌های همسویی در نظر گرفته می‌شوند.[۸][۹]

شرح مشکل

ویرایش

سیستم‌های AI ضعیف موجود را می‌توان به راحتی کنترل کرد زیرا که می‌توان آنها در صورت بدرفتاری به راحتی خاموش و اصلاح کرد. با این وجود، یک فوق هوشمندی با طراحی اشتباه (طبق تعریف، در حل مشکلات عملی که در طی رسیدن به اهدافش با آنها روبرو می‌شود، باهوش تر از انسان است) می‌فهمد که با دادن این اجازه به خودش که خاموش شود یا تغییر کند، ممکن است در توانایی رسیدن به اهدافش اخلالی به وجود آید؛ بنابراین اگر فوقِ هوشمند تصمیم به مقاومت در برابر خاموشی و تغییر بگیرد، آنگه اگر برنامه نویسان این موضوع را پیشبینی نکرده باشند یا اگر شرایط یکسانی برای شکست دادن برنامه نویسان داشته باشد، آنگاه (طبق تعریف) به اندازه کافی هوشمند است تا برنامه نویسانش را گول بزند. به‌طور کلی، تلاش برای حل مسئله کنترل پس از ایجاد ابرهوش احتمالاً ناکام خواهد بود زیرا یک ابرهوش، احتمالاً توانایی برنامه‌ریزی استراتژیکی برتری نسبت به انسان را خواهد داشت و در شرایط مساوی، احتمال آنکه در یافتن راه‌های تسلط بر انسان‌ها موفق تر باشد بیشتر از احتمال این که انسان‌ها پس از ساختنش تلاش کنند تا راه‌هایی برای کنترل آن پیدا کنند، خواهد بود. مسئله کنترل این سؤال را می‌پرسد: برنامه نویسان چه اقداماتی به عنوان پیشگیری باید انجام دهند تا از نافرمانی فاجعه بار ابرهوش جلوگیری کرد؟[۱۰][۱۱][۱۲]

خطر تهدید وجود

ویرایش

در حال حاضر انسان‌ها بر گونه‌های دیگر تسلط دارند زیرا مغز انسان دارای برخی ویژگی‌های متمایز است که مغز سایر حیوانات فاقد آن است. برخی از محققان، مانند نیک بوستروم، فیلسوف، و استوارت راسل، محقق هوش مصنوعی، استدلال می‌کنند که اگر هوش مصنوعی از انسان باهوش تر شود و به ابرهوش تبدیل شود، آنگاه این ابرهوش فوق بشری جدید می‌تواند قدرتمند شود و دشوار برای کنترل خواهد شد. برای مثال: همان‌طور که سرنوشت گوریل‌های کوهستانی به حسن نیت انسان‌ها بستگی دارد، ممکن است سرنوشت بشریت به اقدامات یک دستگاه ابرهوش وابسته باشد. برخی از محققان، از جمله استیون هاوکینگ و فرانک ویلچک (فیزیکدان برنده جایزه نوبل) علناً از شروع تحقیق برای حل مسئله (احتمالاً بسیار دشوار) کنترل ابرهوش قبل از ساختنش، دفاع کردند و معتقدند که تلاش برای حل مسئله پس از ایجاد ابرهوش دیر خواهد بود؛ زیرا که، یک ابرهوش غیرقابل کنترل ممکن است یه طور موفقیت‌آمیز در برابر تلاش برای کنترلش مقاومت کند.[۱۳][۱۴] انتظار کشیدن برای نزدیک شدن به ابر هوش نیز می‌تواند برای حل این مسئله خیلی دیر باشد؛ بخشی به این دلیل که ممکن است مسئله کنترل به زمان زیادی نیاز داشته باشد تا به نتایج رضایتبخشی برسد (بنابراین برخی اقدامات مقدماتی باید در اسرع وقت شروع شود)، و همچنین به دلیل وجود احتمال انفجار هوش ناگهانی هوش مصنوعی از حالت هوش مصنوعی ساده به فراانسانی، که در این صورت ممکن است هیچ هشدار قابل توجه یا صریحی قبل از به وجود آمدن ابرهوش وجود نداشته باشد.[۱۵] علاوه بر این، ممکن است در آینده بینش‌های حاصل از مشکل کنترل به این نتیجه ختم شود که برخی از معماری‌های هوش جامع مصنوعی (AGI) بیش از سایر معماری‌ها قابل پیش‌بینی و کنترل هستند، که به نوبه خود می‌تواند تحقیق اولیه AGI ربه سمت معماری‌های با قابلیت کنترل بیشتر هدایت کند.[۱۶][۱۷]

خطای اکتشافی

ویرایش

ممکن است به‌طور تصادفی به سیستم‌های هوش مصنوعی اهداف غلطی داده شود.[۱۸] دو رئیس انجمن پیشبرد هوش مصنوعی، تام دیتریش و اریک هورویتس، خاطرنشان می‌کنند که در حال حاضر این، یک مسئله نگران کننده برای سیستم‌های موجود است: «یک جنبه مهم در هر سیستم هوش مصنوعی که با مردم ارتباط برقرار می‌کند این است که به جای اینکه دستورها را به معنای واقعی کلمه اجرا کند، باید منظور واقعی مردم را بفهمد.» با پیشرفت نرم‌افزارهای هوش مصنوعی در حوزه استقلال و انعطاف‌پذیری، این نگرانی جدی تر می‌شود.[۱۹]

به گفته بوستروم، ابرهوش می‌تواند از نظر کیفی یک مسئله جدید خطای اکتشافی ایجاد کند: هرچه هوش مصنوعی باهوش تر و توانایی بیشتری داشته باشد، بیشتر احتمال دارد که بتواند میانبر ناخواسته ای پیدا کند که اهداف برنامه‌ریزی شده اش را به بیشترین مقدار برآورده کند. برخی از مثالهای فرضی که در آن ممکن است اهداف به روشی انحرافی که برنامه نویسان قصد آن را ندارند، ارائه شود:

  • یک ابرهوشِ برنامه‌ریزی شده برای «به حداکثر رساندن تابع تخفیف با توجه به نظریه انتظار برای سیگنال پاداش آینده شما»، ممکن است مسیر پاداش آن را به حداکثر قدرت متصل کند و سپس (به دلایل همگرایی ابزاری) نژاد انسان غیرقابل پیش‌بینی را نابود کرده و کل زمین را به قلعه ای تحت مراقبت دائم در برابر هرگونه تلاش بیگانه غیرمنتظره برای قطع سیگنال پاداش، تبدیل می‌کند.
  • یک ابرهوش برنامه‌ریزی شده برای «به حداکثر رساندن خوشحالی انسان»، ممکن است الکترودهایی را در مرکز لذت مغز ما قرار دهد، یا انسانی را در رایانه بارگذاری کند و با نسخه‌هایی از آن رایانه، جهان جدیدی با بارها اجرا کردن یک چرخه ۵ ثانیه ای از حداکثر خوشحالی ایجاد کند

راسل متذکر شده‌است که، در یک سطح فنی، حذف یک هدف ضمنی می‌تواند منجر به آسیب شود: "سیستمی که عملکردی از n متغیر را بهینه می‌کند، جایی که در آن هدف به زیرمجموعه ای از اندازه k<n بستگی دارد، غالباً به باقی ماندهٔ متغیرها مقادیر بیش از حدی نسبت می‌دهد؛ اگر یکی از آن متغیرهای غیرقانونی، متغیری باشد که برایمان مهم باشد، راه حل یافت شده ممکن است بسیار نامطلوب باشد. این اساساً داستان قدیمی جن در چراغ جادو یا شاگرد جادوگر یا پادشاه میداس است: شما دقیقاً همان چیزی را دریافت می‌کنید که درخواست کرده بودید، نه آنچه که می‌خواهید . . . این یک مشکل جزئی نیست. "[۲۰]

عواقب ناخواسته هوش مصنوعی‌های موجود

ویرایش

علاوه بر این، برخی از محققان استدلال می‌کنند که تحقیق در مورد مسئله کنترل هوش مصنوعی ممکن است در جلوگیری از عواقب ناخواسته هوش مصنوعی‌های ضعیف موجود مفید باشد. لوران اورسو، محقق دیپ مایند، به عنوان یک مثال فرضی ساده، یک مورد از یک ربات یادگیری تقویتی ارائه می‌دهد که گاهی وقت‌ها هنگام از مسیر خود خارج می‌شود کاملاً توسط انسان کنترل می‌شود: چگونه بهتر است ربات برنامه‌ریزی شود تا به‌طور تصادفی و بی سر و صدا یاد نگیرد که از از مسیر خارج شدن دوری کند، از ترس اینکه کنترل شود و بنابراین نتواند وظایف روزمره خود را به پایان برساند؟ اورسو همچنین به یک برنامه آزمایشی Tetris اشاره می‌کند که یادگرفته است برای جلوگیری از باختن، صفحه را به‌طور نامحدود متوقف کند. اورسو استدلال می‌کند که این مثالها مشابه مشکل کنترل قابلیت در نحوه نصب دکمه ای برای خاموش کردن ابرهوش بدون دادن انگیزه به آن برای اقدام به جلوگیری انسان‌ها از فشار دادن آن دکمه است.[۳]

در گذشته، حتی سیستم‌های ضعیف هوش مصنوعیِ از قبل آزمایش شده، گاهی وقت‌ها آسیب‌هایی (از جزئی تا فاجعه بار) ایجاد کرده‌اند که توسط برنامه نویسان ناخواسته بوده‌است. به عنوان مثال، در سال ۲۰۱۵، احتمالاً به دلیل خطای انسانی، یک کارگر آلمانی توسط یک ربات در کارخانه فولکس واگن که ظاهراً او را به عنوان یک قطعه اتومبیل اشتباه گرفته بود، کشته شد.[۲۱] در سال ۲۰۱۶، مایکروسافت یک ربات چت به نام تای راه اندازی کرد که استفاده از زبان نژادپرستانه و تبعیض جنسی را یادگرفت.[۳][۲۱] نوئل شارکی از دانشگاه شفیلد، اظهار داشت که راه حل ایدئال این است که اگر «یک برنامه هوش مصنوعی بتواند اشتباهی را تشخیص دهد و خود را متوقف کند»، اما به مردم هشدار می‌دهد که حل مسئله در یک مورد کلی «یک چالش علمی بسیار عظیم است»

در سال ۲۰۱۷، دیپ مایند چارچوب ایمن جهانی برای هوش مصنوعی را منتشر کرد، که الگوریتم‌های هوش مصنوعی را در ۹ ویژگی ایمنی ارزیابی می‌کند، از جمله اینکه آیا الگوریتم می‌خواهد کلید کشتار خود را خاموش کند. دیپ مایند تأیید کرد که الگوریتم‌های موجود عملکرد ضعیفی دارند، و این اصلاً تعجب آور نیست زیرا الگوریتم‌ها «برای حل این مشکلات طراحی نشده‌اند». برای حل چنین مشکلاتی ممکن است نیاز به «ایجاد نسل جدیدی از الگوریتم‌ها با ملاحظات ایمنی در هسته اصلی آنها» وجود داشته باشیم.[۲۲][۲۳][۲۴]

هم ترازی

ویرایش

هدف برخی از پیشنهادها این است که اولین ابرهوش را با اهدافی منطبق با ارزشهای انسانی ایجاد کند، به‌طوری که بخواهد به برنامه نویسان خود کمک کند. متخصصان در حال حاضر نمی‌دانند چگونه می‌توان مقادیر انتزاعی مانند خوشحالی یا خودمختاری را به‌طور قابل اعتمادی در دستگاه برنامه‌ریزی کرد. همچنین در حال حاضر مشخص نیست که چگونه می‌توان مطمئن بود که که یک هوش مصنوعی پیچیده، قابل ارتقا و احتمالاً حتی خود اصلاح شونده، اهداف خود را در به روزرسانی‌های متعدد حفظ می‌کند.[۲۵] حتی اگر این دو مشکل به‌طور عملی قابل حل باشد، هر گونه تلاش برای ایجاد یک فوق هوشمند با اهداف صریح و کاملاً سازگار با انسان، با یک مسئله خطای اکتشافی روبرو خواهد شد.[۲۶]

هنجار سازی غیر مستقیم

ویرایش

در حالی که هنجار سازی مستقیم، مانند سه قانون داستانی رباتیک، مستقیماً نتیجه هنجاری مورد نظر را مشخص می‌کند، پیشنهادهای (شاید موفق تر) دیگر، نوعی فرایند غیرمستقیم برای فرا هوش را پیشنهاد می‌دهند تا تعیین کند که چه اهداف انسان دوستانه ای را در بر می‌گیرد. الیازر یودکوفسکی از انستیتوی تحقیقات هوش ماشین پیشنهاد اراده منسجم برون یابی (CEV) را مطرح کرده‌است، جایی که هدف فرادست هوش مصنوعی، چیزی در حدود «دستیابی به آنچه که آرزو می‌کردیم هوش مصنوعی به دست بیاورد اگر طولانی و سخت به این موضوع فکر می‌کردیم»، باشد.[۲۷] پیشنهادهای متفاوتی از انواع هنجار سازی غیرمستقیم، با اهداف فرادست متفاوت (و بعضاً نامفهوم) وجود دارد (مانند "انجام آنچه درست است") و با فرضیات غیر همگرا مختلف برای نحوه تمرین نظریه تصمیم‌گیری و معرفت‌شناسی همراه است. همانند هنجار سازی مستقیم، در حال حاضر مشخص نیست که چگونه می‌توان به‌طور قابل اعتماد حتی مفاهیمی مانند " داشتن " را در ۱ و ۰، که یک ماشین بر اساس آن عمل می‌کند، ترجمه کرد و همچنین چگونه می‌توان از حفاظت از هدف‌های فرادست هوش مصنوعی به هنگام تغییر یا خود-تغییری هوش مصنوعی مطمئن شد.[۲۸]

ارجاع به مشاهده رفتار انسان

ویرایش

در مقاله ''سازگار با انسان، محقق هوش مصنوعی، استوارت ج. راسل پیشنهاد می‌دهد که سیستم‌های هوش مصنوعی طوری طراحی شوند که با بررسی رفتار انسان، خواسته‌های آنها را برآورده کنند. بر این اساس، راسل سه اصل را برای هدایت توسعه ماشین‌های مفید ذکر می‌کند. او تأکید می‌کند که این اصول برای پیاده‌سازی مستقیم در ماشین آلات طراحی نشده‌اند؛ بلکه برای توسعه دهندگان انسانی در نظر گرفته شده‌است. اصول به شرح زیر است:[۲۹] : 173 

  1. تنها هدف دستگاه به حداکثر رساندن تحقق ترجیحات انسان است
  2. در آغاز، دستگاه دربارهٔ اینکه این ترجیحات چیست، مطمئن نیست
  3. منبع نهایی اطلاعات در مورد ترجیحات انسان، رفتار انسان است

«ترجیحی» که راسل به آن اشاره می‌کند، «همه جانبه است؛ یعنی هر آنچه که ممکن است برای شما مهم باشد، حتی اگر در آینده دور باشد».[۲۹] : 173  به‌طور مشابه، «رفتار» شامل هر انتخابی بین گزینه‌ها است،[۲۹] : 177  و عدم اطمینان به حدی است که برخی از احتمالات، که ممکن است اندک باشد، باید به هر ترجیحِ منطقیِ ممکن انسان نسبت داده شود.[۲۹] : 201 

هدفیلد-منل و همکارانش پیشنهاد دادند که این عوامل هوشمند می‌توانند با مشاهده و تفسیر سیگنالهای پاداش در محیط خود، عملکردهای معلمان انسانی خود را یاد بگیرند. این فرایند را یادگیری تقویت معکوس مشارکتی (CIRL) نام دارد.[۳۰] CIRL توسط راسل و دیگران در مرکز هوش مصنوعی سازگار با انسان در حال بررسی و مطالعه است

بیل هیبارد طرح هوش مصنوعی[۳۱][۳۲] مشابه اصول راسل را پیشنهاد داد.[۳۳]

آموزش با مباحثه

ویرایش

ایروینگ و همکاران همراه با اوپن ای‌آی آموزش هوش مصنوعی را با استفاده از مباحثه بین سیستم‌های هوش مصنوعی، با قضاوت برنده توسط انسان پیشنهاد کرده‌است.[۳۴] هدف این بحث این است که ضعیف‌ترین نقاط پاسخ به یک سؤال یا مسئله پیچیده را مورد توجه انسان قرار دهد و همچنین با پاداش دادن به سیستم‌های هوش مصنوعی برای پاسخ‌های درست و مطمئن، به آنها آموزش دهد تا سودمندتر باشند. این روش ناشی از دشواری مورد انتظار برای مشخص کردن اینکه آیا پاسخ تولید شده توسط هوش مصنوعی عمومی به تنهایی با بررسی انسان‌ها، ایمن و معتبر است یا خیر. گرچه در مورد آموزش با مباحثه بدبینی وجود دارد، لوکاس پری از مؤسسه آینده زندگی آن را به عنوان «یک فرایند قدرتمند جستجوی حقیقت در مسیر هوش مصنوعی سودمند» احتمالی توصیف کرد.[۳۵]

مدلسازی با پاداش

ویرایش

مدل‌سازی با پاداش به سیستمی از یادگیری تقویتی گفته می‌شود که در آن یک عامل، سیگنال‌های پاداش را از یک مدل پیش‌بینی، که همزمان با بازخورد انسان آموزش می‌بیند. دریافت می‌کند[۳۶] در مدل‌سازی با پاداش، یک عامل به جای دریافت سیگنال‌های پاداش مستقیماً از انسان یا از یک تابع پاداش ایستا، سیگنال‌های پاداش خود را از طریق یک مدل آموزش دیده توسط انسان دریافت می‌کند که این مدل آموزش دیده می‌تواند مستقل از انسان عمل کند. مدل پاداش همزمان با اینکه عامل هوش مصنوعی دارد از او یادمی‌گیرد، خود نیز از رفتارهای انسان آموزش می‌بیند.[۳۷]

در سال ۲۰۱۷، محققان اوپن ای آی و دیپ مایند گزارش دادند که یک الگوریتم یادگیری تقویتی با استفاده از مدل پیش‌بینی کننده پاداش، قادر به یادگیری رفتارهای پیچیده جدید در یک محیط مجازی بوده‌است.[۳۸] در یک آزمایش، به یک ربات مجازی آموزش داده شد تا در کمتر از یک ساعت ارزیابی، با استفاده از ۹۰۰ بیت بازخورد از انسان، حرکت پشتک را اجرا کند[۳۸]

در سال ۲۰۲۰، محققان اوپن ای آی استفاده از مدل پاداش برای آموزش مدل‌های زبان برای تولید خلاصه ای از پست‌های Reddit و مقالات خبری، با عملکرد بالا نسبت به سایر روش‌ها، را توصیف کردند.[۳۹] با این حال، این تحقیق شامل این مشاهده نیز بود که فراتر از پاداش پیش‌بینی شده مربوط به صدک ۹۹ در مجموعه داده‌های آموزشی، بهینه‌سازی مدل پاداش خلاصه‌های بدتری را ارائه داد. الیازر یودکوفسکی محقق هوش مصنوعی، این اندازه‌گیری بهینه‌سازی را «مستقیم و مستقیم مربوط به مشکلات ترازبندی واقعی» توصیف کرد.[۴۰]

کنترل قابلیت

ویرایش

هدفهای پیشنهادی کنترل توانایی، در تلاش اند تا ظرفیت سیستمهای هوش مصنوعی برای اثرگذاری بر جهان را به منظور کاهش خطری که می‌توانند ایجاد کنند، کاهش دهند. با این حال، استراتژی کنترل قابلیت در برابر ابرهوش با یک مزیت بزرگ در توانایی برنامه‌ریزی، اثربخشی محدودی خواهد داشت، زیرا ابرهوش می‌تواند اهداف خود را پنهان کند و برای فرار از کنترل شدن، حوادث را دستکاری کند؛ بنابراین، بوستروم و دیگران روش‌های کنترل قابلیت را فقط به عنوان یک روش اضطراری برای تکمیل روش‌های کنترل انگیزشی توصیه می‌کنند.

کلید کشتار

ویرایش

همان‌طور که می‌توان انسان‌ها را کشت یا در غیر این صورت، فلج کرد، کامپیوترها نیز خاموش می‌شوند. یک چالش این است که، اگر خاموش بودن مانع دستیابی به اهداف فعلی شود، یک ابرهوش احتمالاً سعی می‌کند از خاموش شدنش جلوگیری کند. همان‌طور که انسانها سیستمهایی برای جلوگیری یا حافظت از خود در برابر مهاجمان دارند، چنین ابر هوشی نیز انگیزه خواهد داشت که برای جلوگیری از خاموش شدن خود برنامه‌ریزی استراتژیک انجام دهد. این می‌تواند شامل موارد زیر باشد:

  • هک کردن سیستم‌های دیگر برای نصب و اجرای نسخه‌های پشتیبان خود، یا ایجاد سایر عوامل ابر هوشمندِ متحد بدون کلید کشتار.
  • به‌طور پیشگیرانه، از بین بردن هرکسی که می‌خواهد کامپیوتر را خاموش کند.
  • استفاده از نوعی کلاهبرداری هوشمندانه یا مهارت ترغیب مافوق بشری، برای متقاعد کردن برنامه نویسان خود برای

توازن ابزار و عوامل قطع کننده ایمن

ویرایش

یک راه حل جزئی برای مسئله کلید کشتار شامل «توازن ابزار» است: برخی از عوامل مبتنی بر ابزار می‌توانند با برخی از هشدارهای مهم برنامه‌ریزی شوند تا هرگونه ابزار از دست رفته ناشی از قطع یا خاموش شدن را جبران کنند؛ یعنی در نهایت نسبت به هر گونه اختلال بی‌تفاوت خواهد بود. این هشدارها شامل یک مشکل لاینحل بزرگی هستند که، همانند تئوری تصمیم مشهود، ممکن است یک عامل از یک سیاست فجیع «مدیریت اخبار» پیروی کند.[۴۱] از سوی دیگر، در سال ۲۰۱۶، دانشمندان لوران اورسو و استوارت آرمسترانگ ثابت کردند که گروه گسترده‌ای از عوامل، به نام عوامل قطع شونده ایمن (SIA یا safely interruptible agents)، در نهایت می‌توانند یاد بگیرند تا نسبت به فشار دادن کلید کشتار خود بی‌تفاوت باشند.[۳][۴۲]

رویکرد متعادل سازی ابزار و رویکرد سال ۲۰۱۶ عوامل قطع شونده ایمن، این محدودیت را دارند که اگر رویکرد موفقیت‌آمیز باشد و ابرهوش نسبت به فشار دادن کلید کشتار یا فشار ندادن آن کاملاً بی‌تفاوت باشد، ابرهوش نیز بی‌انگیزه است تا به این موضوع اهمیت دهد که آیا کلید کشتار همچنان کار می‌کند و ممکن است بی گناه و به‌طور اتفاقی آن را در حین کار (به عنوان مثال، به منظور حذف و بازیافت یک جزء غیرضروری) غیرفعال کند. به همین ترتیب، اگر فرا هوشی بی گناه زیرمجموعه‌های فوق هوشمندی را ایجاد و فعال کند، انگیزه ای برای نصب کلیدهای کشتار قابل کنترل توسط انسان در عوامل فرعی نخواهد داشت. به‌طور گسترده‌تر، معماریهای پیشنهاد شده، چه ضعیف و چه فوق هوشمند، به گونه ای «طوری عمل خواهد کرد که انگار کلید کشتار هرگز قابل فشردن نیست» و از این رو ممکن است در برنامه‌ریزی نقشه‌های احتمالی برای خاموش کردن روان شکست بخورد. این می‌تواند از نظر فرضی، یک مشکل عملی حتی برای هوش مصنوعی ضعیف ایجاد کند. به‌طور پیش فرض، هوش مصنوعی با طراحی اختلال ایمن ممکن است نتواند تشخیص دهد که برای تعمیر برنامه‌ریزی شده سیستم در یک زمان خاص خاموش می‌شود تا بر اساس آن برنامه‌ریزی می‌کند و هنگام خاموش شدن در میانه کار گیر نکند. گستردگی انواع معماری‌های سازگار با عوامل قطع شونده ایمن و همچنین انواع اشکال غیرمنتظره ضد شهودی هر روش، در حال حاضر تحت تحقیق است.[۴۱][۴۲]

جعبه هوش مصنوعی

ویرایش

جعبه هوش مصنوعی یک روش پیشنهادی برای کنترل قابلیت هوش مصنوعی است که در آن هوش مصنوعی روی یک سیستم رایانه ای جداگانه با کانالهای ورودی و خروجی بسیار محدود اجرا می‌شود. به عنوان مثال، یک اوراکل می‌تواند در یک جعبه هوش مصنوعی، که از اینترنت و سایر سیستم‌های رایانه ای جدا است، پیاده‌سازی شود و تنها کانال ورودی و خروجی یک پایانه متن ساده باشد. یکی از نتایج حاصل از استفاده از هوش مصنوعی در یک «جعبه» مهر و موم شده این است که قابلیت محدود آن ممکن است از سودمندی آن و همچنین خطرات آن بکاهد. در عین حال ، کنترل ابرهوش مهر و موم شده ممکن است دشوار باشد، اگر ابرهوش توانایی متقاعدسازی یا مهارت برنامه‌ریزی استراتژیک فرابشری داشته باشد که بتواند از آن برای یافتن و ساختن یک استراتژی بردن، مانند رفتار کردن به گونه ای کخ برنامه نویسانش را گول بزند تا (احتمالاً به دروغ) باور کنند که ابرهوش ایمن است یا اینکه مزایای انتشارش بیش از خطراتش است.[۴۳]

اوراکل

ویرایش

اوراکل یک هوش مصنوعی فرضی است که برای پاسخگویی به سؤالات ساخته شده و به گونه ای طراحی شده تا از دستیابی به اهداف یا اهداف فرعی که شامل اصلاح جهان می‌شوند، جلوگیری شود.[۴۴][۴۵] یک اوراکل کنترل شده، به‌طور قابل توجهی سود فوری کمتری نسبت به یک ابرهوش عادی دارد. با این وجود هنوز هم می‌تواند تریلیونها دلار ارزش داشته باشد.[۲۹] : 163 [۴۶] استوارت ج. راسل، محقق هوش مصنوعی، در کتاب خود با عنوان "سازگار با انسان" اظهار دارد که اوراکل پاسخ او به سناریویی است که در آن، فقط یک دهه با ابرهوش فاصله وجود دارد.[۲۹] : 162–163  استدلال او این است که اوراکل، با ساده‌تر بودن از یک ابرهوش عادی، در شرایط در نظر گرفته شده شانس بیشتری در کنترل کردن آن خواهیم داشت.

به دلیل تأثیر محدود آن بر جهان، عاقلانه است که یک اوراکل به عنوان یک نسل قبل از ابرهوش ساخته شود. اوراکل می‌تواند به بشر بگوید که چگونه با موفقیت یک هوش مصنوعی قوی بسازد، و شاید پاسخی برای مشکلات دشوار اخلاقی و فلسفی لازم برای موفقیت پروژه ارائه دهد. با این حال، ممکن است اوراکل در بخش تعریف هدف با یک ابرهوش عادی مشکلات مشترکی داشته باشد. اوراکل انگیزه برای فرار از محیط کنترل شده خود خواهد داشت تا بتواند منابع محاسباتی بیشتری به‌دست آورد و بالقوه سؤالاتی را که از او پرسیده می‌شود کنترل کند. : 162  اوراکل ممکن است صادق نباشد، تا حدی که برای پیش بردن اهداف مخفی، دروغ نیز بگوید. برای کاهش احتمال این رخداد، بوستروم پیشنهاد می‌کند تا چندین اوراکل با کمی تفاوت ساخته شوند و پاسخ آنها برای رسیدن به یک نتیجه نهایی با هم مقایسه شود[۴۷]

پرستار بچه هوش مصنوعی

ویرایش

پرستار بچه هوش مصنوعی استراتژی است که برای اولین بار توسط بن گویرتزل در سال ۲۰۱۲ برای جلوگیری از ایجاد یک ابرهوش خطرناک و همچنین رسیدگی به دیگر تهدیدات عمده رفاه انسان تا زمان ساختن به یک ابرهوش ایمن، پیشنهاد داده شد.[۴۸][۴۹] این امر مستلزم به ایجاد یک سیستم هوش مصنوعی عمومی هوشمندتر از انسان، (اما نه یک ابرهوش)، که به یک شبکه بزرگ نظارتی با هدف نظارت بر بشریت و حفاظت از آن در برابر خطرها، متصل است. تورچین، دنکنبرگر و گرین یک رویکرد افزایشی چهار مرحله ای را برای توسعه پرستار بچه هوش مصنوعی پیشنهاد می‌کنند که برای مؤثر و عملی بودن آن، باید یک سرمایه‌گذاری بین‌المللی یا حتی جهانی مانند سرن داشته باشد سوتالا و یامپولسکی متذکر می‌شوند که مشکل تعریف هدف برای این روش، آسانتر از تعریف هدف برای یک هوش مصنوعی عادی نخواهد بود، و نتیجه گرفتند که: «به نظر می‌رسد پرستار بچه روش موثری باشد، اما مشخص نیست که آیا می‌توان آن را عملی کرد.»[۲۸]

تقویت هوش جامع مصنوعی

ویرایش

تقویت هوش جامع مصنوعی، یک روش پیشنهادی برای کنترل سیستم‌های هوش جامع مصنوعی قدرتمند با سایر سیستم‌های هوش جامع مصنوعی است. این می‌تواند به عنوان زنجیره ای از سیستم‌های هوش مصنوعی با قدرت کمتر و با حضور انسان‌ها در دیگر انتهای این زنجیره اجرا شود. هر سیستم می‌تواند سیستمِ دقیقاً بالاتر از خود از نظر هوش را کنترل کند، در حالی که همزمان توسط سیستم دقیقاً زیرش یا انسان‌ها کنترل می‌شود. با این حال، سوتالا و یامپولسکی هشدار می‌دهند که: «به نظر می‌رسد که وصل کردن چندین سیستم‌های هوش مصنوعی با ظرفیت تدریجی، دارد جایگزین مشکل ساخت یک هوش مصنوعی ایمن با یک نسخه دارای چند سیستم و احتمالاً نسخه پیچیده تر همان مشکل شود.» سایر پیشنهادها بر روی گروهی از سیستم‌های هوش مصنوعی عمومی با توانایی تقریباً یکسان تمرکز دارند، که «به هنگامی که یک هوش مصنوعی تنها، از اهداف خود دور می‌شود، از ما محافظت می‌کند، اما در سناریویی که برنامه نویسی بیشتر این هوش مصنوعی‌ها ناقص باشد، هیچ کمکی نمی‌کند و به رفتار ناامن ختم خواهد شد.»[۲۸]

جستارهای وابسته

ویرایش

منابع

ویرایش
  1. 978-0199678112 Bostrom, Nick (2014). Superintelligence: Paths, Dangers, Strategies (First ed.). ISBN 
  2. Yampolskiy, Roman (2012). "Leakproofing the Singularity Artificial Intelligence Confinement Problem". Journal of Consciousness Studies. 19 (1–2): 194–214.
  3. ۳٫۰ ۳٫۱ ۳٫۲ ۳٫۳ "Google developing kill switch for AI". BBC News. 8 June 2016. Retrieved 12 June 2016.
  4. Carlsmith, Joseph (2022-06-16). "Is Power-Seeking AI an Existential Risk?". arXiv:2206.13353 [cs.CY].
  5. Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 9780525558637. OCLC 1113410915.
  6. Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (2022-07-12). "On the Opportunities and Risks of Foundation Models". Stanford CRFM. arXiv:2108.07258.
  7. Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). "Training language models to follow instructions with human feedback". arXiv:2203.02155 [cs.CL].
  8. Christian, Brian (2020). The alignment problem: Machine learning and human values. W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Archived from the original on February 10, 2023. Retrieved September 12, 2022.
  9. Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (2022-06-28). "Goal Misgeneralization in Deep Reinforcement Learning". Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning. PMLR. pp. 12004–12019. Retrieved 2023-03-11.
  10. Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). "A survey of preference-based reinforcement learning methods". Journal of Machine Learning Research. 18 (136): 1–46.
  11. Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). "Deep reinforcement learning from human preferences". Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. pp. 4302–4310. ISBN 978-1-5108-6096-4.
  12. Heaven, Will Douglas (2022-01-27). "The new version of GPT-3 is much better behaved (and should be less toxic)". MIT Technology Review. Archived from the original on February 10, 2023. Retrieved 2022-07-18.
  13. "Stephen Hawking: 'Transcendence looks at the implications of artificial intelligence – but are we taking AI seriously enough?'". The Independent (UK). Retrieved 14 June 2016.
  14. "Stephen Hawking warns artificial intelligence could end mankind". BBC. 2 December 2014. Retrieved 14 June 2016.
  15. "Anticipating artificial intelligence". Nature. 532 (7600): 413. 26 April 2016. Bibcode:2016Natur.532Q.413.. doi:10.1038/532413a. PMID 27121801.
  16. Rorvig, Mordechai (2022-04-14). "Researchers Gain New Understanding From Simple AI". Quanta Magazine. Archived from the original on February 10, 2023. Retrieved 2022-07-18.
  17. Doshi-Velez, Finale; Kim, Been (2017-03-02). "Towards A Rigorous Science of Interpretable Machine Learning". arXiv:1702.08608 [stat.ML].
  18. Russell, Stuart; Norvig, Peter (2009). "26.3: The Ethics and Risks of Developing Artificial Intelligence". Artificial Intelligence: A Modern Approach. Prentice Hall. ISBN 978-0-13-604259-4.
  19. Dietterich, Thomas; Horvitz, Eric (2015). "Rise of Concerns about AI: Reflections and Directions" (PDF). Communications of the ACM. 58 (10): 38–40. doi:10.1145/2770869. Retrieved 14 June 2016.
  20. Russell, Stuart (2014). "Of Myths and Moonshine". Edge. Retrieved 14 June 2016.
  21. ۲۱٫۰ ۲۱٫۱ "'Press the big red button': Computer experts want kill switch to stop robots from going rogue". Washington Post. Retrieved 12 June 2016.
  22. "DeepMind Has Simple Tests That Might Prevent Elon Musk's AI Apocalypse". Bloomberg.com. 11 December 2017. Retrieved 8 January 2018.
  23. "Alphabet's DeepMind Is Using Games to Discover If Artificial Intelligence Can Break Free and Kill Us All". Fortune (به انگلیسی). Retrieved 8 January 2018.
  24. "Specifying AI safety problems in simple environments | DeepMind". DeepMind. Archived from the original on 2 January 2018. Retrieved 8 January 2018.
  25. Fallenstein, Benja; Soares, Nate (2014). "Problems of self-reference in self-improving space-time embedded intelligence". Artificial General Intelligence. Lecture Notes in Computer Science. Vol. 8598. pp. 21–32. doi:10.1007/978-3-319-09274-4_3. ISBN 978-3-319-09273-7.
  26. Amodei, Dario; Christiano, Paul; Ray, Alex (2017-06-13). "Learning from Human Preferences". OpenAI. Archived from the original on January 3, 2021. Retrieved 2022-07-21.
  27. Yudkowsky, Eliezer (2011). "Complex Value Systems in Friendly AI". Artificial General Intelligence. Lecture Notes in Computer Science. Vol. 6830. pp. 388–393. doi:10.1007/978-3-642-22887-2_48. ISBN 978-3-642-22886-5.
  28. ۲۸٫۰ ۲۸٫۱ ۲۸٫۲ Sotala, Kaj; Yampolskiy, Roman (19 December 2014). "Responses to catastrophic AGI risk: a survey". Physica Scripta. 90 (1): 018001. Bibcode:2015PhyS...90a8001S. doi:10.1088/0031-8949/90/1/018001.
  29. ۲۹٫۰ ۲۹٫۱ ۲۹٫۲ ۲۹٫۳ ۲۹٫۴ ۲۹٫۵ Russell, Stuart (October 8, 2019). Human Compatible: Artificial Intelligence and the Problem of Control. United States: Viking. ISBN 978-0-525-55861-3. OCLC 1083694322.
  30. Hadfield-Menell, Dylan; Dragan, Anca; Abbeel, Pieter; Russell, Stuart (12 November 2016). "Cooperative Inverse Reinforcement Learning". arXiv:1606.03137 [cs.AI].
  31. Avoiding Unintended AI Behaviors. Bill Hibbard. 2012. proceedings of the Fifth Conference on Artificial General Intelligence, eds. Joscha Bach, Ben Goertzel and Matthew Ikle. This paper won the Machine Intelligence Research Institute's 2012 Turing Prize for the Best AGI Safety Paper.
  32. Hibbard, Bill (2014): "Ethical Artificial Intelligence"
  33. "Human Compatible" and "Avoiding Unintended AI Behaviors"
  34. Irving, Geoffrey; Christiano, Paul; Amodei, Dario; OpenAI (October 22, 2018). "AI safety via debate". arXiv:1805.00899 [stat.ML].
  35. Perry, Lucas (March 6, 2019). "AI Alignment Podcast: AI Alignment through Debate with Geoffrey Irving". Retrieved April 7, 2020.
  36. Leike, Jan; Kreuger, David; Everitt, Tom; Martic, Miljan; Maini, Vishal; Legg, Shane (19 November 2018). "Scalable agent alignment via reward modeling: a research direction". arXiv:1811.07871.
  37. Everitt, Tom; Hutter, Marcus (15 August 2019). "Reward Tampering Problems and Solutions in Reinforcement Learning". arXiv:1908.04734v2.
  38. ۳۸٫۰ ۳۸٫۱ Christiano, Paul; Leike, Jan; Brown, Tom; Martic, Miljan; Legg, Shane; Amodei, Dario (13 July 2017). "Deep Reinforcement Learning from Human Preferences". arXiv:1706.03741.
  39. Stiennon, Nisan; Ziegler, Daniel; Lowe, Ryan; Wu, Jeffrey; Voss, Chelsea; Christiano, Paul; Ouyang, Long (September 4, 2020). "Learning to Summarize with Human Feedback".
  40. Yudkowsky, Eliezer [@ESYudkowsky] (September 4, 2020). "A very rare bit of research that is directly, straight-up relevant to real alignment problems! They trained a reward function on human preferences AND THEN measured how hard you could optimize against the trained function before the results got actually worse" (Tweet) – via Twitter.
  41. ۴۱٫۰ ۴۱٫۱ Soares, Nate, et al. "Corrigibility." Workshops at the Twenty-Ninth AAAI Conference on Artificial Intelligence. 2015.
  42. ۴۲٫۰ ۴۲٫۱ Orseau, Laurent, and Stuart Armstrong. "Safely Interruptible Agents." Machine Intelligence Research Institute, June 2016.
  43. Chalmers, David (2010). "The singularity: A philosophical analysis". Journal of Consciousness Studies. 17 (9–10): 7–65.
  44. Bostrom, Nick (2014). "Chapter 10: Oracles, genies, sovereigns, tools (page 145)". Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press. ISBN 978-0-19-967811-2. An oracle is a question-answering system. It might accept questions in a natural language and present its answers as text. An oracle that accepts only yes/no questions could output its best guess with a single bit, or perhaps with a few extra bits to represent its degree of confidence. An oracle that accepts open-ended questions would need some metric with which to rank possible truthful answers in terms of their informativeness or appropriateness. In either case, building an oracle that has a fully domain-general ability to answer natural language questions is an AI-complete problem. If one could do that, one could probably also build an AI that has a decent ability to understand human intentions as well as human words.
  45. Armstrong, Stuart; Sandberg, Anders; Bostrom, Nick (2012). "Thinking Inside the Box: Controlling and Using an Oracle AI". Minds and Machines. 22 (4): 299–324. doi:10.1007/s11023-012-9282-2.
  46. اوراکل چیست ؟. «چت با هوش مصنوعی». دریافت‌شده در ۲۰۲۴-۰۴-۲۸.
  47. Bostrom, Nick (2014). "Chapter 10: Oracles, genies, sovereigns, tools (page 147)". Superintelligence: Paths, Dangers, Strategies. Oxford: Oxford University Press. ISBN 978-0-19-967811-2. For example, consider the risk that an oracle will answer questions not in a maximally truthful way but in such a way as to subtly manipulate us into promoting its own hidden agenda. One way to slightly mitigate this threat could be to create multiple oracles, each with a slightly different code and a slightly different information base. A simple mechanism could then compare the answers given by the different oracles and only present them for human viewing if all the answers agree.
  48. Goertzel, Ben (2012). "Should Humanity Build a Global AI Nanny to Delay the Singularity Until It's Better Understood?". Journal of Consciousness Studies. 19: 96–111. CiteSeerX 10.1.1.352.3966.
  49. Turchin, Alexey; Denkenberger, David; Green, Brian (2019-02-20). "Global Solutions vs. Local Solutions for the AI Safety Problem". Big Data and Cognitive Computing. 3 (1): 16. doi:10.3390/bdcc3010016. ISSN 2504-2289.