پسانتشار[۱] (انگلیسی: Backpropagation) یا انتشار معکوس، روشی در یادگیری عمیق برای آموزش شبکههای عصبی پیشخور است (روشهای مشابهی برای آموزش سایر شبکههای عصبی مصنوعی به وجود آمدهاست). در این روش با استفاده از قاعده زنجیرهای، گرادیان تابع هزینه برای تکتک وزنها محاسبه میشود. برای این کار برای محاسبه گرادیان هر لایه نسبت به تابع هزینه، از مشتق جزئی تابع هزینه نسبت به لایه بعدی استفاده میشود. در واقع از آخرین لایه (نزدیکترین لایه به خروجی) محاسبه مشتقها شروع میشود و تا ابتدای شبکه (نزدیکترین لایه به ورودیها) ادامه پیدا میکند.
روش معمول محاسبه گرادیان (محاسبه اثر هر وزن در خروجی هر نمونه) برای شبکههای عصبی پیشخور و به خصوص شبکههای عمیق بسیار زمانبر و در عمل غیرممکن است. با استفاده از روش پسانتشار و با کمک قاعده زنجیرهای و مشتق جزئی، در محاسبه گرادیان هر لایه از مشتقات لایههای جلوتر استفاده میشود و زمان اجرا تا حد زیادی کاهش پیدا میکند.[۲] استفاده از روش پسانتشار در کنار روش گرادیان کاهشی تصادفی، امکان اضافه کردن لایههای بیشتر به مدل به دلیل صرفهجویی زمانی به وجود میآید. این افزایش تعداد لایهها از سوی دیگر باعث امکان یادگیری الگوهای پیچیدهتر میشود.
برای سلول عصبی ورودیی که از سلول عصبی به این سلول وارد میشود را با نشان میدهیم. وزن این ورودی است و مجموع ضرب ورودیها با وزنهایشان را با نمایش میدهیم، یعنی . حال باید بر روی یک تابع غیر خطی اعمال کنیم، این تابع را مینامیم و خروجی آن را با نمایش میدهیم به این معنی که . به همین شکل خروجیهایی که از سلول عصبی خارج شده و به سلول وارد میشوند را با نمایش میدهیم و وزن آن را با . اگر تمام وزنهای این شبکه عصبی را در مجموعهای به اسم بگنجانیم، هدف در واقع یادگیری این وزنهاست.[۳] اگر ورودی ما باشد و خروجی و خروجی شبکه عصبی ما ، هدف ما پیدا کردن است به قسمی که برای همه دادهها و به هم خیلی نزدیک شوند. به عبارت دیگر هدف کوچک کردن یک تابع ضرر بر روی تمام داده هاست، اگر دادهها را با و تابع ضرر را با نشان دهیم هدف کمینه کردن تابع پایین بر حسب است:[۴]
به عنوان مثال اگر مسئله رگرسیون است برای میتوانیم خطای مربعات را در نظر بگیریم و اگر مسئله دستهبندی است برای میشود منفی لگاریتم بازنمایی را استفاده کرد.
برای بهدست آوردن کمینه میتوان از روش گرادیان کاهشی استفاده کرد، به این معنی که گرادیان تابع را در حساب کرد و کمی در خلاف جهت آن حرکت کرد و این کار را آنقدر ادامه داد تا تابع ضرر خیلی کوچک شود. روش بازگشت به عقب در واقع روشی برای پیدا کردن گرادیان تابع است.
حال فرض کنیم میخواهیم گرادیان تابع را نسبت به وزن بهدست بیاوریم. برای این کار نیاز به قاعده زنجیری در مشتقگیری داریم. قاعده زنجیری به این شکل کار میکند: اگر تابعی داشته باشیم به اسم که وابسته به سه ورودی ، و باشد و هرکدام از این سه ورودی به نوبه خود وابسته به باشند، مشتق به به این شکل محاسبه میشود:
با استفاده از این قاعده زنجیری روش بازگشت به عقب را به این شکل دنبال میکنیم:
همانطور که در خط پیشین دیدیم برای بهدست آوردن گرادیان نسبت به به دو مقدار نیاز داریم ورودی به سلول عصبی از سلول عصبی که همان است و راحت بهدست میآید و که از روش بازگشتی بهدست میآید و بستگی به آن هایی لابه بعد دارد که سلول به آنها وصل است، بهطور دقیقتر .
روش بازگشتی برای بهدست آوردن ها به این شکل کار میکند که ابتدا را برای سلولهای لایه خروجی حساب میکنیم، و بعد لایهها را به نوبت پایین میروم و برای هر سلول آن را با ترکیت های لایههای بالایی آن طبق فرمول حساب میکنیم. محاسبه کردن برای لایه خروجی آسان است و مستقیماً با مشتق گرفتن از بهدست میآید.[۵]
میدانیم هدف هر یادگیری با نظارت پیدا کردن تابعی است که از ورودیهای مشاهده شده به خروجیهای واقعی برسد. استفاده از ایده کاهش گرادیان در شبکههای عصبی منجر به تلاش برای پیدا کردن پارامترها در لایههای پنهان مدل به کمک پسانتشار میشود.
میدانیم مشتق خروجی نورون نسبت به ورودیهای آن همان مشتق جزئی نسبت به تابع فعالسازی است. در واقع دلیل اصلی اینکه تابع فعالسازی باید مشتقپذیر باشد، محاسبه همین مشتق است:
برای مثال در حالتی که تابع فعال سازی، تابع لجستیک باشد:
حال طبق معادله ۱ یکی یکی بخشهای مختلف را محاسبه میکنیم. کسر اول (مانند آنچه در زیر آمدهاست) با مشخص بودن خروجی و تابع هزینه به راحتی قابل محاسبه است.
↑Russell, Stuart; results, search (2009-12-11). Artificial Intelligence: A Modern Approach (به انگلیسی) (3 ed.). Boston Columbus Indianapolis New York San Francisco Upper Saddle River Amsterdam, Cape Town Dubai London Madrid Milan Munich Paris Montreal Toronto Delhi Mexico City Sao Paulo Sydney Hong Kong Seoul Singapore Taipei Tokyo: Pearson. p. 578.