عامل تورم واریانس
این مقاله نیازمند ویکیسازی است. لطفاً با توجه به راهنمای ویرایش و شیوهنامه، محتوای آن را بهبود بخشید. |
عامل تورم واریانس (Variance Inflation Factor) در مدلهای رگرسیون خطی یکی از روشهای تخمین پارامترهای مدل، روش حداقل مربعات میباشد. یکی از مسائل و مشکلاتی که میتواند این روش را به چالش بکشد، وجود پدیدهای به نام هم خطی (multicolinearity) میباشد. یکی از شیوههای تشخیص وجود هم خطی که کاربرد زیادی دارد، استفاده از عامل تورم واریانس میباشد. این عامل نشان میدهد که واریانس ضرایب تخمینی تا چه حد نسبت به حالتی که متغیرهای تخمینی، هم بستگی خطی ندارند، متورم شدهاست. برای درک اهمیت عامل تورم واریانس از دقت ضرایب تخمین زده شدهٔ رگرسیون با روش حداقل مربعات که توسط واریانس آنها اندازهگیری میشود، شروع میکنیم. مدل رگرسیون Y=X’b+e را در نظر بگیرید: میدانیم ماتریس واریانس-کوواریانس ضرایب تخمینی رگرسیون از رابطه زیر حاصل میشود:
به منظور اندازهگیری تأثیر هم خطی بودن، استفاده از مدل رگرسیون استاندارد شده میتواند مفید واقع شود. این مدل با تبدیل متغیرها به وسیله تبدیل هم بستگی حاصل میشود. وقتی مرل رگرسیون استاندارد شده برازانیده میشود، ضرایب تخمینی رگرسیون () از طریق رابطه زیر به ضرایب قبل از تبدیل، مربوط میشوند:
ماتریس واریانس-کوواریانس ضرایب رگرسیون استاندارد شده تخمینی، از رابطه (۱) حاصل میشود که در آن، با استفاده از رابطه که بیان میکند ماتریس برای متغیرهای تبدیل شده، ماتریس همبستکی متغیرهای مستقل X میباشد، به دست خواهیم آورد:
که در این رابطه ماتریس ضریب هم بستگی بین هر جفت از متغیرها است و واریانس عنصر خطا در مدل تبدیل شده میباشد. توجه داشته باشید که از رابطه (۳) واریانس ، با قرار دادن به جای عنصر k-ام روی قطر ماتریس ، به شکل زیر حاصل میشود:
عنصر قطری ، عامل تورم واریانس برای نامیده میشود. میتوان نشان داد که عامل تورم واریانس از رابطه زیر حاصل میشود:
که در این رابطه ضریب تعیین مدلی است که در آن متغیر مستقل روی سایر متغیرهای مستقل مدل رگرس شدهاست. بنابراین داریم:
در صورتی که یا به عبارتی دیگر به صورت خطی رابطهای با سایر متغیرهای مستقل مدل نداشه باشد، برابر یک خواهد بود. هنگامی که ، بزرگ تر از یک خواهد بود که نشان میدهد واریانس به دلیل وجود همبستگی بین متغیرهای مستقل، متورم شدهاست و مقدار آن افزایش پیدا کردهاست. هنگامی که یک متغیر مستقل وابستگی خطی کامل با سایر متغیرهای مستقل مدل داشته باشد، ضریب تعیین مرتبط با آن برابر 1 خواهد شد و در نتیجه عامل تورم واریانس به سمت بی نهایت میل خواهد کرد و از آن میتوان نتیجه گرفت که واریانس نیز بینهایت خواهد بود. مقدار عامل تورم واریانس برای متغیرهای مستقل، اغلب به عنوان یک شاخص برای اندازهگیری شدت هم خطی بودن در مدل استفاده میشود. اگر بیشترین مقدار عامل تورم واریانس بزرگتر از ۱۰ باشد معمولاً به نشانه این مسئله در نظر گرفته میشود که هم خطی موجود در مدل، اثر نامطلوبی بر تخمین گرهای روش حداقل مربعات دارد.
میانگین مقادیر عامل تورم واریانس نیز اطلاعات مفیدی را به دست میدهد. از این جهت که ضرایب تخمینی رگرسیون استاندارد شده تا چه اندازه از میزان واقعی انحراف دارند. میتوان نشان داد که مقدار مورد انتظار مجموع مربعات این انحرافات یعنی از رابطه زیر حاصل میشود:
یعنی مقادیر بزرگ میانگین VIFها موجب بیشتر شدن اختلاف بین میزان تخمین زده شده و مقدار واقعی ضرایب رگرسیون استاندارد شده میشود. وقتی که هیچ یک از متغیرهای مستقل مدل هیچ گونه وابستگی خطی با سایر متغیرهای مستقل نداردند، ضریب تعیین برای همه آنها یک خواهد شد و بنابراین عامل تورم واریانس به ازای تمام متغیرهای مستقل مقدار ۱ را اختیار خواهد نمود. یعنی جمع عوامل تورم واریانسها برابر p-۱ خواهد بود و امید ریاضی مجموع مربعات انحرافات مورد نظر به شکل زیر در میآید:
نسبت دو رابطه اخیر یعنی روابط ۷ و ۸ اطلاعات مفیدی را در مورد تأثیر هم خطی بودن بر مجموع مرعات انحرافات میدهد:
توجه داشته باشید که رابطه (۹) همان میانگین عوامل تورم واریانسها است که با نماد نشان داده میشود.
در صورتی که میانگین عوامل تورم واریانس بهطور قابل توجهی بزرگتر از ۱ باشد میتواند نشانگر جدی بودن مشکل هم خطی باشد. چند نکته: برخی از برنامههای کامپیوتری رگرسیون به شکل متقابل از عامل تورم واریانس استفاده میکنند تا مواردی را که یک متغیر مستقل به دلیل وابستگی داخلی شدید با سایر متغیرهای مستقل، نباید داخل مدل رگرسیون قرار داده شود مشخص کنند. حدود تلرانس برای که معمولاً استفاده میشود، مقادیر ۰٫۰۱ و ۰٫۰۰۱ و ۰٫۰۰۰۱ میباشد که در صورتی که کمتر از این مقدار اختیار کند داخل مدل قرار داده نمیشود. محدودیت عامل تورم واریانس برای کشف هم خطی این است که نمیتواند بین چندین هم خطی هم زمان تفاوت قائل شود.
روشهای دیگر برای تشخیص مشکل هم خطی در مدل، پیچیده تر از روش عامل تورم واریانس میباشند.[۱]
منابع
ویرایش- ↑ Neter, John,… (۱۹۹۹). Applied Linear Regression Models (۳rd ed.) The McGraw-Hill Companies, ISBN 0-256-08601-X