توزیع نرمال چندمتغیره
در نظریه احتمال و آمار، توزیع نرمال چند متغیره، توزیع گاوسی چند متغیره، یا توزیع نرمال توأم یک تعمیم از توزیع نرمال یک بعدی (تک متغیره) به ابعاد بالاتر است. یک تعریف این است که اگر هر ترکیب خطی از k عضو یک بردار، توزیع نرمال تک متغیره داشته باشد، به یک بردار تصادفی k متغیره گفته میشود که بهطور نرمال توزیع شدهاست. اهمیت آن عمدتاً از قضیه حد مرکزی چند متغیره ناشی میشود. برای توصیف هر مجموعه ای از متغیرهای تصادفی با ارزش حقیقی که احتمالاً همبسته اند و هر کدام حول مقداری متوسط جمع میشوند، اغلب از توزیع نرمال چندمتغییره استفاده میشود.[۱][۲]
تعاریف
ویرایشعلامت گذاری و پارامترسازی
ویرایشتوزیع نرمال چند متغیره یک بردار تصادفی k بعدی به صورت را میتوان با نماد زیر نوشت:
یا برای اینکه با صراحت نشان دهیم X از بعد k است،
با بردار میانگین k بعدی
به طوری که معکوس ماتریس کوواریانس را ماتریس دقت مینامند که به صورت نمایش داده میشود.
بردار تصادفی نرمال استاندارد
ویرایشیک بردار تصادفی حقیقی به صورت ، بردار تصادفی نرمال استاندارد نامیده میشود اگر تمام اعضای مستقل و هر کدام یک متغیر تصادفی با میانگین صفر و واریانس ۱ باشند که بهطور نرمال توزیع شدهاند یعنی برای همه ها. : p. 454
بردار تصادفی نرمال متمرکز
ویرایشیک بردار تصادفی حقیقی به صورت ، بردار تصادفی نرمال متمرکز نامیده میشود اگر ماترس با ابعاد وجود داشته باشد به طوری که توزیع مشابهی با داشته و یک بردار تصادفی نرمال استاندار متغیره باشد. : p. 454
بردار تصادفی نرمال
ویرایشیک بردار تصادفی حقیقی به صورت ، بردار تصادفی معمولی نامیده میشود اگر بردار تصادفی نرمال استاندارد با بعد ، بردار با بعد و ماتریس با ابعاد وجود داشته باشد، به طوری که . : p. 454 : p. 455
به نمادگذاری ریاضی:
در اینجا ، ماتریس کوواریانس است.
در حالت انحطاط که در آن ماتریس کوواریانس منفرد است، توزیع مربوطه فاقد چگالی است. برای جزئیات بیشتر به بخش زیر مراجعه کنید. این مورد مکرراً در آمار به وجود میآید. برای مثال، در توزیع بردار باقیمانده در رگرسیون حداقل مربعات معمولی. ها بهطور کلی مستقل نیستند. آنها را میتوان به عنوان نتیجه اعمال ماتریس به مجموعه ای از متغیرهای گاوسی مستقل مشاهده کرد.
تعاریف معادل
ویرایشتعاریف زیر معادل تعریف فوق میباشد. یک بردار تصادفی به فرم اگر یکی از شرایط معادل زیر را برآورده کند، دارای توزیع نرمال چند متغیره است.
- هر ترکیب خطی به فرم از اعضای آن به طور نرمال توزیع شده باشد. یعنی برای هر بردار ثابت ، متغیر تصادفی دارای یک توزیع نرمال تک متغیره باشد، که در آن توزیع نرمال تک متغیره با واریانس صفر جرم نقطه ای بر میانگین آن است.
- یک بردار با k بعد و یک ماتریس مثبت نیمه معین و متقارن با ابعاد وجود دارد، به طوری که تابع مشخصه از به صورت زیر میباشد.
توزیع نرمال کروی را میتوان به عنوان توزیع منحصربفردی توصیف کرد که در آن اجزا در هر سیستم مختصات متعامد مستقل هستند.[۳][۴]
تابع چگالی
ویرایشمورد غیر منحط
ویرایشهنگامی که ماتریس کوواریانس متقارن ، مثبت قطعی باشد به توزیع نرمال چند متغیره «غیر انحطاط» گفته میشود. در این حالت توزیع دارای تابع چگالی احتمال به صورت زیر است[۵]
جایی که یک بردار ستونی k بعدی حقیقی است و دترمینان ماتریس ، همچنین به عنوان واریانس تعمیم یافته شناخته میشود. اگر یک ماتریس باشد، معادله بالا به معادله متناظر در توزیع نرمال تک متغیره تقلیل مییابد.
نسخه متقارن دایره ای توزیع نرمال مختلط شکی با کمی تفاوت دارد.
در هر مکان هندسی، مکان نقاط در فضای k -بعدی که هر کدام مقدار خاصی از چگالی را میدهند، یک بیضی یا تعمیم ابعاد بالاتر آن را میدهد. از این رو نرمال چند متغیره یک مورد خاص از توزیعهای بیضوی است.
کمیت به عنوان فاصله ماهالانوبیس شناخته میشود که نشان دهنده فاصله نقطه آزمایشی از میانگین است. توجه داشته باشید که در صورتی که ، توزیع به یک توزیع نرمال تک متغیره کاهش مییابد و فاصله ماهالانوبیس به قدر مطلق نمره استاندارد کاهش مییابد.
مورد دو متغیره
ویرایشدر حالت غیر منفرد ۲ بعدی ( )، تابع چگالی احتمال یک بردار به صورت زیر است:
به طوریکه که همبستگی بین و و و . در این مورد،
در حالت دو متغیره، اولین شرط معادل برای بازسازی چند متغیره نرمال بودن را میتوان کمتر محدود کرد، زیرا نشان دادن اینکه تعداد شمارایی از ترکیبات خطی متمایز و نرمال هستند، برای نتیجهگیری این که بردار دو متغیره نرمال است کافی است.
جایگاههای دو متغیره ایزو چگالی رسم شده در صفحه بیضیهایی هستند که محورهای اصلی آنها با بردارهای ویژه ماتریس کوواریانس ساخته میشوند. (نیمه قطر اصلی و فرعی بیضی برابر است با ریشه مربع مقادیر ویژه مرتب شده).
هر چه قدر مطلق پارامتر همبستگی افزایش بیابد، این نقطهها به سمت خط زیر فشرده میشوند:
این به این دلیل است که این عبارت، با (که در آن sgn تابع علامت است) با ، بهترین پیشبینی بی طرفانه خطی از با مقادیر داده شده از است.
مورد منحط
ویرایشاگر ماتریس کوواریانس رتبه کامل نباشد، پس توزیع نرمال چند متغیره منحط است و چگالی ندارد. بهطور دقیق تر، توزیع مذکور با توجه به اندازه لبگ k بعدی (که معیار معمولی در دورههای احتمال در سطح حساب دیفرانسیل و انتگرال است) چگالی ندارد. گفته میشود که فقط بردارهای تصادفی که توزیع آنها نسبت به یک اندازهگیری کاملاً پیوستهاست، چگالی دارند (با توجه به آن اندازه). برای صحبت در مورد چگالی اما سادهتر است که از پرداختن به عوارض تئوری اندازهگیری اجتناب کنیم و به زیر مجموعه ای از از مختصات به طوری که ماتریس کوواریانس برای این زیر مجموعه مثبت معین است توجه کنیم. سپس سایر مختصات را میتوان به عنوان تبدیل افاینی از این مختصات انتخابی در نظر گرفت.[نیازمند منبع]
برای صحبت معنادار در مورد چگالیها در موارد منفرد، باید یک معیار پایه متفاوت را انتخاب کنیم. با استفاده از قضیه فروپاشی میتوانیم محدودیتی از اندازهگیری Lebesgue را به مقداری تعریف کنیم که زیرفضای متناظر با که به ابعاد از توزیع گاوسی پشتیبانی کند، یعنی . با توجه به این معیار، توزیع دارای چگالی موتیف زیر است:
به طوریکه که وارون تعمیم یافتهاست و det* شبه دترمینان است.
تابع توزیع تجمعی
ویرایشمفهوم تابع توزیع تجمعی در بعد ۱ را میتوان به دو صورت به حالت چند بعدی، بر اساس مناطق مستطیلی و بیضی شکل گسترش داد.
راه اول این است که تابع توزیع تجمیعی از یک بردار تصادفی را به عنوان احتمالی که همه اجزای کمتر یا مساوی با مقادیر مربوطه در بردار هستند تعریف کنیم:[۶]
اگرچه هیچ فرم بستهای برای آن وجود ندارد ، تعدادی الگوریتم وجود دارد که آن را به صورت عددی تخمین میزنند.[۶]
راه دیگر این است که تابع توزیع تجمیعی را به عنوان احتمال قرار گرفتن نمونه در داخل بیضی که با فاصله ماهالانوبیس از تعمیم مستقیم انحراف معیار گاوسی قرار دارد تعریف کنیم.[۷]
منابع
ویرایش- ↑ Kac, M. (1939). "On a characterization of the normal distribution". American Journal of Mathematics. 61 (3): 726–728. doi:10.2307/2371328. JSTOR 2371328.
- ↑ Sinz, Fabian; Gerwinn, Sebastian; Bethge, Matthias (2009). "Characterization of the p-generalized normal distribution". Journal of Multivariate Analysis. 100 (5): 817–820. doi:10.1016/j.jmva.2008.07.006.
- ↑ Kac, M. (1939). "On a characterization of the normal distribution". American Journal of Mathematics. 61 (3): 726–728. doi:10.2307/2371328. JSTOR 2371328.
- ↑ Sinz, Fabian; Gerwinn, Sebastian; Bethge, Matthias (2009). "Characterization of the p-generalized normal distribution". Journal of Multivariate Analysis. 100 (5): 817–820. doi:10.1016/j.jmva.2008.07.006.
- ↑ Simon J.D. Prince(June 2012). Computer Vision: Models, Learning, and Inference بایگانیشده در ۲۰۲۰-۱۰-۲۸ توسط Wayback Machine. Cambridge University Press. 3.7:"Multivariate normal distribution".
- ↑ ۶٫۰ ۶٫۱ Botev, Z. I. (2016). "The normal law under linear restrictions: simulation and estimation via minimax tilting". Journal of the Royal Statistical Society, Series B. 79: 125–148. arXiv:1603.04166. Bibcode:2016arXiv160304166B. doi:10.1111/rssb.12162.
- ↑ Bensimhoun Michael, N-Dimensional Cumulative Function, And Other Useful Facts About Gaussians and Normal Densities (2006)