توزیع نرمال چندمتغیره

در نظریه احتمال و آمار، توزیع نرمال چند متغیره، توزیع گاوسی چند متغیره، یا توزیع نرمال توأم یک تعمیم از توزیع نرمال یک بعدی (تک متغیره) به ابعاد بالاتر است. یک تعریف این است که اگر هر ترکیب خطی از k عضو یک بردار، توزیع نرمال تک متغیره داشته باشد، به یک بردار تصادفی k متغیره گفته می‌شود که به‌طور نرمال توزیع شده‌است. اهمیت آن عمدتاً از قضیه حد مرکزی چند متغیره ناشی می‌شود. برای توصیف هر مجموعه ای از متغیرهای تصادفی با ارزش حقیقی که احتمالاً همبسته اند و هر کدام حول مقداری متوسط جمع می‌شوند، اغلب از توزیع نرمال چندمتغییره استفاده می‌شود.[۱][۲]

تعاریف

ویرایش

علامت گذاری و پارامترسازی

ویرایش

توزیع نرمال چند متغیره یک بردار تصادفی k بعدی به صورت   را می‌توان با نماد زیر نوشت:

 

یا برای اینکه با صراحت نشان دهیم X از بعد k است،

 

با بردار میانگین k بعدی

 

و ماتریس کوواریانس  

 

به طوری که   معکوس ماتریس کوواریانس را ماتریس دقت می‌نامند که به صورت   نمایش داده می‌شود.

بردار تصادفی نرمال استاندارد

ویرایش

یک بردار تصادفی حقیقی به صورت  ، بردار تصادفی نرمال استاندارد نامیده می‌شود اگر تمام اعضای   مستقل و هر کدام یک متغیر تصادفی با میانگین صفر و واریانس ۱ باشند که به‌طور نرمال توزیع شده‌اند یعنی   برای همه  ها. : p. 454 

بردار تصادفی نرمال متمرکز

ویرایش

یک بردار تصادفی حقیقی به صورت  ، بردار تصادفی نرمال متمرکز نامیده می‌شود اگر ماترس  با ابعاد   وجود داشته باشد به طوری که   توزیع مشابهی با   داشته و   یک بردار تصادفی نرمال استاندار   متغیره باشد. : p. 454 

بردار تصادفی نرمال

ویرایش

یک بردار تصادفی حقیقی به صورت ، بردار تصادفی معمولی نامیده می‌شود اگر بردار تصادفی نرمال استاندارد   با بعد   ، بردار   با بعد   و ماتریس   با ابعاد   وجود داشته باشد، به طوری که   . : p. 454  : p. 455 

به نمادگذاری ریاضی:

 

در اینجا  ، ماتریس کوواریانس است.

در حالت انحطاط که در آن ماتریس کوواریانس منفرد است، توزیع مربوطه فاقد چگالی است. برای جزئیات بیشتر به بخش زیر مراجعه کنید. این مورد مکرراً در آمار به وجود می‌آید. برای مثال، در توزیع بردار باقیمانده در رگرسیون حداقل مربعات معمولی.  ها به‌طور کلی مستقل نیستند. آنها را می‌توان به عنوان نتیجه اعمال ماتریس   به مجموعه ای از متغیرهای گاوسی مستقل   مشاهده کرد.

تعاریف معادل

ویرایش

تعاریف زیر معادل تعریف فوق می‌باشد. یک بردار تصادفی به فرم   اگر یکی از شرایط معادل زیر را برآورده کند، دارای توزیع نرمال چند متغیره است.

  • هر ترکیب خطی به فرم   از اعضای آن به طور نرمال توزیع شده باشد. یعنی برای هر بردار ثابت   ، متغیر تصادفی   دارای یک توزیع نرمال تک متغیره باشد، که در آن توزیع نرمال تک متغیره با واریانس صفر جرم نقطه ای بر میانگین آن است.
  • یک بردار   با k بعد و یک ماتریس مثبت نیمه معین و متقارن   با ابعاد   وجود دارد، به طوری که تابع مشخصه از   به صورت زیر می‌باشد.  

توزیع نرمال کروی را می‌توان به عنوان توزیع منحصربفردی توصیف کرد که در آن اجزا در هر سیستم مختصات متعامد مستقل هستند.[۳][۴]

تابع چگالی

ویرایش
 
توزیع احتمال توأم نرمال دو متغیره

مورد غیر منحط

ویرایش

هنگامی که ماتریس کوواریانس متقارن  ، مثبت قطعی باشد به توزیع نرمال چند متغیره «غیر انحطاط» گفته می‌شود. در این حالت توزیع دارای تابع چگالی احتمال به صورت زیر است[۵]

 

جایی که   یک بردار ستونی k بعدی حقیقی است و   دترمینان ماتریس  ، همچنین به عنوان واریانس تعمیم یافته شناخته می‌شود. اگر   یک ماتریس   باشد، معادله بالا به معادله متناظر در توزیع نرمال تک متغیره تقلیل می‌یابد.

نسخه متقارن دایره ای توزیع نرمال مختلط شکی با کمی تفاوت دارد.

در هر مکان هندسی، مکان نقاط در فضای k -بعدی که هر کدام مقدار خاصی از چگالی را می‌دهند، یک بیضی یا تعمیم ابعاد بالاتر آن را می‌دهد. از این رو نرمال چند متغیره یک مورد خاص از توزیع‌های بیضوی است.

کمیت   به عنوان فاصله ماهالانوبیس شناخته می‌شود که نشان دهنده فاصله نقطه آزمایشی   از میانگین   است. توجه داشته باشید که در صورتی که   ، توزیع به یک توزیع نرمال تک متغیره کاهش می‌یابد و فاصله ماهالانوبیس به قدر مطلق نمره استاندارد کاهش می‌یابد.

مورد دو متغیره

ویرایش

در حالت غیر منفرد ۲ بعدی ( تابع چگالی احتمال یک بردار   به صورت زیر است:

 

به طوریکه که   همبستگی بین   و   و   و   . در این مورد،

 

در حالت دو متغیره، اولین شرط معادل برای بازسازی چند متغیره نرمال بودن را می‌توان کمتر محدود کرد، زیرا نشان دادن اینکه تعداد شمارایی از ترکیبات خطی متمایز   و   نرمال هستند، برای نتیجه‌گیری این که بردار   دو متغیره نرمال است کافی است.

جایگاه‌های دو متغیره ایزو چگالی رسم شده در   صفحه بیضی‌هایی هستند که محورهای اصلی آنها با بردارهای ویژه ماتریس کوواریانس   ساخته می‌شوند. (نیمه قطر اصلی و فرعی بیضی برابر است با ریشه مربع مقادیر ویژه مرتب شده).

 
توزیع نرمال دو متغیره متمرکز در نقطه   با انحراف از معیار ۳ در جهت تقریباً   از ۱ در جهت متعامد.

هر چه قدر مطلق پارامتر همبستگی   افزایش بیابد، این نقطه‌ها به سمت خط زیر فشرده می‌شوند:

 

این به این دلیل است که این عبارت، با   (که در آن sgn تابع علامت است) با   ، بهترین پیش‌بینی بی طرفانه خطی از   با مقادیر داده شده از   است.

مورد منحط

ویرایش

اگر ماتریس کوواریانس   رتبه کامل نباشد، پس توزیع نرمال چند متغیره منحط است و چگالی ندارد. به‌طور دقیق تر، توزیع مذکور با توجه به اندازه لبگ k بعدی (که معیار معمولی در دوره‌های احتمال در سطح حساب دیفرانسیل و انتگرال است) چگالی ندارد. گفته می‌شود که فقط بردارهای تصادفی که توزیع آنها نسبت به یک اندازه‌گیری کاملاً پیوسته‌است، چگالی دارند (با توجه به آن اندازه). برای صحبت در مورد چگالی اما ساده‌تر است که از پرداختن به عوارض تئوری اندازه‌گیری اجتناب کنیم و به زیر مجموعه ای از   از مختصات   به طوری که ماتریس کوواریانس برای این زیر مجموعه مثبت معین است توجه کنیم. سپس سایر مختصات را می‌توان به عنوان تبدیل افاینی از این مختصات انتخابی در نظر گرفت.[نیازمند منبع]

برای صحبت معنادار در مورد چگالی‌ها در موارد منفرد، باید یک معیار پایه متفاوت را انتخاب کنیم. با استفاده از قضیه فروپاشی می‌توانیم محدودیتی از اندازه‌گیری Lebesgue را به مقداری تعریف کنیم که زیرفضای متناظر با   که به ابعاد   از توزیع گاوسی پشتیبانی کند، یعنی   . با توجه به این معیار، توزیع دارای چگالی موتیف زیر است:

 

به طوریکه که   وارون تعمیم یافته‌است و det* شبه دترمینان است.

تابع توزیع تجمعی

ویرایش

مفهوم تابع توزیع تجمعی در بعد ۱ را می‌توان به دو صورت به حالت چند بعدی، بر اساس مناطق مستطیلی و بیضی شکل گسترش داد.

راه اول این است که تابع توزیع تجمیعی   از یک بردار تصادفی   را به عنوان احتمالی که همه اجزای   کمتر یا مساوی با مقادیر مربوطه در بردار هستند   تعریف کنیم:[۶]

 
توزیع تجمعی و چگالی احتمال
 

اگرچه هیچ فرم بسته‌ای برای آن وجود ندارد   ، تعدادی الگوریتم وجود دارد که آن را به صورت عددی تخمین می‌زنند.[۶]

راه دیگر این است که تابع توزیع تجمیعی   را به عنوان احتمال قرار گرفتن نمونه در داخل بیضی که با فاصله ماهالانوبیس   از تعمیم مستقیم انحراف معیار گاوسی قرار دارد تعریف کنیم.[۷]

منابع

ویرایش
  1. Kac, M. (1939). "On a characterization of the normal distribution". American Journal of Mathematics. 61 (3): 726–728. doi:10.2307/2371328. JSTOR 2371328.
  2. Sinz, Fabian; Gerwinn, Sebastian; Bethge, Matthias (2009). "Characterization of the p-generalized normal distribution". Journal of Multivariate Analysis. 100 (5): 817–820. doi:10.1016/j.jmva.2008.07.006.
  3. Kac, M. (1939). "On a characterization of the normal distribution". American Journal of Mathematics. 61 (3): 726–728. doi:10.2307/2371328. JSTOR 2371328.
  4. Sinz, Fabian; Gerwinn, Sebastian; Bethge, Matthias (2009). "Characterization of the p-generalized normal distribution". Journal of Multivariate Analysis. 100 (5): 817–820. doi:10.1016/j.jmva.2008.07.006.
  5. Simon J.D. Prince(June 2012). Computer Vision: Models, Learning, and Inference بایگانی‌شده در ۲۰۲۰-۱۰-۲۸ توسط Wayback Machine. Cambridge University Press. 3.7:"Multivariate normal distribution".
  6. ۶٫۰ ۶٫۱ Botev, Z. I. (2016). "The normal law under linear restrictions: simulation and estimation via minimax tilting". Journal of the Royal Statistical Society, Series B. 79: 125–148. arXiv:1603.04166. Bibcode:2016arXiv160304166B. doi:10.1111/rssb.12162.
  7. Bensimhoun Michael, N-Dimensional Cumulative Function, And Other Useful Facts About Gaussians and Normal Densities (2006)