حداقل مربعات خطی

در محاسبات عددی، اگر یک مجموعه از نقاط را بخواهید با یک خط درون‌یابی کنید و شیب خط ( $m$ ) و عرض از مبدأ ( $h$ ) را بدست آورید، کافی است که خطای تعریف شده ( $E$ ) در زیر را کمینه (مینیمم) کنید:

{\begin{alignedat}{7}E=(y_{i}-mx_{i}-h)^{2}\\{\frac {dE}{dm}}=0\to {}\Sigma _{i}{x_{i}(y_{i}-mx_{i}-h)=0}\\{\frac {dE}{dh}}=0\to {}\Sigma _{i}{(y_{i}-mx_{i}-h)=0}\\\to {}m={\frac {\Sigma _{i}{x_{i}y_{i}}-{\bar {x}}\Sigma _{i}{y_{i}}}{\Sigma _{i}{x_{i}^{2}}-N{\bar {x}}^{2}}}\\\to {}h={\frac {1}{N}}(\Sigma _{i}{y_{i}}-mN{\bar {x}})\end{alignedat}}

که ${\bar {x}}={\frac {\Sigma _{i}{x_{i}}}{N}}$ میانگین $x_{i}$ ها و $N$ تعداد نقاط می‌باشد. $m$ و $h$ بدست آمده، بهینه خط عبوری از این نقاط را می‌دهد.

از این روش می‌توانید برای درون‌یابی چندجمله‌ای‌های مرتبه بالاتر نیز استفاده کنید، کافی است که تعریف خطا ( $E$ ) را مطابق با چندجمله‌ای که می‌خواهید عوض کرده بقیه محاسبات را همان‌طور ادامه داده و ضرایب را بدست آورید.

هندسه روش حداقل مربعات معمولی

فرمول کلی یک برآورد خطی با معادله $Y=\beta X+u$ به صورت $\beta =(XX^{\prime })^{-1}YX^{\prime }$ است. حال می‌خواهیم این رابطه و خصوصیات آن را به‌طور هندسی مورد بررسی قرار داده و ببینیم چه نتایجی برای ما در بردارند. این بررسی نه تنها از دیدگاه تئوری دارای ارزش می‌باشد بلکه بسیاری از روابطی که از حل معادله‌های پیچیده جبری بدست می‌آیند را بااستفاده از اثبات‌های هندسی ساده کرده و فهم ارتباط این روابط را برای ما آسان می‌کند. فرض کنید مجموعه متغیرهای توضیح دهنده ما به صورت $\{X_{1},...,X_{k}\}$ باشند می‌دانیم از هم مستقل هستند و بنابراین می‌توانند پایه‌هایی برای زیر فضای $S(X)$ از $E^{k}$ به وجود آورند در حقیقت اگر $\beta$ دلخواهی را در نظر بگیریم $X\beta$ یک عضو دلخواه از زیر فضای ما خواهد بود و داریم:

$X\beta =[X_{1}...X_{k}]{\begin{bmatrix}\beta _{1}\\\vdots \\\beta _{k}\end{bmatrix}}=X_{1}\beta _{1}+...+X_{k}\beta _{k}=\sum _{i=0}^{i=k}X_{i}\beta _{i}$
در حقیقت می‌توانیم هر عضو $X$ را به صورت $\beta x$ بنویسیم و حتی را حت تر به صورت مختصات ${\begin{bmatrix}\beta _{1}\cdots \beta _{k}\end{bmatrix}}$ بیان کنیم و به همین دلیل برآورد گر OLS(روش حداقل مربعات معمولی) در فضای $S(X)$ قرار دارد یعنی $X{\hat {\beta }}\in S(X)$ می‌دانیم که ${\hat {\beta }}$ از معادله اساسی زیر محاسبه می‌شود:
$X^{\prime }(Y-X{\hat {\beta }})=0$
با دقت در معادله بالا متوجه می‌شویم که این معادله دارای تفسیر بسیار ساده‌ای می‌باشد. $X$ را در نظر بگیرید می‌دانیم که $X$ همان ماتریس متغیرهای توضیح دهنده‌است و هر ستون آن مربوط به یک متغیر توضیح دهنده می‌باشد که می‌توان معادله بالا را به صورت زیر نوشت ${\begin{bmatrix}X_{1}^{\prime }\\\vdots \\X_{k}^{\prime }\end{bmatrix}}(Y-X{\hat {\beta }})=\langle X_{i},Y-X{\hat {\beta }}\rangle$
که همان ضرب داخلی متغیر توضیح دهنده $i$ ام در بردارهای خطا می‌باشد نکته‌ای که در اینجا وجود دارد این است که با توجه به معادله اساسی برای محاسبه برآوردگر در روش OLS متغیرهای بردار متغیرهای توضیح دهنده نسبت به متغیرهای خطای تخمین زده شده عمود می با شند یعنی $Y-X{\hat {\beta }}$ و $X_{i}$ ها نسبت به هم عمودند و به این شرط اصطلاحاً شرط عمود بودن (orthogonality conditions) می‌گویند.
همان‌طور که در بالا گفتیم $Y-X\beta$ همان متغیرهای خطای ما می‌باشند که با توجه به برآورد گر ما و روش برآورد به متغیرهای خطای تخمین زده شده (residuals) تبدیل می‌شوند در حقیقت اگر خطا را با $u$ نمایش دهیم می‌توان آن را به صورت تابعی از $\beta$ نمایش داد یعنی به صوت اختصاری $u(\beta )$ . آنچه ما در اینجا بدان علاقه‌مندیم بررسی عناصر خطا در زمانی می‌باشند که متغیر $\beta$ با روش OLS تخمین زده شده‌است. ومی توانیم آن را به اختصار به صورت $u({\hat {\beta }})={\hat {u}}$ بنویسیم. ملاحظه کردید که این ${\hat {u}}$ نسبت به همه متغیرهای توضیح دهنده عمود است و چون به تک تک پایه‌های فضای برداری ما عمود می‌باشد پس بر کل فضا عمود است و می‌توان آن را به صورت ${\hat {u}}\bot S(X)$ نوشت؛ و از آن نتیجه گرفت که هر عضو در این فضا عمود بر ${\hat {u}}$ است یعنی:

$\langle X\beta ,{\hat {u}}\rangle =(X\beta )^{\prime }{\hat {u}}=\beta ^{\prime }X^{\prime }{\hat {u}}=0$
پس می‌توان از بحث بالا نتیجه گرفت که $X{\hat {\beta }}$ که به آن اصطلاحاً بردار مقادیر برازانده شده (fitted values) می‌گویند در فضای $S(X)$ قرار دارد و بر ${\hat {\beta }}$ عمود است، یعنی شرط عمود بودن برای آن بر قرار است و از شرط عمود بودن می‌توان نتیجه گرفت که زاویه‌ای که این دو بردار با هم می‌سازند همان‌طور که شکل ۱ نشان می‌دهد قائمه‌است.

برای اینکه تا حدودی مفهوم عمود بودن (orthogonality) را تشریح کرده باشیم. فرض می‌کنیم دو متغیر توضیح دهنده داشته باشیم و به ترتیب آنهارا با $X_{1},X_{2}$ نمایش می‌دهیم با توجه به شکل ۲ می‌بینیم که این دومتغیر فضایی را پدید می‌آورند که می‌توانیم آن را با $S(X_{1},X_{2})$ نمایش دهیم و همانطور که در شکل نشان می‌دهد این دو متغیر می‌توانند دارای طول‌های یکسان و زاویه‌های یکسان در بین آنه می‌باشند. همان‌طور که می‌بینید بردار متغیرهای برازانده شده (fitted values) در داخل فضای $S(X_{1},X_{2})$ قرار گرفته و متغیر $u$ نسبت به صفحهَ A(شکل۳)عمود است (شکل۴)و $Y$ متغیرهای وابسته که از مجموع متغیرهای مستقل و متغیرهای خطا تشکیل می‌شوند در بیرون و قدری بالاتر ز صفحهA قرار می‌گیرند.

با توجه به توضیحاتی که در بالا داده شد می‌توان فهمید که چرا به روش برآورد مذکور حداقل مربعات گفته می‌شود در واقع با توجه به شکل‌های ۱ و۴ می‌توان فهمید که متغیرهای خطای تخمین زده شده ${\hat {u}}$ دارای حداقل فاصله از متغیرهای برازانده شده (fitted values) تا فضای متغیرهای توضیح دهنده می‌باشد. یعنی $\vert \vert {\hat {u}}\vert \vert$ اندازه تابع $\vert \vert u(\beta )\vert \vert$ را کمینه می‌کند. اگر کمی دقت کنیم متوجه می‌شویم که $\vert \vert u(\beta )\vert \vert ^{2}$ همان مجموع مربعات خطاست $SSR(\beta )$ و می‌دانیم که برآورد گر ${\hat {\beta }}$ که $u(\beta )$ را کمینه می‌کند $\vert \vert u(\beta )\vert \vert ^{2}$ را نیز کمینه می‌کند.
همان‌طور که در شکل۳ مشاهده می‌کنید شکل به ما صفحه را از بال نشان می‌دهد که دو بعدی است نقطه A در این صفحه به‌طور عمودی در زیر $Y$ قرار گرفته‌است و با توجه به معادله $Y=X{\hat {\beta }}+{\hat {u}}$ و اینکه برآورد از روش OLS انجام شده‌است. می‌توان نتیجه گرفت که بردار OA در صفحه همان بردار مقادیر برازانده شده (fitted values) می‌باشد یعنی بدار OA به‌طور هندسی نمایش دهنده $X{\hat {\beta }}$ می‌باشد. والبته چون ستون‌های ماتریس $X$ همان پایه‌های فضای ما می‌باشند می‌توان OA را با مختصات ${\hat {\beta }}$ نمایش داد. از آنجا که بحث مختصات پیش کشیده شد می‌توان تفسیر جالبی را ارائه داد اینکه در حقیقت ${\hat {\beta }}_{i}$ میزان مشارکت متغیر پایه $X_{i}$ در تشکیل $Y$ است. حال به شکل۴ نگاهی بیندازید همان‌طور که می‌بینید در شکل ۴ زاویه بین متغیرهای برازانده شده (fitted values) $X{\hat {\beta }}$ و خطای تخمین زده شده (residuals) ${\hat {u}}$ قائمه‌است، که با استفاده از آن می‌توانیم اساسی‌ترین معادله مربوط به OLS را بدست آوریم. یعنی:
$\vert \vert Y\vert \vert ^{2}=\vert \vert X{\hat {\beta }}\vert \vert ^{2}+\vert \vert {\hat {u}}\vert \vert ^{2}$
می‌دانیم $\vert \vert Y\vert \vert ^{2}$ همان مجموع مربعات کل $TSS$ و همان‌طور که پیش تر گفتیم $\vert \vert X{\hat {\beta }}\vert \vert ^{2}$ مجموع مربعات متغیرهای توضیح دهنده $ESS$ و $\vert \vert {\hat {u}}\vert \vert ^{2}$ مجموع مربعات خطای تخمین زده شده $RSS$ می‌باشد؛ و فرمول معروف $TSS=ESS+RSS$ اثبات می‌شود، می‌توان رابطه‌های فوق را نیز با استفاده از رابطه زیر به صورتی دیگر نمایش داد:

$Y^{\prime }Y={\hat {\beta }}^{\prime }X^{\prime }X{\hat {\beta }}+(Y-X{\hat {\beta }})^{\prime }(Y-X{\hat {\beta }})$
که نکته مهمی را بیان می‌کند تغییرات کل برابر است با تغییرات متغیرهای توضیح دهنده به علاوه تغییرات خطای تخمین زده شده.

تحلیل جبری مسئله

اگر فرض کنیم متغیر ما $m$ بُعد دارد، یعنی ${\vec {x}}=[x_{1},x_{2},\dots ,x_{m}]$ ، مسئله رگرسیون به یک مسئله بهینه‌سازی برای پیدا کردن $m+1$ پارامتر تبدیل می‌شود.^[۱] به این معنی که ما یک پارامتر چند متغیره به اسم ${\vec {\beta }}=[\beta _{0},\beta _{1},\cdots ,\beta _{m}]$ داریم و سعی می‌کنیم که متغیر وابسته که همان $y$ است را با ترکیبی خطی از بردارد ورودیِ ${\vec {x}}$ ، تخمین بزنیم یعنی $y\approx \beta _{0}+\sum _{i=1}^{m}\beta _{i}\times x_{i}$ . حال اگر یک بعد دیگر به متغیر ${\vec {x}}$ اضافه کنیم و مقدارش را همیشه عدد ثابت $1$ در نظر بگیریم ( $x_{0}=1$ ) و ${\vec {x}}$ را به صورتِ ${\vec {x}}=[1,x_{1},x_{2},\dots ,x_{m}]$ تغییر دهیم، تخمینی که از $y$ داریم در واقع ضرب نقطه ای بردار ورودی و بردار پارامترهای ماست یعنی $y\approx \sum _{i=0}^{m}\beta _{i}\times x_{i}={\vec {\beta }}\,\,.\,{\vec {x}}$ . حال فرض کنیم که تعداد مثالهایی که قرار است برای تخمین پارامترها استفاده کنیم $n$ است و این مثالها را به این شکل نمایش دهیم $D=({\vec {x_{1}}},y_{1}),\cdots ({\vec {x_{n}}},y_{n})$ . پارامتر بهینه پارامتری است که یک تابع هزینه را به حداقل برساند و تخمینهایی ما را به متغیر وابسته بسیار نزدیک کند. تابع هزینه را با جمع مربع تفاضل تخمینها با متغیر وابسته تعریف می‌کنیم، به این شکل که $L(D,{\vec {\beta }})=\sum _{i=1}^{n}({\vec {\beta }}\,.\,{\vec {x_{i}}}-y_{i})^{2}$ ، با این حساب پارامتر بهینه می‌شود:

${\vec {\hat {\beta }}}=argmin_{\vec {\beta }}L(D,{\vec {\beta }})=argmin_{\vec {\beta }}\sum _{i=1}^{n}({\vec {\beta }}\,.\,{\vec {x_{i}}}-y_{i})^{2}$

برای بدست آوردن ${\vec {\hat {\beta }}}$ یا همان پارامتر بهینه، از تابع هزینه که هم $L(D,{\vec {\beta }})$ نسبت به ${\vec {\beta }}$ گرادیان می‌گیریم و گرادیان را برابر صفر قرار می‌دهیم و پارامتر بهینه را بدست می‌آوریم.^[۲] از آنجا که تابع $L(D,{\vec {\beta }})$ نسبت به ${\vec {\beta }}$ تابعی کاملاً محدب است، در نقطه مینیمم گرادیان ما صفر خواهد بود و این روش پارامتر بهینه را بدست می‌دهد.^[۳] برای تسهیل کار شکل تابع را با بکارگیری چند ماتریس ساده می‌کنیم. دو ماتریس برای این کار نیاز داردیم ماتریس $X$ و ماتریس $Y$ . ماتریس $X$ ماتریس ورودهای چندمتغیره ماست. هر سطر معادل یک نمونه از داده ماست، سطر $i$ ام برابر است با $i$ امین نمونه ورودی ما یعنی بردار ${\vec {x_{i}}}$ ، از اینرو $X$ یک ماتریس $n\times (m+1)$ خواهد بود. ماتریس $Y$ از طرف دیگر برابر است با مجموعه متغیرهای وابسته داده ما. سطر $i$ ام این ماتریس برابر است با متغیر وابسته برای $i$ امین نمونه داده ما یا همان $y_{i}$ . ماتریس $Y$ یک ماتریس $n\times 1$ است. با کمک این دو ماتریس می‌توان تابع هزینه را به شکل ذیل تعریف کرد:

$L(D,{\vec {\beta }})=||X{\vec {\beta }}-Y||^{2}=(X{\vec {\beta }}-Y)^{T}(X{\vec {\beta }}-Y)=Y^{T}Y-Y^{T}X{\vec {\beta }}-{\vec {\beta }}^{T}X^{T}Y+{\vec {\beta }}^{T}X^{T}X{\vec {\beta }}$

حال گرادیان این تابع را نسبت به ${\vec {\beta }}$ پیدا می‌کنیم که می‌شود:

${\frac {\partial L(D,{\vec {\beta }})}{\partial {\vec {\beta }}}}={\frac {\partial \left(Y^{T}Y-Y^{T}X{\vec {\beta }}-{\vec {\beta }}^{T}X^{T}Y+{\vec {\beta }}^{T}X^{T}X{\vec {\beta }}\right)}{\partial {\vec {\beta }}}}=-2X^{T}Y+2X^{T}X{\vec {\beta }}$

با برابر قرار دادن گرادیان با صفر پارامتر بهینه بدست می‌آید:

$-2X^{T}Y+2X^{T}X{\vec {\beta }}=0\Rightarrow X^{T}Y=X^{T}X{\vec {\beta }}\Rightarrow {\vec {\hat {\beta }}}=(X^{T}X)^{-1}X^{T}Y$

پس پارامتر بهینه ما برابر است با:

${\bf {{\vec {\hat {\beta }}}=(X^{T}X)^{-1}X^{T}Y}}$

جستارهای وابسته

کمترین مربعات
ماتریس وندرماند (Vandermonde matrix)

منابع

↑ Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methods of Multivariate Analysis (به انگلیسی). John Wiley & Sons. p. 19.
↑ Yan, Xin (2009). Linear Regression Analysis: Theory and Computing (به انگلیسی). World Scientific.
↑ Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methods of Multivariate Analysis (به انگلیسی). John Wiley & Sons. p. 155.

مشارکت‌کنندگان ویکی‌پدیا. «Linear least squares». در دانشنامهٔ ویکی‌پدیای انگلیسی، بازبینی‌شده در ۳۰ سپتامبر ۲۰۰۸.
conometric theory and methods،By Russell Davidson، James G. MacKinnon - Oxford University Press (۲۰۰۴) - Hardback - 750 pages - ISBN 0-19-512372-7
Introductory econometrics: a modern approach،By Jeffrey M. Wooldridge - South-Western Cengage Learning (۲۰۰۹) - Hardback - 865 pages - ISBN 0-324-66054-5
http://elsa.berkeley.edu/GMTheorem/node2.html
http://faculty.udesa.edu.ar/WalterSosa/EconometriaAvanzada/OLSGeometry.pdf^{^{[پیوند مرده]}}

[1] Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methods of Multivariate Analysis (به انگلیسی). John Wiley & Sons. p. 19.

[2] Yan, Xin (2009). Linear Regression Analysis: Theory and Computing (به انگلیسی). World Scientific.

[3] Rencher, Alvin C.; Christensen, William F. (2012-08-15). Methods of Multivariate Analysis (به انگلیسی). John Wiley & Sons. p. 155.

[۱]

[۲]

[۳]