Metoda najmniejszych kwadratów — kompletny traktat: historia, teoria i dowody
Kompletna historia metody najmniejszych kwadratów: od XVIII-wiecznych pomiarów kształtu Ziemi i prekursorów (Cotes, Mayer, Bošković), przez pierwszą publikację Legendre'a (1805), oryginalne wyprowadzenie Gaussa (1809) i probabilistyczny fundament Laplace'a, po twierdzenie Gaussa-Markowa (1823) i narodziny regresji. Z datami, nazwiskami, oryginalnymi cytatami, dowodami i portretami.
Metoda najmniejszych kwadratów nie narodziła się jako ćwiczenie z algebry. Wyrosła z najtrudniejszych problemów rachunkowych XVIII i XIX wieku — wyznaczania kształtu Ziemi i orbit ciał niebieskich z pomiarów obarczonych błędem. Ten artykuł prześledzi całą tę drogę: od prekursorów, przez spór Legendre’a z Gaussem, po dwa różne dowody Gaussa i narodziny współczesnej regresji. Z datami, nazwiskami, oryginalnymi tekstami i dowodami.
Część I. Problem: niezgodne obserwacje (XVIII wiek)
W XVIII wieku astronomia i geodezja postawiły przed matematykami kłopot nowego rodzaju. Aby wyznaczyć kilka nieznanych wielkości (np. parametry orbity albo spłaszczenie Ziemi), wykonywano wiele pomiarów — więcej, niż było niewiadomych. Każdy pomiar był nieco błędny, więc układ równań stawał się nadokreślony i sprzeczny: nie istniało rozwiązanie pasujące do wszystkich obserwacji jednocześnie.
Kształt Ziemi: spór, który napędził geodezję
Newton przewidywał, że Ziemia jest spłaszczona na biegunach (elipsoida obrotacyjna). Aby to rozstrzygnąć, Francuska Akademia Nauk wysłała dwie wyprawy mierzące długość łuku południka: do Laponii (Maupertuis, 1736–37) i do Peru (Bouguer i La Condamine, 1735–44). Z wielu pomiarów geodezyjnych trzeba było wyznaczyć dwa parametry elipsoidy — klasyczny układ nadokreślony.
Prekursorzy: pierwsze sposoby łączenia obserwacji

- Roger Cotes (1682–1716) zaproponował ważoną średnią obserwacji (opublikowane pośmiertnie w Harmonia mensurarum, 1722) — pomysł, by dokładniejszym pomiarom dawać większą wagę.
- Tobias Mayer (1723–1762) przy badaniu libracji Księżyca (ok. 1750) zastosował „metodę uśredniania": dzielił równania na grupy i sumował je, redukując nadokreślony układ do rozwiązywalnego.
- Ruđer Bošković (1711–1787), mierząc z Christopherem Maire łuk południka pod Rzymem (De litteraria expeditione…, 1755), zaproponował kryterium najbliższe duchowi MNK: minimalizować sumę wartości bezwzględnych odchyleń przy warunku, że suma odchyleń (ze znakiem) wynosi zero. To regresja oparta na normie $L_1$ — alternatywa, do której statystyka wróciła dopiero w XX wieku.
- Leonhard Euler i Pierre-Simon Laplace próbowali innych „metod kombinacji", ale żadna nie była ani ogólna, ani prosta.
Brakowało jednej, uniwersalnej zasady. Pojawiła się na początku XIX wieku — i to niemal jednocześnie u dwóch ludzi.
Część II. Legendre: pierwsza publikacja (1805)

Pierwszą publikacją metody był dodatek do dzieła Adriena-Marie Legendre’a Nouvelles méthodes pour la détermination des orbites des comètes (1805), zatytułowany Sur la méthode des moindres carrés. To Legendre nadał metodzie nazwę — méthode des moindres carrés („metoda najmniejszych kwadratów") — i sformułował ją z rozbrajającą jasnością:
„De tous les principes qu’on peut proposer pour cet objet, je pense qu’il n’en est pas de plus général, de plus exact, ni d’une application plus facile, que celui dont nous avons fait usage dans les recherches précédentes, et qui consiste à rendre minimum la somme des carrés des erreurs."
„Spośród wszystkich zasad, jakie można zaproponować do tego celu, sądzę, że nie ma bardziej ogólnej, dokładniejszej ani łatwiejszej w zastosowaniu niż ta, której użyliśmy w poprzednich badaniach, a która polega na uczynieniu minimalną sumy kwadratów błędów."
Legendre podał metodę jako przepis rachunkowy — skuteczny i elegancki, ale bez uzasadnienia, dlaczego akurat kwadraty błędów, a nie inne ich potęgi. To pytanie zostawił otwarte. Odpowiedź dał Gauss.
Część III. Gauss: geneza i pierwsze uzasadnienie (1809)

Zaginiona planeta Ceres (1801)
1 stycznia 1801 roku Giuseppe Piazzi z Palermo dostrzegł słaby, ruchomy obiekt — planetę karłowatą Ceres. Obserwował ją przez 41 nocy, po czym Ceres zbliżyła się do Słońca i zniknęła w jego blasku. Astronomowie mieli garść niezgodnych pomiarów i jedno pytanie: gdzie szukać planety, gdy wyłoni się zza Słońca?

24-letni wówczas Gauss podjął się zadania. Korzystając z własnych metod — w tym minimalizacji sumy kwadratów błędów dla nadmiarowych obserwacji — obliczył orbitę i wskazał, gdzie szukać. W grudniu 1801 roku Franz von Zach i Heinrich Olbers odnaleźli Ceres blisko przewidywań Gaussa. Sukces rozsławił go w całej Europie.
Theoria Motus (1809) i spór o pierwszeństwo
W Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium (1809) Gauss przedstawił metodę wraz z głębokim uzasadnieniem i napisał, że stosował ją od 1795 roku — na długo przed publikacją Legendre’a. Wybuchł jeden z najsłynniejszych sporów o pierwszeństwo w historii nauki. W klasycznym angielskim przekładzie Davisa (1857) Gauss pisze:
„Nasza zasada, którą posługujemy się od roku 1795, została niedawno opublikowana przez Legendre’a w dziele Nouvelles méthodes pour la détermination des orbites des comètes, Paryż 1806, gdzie wyjaśniono kilka innych własności tej zasady, które dla zwięzłości tutaj pomijamy."
(„Our principle, which we have made use of since the year 1795, has lately been published by Legendre…")
Dziś ocenia się go zwykle tak:
- Legendre pierwszy opublikował metodę i nadał jej nazwę;
- Gauss pierwszy jej użył (bez publikacji) i — co ważniejsze — pierwszy wyjaśnił, dlaczego kwadraty są właściwe.
Oryginalne rozumowanie Gaussa
Gauss zadał pytanie, którego Legendre nie postawił: dlaczego suma kwadratów? Punktem wyjścia uczynił zasadę, którą astronomowie i tak stosowali:
Genialność polegała na odwróceniu pytania: zamiast „jaka jest najlepsza wartość przy danym prawie błędów?", Gauss zapytał — jakie prawo błędów $\varphi(\varepsilon)$ sprawia, że najlepszą wartością jest właśnie średnia? Odpowiedź wymusza kształt rozkładu błędów, a tym kształtem okazuje się rozkład normalny.
- Ustawienie. $n$ niezależnych pomiarów $M_1,\dots,M_n$ wielkości $\mu$; błąd $\varepsilon_i = M_i - \mu$ ma nieznaną, symetryczną gęstość $\varphi(\varepsilon)$. Wiarygodność: $$ \Omega(\mu) = \varphi(M_1-\mu)\cdots\varphi(M_n-\mu). $$
- Warunek maksimum. Z $\frac{d}{d\mu}\log\Omega = 0$, oznaczając $f := (\log\varphi)' = \varphi'/\varphi$: $$ \sum_{i=1}^n f(M_i-\hat\mu) = 0. $$
- Postulat średniej. Żądamy, by zawsze $\hat\mu = \bar M$. Wtedy $\sum_i(M_i-\bar M)=0$, więc warunek brzmi: $\sum_i f(\varepsilon_i)=0$ zawsze, gdy $\sum_i \varepsilon_i = 0$.
- To wymusza liniowość. Dla układu $\varepsilon_1=(n-1)t,\ \varepsilon_2=\dots=\varepsilon_n=-t$ (suma zero) i nieparzystej $f$: $f((n-1)t)=(n-1)f(t)$ dla każdego $t,n$ — czyli $f(\varepsilon)=k\varepsilon$.
- Całkujemy. $(\log\varphi)'=k\varepsilon \Rightarrow \varphi(\varepsilon)=C\,e^{k\varepsilon^2/2}$.
- Warunek gęstości. By $\varphi$ była całkowalna, $k<0$; pisząc $k=-2h^2$: $$ \boxed{\;\varphi(\varepsilon) = \frac{h}{\sqrt{\pi}}\,e^{-h^2\varepsilon^2}\;} $$ To rozkład normalny; $h$ to *miara dokładności* ($\textit{Genauigkeit}$). Stąd nazwa: rozkład gaussowski.
Ostatni krok jest natychmiastowy: skoro $\Omega \propto \exp(-h^2\sum\varepsilon_i^2)$, to maksymalizacja wiarygodności = minimalizacja sumy kwadratów $\sum\varepsilon_i^2$. Oto najmniejsze kwadraty jako estymacja największej wiarygodności.
Część IV. Laplace: fundament probabilistyczny

Argument Gaussa z 1809 r. opierał się na postulacie średniej — eleganckim, lecz arbitralnym. Niezależną podporę dał Pierre-Simon Laplace. W 1810 roku udowodnił centralne twierdzenie graniczne: suma wielu drobnych, niezależnych wpływów ma rozkład w przybliżeniu normalny.
To wyjaśniło, dlaczego błąd pomiaru — będący sumą wielu maleńkich, niezależnych zaburzeń — jest w praktyce gaussowski. Laplace połączył to z metodą najmniejszych kwadratów (Théorie analytique des probabilités, 1812), dając jej uzasadnienie wielkopróbkowe, niezależne od postulatu Gaussa. Tę zbieżność dwóch dróg nazywa się czasem syntezą Gaussa-Laplace’a — to ona ugruntowała rolę rozkładu normalnego i MNK w całej nauce. Więcej w artykule o centralnym twierdzeniu granicznym.
Część V. Gauss raz jeszcze: twierdzenie Gaussa-Markowa (1823)

Sam Gauss uznał argument z 1809 r. za niezadowalający (zależał od założenia normalności). W rozprawie Theoria combinationis observationum erroribus minimis obnoxiae (1821–1823) podał zupełnie nowe uzasadnienie, niewymagające żadnego konkretnego prawa błędów.
- Model. $y_i = \mu + \varepsilon_i$, gdzie $\mathbb{E}[\varepsilon_i]=0$, $\mathrm{Var}(\varepsilon_i)=\sigma^2$, błędy nieskorelowane. Rozważamy dowolny liniowy estymator $\hat\mu = \sum_i c_i y_i$.
- Nieobciążoność. $\mathbb{E}[\hat\mu] = \mu\sum_i c_i$. By $\hat\mu$ był nieobciążony dla każdego $\mu$, musi być $\sum_i c_i = 1$.
- Wariancja. Z nieskorelowania: $\mathrm{Var}(\hat\mu) = \sigma^2 \sum_i c_i^2$. Minimalizujemy $\sum_i c_i^2$ przy warunku $\sum_i c_i = 1$.
- Minimum. Z nierówności Cauchy'ego–Schwarza (lub mnożnika Lagrange'a) $\sum c_i^2$ jest najmniejsze, gdy wszystkie $c_i$ są równe: $c_i = 1/n$. Wtedy $$ \hat\mu = \frac{1}{n}\sum_i y_i = \bar y, $$ czyli estymator najmniejszych kwadratów (średnia). Każdy inny liniowy nieobciążony estymator ma wariancję nie mniejszą.
W pełnej wersji (model liniowy $\mathbf{y}=\mathbf{X}\boldsymbol\beta+\boldsymbol\varepsilon$) ten sam argument daje $\hat{\boldsymbol\beta}=(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y}$ jako estymator o najmniejszej macierzy kowariancji wśród liniowych nieobciążonych.
Część VI. Od błędów pomiarowych do regresji (XIX–XX w.)
Przez cały XIX wiek najmniejsze kwadraty służyły astronomii i geodezji — do szacowania stałych fizycznych. Przełom w stronę statystyki zależności przyszedł pod koniec stulecia:
- Francis Galton (1822–1911) badając wzrost rodziców i dzieci zauważył „regresję ku przeciętnej" (1885) i ukuł termin regresja. To on przeniósł metodę z „błędów" na związki między zmiennymi.
- Karl Pearson (1857–1936) sformalizował współczynnik korelacji (1896) i rozwinął aparat regresji.
- George Udny Yule (1871–1951) pokazał (1897), że regresja wieloraka to po prostu najmniejsze kwadraty zastosowane do wielu zmiennych objaśniających.
- Ronald A. Fisher (1890–1962) ujednolicił teorię: metoda największej wiarygodności, analiza wariancji, własności estymatorów. W jego ujęciu MNK to estymator największej wiarygodności przy błędach normalnych — domykając koło zapoczątkowane przez Gaussa.
Tak narzędzie astronomów stało się fundamentem ekonometrii: tym samym rachunkiem, którym Gauss łapał planetę, dziś szacujemy zwrot z edukacji czy elastyczność popytu.
Część VII. Dwa filary, jeden wniosek
| Uzasadnienie | Rok | Autor | Założenie | Wniosek |
|---|---|---|---|---|
| Probabilistyczne | 1809 | Gauss | błędy normalne | MNK = estymator największej wiarygodności |
| Graniczne (CLT) | 1810 | Laplace | suma wielu drobnych przyczyn | błędy są w przybliżeniu normalne |
| Wariancyjne (Gauss-Markow) | 1823 | Gauss | $\mathbb{E}[\varepsilon]=0$, stała wariancja, brak korelacji | MNK = najlepszy liniowy nieobciążony estymator |
Pierwszy filar wyjaśnia, skąd wziął się rozkład normalny. Drugi — dlaczego błędy bywają normalne. Trzeci — że metoda jest optymalna nawet bez normalności. Razem tłumaczą, czemu najmniejsze kwadraty przetrwały dwa stulecia jako domyślne narzędzie nauk ilościowych.
Część VIII. Sformułowanie macierzowe modelu
Współczesna ekonometria zapisuje model liniowy w postaci macierzowej, co czyni cały rachunek zwartym i ogólnym. Mamy $n$ obserwacji i $k$ parametrów:
$$ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}, $$gdzie $\mathbf{y}$ to wektor $n\times 1$ obserwacji zmiennej objaśnianej, $\mathbf{X}$ to macierz $n\times k$ regresorów (pierwsza kolumna zwykle jedynkowa — wyraz wolny), $\boldsymbol{\beta}$ to wektor $k\times 1$ nieznanych parametrów, a $\boldsymbol{\varepsilon}$ to wektor $n\times 1$ składników losowych.
- A1. Liniowość: $\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}$.
- A2. Pełny rząd: $\operatorname{rank}(\mathbf{X}) = k$ (brak współliniowości doskonałej; $\mathbf{X}^\top\mathbf{X}$ jest odwracalna).
- A3. Egzogeniczność: $\mathbb{E}[\boldsymbol{\varepsilon}\mid\mathbf{X}] = \mathbf{0}$.
- A4. Sferyczność: $\mathrm{Var}(\boldsymbol{\varepsilon}\mid\mathbf{X}) = \sigma^2\mathbf{I}_n$ (homoskedastyczność + brak autokorelacji).
- A5. Normalność (opcjonalnie, do wnioskowania w małej próbie): $\boldsymbol{\varepsilon}\mid\mathbf{X}\sim\mathcal{N}(\mathbf{0},\sigma^2\mathbf{I}_n)$.
Założenia A1–A4 to dokładnie warunki twierdzenia Gaussa-Markowa. Normalność A5 nie jest potrzebna do optymalności MNK — służy tylko do dokładnych testów $t$ i $F$ w małej próbie.
Część IX. Wyprowadzenie estymatora (postać macierzowa)
Minimalizujemy sumę kwadratów reszt jako iloczyn skalarny:
$$ S(\boldsymbol{\beta}) = \boldsymbol{\varepsilon}^\top\boldsymbol{\varepsilon} = (\mathbf{y}-\mathbf{X}\boldsymbol{\beta})^\top(\mathbf{y}-\mathbf{X}\boldsymbol{\beta}) = \mathbf{y}^\top\mathbf{y} - 2\boldsymbol{\beta}^\top\mathbf{X}^\top\mathbf{y} + \boldsymbol{\beta}^\top\mathbf{X}^\top\mathbf{X}\boldsymbol{\beta}. $$- Gradient. Różniczkujemy $S$ względem wektora $\boldsymbol{\beta}$ (rachunek macierzowy: $\partial(\mathbf{a}^\top\boldsymbol\beta)/\partial\boldsymbol\beta=\mathbf{a}$, $\partial(\boldsymbol\beta^\top\mathbf{A}\boldsymbol\beta)/\partial\boldsymbol\beta=2\mathbf{A}\boldsymbol\beta$ dla symetrycznej $\mathbf{A}$): $$ \frac{\partial S}{\partial\boldsymbol\beta} = -2\mathbf{X}^\top\mathbf{y} + 2\mathbf{X}^\top\mathbf{X}\boldsymbol\beta. $$
- Warunek pierwszego rzędu. Przyrównanie do zera daje równania normalne (termin Gaussa): $$ \mathbf{X}^\top\mathbf{X}\,\hat{\boldsymbol\beta} = \mathbf{X}^\top\mathbf{y}. $$
- Rozwiązanie. Z założenia A2 macierz $\mathbf{X}^\top\mathbf{X}$ jest odwracalna, więc $$ \boxed{\;\hat{\boldsymbol\beta} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y}\;} $$
- To minimum. Hesjan $\dfrac{\partial^2 S}{\partial\boldsymbol\beta\,\partial\boldsymbol\beta^\top} = 2\mathbf{X}^\top\mathbf{X}$ jest dodatnio określony (bo $\mathbf{X}$ ma pełny rząd), więc punkt krytyczny jest globalnym minimum.
Część X. Geometria: macierz kapeluszowa i rzut prostopadły
Wartości dopasowane to $\hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol\beta} = \mathbf{X}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y} = \mathbf{H}\mathbf{y}$, gdzie
$$ \mathbf{H} = \mathbf{X}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top $$to macierz kapeluszowa (ang. hat matrix) — rzut prostopadły na przestrzeń kolumn $\mathbf{X}$. Reszty to $\mathbf{e} = \mathbf{y}-\hat{\mathbf{y}} = (\mathbf{I}-\mathbf{H})\mathbf{y} = \mathbf{M}\mathbf{y}$, gdzie $\mathbf{M} = \mathbf{I}-\mathbf{H}$ to macierz anihilująca.
Obie są symetryczne i idempotentne ($\mathbf{H}^2=\mathbf{H}$, $\mathbf{M}^2=\mathbf{M}$), oraz:
$$ \mathbf{H}\mathbf{X}=\mathbf{X},\quad \mathbf{M}\mathbf{X}=\mathbf{0},\quad \mathbf{H}\mathbf{M}=\mathbf{0},\quad \operatorname{tr}(\mathbf{H})=k,\quad \operatorname{tr}(\mathbf{M})=n-k. $$Stąd ortogonalność reszt względem regresorów: $\mathbf{X}^\top\mathbf{e} = \mathbf{X}^\top\mathbf{M}\mathbf{y} = \mathbf{0}$ — to samo równanie normalne, tym razem czytane geometrycznie. Wektor reszt jest prostopadły do przestrzeni kolumn $\mathbf{X}$, a $\hat{\mathbf{y}}$ to najbliższy $\mathbf{y}$ punkt tej przestrzeni.
Część XI. Własności estymatora MNK
Podstawiając $\mathbf{y}=\mathbf{X}\boldsymbol\beta+\boldsymbol\varepsilon$ do wzoru na $\hat{\boldsymbol\beta}$, otrzymujemy kluczową tożsamość:
$$ \hat{\boldsymbol\beta} = \boldsymbol\beta + (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\boldsymbol\varepsilon. $$- Nieobciążoność. $\mathbb{E}[\hat{\boldsymbol\beta}\mid\mathbf{X}] = \boldsymbol\beta + (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\,\mathbb{E}[\boldsymbol\varepsilon\mid\mathbf{X}] = \boldsymbol\beta$ (z A3).
- Macierz kowariancji. Przy sferyczności (A4): $$ \mathrm{Var}(\hat{\boldsymbol\beta}\mid\mathbf{X}) = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top(\sigma^2\mathbf{I})\mathbf{X}(\mathbf{X}^\top\mathbf{X})^{-1} = \sigma^2(\mathbf{X}^\top\mathbf{X})^{-1}. $$
- Estymator wariancji błędu. $s^2 = \dfrac{\mathbf{e}^\top\mathbf{e}}{n-k}$ jest nieobciążony: $\mathbb{E}[s^2]=\sigma^2$ (dzielnik $n-k$, nie $n$ — analogia poprawki Bessela; $k$ stopni swobody „zużywają" parametry).
- Reszty jako funkcja błędów. Ponieważ $\mathbf{M}\mathbf{X}=\mathbf{0}$, podstawiając $\mathbf{y}=\mathbf{X}\boldsymbol\beta+\boldsymbol\varepsilon$ dostajemy $\mathbf{e}=\mathbf{M}\mathbf{y}=\mathbf{M}\mathbf{X}\boldsymbol\beta+\mathbf{M}\boldsymbol\varepsilon=\mathbf{M}\boldsymbol\varepsilon$. Reszty nie zależą od $\boldsymbol\beta$ — to przefiltrowane błędy.
- Suma kwadratów reszt. Z symetrii i idempotentności $\mathbf{M}$ ($\mathbf{M}^\top\mathbf{M}=\mathbf{M}^2=\mathbf{M}$): $$ \mathbf{e}^\top\mathbf{e}=\boldsymbol\varepsilon^\top\mathbf{M}^\top\mathbf{M}\boldsymbol\varepsilon=\boldsymbol\varepsilon^\top\mathbf{M}\boldsymbol\varepsilon. $$
- Sztuczka ze śladem. $\boldsymbol\varepsilon^\top\mathbf{M}\boldsymbol\varepsilon$ jest skalarem, więc równa się swojemu śladowi; z przemienności śladu pod cyklicznym przestawieniem $\operatorname{tr}(\mathbf{M}\boldsymbol\varepsilon\boldsymbol\varepsilon^\top)$: $$ \mathbb{E}[\mathbf{e}^\top\mathbf{e}\mid\mathbf{X}]=\mathbb{E}\big[\operatorname{tr}(\mathbf{M}\boldsymbol\varepsilon\boldsymbol\varepsilon^\top)\big]=\operatorname{tr}\!\big(\mathbf{M}\,\mathbb{E}[\boldsymbol\varepsilon\boldsymbol\varepsilon^\top]\big)=\operatorname{tr}(\mathbf{M}\,\sigma^2\mathbf{I})=\sigma^2\operatorname{tr}(\mathbf{M}). $$
- Wynik. Ponieważ $\operatorname{tr}(\mathbf{M})=n-k$, mamy $\mathbb{E}[\mathbf{e}^\top\mathbf{e}\mid\mathbf{X}]=\sigma^2(n-k)$, a stąd $$ \mathbb{E}[s^2\mid\mathbf{X}]=\frac{\mathbb{E}[\mathbf{e}^\top\mathbf{e}\mid\mathbf{X}]}{n-k}=\sigma^2. $$ Dzielnik $n-k$ — nie $n$ — bierze się więc wprost ze śladu rzutu na przestrzeń reszt. Gdyby dzielić przez $n$, estymator byłby obciążony w dół o czynnik $(n-k)/n$.
Część XII. Twierdzenie Gaussa-Markowa — dowód macierzowy
To uogólnienie dowodu z części V na pełny model liniowy.
- Dowolny liniowy estymator. Niech $\tilde{\boldsymbol\beta} = \mathbf{C}\mathbf{y}$ dla pewnej macierzy $\mathbf{C}$ ($k\times n$). Zapiszmy $\mathbf{C} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top + \mathbf{D}$, gdzie $\mathbf{D}$ mierzy odstępstwo od MNK.
- Warunek nieobciążoności. $\mathbb{E}[\tilde{\boldsymbol\beta}\mid\mathbf{X}] = \mathbf{C}\mathbf{X}\boldsymbol\beta$. By był nieobciążony dla każdego $\boldsymbol\beta$, musi $\mathbf{C}\mathbf{X}=\mathbf{I}$, co po podstawieniu daje $\mathbf{D}\mathbf{X}=\mathbf{0}$.
- Kowariancja. $\mathrm{Var}(\tilde{\boldsymbol\beta}\mid\mathbf{X}) = \sigma^2\mathbf{C}\mathbf{C}^\top$. Rozwijając $\mathbf{C}\mathbf{C}^\top$ i korzystając z $\mathbf{D}\mathbf{X}=\mathbf{0}$ (człony mieszane znikają): $$ \mathbf{C}\mathbf{C}^\top = (\mathbf{X}^\top\mathbf{X})^{-1} + \mathbf{D}\mathbf{D}^\top. $$
- Wniosek. Zatem $$ \mathrm{Var}(\tilde{\boldsymbol\beta}\mid\mathbf{X}) = \underbrace{\sigma^2(\mathbf{X}^\top\mathbf{X})^{-1}}_{\mathrm{Var}(\hat{\boldsymbol\beta}_{\text{MNK}})} + \sigma^2\mathbf{D}\mathbf{D}^\top. $$ Macierz $\mathbf{D}\mathbf{D}^\top$ jest dodatnio półokreślona, więc kowariancja każdego innego liniowego nieobciążonego estymatora jest nie mniejsza od kowariancji MNK. Równość zachodzi tylko dla $\mathbf{D}=\mathbf{0}$, czyli dla samego MNK. To jest BLUE.
Część XIII. Rozkłady i wnioskowanie (przy normalności)
Przy dodatkowym założeniu A5 ($\boldsymbol\varepsilon\sim\mathcal{N}$) dostajemy dokładne rozkłady, na których opiera się wnioskowanie:
$$ \hat{\boldsymbol\beta}\sim\mathcal{N}\!\big(\boldsymbol\beta,\ \sigma^2(\mathbf{X}^\top\mathbf{X})^{-1}\big),\qquad \frac{(n-k)s^2}{\sigma^2}\sim\chi^2_{n-k}. $$Ponieważ $\sigma^2$ jest nieznane, w statystyce $t$ zastępujemy je przez $s^2$. Dla pojedynczego współczynnika:
$$ \frac{\hat\beta_j-\beta_j}{\operatorname{SE}(\hat\beta_j)}\sim t_{n-k},\qquad \operatorname{SE}(\hat\beta_j)=s\sqrt{[(\mathbf{X}^\top\mathbf{X})^{-1}]_{jj}}. $$Dla $q$ łącznych ograniczeń liniowych $\mathbf{R}\boldsymbol\beta=\mathbf{r}$ używamy statystyki $F$:
$$ F=\frac{(\mathbf{R}\hat{\boldsymbol\beta}-\mathbf{r})^\top\big[\mathbf{R}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{R}^\top\big]^{-1}(\mathbf{R}\hat{\boldsymbol\beta}-\mathbf{r})}{q\,s^2}\sim F_{q,\,n-k}. $$To formalna podstawa testów hipotez, p-wartości i przedziałów ufności. Poniżej wyprowadzamy te rozkłady od podstaw — z jednego założenia o normalności składników losowych.
- Wszystko jest liniowe w $\boldsymbol\varepsilon$. Z tożsamości $\hat{\boldsymbol\beta}-\boldsymbol\beta=(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\boldsymbol\varepsilon$ oraz $\mathbf{e}=\mathbf{M}\boldsymbol\varepsilon$ widać, że i estymator, i reszty są przekształceniami liniowymi wektora $\boldsymbol\varepsilon\sim\mathcal{N}(\mathbf{0},\sigma^2\mathbf{I})$. Są więc łącznie normalne.
- (a) Niezależność $\hat{\boldsymbol\beta}$ i $s^2$. Ponieważ $\mathbf{X}^\top\mathbf{H}=\mathbf{X}^\top$ (bo $\mathbf{H}\mathbf{X}=\mathbf{X}$, a $\mathbf{H}$ jest symetryczna), mamy $\hat{\boldsymbol\beta}-\boldsymbol\beta=(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{H}\boldsymbol\varepsilon$ — jest to funkcja składowej $\mathbf{H}\boldsymbol\varepsilon$. Reszty zależą wyłącznie od $\mathbf{M}\boldsymbol\varepsilon$. Ich kowariancja $$ \mathrm{Cov}(\mathbf{H}\boldsymbol\varepsilon,\ \mathbf{M}\boldsymbol\varepsilon)=\mathbf{H}\,(\sigma^2\mathbf{I})\,\mathbf{M}^\top=\sigma^2\mathbf{H}\mathbf{M}=\mathbf{0}, $$ bo $\mathbf{H}\mathbf{M}=\mathbf{0}$. Dla wektorów łącznie normalnych zerowa kowariancja oznacza niezależność, więc $\hat{\boldsymbol\beta}$ jest niezależne od $\mathbf{e}$, a tym samym od $s^2=\mathbf{e}^\top\mathbf{e}/(n-k)$.
- (b) Rozkład $s^2$. Z symetrii i idempotentności $\mathbf{M}$: $(n-k)s^2=\mathbf{e}^\top\mathbf{e}=\boldsymbol\varepsilon^\top\mathbf{M}^\top\mathbf{M}\boldsymbol\varepsilon=\boldsymbol\varepsilon^\top\mathbf{M}\boldsymbol\varepsilon$. Kładąc $\mathbf{z}=\boldsymbol\varepsilon/\sigma\sim\mathcal{N}(\mathbf{0},\mathbf{I})$, $$ \frac{(n-k)s^2}{\sigma^2}=\mathbf{z}^\top\mathbf{M}\mathbf{z}. $$ Macierz $\mathbf{M}$ — symetryczna i idempotentna — ma wartości własne $1$ (z krotnością $\operatorname{tr}\mathbf{M}=n-k$) i $0$. W jej bazie własnej $\mathbf{w}=\mathbf{Q}^\top\mathbf{z}\sim\mathcal{N}(\mathbf{0},\mathbf{I})$, więc forma kwadratowa redukuje się do sumy $n-k$ niezależnych kwadratów zmiennych standardowych normalnych: $$ \mathbf{z}^\top\mathbf{M}\mathbf{z}=\sum_{i=1}^{n-k}w_i^2\sim\chi^2_{n-k}. $$
- (c) Statystyka $t$. Dla pojedynczego współczynnika $\hat\beta_j\sim\mathcal{N}(\beta_j,\ \sigma^2 v_{jj})$, gdzie $v_{jj}=[(\mathbf{X}^\top\mathbf{X})^{-1}]_{jj}$, zatem $Z=(\hat\beta_j-\beta_j)/(\sigma\sqrt{v_{jj}})\sim\mathcal{N}(0,1)$. Zastępując nieznane $\sigma$ przez $s$ i dzieląc przez pierwiastek z niezależnej zmiennej $\chi^2$ podzielonej przez stopnie swobody: $$ \frac{\hat\beta_j-\beta_j}{s\sqrt{v_{jj}}}=\frac{Z}{\sqrt{\dfrac{(n-k)s^2/\sigma^2}{n-k}}}=\frac{\mathcal{N}(0,1)}{\sqrt{\chi^2_{n-k}/(n-k)}}\sim t_{n-k}, $$ bo licznik i mianownik są niezależne na mocy punktu (a). To jest definicja rozkładu $t$ Studenta.
- (c) Statystyka $F$. Przy $q$ ograniczeniach $\mathbf{R}\boldsymbol\beta=\mathbf{r}$ i prawdziwej hipotezie wektor $\mathbf{R}\hat{\boldsymbol\beta}-\mathbf{r}\sim\mathcal{N}\big(\mathbf{0},\ \sigma^2\mathbf{R}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{R}^\top\big)$. Standaryzowana forma kwadratowa tego wektora jest zmienną $\chi^2$ o $q$ stopniach swobody: $$ \frac{(\mathbf{R}\hat{\boldsymbol\beta}-\mathbf{r})^\top[\mathbf{R}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{R}^\top]^{-1}(\mathbf{R}\hat{\boldsymbol\beta}-\mathbf{r})}{\sigma^2}\sim\chi^2_q. $$ Iloraz dwóch niezależnych zmiennych $\chi^2$, każdej podzielonej przez własne stopnie swobody, ma rozkład $F$: $$ F=\frac{\chi^2_q/q}{\chi^2_{n-k}/(n-k)}\sim F_{q,\,n-k}, $$ przy czym $\sigma^2$ skraca się między licznikiem a mianownikiem — stąd końcowy wzór z $s^2$ w mianowniku.
Część XIV. Twierdzenie Frischa-Waugha-Lovella
Jeden z najważniejszych wyników o interpretacji regresji wielorakiej (Frisch i Waugh 1933, Lovell 1963).
Podzielmy regresory: $\mathbf{X}=[\mathbf{X}_1\ \mathbf{X}_2]$. Współczynnik MNK przy $\mathbf{X}_2$ z pełnej regresji jest identyczny ze współczynnikiem z regresji:
reszt z regresji $\mathbf{y}$ na $\mathbf{X}_1$ na resztach z regresji $\mathbf{X}_2$ na $\mathbf{X}_1$.
Innymi słowy: współczynnik przy danej zmiennej w regresji wielorakiej to jej efekt po „wytrąceniu" (oczyszczeniu z) wpływu pozostałych zmiennych — formalne znaczenie zwrotu „przy stałych pozostałych".
- Równania normalne pełnego modelu. Dla $\mathbf{X}=[\mathbf{X}_1\ \mathbf{X}_2]$ i $\hat{\boldsymbol\beta}=[\hat{\boldsymbol\beta}_1;\ \hat{\boldsymbol\beta}_2]$ układ $\mathbf{X}^\top\mathbf{X}\hat{\boldsymbol\beta}=\mathbf{X}^\top\mathbf{y}$ rozpisuje się na dwa bloki: $$ \mathbf{X}_1^\top\mathbf{X}_1\hat{\boldsymbol\beta}_1 + \mathbf{X}_1^\top\mathbf{X}_2\hat{\boldsymbol\beta}_2 = \mathbf{X}_1^\top\mathbf{y}, $$ $$ \mathbf{X}_2^\top\mathbf{X}_1\hat{\boldsymbol\beta}_1 + \mathbf{X}_2^\top\mathbf{X}_2\hat{\boldsymbol\beta}_2 = \mathbf{X}_2^\top\mathbf{y}. $$
- Wyrugowanie $\hat{\boldsymbol\beta}_1$. Z pierwszego bloku $\hat{\boldsymbol\beta}_1=(\mathbf{X}_1^\top\mathbf{X}_1)^{-1}\mathbf{X}_1^\top(\mathbf{y}-\mathbf{X}_2\hat{\boldsymbol\beta}_2)$. Wstawiamy do drugiego, oznaczając rzut $\mathbf{P}_1=\mathbf{X}_1(\mathbf{X}_1^\top\mathbf{X}_1)^{-1}\mathbf{X}_1^\top$: $$ \mathbf{X}_2^\top\mathbf{P}_1(\mathbf{y}-\mathbf{X}_2\hat{\boldsymbol\beta}_2) + \mathbf{X}_2^\top\mathbf{X}_2\hat{\boldsymbol\beta}_2 = \mathbf{X}_2^\top\mathbf{y}. $$
- Porządkowanie. Przenosząc wyrazy i grupując przy $\hat{\boldsymbol\beta}_2$, z $\mathbf{M}_1=\mathbf{I}-\mathbf{P}_1$ (anihilator $\mathbf{X}_1$): $$ \mathbf{X}_2^\top\mathbf{M}_1\mathbf{X}_2\,\hat{\boldsymbol\beta}_2 = \mathbf{X}_2^\top\mathbf{M}_1\mathbf{y}. $$
- Symetria i idempotentność. Ponieważ $\mathbf{M}_1=\mathbf{M}_1^\top=\mathbf{M}_1^2$, mamy $\mathbf{X}_2^\top\mathbf{M}_1\mathbf{X}_2=(\mathbf{M}_1\mathbf{X}_2)^\top(\mathbf{M}_1\mathbf{X}_2)$ oraz $\mathbf{X}_2^\top\mathbf{M}_1\mathbf{y}=(\mathbf{M}_1\mathbf{X}_2)^\top(\mathbf{M}_1\mathbf{y})$. Stąd $$ \boxed{\;\hat{\boldsymbol\beta}_2 = \big[(\mathbf{M}_1\mathbf{X}_2)^\top(\mathbf{M}_1\mathbf{X}_2)\big]^{-1}(\mathbf{M}_1\mathbf{X}_2)^\top(\mathbf{M}_1\mathbf{y})\;} $$ a to jest dokładnie estymator MNK z regresji reszt $\mathbf{M}_1\mathbf{y}$ (z regresji $\mathbf{y}$ na $\mathbf{X}_1$) na resztach $\mathbf{M}_1\mathbf{X}_2$ (z regresji $\mathbf{X}_2$ na $\mathbf{X}_1$).
To twierdzenie tłumaczy, dlaczego współczynniki regresji wielorakiej interpretujemy jako efekty ceteris paribus, i jest narzędziem dowodowym w teorii danych panelowych i estymatorach efektów stałych. Z FWL wynika też wzór na pojedynczy współczynnik regresji wielorakiej i jego odporność: dodanie nieskorelowanego regresora nie zmienia pozostałych oszacowań.
Weźmy $n=5$, dwa regresory i wyraz wolny:
| $x_1$ | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| $x_2$ | 2 | 1 | 5 | 3 | 4 |
| $y$ | 3 | 2 | 6 | 5 | 7 |
Pełna regresja $y$ na $\{1, x_1, x_2\}$ daje współczynnik przy $x_2$ równy $\hat\beta_2 = \tfrac{27}{32} = 0{,}84375$.
Przez FWL — najpierw „oczyszczamy" $y$ i $x_2$ z wpływu $\{1, x_1\}$ (bierzemy reszty z regresji każdego na stałą i $x_1$):
$$ \mathbf{M}_1\mathbf{y} = (0{,}6,\ -1{,}5,\ 1{,}4,\ -0{,}7,\ 0{,}2), \qquad \mathbf{M}_1\mathbf{x}_2 = (0{,}2,\ -1{,}4,\ 2{,}0,\ -0{,}6,\ -0{,}2). $$Regresja reszt na reszty (przez początek układu):
$$ \hat\beta_2 = \frac{(\mathbf{M}_1\mathbf{x}_2)^\top(\mathbf{M}_1\mathbf{y})}{(\mathbf{M}_1\mathbf{x}_2)^\top(\mathbf{M}_1\mathbf{x}_2)} = \frac{5{,}4}{6{,}4} = \frac{27}{32} = 0{,}84375. $$Identycznie — zgodnie z twierdzeniem.
Część XV. Naruszenia założeń — mapa
Każde założenie A1–A5 może zostać złamane; każde łamanie ma inną diagnozę i lekarstwo. Szczegóły w osobnych artykułach:
| Złamane założenie | Skutek | Diagnoza | Lekarstwo |
|---|---|---|---|
| A1 liniowość | obciążenie | wzór reszt | człony kwadratowe, logarytmy |
| A2 pełny rząd | brak/niestabilność | VIF | usuń/połącz zmienne, regularyzacja |
| A3 egzogeniczność | obciążenie i niezgodność | argument merytoryczny | zmienne instrumentalne, panel |
| A4 homoskedastyczność | błędne SE | Breusch-Pagan | odporne SE, WLS |
| A4 brak autokorelacji | błędne SE | Breusch-Godfrey | błędy HAC |
| A5 normalność | testy w małej próbie | Q-Q, Shapiro | większa próba (CTG), bootstrap |
Część XVI. Rozszerzenia metody
- Ważona MNK (WLS): przy znanej heteroskedastyczności minimalizujemy $\sum w_i\varepsilon_i^2$; $\hat{\boldsymbol\beta}=(\mathbf{X}^\top\mathbf{W}\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{W}\mathbf{y}$.
- Uogólniona MNK (GLS): dla dowolnej $\mathrm{Var}(\boldsymbol\varepsilon)=\sigma^2\boldsymbol\Omega$: $\hat{\boldsymbol\beta}=(\mathbf{X}^\top\boldsymbol\Omega^{-1}\mathbf{X})^{-1}\mathbf{X}^\top\boldsymbol\Omega^{-1}\mathbf{y}$ (Aitken).
- Zmienne instrumentalne / 2SLS: przy endogeniczności, $\hat{\boldsymbol\beta}_{IV}=(\mathbf{Z}^\top\mathbf{X})^{-1}\mathbf{Z}^\top\mathbf{y}$ — patrz IV.
- Regresja grzbietowa (ridge) i lasso: dodajemy karę za wielkość współczynników; ridge: $\hat{\boldsymbol\beta}=(\mathbf{X}^\top\mathbf{X}+\lambda\mathbf{I})^{-1}\mathbf{X}^\top\mathbf{y}$ — stabilizuje przy współliniowości i w wysokim wymiarze.
- Nieliniowa MNK (NLS): minimalizacja $\sum(y_i-f(\mathbf{x}_i,\boldsymbol\beta))^2$ dla nieliniowej $f$, metodami iteracyjnymi (Gauss-Newton).
Część XVII. Metody obliczeniowe
W praktyce nie odwraca się jawnie $\mathbf{X}^\top\mathbf{X}$ — to numerycznie niestabilne, bo wskaźnik uwarunkowania podnosi się do kwadratu: $\kappa(\mathbf{X}^\top\mathbf{X})=\kappa(\mathbf{X})^2$. Lepsze są:
- Rozkład QR: $\mathbf{X}=\mathbf{Q}\mathbf{R}$ (ortogonalno-trójkątny), wtedy $\mathbf{R}\hat{\boldsymbol\beta}=\mathbf{Q}^\top\mathbf{y}$ — rozwiązanie przez podstawianie wsteczne; standard w
lm()(R) ilstsq. - Rozkład SVD: $\mathbf{X}=\mathbf{U}\boldsymbol\Sigma\mathbf{V}^\top$ — najstabilniejszy, radzi sobie nawet z (prawie) zdegenerowanym $\mathbf{X}$; daje pseudoodwrotność Moore’a-Penrose’a.
- Rozkład Choleskiego $\mathbf{X}^\top\mathbf{X}=\mathbf{L}\mathbf{L}^\top$ — szybki, gdy uwarunkowanie jest dobre.
- Eliminacja Gaussa — algorytm, który Gauss rozwinął właśnie po to, by ręcznie rozwiązywać równania normalne; do dziś podstawa rozwiązywania układów liniowych.
Część XVIII. Związki z innymi metodami estymacji
- Największa wiarygodność: przy błędach normalnych MNW pokrywa się dokładnie z MNK (część III) — to ten sam estymator.
- Bayes: z płaskim priorem rozkład a posteriori $\boldsymbol\beta$ jest skupiony wokół $\hat{\boldsymbol\beta}_{\text{MNK}}$; z normalnym priorem sprzężonym otrzymujemy regresję grzbietową (ridge).
- Metoda momentów: warunek $\mathbb{E}[\mathbf{X}^\top\boldsymbol\varepsilon]=\mathbf{0}$ w wersji próbkowej to $\mathbf{X}^\top\mathbf{e}=\mathbf{0}$ — znów równania normalne. MNK jest więc estymatorem metody momentów.
Część XIX. Przykład liczbowy: regresja krok po kroku
Cała teoria sprowadza się do kilku działań arytmetycznych. Przejdźmy je ręcznie na małym zbiorze ($n=5$, jeden regresor i wyraz wolny), aby zobaczyć, skąd biorą się wszystkie liczby raportowane przez program statystyczny.
| $i$ | $x_i$ | $y_i$ |
|---|---|---|
| 1 | 1 | 2 |
| 2 | 2 | 4 |
| 3 | 3 | 5 |
| 4 | 4 | 4 |
| 5 | 5 | 5 |
Model: $y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$. Średnie: $\bar x = 3$, $\bar y = 4$.
Krok 1. Sumy i macierze
Macierz planu $\mathbf{X}$ ma w pierwszej kolumnie same jedynki (wyraz wolny), w drugiej wartości $x_i$. Stąd
$$ \mathbf{X}^\top\mathbf{X} = \begin{bmatrix} n & \sum x_i \\ \sum x_i & \sum x_i^2 \end{bmatrix} = \begin{bmatrix} 5 & 15 \\ 15 & 55 \end{bmatrix}, \qquad \mathbf{X}^\top\mathbf{y} = \begin{bmatrix} \sum y_i \\ \sum x_i y_i \end{bmatrix} = \begin{bmatrix} 20 \\ 66 \end{bmatrix}. $$Wyznacznik $\det(\mathbf{X}^\top\mathbf{X}) = 5\cdot 55 - 15^2 = 275 - 225 = 50$, więc
$$ (\mathbf{X}^\top\mathbf{X})^{-1} = \frac{1}{50}\begin{bmatrix} 55 & -15 \\ -15 & 5 \end{bmatrix} = \begin{bmatrix} 1{,}1 & -0{,}3 \\ -0{,}3 & 0{,}1 \end{bmatrix}. $$Krok 2. Estymator
$$ \hat{\boldsymbol\beta} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y} = \begin{bmatrix} 1{,}1 & -0{,}3 \\ -0{,}3 & 0{,}1 \end{bmatrix}\begin{bmatrix} 20 \\ 66 \end{bmatrix} = \begin{bmatrix} 22 - 19{,}8 \\ -6 + 6{,}6 \end{bmatrix} = \begin{bmatrix} 2{,}2 \\ 0{,}6 \end{bmatrix}. $$Ten sam wynik daje wzór skalarny dla regresji prostej (część skupiona w sumach odchyleń od średniej): z $S_{xx} = \sum(x_i-\bar x)^2 = 10$ i $S_{xy} = \sum(x_i-\bar x)(y_i-\bar y) = 6$,
$$ \hat\beta_1 = \frac{S_{xy}}{S_{xx}} = \frac{6}{10} = 0{,}6, \qquad \hat\beta_0 = \bar y - \hat\beta_1\bar x = 4 - 0{,}6\cdot 3 = 2{,}2. $$Dopasowana prosta: $\hat y = 2{,}2 + 0{,}6\,x$.
Krok 3. Wartości dopasowane i reszty
| $i$ | $x_i$ | $y_i$ | $\hat y_i = 2{,}2+0{,}6x_i$ | $e_i = y_i-\hat y_i$ | $e_i^2$ |
|---|---|---|---|---|---|
| 1 | 1 | 2 | 2{,}8 | $-0{,}8$ | 0{,}64 |
| 2 | 2 | 4 | 3{,}4 | $0{,}6$ | 0{,}36 |
| 3 | 3 | 5 | 4{,}0 | $1{,}0$ | 1{,}00 |
| 4 | 4 | 4 | 4{,}6 | $-0{,}6$ | 0{,}36 |
| 5 | 5 | 5 | 5{,}2 | $-0{,}2$ | 0{,}04 |
| suma | $0{,}0$ | 2{,}40 |
Reszty sumują się do zera ($\sum e_i = 0$) — to bezpośrednia konsekwencja równań normalnych przy obecnym wyrazie wolnym. Suma kwadratów reszt wynosi $\text{RSS} = \mathbf{e}^\top\mathbf{e} = 2{,}40$.
Krok 4. Wariancja resztowa i błędy standardowe
Mamy $n=5$, $k=2$, więc $n-k=3$ stopni swobody:
$$ s^2 = \frac{\text{RSS}}{n-k} = \frac{2{,}40}{3} = 0{,}80. $$Macierz kowariancji estymatora: $\widehat{\mathrm{Var}}(\hat{\boldsymbol\beta}) = s^2(\mathbf{X}^\top\mathbf{X})^{-1}$, której przekątna daje błędy standardowe:
$$ \operatorname{SE}(\hat\beta_0) = \sqrt{0{,}80\cdot 1{,}1} = \sqrt{0{,}88} \approx 0{,}938, \qquad \operatorname{SE}(\hat\beta_1) = \sqrt{0{,}80\cdot 0{,}1} = \sqrt{0{,}08} \approx 0{,}283. $$Krok 5. Statystyki $t$ i istotność
Przy hipotezie zerowej $\beta_j = 0$:
$$ t_0 = \frac{2{,}2}{0{,}938} \approx 2{,}345, \qquad t_1 = \frac{0{,}6}{0{,}283} \approx 2{,}121. $$Wartość krytyczna $t$ dla $3$ stopni swobody i poziomu $0{,}05$ (dwustronnie) wynosi $3{,}182$. Obie statystyki są od niej mniejsze, więc przy tak małej próbie nie odrzucamy hipotezy o zerowych współczynnikach na poziomie 5% — mimo wyraźnego dopasowania. To dobra ilustracja, jak mało informacji niesie $n=5$. Zobacz: testy hipotez, wartość p.
Krok 6. Dopasowanie modelu
Całkowita suma kwadratów $\text{TSS} = \sum(y_i-\bar y)^2 = 4+0+1+0+1 = 6$. Stąd
$$ R^2 = 1 - \frac{\text{RSS}}{\text{TSS}} = 1 - \frac{2{,}4}{6} = 0{,}60, $$skorygowane $\bar R^2 = 1 - (1-R^2)\dfrac{n-1}{n-k} = 1 - 0{,}4\cdot\dfrac{4}{3} \approx 0{,}467$, oraz statystyka
$$ F = \frac{(\text{TSS}-\text{RSS})/(k-1)}{\text{RSS}/(n-k)} = \frac{3{,}6/1}{2{,}4/3} = 4{,}5 = t_1^2, $$co potwierdza tożsamość $F = t^2$ dla pojedynczego regresora. Model wyjaśnia 60% zmienności $y$. Zobacz: współczynnik $R^2$.
Część XX. Przedział ufności dla E[y₀] a przedział predykcji
Po dopasowaniu modelu zadajemy w punkcie $\mathbf{x}_0$ dwa różne pytania. Pierwsze: gdzie leży średnia warunkowa $\mathbb{E}[y\mid\mathbf{x}_0]=\mathbf{x}_0^\top\boldsymbol\beta$? Drugie: jaką wartość przyjmie nowa, pojedyncza obserwacja $y_0=\mathbf{x}_0^\top\boldsymbol\beta+\varepsilon_0$? Oba mają ten sam estymator punktowy $\hat y_0=\mathbf{x}_0^\top\hat{\boldsymbol\beta}$, lecz różną niepewność — i stąd rozróżnienie na przedział ufności i przedział predykcji.
- Wspólny estymator. $\hat y_0=\mathbf{x}_0^\top\hat{\boldsymbol\beta}$ jest nieobciążonym estymatorem średniej $\mathbf{x}_0^\top\boldsymbol\beta$, bo $\mathbb{E}[\hat{\boldsymbol\beta}\mid\mathbf{X}]=\boldsymbol\beta$.
- Wariancja średniej warunkowej. Niepewność pochodzi wyłącznie z estymacji $\hat{\boldsymbol\beta}$: $$ \mathrm{Var}(\hat y_0\mid\mathbf{X})=\mathbf{x}_0^\top\mathrm{Var}(\hat{\boldsymbol\beta}\mid\mathbf{X})\mathbf{x}_0=\sigma^2\,\mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0. $$
- Błąd predykcji nowej obserwacji. Nowa obserwacja $y_0=\mathbf{x}_0^\top\boldsymbol\beta+\varepsilon_0$ niesie dodatkowy, niezależny składnik $\varepsilon_0$ o wariancji $\sigma^2$. Błąd predykcji rozkłada się na $y_0-\hat y_0=(\mathbf{x}_0^\top\boldsymbol\beta-\mathbf{x}_0^\top\hat{\boldsymbol\beta})+\varepsilon_0$; oba człony są niezależne (bo $\varepsilon_0$ dotyczy przyszłej obserwacji, nieobecnej w próbie), więc wariancje się dodają: $$ \mathrm{Var}(y_0-\hat y_0\mid\mathbf{X})=\sigma^2\,\mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0+\sigma^2=\sigma^2\big(1+\mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0\big). $$ Dodatkowa „1" to nieredukowalny szum pojedynczej obserwacji — pozostaje nawet przy nieskończonej próbie, gdy $\hat{\boldsymbol\beta}\to\boldsymbol\beta$.
Zastępując nieznane $\sigma^2$ przez $s^2$ i korzystając z rozkładu $t_{n-k}$, otrzymujemy dwa przedziały (na poziomie ufności $1-\alpha$):
$$ \underbrace{\hat y_0\pm t_{n-k,\,\alpha/2}\;s\sqrt{\mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0}}_{\text{przedział ufności dla }\mathbb{E}[y_0]},\qquad \underbrace{\hat y_0\pm t_{n-k,\,\alpha/2}\;s\sqrt{1+\mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0}}_{\text{przedział predykcji dla nowego }y_0}. $$Bierzemy model z części XIX: $\hat{\boldsymbol\beta}=(2{,}2;\ 0{,}6)$, $s^2=0{,}8$, $(\mathbf{X}^\top\mathbf{X})^{-1}=\begin{bmatrix}1{,}1 & -0{,}3\\ -0{,}3 & 0{,}1\end{bmatrix}$, $n-k=3$, $t_{3;\,0{,}025}=3{,}182$. Dla środka danych $\mathbf{x}_0=(1,\ 3)$:
$$ \hat y_0=2{,}2+0{,}6\cdot 3=4{,}0,\qquad \mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0=\tfrac{1}{5}=0{,}2. $$Dźwignia $\mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0=0{,}2$ jest tu najmniejsza z możliwych (środek próby — najpewniejsza predykcja).
- Przedział ufności dla $\mathbb{E}[y_0]$: $\operatorname{SE}=\sqrt{0{,}8\cdot 0{,}2}=\sqrt{0{,}16}=0{,}4$, więc $4{,}0\pm 3{,}182\cdot 0{,}4=4{,}0\pm 1{,}273$, czyli $[2{,}727;\ 5{,}273]$.
- Przedział predykcji dla nowego $y_0$: $\operatorname{SE}=\sqrt{0{,}8\cdot 1{,}2}=\sqrt{0{,}96}\approx 0{,}980$, więc $4{,}0\pm 3{,}182\cdot 0{,}980=4{,}0\pm 3{,}118$, czyli $[0{,}882;\ 7{,}118]$.
Przedział predykcji jest wyraźnie szerszy ($\pm 3{,}118$ wobec $\pm 1{,}273$) — musi objąć nie tylko niepewność co do położenia prostej, ale i losowy rozrzut samej obserwacji. Różnica nie znika z próbą: gdy $n\to\infty$, przedział ufności kurczy się do punktu, a predykcji — do szerokości $\pm t\cdot\sigma$.
Część XXI. Dekompozycja wariancji: R², skorygowane R² i tablica ANOVA
Jak dobrze model objaśnia zmienność danych? Odpowiedź daje rozłożenie całkowitej zmienności $\mathbf{y}$ na część wyjaśnioną przez regresję i część resztową — fundament analizy wariancji (ANOVA) oraz współczynnika determinacji $R^2$. Trzy sumy kwadratów (model z wyrazem wolnym; $\bar y$ to średnia $y$):
$$ \underbrace{\textstyle\sum_i (y_i-\bar y)^2}_{\text{TSS — całkowita}}, \qquad \underbrace{\textstyle\sum_i (\hat y_i-\bar y)^2}_{\text{ESS — wyjaśniona}}, \qquad \underbrace{\textstyle\sum_i (y_i-\hat y_i)^2}_{\text{RSS — resztowa}}. $$- Rozbicie odchylenia. Dla każdej obserwacji $y_i-\bar y=(\hat y_i-\bar y)+(y_i-\hat y_i)=(\hat y_i-\bar y)+e_i$. Podnosząc do kwadratu i sumując po $i$: $$ \sum_i(y_i-\bar y)^2=\sum_i(\hat y_i-\bar y)^2+\sum_i e_i^2+2\sum_i(\hat y_i-\bar y)e_i. $$
- Człon mieszany znika. $\sum_i(\hat y_i-\bar y)e_i=\sum_i\hat y_i e_i-\bar y\sum_i e_i$. Z równań normalnych reszty są ortogonalne do regresorów, $\mathbf{X}^\top\mathbf{e}=\mathbf{0}$; w szczególności kolumna jedynek daje $\sum_i e_i=0$, a kombinacja kolumn daje $\hat{\mathbf{y}}^\top\mathbf{e}=\hat{\boldsymbol\beta}^\top\mathbf{X}^\top\mathbf{e}=0$. Oba składniki się zerują.
- Wniosek. $\text{TSS}=\text{ESS}+\text{RSS}$. Krok 2 wymaga wyrazu wolnego w modelu — bez niego $\sum_i e_i\neq 0$ i tożsamość się załamuje.
Stąd współczynnik determinacji:
$$ R^2=\frac{\text{ESS}}{\text{TSS}}=1-\frac{\text{RSS}}{\text{TSS}}\in[0,1], $$interpretowany jako udział zmienności $y$ wyjaśniony przez model. Równoważnie $R^2$ jest kwadratem współczynnika korelacji między $y_i$ a $\hat y_i$.
Problem w tym, że $R^2$ nigdy nie maleje po dodaniu regresora (każda nowa kolumna co najwyżej zmniejsza RSS). By karać za nadmiar parametrów, używa się skorygowanego $R^2$:
$$ \bar R^2=1-\frac{\text{RSS}/(n-k)}{\text{TSS}/(n-1)}=1-(1-R^2)\frac{n-1}{n-k}, $$który rośnie tylko wtedy, gdy nowy regresor poprawia dopasowanie bardziej, niż wynikałoby z samego losu; $\bar R^2$ może być ujemne. Te same sumy kwadratów układają się w tablicę ANOVA, z której wprost wynika statystyka $F$ testu łącznej istotności regresji:
| Źródło | Suma kwadratów | df | Średni kwadrat | $F$ |
|---|---|---|---|---|
| Regresja | ESS | $k-1$ | $\text{ESS}/(k-1)$ | $\dfrac{\text{ESS}/(k-1)}{\text{RSS}/(n-k)}$ |
| Reszty | RSS | $n-k$ | $\text{RSS}/(n-k)=s^2$ | |
| Całkowita | TSS | $n-1$ |
Dla danych z części XIX ($\hat y=2{,}2+0{,}6x$, $\bar y=4$):
$$ \text{TSS}=6,\qquad \text{ESS}=\sum_i(\hat y_i-4)^2=1{,}44+0{,}36+0+0{,}36+1{,}44=3{,}6,\qquad \text{RSS}=2{,}4, $$a więc $\text{ESS}+\text{RSS}=3{,}6+2{,}4=6=\text{TSS}$ — tożsamość się zgadza. Stąd
$$ R^2=\frac{3{,}6}{6}=0{,}60,\qquad \bar R^2=1-0{,}4\cdot\frac{4}{3}=\frac{7}{15}\approx0{,}467. $$Tablica ANOVA dla tego dopasowania:
| Źródło | SS | df | MS | $F$ |
|---|---|---|---|---|
| Regresja | 3,6 | 1 | 3,6 | 4,5 |
| Reszty | 2,4 | 3 | 0,8 | |
| Całkowita | 6,0 | 4 |
Statystyka $F=3{,}6/0{,}8=4{,}5$ — dokładnie tyle, co $t_1^2=2{,}121^2$ z części XIX (dla jednego regresora zachodzi $F=t^2$). Model wyjaśnia 60% zmienności $y$.
Część XXII. Regresja wieloraka i obciążenie przez zmienną pominiętą — przykład liczbowy
Część XIV pokazała, jak twierdzenie FWL odzyskuje współczynnik oczyszczony z wpływu innych zmiennych. Tu policzymy drugą stronę medalu: co się dzieje, gdy istotną zmienną pominiemy. Użyjemy tych samych danych co w części XIV:
| $x_1$ | 1 | 2 | 3 | 4 | 5 |
|---|---|---|---|---|---|
| $x_2$ | 2 | 1 | 5 | 3 | 4 |
| $y$ | 3 | 2 | 6 | 5 | 7 |
Pełna regresja $y$ na $\{1,x_1,x_2\}$ — rozwiązanie równań normalnych $\hat{\boldsymbol\beta}=(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y}$ (dokładnie, w ułamkach):
$$ \hat\beta_0=\tfrac{23}{80}=0{,}2875,\qquad \hat\beta_1=\tfrac{19}{32}=0{,}59375,\qquad \hat\beta_2=\tfrac{27}{32}=0{,}84375. $$Regresja skrócona, z pominięciem $x_2$ (tylko $y$ na $\{1,x_1\}$):
$$ \tilde\beta_0=\tfrac{13}{10}=1{,}3,\qquad \tilde\beta_1=\tfrac{11}{10}=1{,}1. $$Współczynnik przy $x_1$ skoczył z $0{,}594$ do $1{,}1$ — niemal dwukrotnie. To obciążenie przez zmienną pominiętą: skrócony współczynnik przypisuje $x_1$ także część efektu $x_2$, bo zmienne są skorelowane.
- Regresja pomocnicza. Niech $\delta$ będzie współczynnikiem kierunkowym z regresji zmiennej pominiętej na regresory zachowane — tu $x_2$ na $\{1,x_1\}$ — czyli $\delta=S_{x_1x_2}/S_{x_1x_1}$.
- Tożsamość próbkowa. Z partycjonowanego rozwiązania równań normalnych (ta sama algebra, co w dowodzie FWL, część XIV) wynika dokładna tożsamość: $$ \tilde\beta_1=\hat\beta_1+\hat\beta_2\,\delta. $$ Współczynnik skrócony zbiera własny efekt $x_1$ (czyli $\hat\beta_1$) powiększony o efekt $x_2$ (czyli $\hat\beta_2$) „przepuszczony" przez skorelowanie $x_2$ z $x_1$ (czyli $\delta$).
- Wniosek. Obciążenie znika dokładnie wtedy, gdy $\hat\beta_2=0$ (zmienna pominięta nieistotna) albo $\delta=0$ (pominięta zmienna nieskorelowana z zachowanymi). To probabilistyczny odpowiednik [założenia egzogeniczności](/ekonometria/zalozenia-kmnk/) A3.
Regresja $x_2$ na $\{1,x_1\}$ daje $\delta=S_{x_1x_2}/S_{x_1x_1}=6/10=0{,}6$ (bo $\bar x_1=\bar x_2=3$, $S_{x_1x_2}=6$, $S_{x_1x_1}=10$). Wtedy
$$ \hat\beta_1+\hat\beta_2\,\delta=\frac{19}{32}+\frac{27}{32}\cdot\frac{3}{5}=\frac{19}{32}+\frac{81}{160}=\frac{95+81}{160}=\frac{176}{160}=\frac{11}{10}=1{,}1=\tilde\beta_1. $$Dokładnie współczynnik z regresji skróconej. Dla porównania reszty: pełny model ma $\text{RSS}=87/160\approx0{,}544$, model skrócony $\text{RSS}=5{,}1$ — pominięcie $x_2$ wielokrotnie pogarsza dopasowanie i jednocześnie zniekształca oszacowanie $x_1$.
Aneks A. Zestawienie najważniejszych wzorów
| Wielkość | Wzór |
|---|---|
| Estymator | $\hat{\boldsymbol\beta}=(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y}$ |
| Wartości dopasowane | $\hat{\mathbf{y}}=\mathbf{H}\mathbf{y}$, $\mathbf{H}=\mathbf{X}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top$ |
| Reszty | $\mathbf{e}=\mathbf{M}\mathbf{y}$, $\mathbf{M}=\mathbf{I}-\mathbf{H}$ |
| Kowariancja | $\mathrm{Var}(\hat{\boldsymbol\beta})=\sigma^2(\mathbf{X}^\top\mathbf{X})^{-1}$ |
| Estymator $\sigma^2$ | $s^2=\mathbf{e}^\top\mathbf{e}/(n-k)$ |
| Statystyka $t$ | $(\hat\beta_j-\beta_j)/\operatorname{SE}(\hat\beta_j)\sim t_{n-k}$ |
| $R^2$ | $1-\mathbf{e}^\top\mathbf{e}/\sum(y_i-\bar y)^2$ |
| Skorygowane $R^2$ | $1-(1-R^2)\dfrac{n-1}{n-k}$ |
| Statystyka $F$ (ANOVA) | $\dfrac{\text{ESS}/(k-1)}{\text{RSS}/(n-k)}\sim F_{k-1,\,n-k}$ |
Aneks B. Oznaczenia
| Symbol | Znaczenie |
|---|---|
| $n,\ k$ | liczba obserwacji, liczba parametrów |
| $\mathbf{y},\ \mathbf{X},\ \boldsymbol\beta,\ \boldsymbol\varepsilon$ | wektor obserwacji, macierz regresorów, parametry, błędy |
| $\hat{\boldsymbol\beta},\ \mathbf{e},\ \hat{\mathbf{y}}$ | estymator, reszty, wartości dopasowane |
| $\mathbf{H},\ \mathbf{M}$ | macierz kapeluszowa, anihilująca |
| $\sigma^2,\ s^2$ | wariancja błędu i jej estymator |
Aneks C. Sylwetki
Krótkie noty o postaciach, których prace złożyły się na metodę najmniejszych kwadratów i regresję.
Adrien-Marie Legendre (1752–1833) — francuski matematyk, autor fundamentalnych prac z teorii liczb (Essai sur la théorie des nombres), funkcji eliptycznych i geometrii (jego Éléments de géométrie przez stulecie wypierały Euklidesa w szkołach). To on opublikował metodę najmniejszych kwadratów jako pierwszy (1805) i nadał jej nazwę. W ostatnich latach życia stracił rządową pensję, gdy odmówił poparcia kandydata władz w głosowaniu Instytutu; zmarł w ubóstwie. Jedyną zachowaną jego podobizną jest karykatura Boilly’ego.
Carl Friedrich Gauss (1777–1855) — niemiecki matematyk, astronom i fizyk, nazywany princeps mathematicorum („księciem matematyków"). Pochodził z ubogiej rodziny w Brunszwiku; jego talent dostrzeżono w dzieciństwie. W Disquisitiones Arithmeticae (1801) zbudował nowoczesną teorię liczb; obliczył orbitę Ceres; sformułował twierdzenie zasadnicze algebry (rozprawa doktorska, 1799); współtworzył geodezję, magnetyzm i elektrostatykę (jednostka indukcji magnetycznej nosi jego imię). Dla MNK kluczowe są Theoria Motus (1809) i Theoria combinationis (1821–1823).
Pierre-Simon de Laplace (1749–1827) — francuski matematyk i astronom, twórca mechaniki nieba (Traité de mécanique céleste) i nowoczesnej teorii prawdopodobieństwa (Théorie analytique des probabilités, 1812). Jego centralne twierdzenie graniczne wyjaśniło, dlaczego błędy pomiarowe bywają normalne, i połączyło MNK z rachunkiem prawdopodobieństwa. Sprawnie przetrwał rewolucję, cesarstwo i restaurację, zachowując wpływowe stanowiska naukowe.
Ruđer Josip Bošković (1711–1787) — uczony z Dubrownika, jezuita, astronom i fizyk działający we Włoszech. Zaproponował (1755–1760) kryterium najbliższe duchem MNK: minimalizację sumy wartości bezwzględnych odchyleń przy zerowej sumie odchyleń ze znakiem — dzisiejszą regresję $L_1$, do której statystyka wróciła dopiero w XX wieku.
Andriej Markow (1856–1922) — rosyjski matematyk, uczeń Czebyszewa, twórca teorii łańcuchów Markowa. Jego nazwisko trafiło do nazwy twierdzenia Gaussa-Markowa za sprawą późniejszych podręczników, choć sam wynik miał już Gauss w 1823 r.
Francis Galton (1822–1911) — brytyjski uczony, kuzyn Darwina, badacz dziedziczności. Wprowadził pojęcie regresji („powrotu do średniej") i korelacji, przenosząc metodę z błędów pomiarowych na związki między zmiennymi. (Był też propagatorem eugeniki — idei dziś odrzuconej.)
Karl Pearson (1857–1936) — brytyjski matematyk i statystyk, który sformalizował współczynnik korelacji, test $\chi^2$ i znaczną część aparatu statystyki matematycznej; założyciel pierwszej katedry statystyki (University College London) i czasopisma Biometrika.
Ronald Aylmer Fisher (1890–1962) — brytyjski statystyk i genetyk, jeden z twórców współczesnej statystyki. Wprowadził metodę największej wiarygodności, analizę wariancji, planowanie eksperymentu i pojęcie istotności statystycznej, ujmując MNK jako estymator największej wiarygodności przy błędach normalnych.
Aneks D. Teksty oryginalne i źródła
Zestawienie pierwotnych prac, w których metoda powstała, wraz z miejscem kluczowych fragmentów i wskazaniem przekładów. Cytaty w częściach II i III pochodzą wprost z tych wydań.
Legendre (1805). A. M. Legendre, Nouvelles méthodes pour la détermination des orbites des comètes, Paris: Firmin Didot, 1805. Pierwsza publikacja metody znajduje się w dodatku Sur la méthode des moindres carrés (s. 72–80). To stamtąd pochodzi słynne zdanie „…rendre minimum la somme des carrés des erreurs" (część II).
Gauss (1809). C. F. Gauss, Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium, Hamburg: Perthes & Besser, 1809. Łaciński oryginał; rozważania o najmniejszych kwadratach mieszczą się w Księdze II, dziale 3, artykuły 175–186. Standardowy przekład angielski: C. H. Davis, Theory of the Motion of the Heavenly Bodies Moving about the Sun in Conic Sections, Boston: Little, Brown, 1857 — z niego pochodzi cytat o pierwszeństwie (część III).
Gauss (1821–1823). C. F. Gauss, Theoria combinationis observationum erroribus minimis obnoxiae, Getynga (część pierwsza 1821, druga 1823) — tu znajduje się dojrzałe uzasadnienie wariancyjne (twierdzenie Gaussa-Markowa). Przekład angielski z komentarzem: G. W. Stewart, Theory of the Combination of Observations Least Subject to Errors, SIAM, 1995.
Laplace (1812). P. S. Laplace, Théorie analytique des probabilités, Paris: Courcier, 1812 — probabilistyczne ujęcie błędów i centralne twierdzenie graniczne.
Przekłady i opracowania. Angielskie przekłady wielu prac historycznych (m.in. Legendre’a, Laplace’a) udostępnił Richard J. Pulskamp (probabilityandfinance.com). Klasyczne ujęcie historyczne: S. M. Stigler, The History of Statistics: The Measurement of Uncertainty before 1900, Harvard University Press, 1986.
Aneks E. Bibliografia i dalsze lektury
Poniżej współczesne opracowania i klasyczne prace źródłowe, uzupełniające teksty pierwotne z aneksu D. Dla pełnej historii metody niezastąpione pozostaje dzieło Stiglera (1986), cytowane już wyżej.
Współczesne podręczniki ekonometrii i statystyki.
- W. H. Greene, Econometric Analysis, Pearson, 8. wyd., 2018 — encyklopedyczny standard akademicki; pełny wykład macierzowego modelu liniowego, twierdzenia Gaussa-Markowa, FWL i rozszerzeń.
- J. M. Wooldridge, Introductory Econometrics: A Modern Approach, Cengage, 7. wyd., 2019 — najpopularniejszy wstęp; oraz tegoż Econometric Analysis of Cross Section and Panel Data, MIT Press, 2. wyd., 2010 (poziom zaawansowany).
- F. Hayashi, Econometrics, Princeton University Press, 2000 — rygorystyczne, oparte na metodzie momentów ujęcie MNK i GMM.
- R. Davidson, J. G. MacKinnon, Econometric Theory and Methods, Oxford University Press, 2004 — silny nacisk na geometrię rzutów i twierdzenie FWL.
- C. R. Rao, Linear Statistical Inference and Its Applications, Wiley, 2. wyd., 1973 — klasyka teorii estymacji liniowej.
- H. Theil, Principles of Econometrics, Wiley, 1971 — historyczny punkt odniesienia współczesnej ekonometrii.
Klasyczne prace o metodzie i jej historii.
- R. Frisch, F. V. Waugh, „Partial Time Regressions as Compared with Individual Trends", Econometrica 1(4), 1933, s. 387–401 — źródło twierdzenia FWL.
- M. C. Lovell, „Seasonal Adjustment of Economic Time Series and Multiple Regression Analysis", Journal of the American Statistical Association 58(304), 1963, s. 993–1010 — uogólnienie i nazwa twierdzenia.
- A. C. Aitken, „On Least Squares and Linear Combination of Observations", Proceedings of the Royal Society of Edinburgh 55, 1935, s. 42–48 — uogólniona metoda najmniejszych kwadratów (GLS).
- R. L. Plackett, „The Discovery of the Method of Least Squares", Biometrika 59(2), 1972, s. 239–251 — szczegółowa rekonstrukcja sporu o pierwszeństwo.
- S. M. Stigler, „Gauss and the Invention of Least Squares", The Annals of Statistics 9(3), 1981, s. 465–474 — analiza twierdzenia Gaussa o pierwszeństwie z 1809 r.
Kalendarium
| Rok | Wydarzenie |
|---|---|
| 1722 | Cotes — ważona średnia obserwacji (pośmiertnie) |
| 1736–44 | Wyprawy do Laponii i Peru — pomiar kształtu Ziemi |
| ~1750 | Tobias Mayer — metoda uśredniania (libracja Księżyca) |
| 1755–60 | Bošković — minimalizacja sumy wartości bezwzględnych ($L_1$) |
| 1795 | Gauss zaczyna (wg własnych słów) używać MNK |
| 1801 | Piazzi odkrywa Ceres; Gauss wyznacza orbitę; planeta odnaleziona |
| 1805 | Legendre — pierwsza publikacja metody najmniejszych kwadratów |
| 1808 | Robert Adrain — niezależne wyprowadzenie prawa błędów |
| 1809 | Gauss, Theoria Motus — wyprowadzenie z postulatu średniej |
| 1810 | Laplace — centralne twierdzenie graniczne |
| 1823 | Gauss, Theoria combinationis — twierdzenie Gaussa-Markowa |
| 1885 | Galton — „regresja", przeniesienie metody na związki zmiennych |
| 1896 | Pearson — współczynnik korelacji |
| 1922 | Fisher — metoda największej wiarygodności |
Dziedzictwo
Z jednego astronomicznego problemu wyrosło narzędzie leżące u podstaw regresji liniowej i ekonometrii, teorii estymacji, uczenia maszynowego (minimalizacja błędu kwadratowego) oraz numerycznej algebry liniowej (eliminacja Gaussa, rozkłady QR i SVD). A rozkład wyprowadzony przez Gaussa „przy okazji" nosi dziś jego imię i jest najważniejszym rozkładem statystyki — między innymi dzięki centralnemu twierdzeniu granicznemu.
Powiązane: Metoda najmniejszych kwadratów — wyprowadzenie krok po kroku · Założenia KMNK i twierdzenie Gaussa-Markowa · Rozkład normalny · Centralne twierdzenie graniczne
- C. F. Gauss, Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium (1809), art. 175–186
- C. F. Gauss, Theoria combinationis observationum erroribus minimis obnoxiae (1821–1823)
- A. M. Legendre, Nouvelles méthodes pour la détermination des orbites des comètes (1805), dodatek Sur la méthode des moindres carrés
- P. S. Laplace, Théorie analytique des probabilités (1812)
- R. J. Bošković, C. Maire, De litteraria expeditione per pontificiam ditionem… (1755)
- S. M. Stigler, The History of Statistics: The Measurement of Uncertainty before 1900 (1986)