Metoda najmniejszych kwadratów — kompletny traktat: historia, teoria i dowody

Streszczenie

Kompletna historia metody najmniejszych kwadratów: od XVIII-wiecznych pomiarów kształtu Ziemi i prekursorów (Cotes, Mayer, Bošković), przez pierwszą publikację Legendre'a (1805), oryginalne wyprowadzenie Gaussa (1809) i probabilistyczny fundament Laplace'a, po twierdzenie Gaussa-Markowa (1823) i narodziny regresji. Z datami, nazwiskami, oryginalnymi cytatami, dowodami i portretami.

Metoda najmniejszych kwadratów nie narodziła się jako ćwiczenie z algebry. Wyrosła z najtrudniejszych problemów rachunkowych XVIII i XIX wieku — wyznaczania kształtu Ziemi i orbit ciał niebieskich z pomiarów obarczonych błędem. Ten artykuł prześledzi całą tę drogę: od prekursorów, przez spór Legendre’a z Gaussem, po dwa różne dowody Gaussa i narodziny współczesnej regresji. Z datami, nazwiskami, oryginalnymi tekstami i dowodami.

Część I. Problem: niezgodne obserwacje (XVIII wiek)

W XVIII wieku astronomia i geodezja postawiły przed matematykami kłopot nowego rodzaju. Aby wyznaczyć kilka nieznanych wielkości (np. parametry orbity albo spłaszczenie Ziemi), wykonywano wiele pomiarów — więcej, niż było niewiadomych. Każdy pomiar był nieco błędny, więc układ równań stawał się nadokreślony i sprzeczny: nie istniało rozwiązanie pasujące do wszystkich obserwacji jednocześnie.

Intuicja

Sedno problemu

Gdy równań jest tyle, ile niewiadomych — rozwiązujesz układ. Gdy obserwacji jest więcej, a każda jest nieco błędna, żadne rozwiązanie nie pasuje do wszystkich naraz. Trzeba zdecydować, które „prawie-rozwiązanie" jest najlepsze. To pytanie zrodzi metodę najmniejszych kwadratów.

Kształt Ziemi: spór, który napędził geodezję

Newton przewidywał, że Ziemia jest spłaszczona na biegunach (elipsoida obrotacyjna). Aby to rozstrzygnąć, Francuska Akademia Nauk wysłała dwie wyprawy mierzące długość łuku południka: do Laponii (Maupertuis, 1736–37) i do Peru (Bouguer i La Condamine, 1735–44). Z wielu pomiarów geodezyjnych trzeba było wyznaczyć dwa parametry elipsoidy — klasyczny układ nadokreślony.

Prekursorzy: pierwsze sposoby łączenia obserwacji

Portret Ruđera Boškovicia — **Ruđer Bošković** (1711–1787) — minimalizował sumę *wartości bezwzględnych* odchyleń. Wikimedia Commons, domena publiczna

Roger Cotes (1682–1716) zaproponował ważoną średnią obserwacji (opublikowane pośmiertnie w Harmonia mensurarum, 1722) — pomysł, by dokładniejszym pomiarom dawać większą wagę.
Tobias Mayer (1723–1762) przy badaniu libracji Księżyca (ok. 1750) zastosował „metodę uśredniania": dzielił równania na grupy i sumował je, redukując nadokreślony układ do rozwiązywalnego.
Ruđer Bošković (1711–1787), mierząc z Christopherem Maire łuk południka pod Rzymem (De litteraria expeditione…, 1755), zaproponował kryterium najbliższe duchowi MNK: minimalizować sumę wartości bezwzględnych odchyleń przy warunku, że suma odchyleń (ze znakiem) wynosi zero. To regresja oparta na normie $L_1$ — alternatywa, do której statystyka wróciła dopiero w XX wieku.
Leonhard Euler i Pierre-Simon Laplace próbowali innych „metod kombinacji", ale żadna nie była ani ogólna, ani prosta.

Brakowało jednej, uniwersalnej zasady. Pojawiła się na początku XIX wieku — i to niemal jednocześnie u dwóch ludzi.

Część II. Legendre: pierwsza publikacja (1805)

Karykatura Legendre'a i Fouriera autorstwa Boilly'ego — **Adrien-Marie Legendre** (1752–1833) — z lewej, obok Fouriera. Jedyny znany wizerunek Legendre’a to akwarelowa **karykatura** Boilly’ego (1820). J.-L. Boilly, 1820 — Wikimedia Commons, domena publiczna

Pierwszą publikacją metody był dodatek do dzieła Adriena-Marie Legendre’a Nouvelles méthodes pour la détermination des orbites des comètes (1805), zatytułowany Sur la méthode des moindres carrés. To Legendre nadał metodzie nazwę — méthode des moindres carrés („metoda najmniejszych kwadratów") — i sformułował ją z rozbrajającą jasnością:

Przykład

Legendre, 1805 — oryginał i tłumaczenie

„De tous les principes qu’on peut proposer pour cet objet, je pense qu’il n’en est pas de plus général, de plus exact, ni d’une application plus facile, que celui dont nous avons fait usage dans les recherches précédentes, et qui consiste à rendre minimum la somme des carrés des erreurs."

„Spośród wszystkich zasad, jakie można zaproponować do tego celu, sądzę, że nie ma bardziej ogólnej, dokładniejszej ani łatwiejszej w zastosowaniu niż ta, której użyliśmy w poprzednich badaniach, a która polega na uczynieniu minimalną sumy kwadratów błędów."

Legendre podał metodę jako przepis rachunkowy — skuteczny i elegancki, ale bez uzasadnienia, dlaczego akurat kwadraty błędów, a nie inne ich potęgi. To pytanie zostawił otwarte. Odpowiedź dał Gauss.

Część III. Gauss: geneza i pierwsze uzasadnienie (1809)

Portret Carla Friedricha Gaussa — **Carl Friedrich Gauss** (1777–1855), portret Christiana Albrechta Jensena (1840) — książę matematyków. Wikimedia Commons, domena publiczna

Zaginiona planeta Ceres (1801)

1 stycznia 1801 roku Giuseppe Piazzi z Palermo dostrzegł słaby, ruchomy obiekt — planetę karłowatą Ceres. Obserwował ją przez 41 nocy, po czym Ceres zbliżyła się do Słońca i zniknęła w jego blasku. Astronomowie mieli garść niezgodnych pomiarów i jedno pytanie: gdzie szukać planety, gdy wyłoni się zza Słońca?

Ceres sfotografowana przez sondę Dawn — **Ceres** — największy obiekt pasa planetoid, sfotografowany przez sondę Dawn (2015). W 1801 r. jej zaginięcie zmusiło Gaussa do udoskonalenia rachunku orbit. NASA / JPL-Caltech / UCLA / MPS / DLR / IDA — domena publiczna

24-letni wówczas Gauss podjął się zadania. Korzystając z własnych metod — w tym minimalizacji sumy kwadratów błędów dla nadmiarowych obserwacji — obliczył orbitę i wskazał, gdzie szukać. W grudniu 1801 roku Franz von Zach i Heinrich Olbers odnaleźli Ceres blisko przewidywań Gaussa. Sukces rozsławił go w całej Europie.

Theoria Motus (1809) i spór o pierwszeństwo

W Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium (1809) Gauss przedstawił metodę wraz z głębokim uzasadnieniem i napisał, że stosował ją od 1795 roku — na długo przed publikacją Legendre’a. Wybuchł jeden z najsłynniejszych sporów o pierwszeństwo w historii nauki. W klasycznym angielskim przekładzie Davisa (1857) Gauss pisze:

Przykład

Gauss, 1809 (przekład Davisa, 1857)

„Nasza zasada, którą posługujemy się od roku 1795, została niedawno opublikowana przez Legendre’a w dziele Nouvelles méthodes pour la détermination des orbites des comètes, Paryż 1806, gdzie wyjaśniono kilka innych własności tej zasady, które dla zwięzłości tutaj pomijamy."

(„Our principle, which we have made use of since the year 1795, has lately been published by Legendre…")

Dziś ocenia się go zwykle tak:

Legendre pierwszy opublikował metodę i nadał jej nazwę;
Gauss pierwszy jej użył (bez publikacji) i — co ważniejsze — pierwszy wyjaśnił, dlaczego kwadraty są właściwe.

Uwaga

Niezależne odkrycie

Mniej więcej w tym samym czasie (1808) amerykański matematyk Robert Adrain (1775–1843) niezależnie wyprowadził prawo błędów i metodę najmniejszych kwadratów. To częsty w nauce przypadek odkrycia równoległego — pomysł „dojrzał" i pojawił się u kilku osób naraz.

Oryginalne rozumowanie Gaussa

Gauss zadał pytanie, którego Legendre nie postawił: dlaczego suma kwadratów? Punktem wyjścia uczynił zasadę, którą astronomowie i tak stosowali:

Definicja

Postulat średniej arytmetycznej

Jeśli tę samą wielkość zmierzono wielokrotnie z niezależnymi błędami, to najbardziej prawdopodobną jej wartością jest średnia arytmetyczna pomiarów.

Genialność polegała na odwróceniu pytania: zamiast „jaka jest najlepsza wartość przy danym prawie błędów?", Gauss zapytał — jakie prawo błędów $\varphi(\varepsilon)$ sprawia, że najlepszą wartością jest właśnie średnia? Odpowiedź wymusza kształt rozkładu błędów, a tym kształtem okazuje się rozkład normalny.

Odwrotne rozumowanie Gaussa. Nie zakłada on rozkładu normalnego — wyprowadza go z powszechnie przyjętej zasady średniej, a dopiero z niego wynikają najmniejsze kwadraty.

Dowód

Z postulatu średniej wynika rozkład normalny (Gauss, 1809)

Ustawienie. $n$ niezależnych pomiarów $M_1,\dots,M_n$ wielkości $\mu$; błąd $\varepsilon_i = M_i - \mu$ ma nieznaną, symetryczną gęstość $\varphi(\varepsilon)$. Wiarygodność: $$ \Omega(\mu) = \varphi(M_1-\mu)\cdots\varphi(M_n-\mu). $$
Warunek maksimum. Z $\frac{d}{d\mu}\log\Omega = 0$, oznaczając $f := (\log\varphi)' = \varphi'/\varphi$: $$ \sum_{i=1}^n f(M_i-\hat\mu) = 0. $$
Postulat średniej. Żądamy, by zawsze $\hat\mu = \bar M$. Wtedy $\sum_i(M_i-\bar M)=0$, więc warunek brzmi: $\sum_i f(\varepsilon_i)=0$ zawsze, gdy $\sum_i \varepsilon_i = 0$.
To wymusza liniowość. Dla układu $\varepsilon_1=(n-1)t,\ \varepsilon_2=\dots=\varepsilon_n=-t$ (suma zero) i nieparzystej $f$: $f((n-1)t)=(n-1)f(t)$ dla każdego $t,n$ — czyli $f(\varepsilon)=k\varepsilon$.
Całkujemy. $(\log\varphi)'=k\varepsilon \Rightarrow \varphi(\varepsilon)=C\,e^{k\varepsilon^2/2}$.
Warunek gęstości. By $\varphi$ była całkowalna, $k<0$; pisząc $k=-2h^2$: $$ \boxed{\;\varphi(\varepsilon) = \frac{h}{\sqrt{\pi}}\,e^{-h^2\varepsilon^2}\;} $$ To rozkład normalny; $h$ to *miara dokładności* ($\textit{Genauigkeit}$). Stąd nazwa: rozkład gaussowski.

∎

Ostatni krok jest natychmiastowy: skoro $\Omega \propto \exp(-h^2\sum\varepsilon_i^2)$, to maksymalizacja wiarygodności = minimalizacja sumy kwadratów $\sum\varepsilon_i^2$. Oto najmniejsze kwadraty jako estymacja największej wiarygodności.

Część IV. Laplace: fundament probabilistyczny

Portret Pierre'a-Simona Laplace'a — **Pierre-Simon de Laplace** (1749–1827). Jego centralne twierdzenie graniczne wyjaśniło, *dlaczego* błędy bywają normalne. P. Guérin — Wikimedia Commons, domena publiczna

Argument Gaussa z 1809 r. opierał się na postulacie średniej — eleganckim, lecz arbitralnym. Niezależną podporę dał Pierre-Simon Laplace. W 1810 roku udowodnił centralne twierdzenie graniczne: suma wielu drobnych, niezależnych wpływów ma rozkład w przybliżeniu normalny.

To wyjaśniło, dlaczego błąd pomiaru — będący sumą wielu maleńkich, niezależnych zaburzeń — jest w praktyce gaussowski. Laplace połączył to z metodą najmniejszych kwadratów (Théorie analytique des probabilités, 1812), dając jej uzasadnienie wielkopróbkowe, niezależne od postulatu Gaussa. Tę zbieżność dwóch dróg nazywa się czasem syntezą Gaussa-Laplace’a — to ona ugruntowała rolę rozkładu normalnego i MNK w całej nauce. Więcej w artykule o centralnym twierdzeniu granicznym.

Część V. Gauss raz jeszcze: twierdzenie Gaussa-Markowa (1823)

Portret Andrieja Markowa — **Andriej Markow** (1856–1922). Twierdzenie nosi jego nazwisko, choć wynik miał już Gauss w 1823 r. Wikimedia Commons, domena publiczna

Sam Gauss uznał argument z 1809 r. za niezadowalający (zależał od założenia normalności). W rozprawie Theoria combinationis observationum erroribus minimis obnoxiae (1821–1823) podał zupełnie nowe uzasadnienie, niewymagające żadnego konkretnego prawa błędów.

Twierdzenie

Twierdzenie Gaussa-Markowa

Jeśli błędy mają zerową wartość oczekiwaną, stałą wariancję i są nieskorelowane (bez założenia normalności), to estymator najmniejszych kwadratów ma najmniejszą wariancję w klasie wszystkich liniowych nieobciążonych estymatorów. Krótko: MNK jest najlepszym liniowym nieobciążonym estymatorem (BLUE).

Dowód

Najmniejsza wariancja — przypadek średniej

Model. $y_i = \mu + \varepsilon_i$, gdzie $\mathbb{E}[\varepsilon_i]=0$, $\mathrm{Var}(\varepsilon_i)=\sigma^2$, błędy nieskorelowane. Rozważamy dowolny liniowy estymator $\hat\mu = \sum_i c_i y_i$.
Nieobciążoność. $\mathbb{E}[\hat\mu] = \mu\sum_i c_i$. By $\hat\mu$ był nieobciążony dla każdego $\mu$, musi być $\sum_i c_i = 1$.
Wariancja. Z nieskorelowania: $\mathrm{Var}(\hat\mu) = \sigma^2 \sum_i c_i^2$. Minimalizujemy $\sum_i c_i^2$ przy warunku $\sum_i c_i = 1$.
Minimum. Z nierówności Cauchy'ego–Schwarza (lub mnożnika Lagrange'a) $\sum c_i^2$ jest najmniejsze, gdy wszystkie $c_i$ są równe: $c_i = 1/n$. Wtedy $$ \hat\mu = \frac{1}{n}\sum_i y_i = \bar y, $$ czyli estymator najmniejszych kwadratów (średnia). Każdy inny liniowy nieobciążony estymator ma wariancję nie mniejszą.

∎

W pełnej wersji (model liniowy $\mathbf{y}=\mathbf{X}\boldsymbol\beta+\boldsymbol\varepsilon$) ten sam argument daje $\hat{\boldsymbol\beta}=(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y}$ jako estymator o najmniejszej macierzy kowariancji wśród liniowych nieobciążonych.

Uwaga

Pochodzenie nazwy Gauss-Markow

Wynik miał już Gauss (1823). Andriej Markow na początku XX wieku przedstawił go rygorystycznie i to jego nazwiskiem twierdzenie ochrzczono w literaturze XX-wiecznej (m.in. za sprawą Jerzego Neymana, który nie wiedział, że Gauss był pierwszy). Stąd podwójna nazwa Gauss-Markow — historycznie sprawiedliwsza byłaby „twierdzenie Gaussa".

Część VI. Od błędów pomiarowych do regresji (XIX–XX w.)

Przez cały XIX wiek najmniejsze kwadraty służyły astronomii i geodezji — do szacowania stałych fizycznych. Przełom w stronę statystyki zależności przyszedł pod koniec stulecia:

Francis Galton (1822–1911) badając wzrost rodziców i dzieci zauważył „regresję ku przeciętnej" (1885) i ukuł termin regresja. To on przeniósł metodę z „błędów" na związki między zmiennymi.
Karl Pearson (1857–1936) sformalizował współczynnik korelacji (1896) i rozwinął aparat regresji.
George Udny Yule (1871–1951) pokazał (1897), że regresja wieloraka to po prostu najmniejsze kwadraty zastosowane do wielu zmiennych objaśniających.
Ronald A. Fisher (1890–1962) ujednolicił teorię: metoda największej wiarygodności, analiza wariancji, własności estymatorów. W jego ujęciu MNK to estymator największej wiarygodności przy błędach normalnych — domykając koło zapoczątkowane przez Gaussa.

Tak narzędzie astronomów stało się fundamentem ekonometrii: tym samym rachunkiem, którym Gauss łapał planetę, dziś szacujemy zwrot z edukacji czy elastyczność popytu.

Część VII. Dwa filary, jeden wniosek

Uzasadnienie	Rok	Autor	Założenie	Wniosek
Probabilistyczne	1809	Gauss	błędy normalne	MNK = estymator największej wiarygodności
Graniczne (CLT)	1810	Laplace	suma wielu drobnych przyczyn	błędy są w przybliżeniu normalne
Wariancyjne (Gauss-Markow)	1823	Gauss	$\mathbb{E}[\varepsilon]=0$, stała wariancja, brak korelacji	MNK = najlepszy liniowy nieobciążony estymator

Pierwszy filar wyjaśnia, skąd wziął się rozkład normalny. Drugi — dlaczego błędy bywają normalne. Trzeci — że metoda jest optymalna nawet bez normalności. Razem tłumaczą, czemu najmniejsze kwadraty przetrwały dwa stulecia jako domyślne narzędzie nauk ilościowych.

Część VIII. Sformułowanie macierzowe modelu

Współczesna ekonometria zapisuje model liniowy w postaci macierzowej, co czyni cały rachunek zwartym i ogólnym. Mamy $n$ obserwacji i $k$ parametrów:

$$ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}, $$

gdzie $\mathbf{y}$ to wektor $n\times 1$ obserwacji zmiennej objaśnianej, $\mathbf{X}$ to macierz $n\times k$ regresorów (pierwsza kolumna zwykle jedynkowa — wyraz wolny), $\boldsymbol{\beta}$ to wektor $k\times 1$ nieznanych parametrów, a $\boldsymbol{\varepsilon}$ to wektor $n\times 1$ składników losowych.

Definicja

Założenia klasycznego modelu (KMNK)

A1. Liniowość: $\mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\varepsilon}$.
A2. Pełny rząd: $\operatorname{rank}(\mathbf{X}) = k$ (brak współliniowości doskonałej; $\mathbf{X}^\top\mathbf{X}$ jest odwracalna).
A3. Egzogeniczność: $\mathbb{E}[\boldsymbol{\varepsilon}\mid\mathbf{X}] = \mathbf{0}$.
A4. Sferyczność: $\mathrm{Var}(\boldsymbol{\varepsilon}\mid\mathbf{X}) = \sigma^2\mathbf{I}_n$ (homoskedastyczność + brak autokorelacji).
A5. Normalność (opcjonalnie, do wnioskowania w małej próbie): $\boldsymbol{\varepsilon}\mid\mathbf{X}\sim\mathcal{N}(\mathbf{0},\sigma^2\mathbf{I}_n)$.

Założenia A1–A4 to dokładnie warunki twierdzenia Gaussa-Markowa. Normalność A5 nie jest potrzebna do optymalności MNK — służy tylko do dokładnych testów $t$ i $F$ w małej próbie.

Część IX. Wyprowadzenie estymatora (postać macierzowa)

Minimalizujemy sumę kwadratów reszt jako iloczyn skalarny:

$$ S(\boldsymbol{\beta}) = \boldsymbol{\varepsilon}^\top\boldsymbol{\varepsilon} = (\mathbf{y}-\mathbf{X}\boldsymbol{\beta})^\top(\mathbf{y}-\mathbf{X}\boldsymbol{\beta}) = \mathbf{y}^\top\mathbf{y} - 2\boldsymbol{\beta}^\top\mathbf{X}^\top\mathbf{y} + \boldsymbol{\beta}^\top\mathbf{X}^\top\mathbf{X}\boldsymbol{\beta}. $$

Dowód

Równania normalne i wzór na estymator

Gradient. Różniczkujemy $S$ względem wektora $\boldsymbol{\beta}$ (rachunek macierzowy: $\partial(\mathbf{a}^\top\boldsymbol\beta)/\partial\boldsymbol\beta=\mathbf{a}$, $\partial(\boldsymbol\beta^\top\mathbf{A}\boldsymbol\beta)/\partial\boldsymbol\beta=2\mathbf{A}\boldsymbol\beta$ dla symetrycznej $\mathbf{A}$): $$ \frac{\partial S}{\partial\boldsymbol\beta} = -2\mathbf{X}^\top\mathbf{y} + 2\mathbf{X}^\top\mathbf{X}\boldsymbol\beta. $$
Warunek pierwszego rzędu. Przyrównanie do zera daje równania normalne (termin Gaussa): $$ \mathbf{X}^\top\mathbf{X}\,\hat{\boldsymbol\beta} = \mathbf{X}^\top\mathbf{y}. $$
Rozwiązanie. Z założenia A2 macierz $\mathbf{X}^\top\mathbf{X}$ jest odwracalna, więc $$ \boxed{\;\hat{\boldsymbol\beta} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y}\;} $$
To minimum. Hesjan $\dfrac{\partial^2 S}{\partial\boldsymbol\beta\,\partial\boldsymbol\beta^\top} = 2\mathbf{X}^\top\mathbf{X}$ jest dodatnio określony (bo $\mathbf{X}$ ma pełny rząd), więc punkt krytyczny jest globalnym minimum.

∎

Część X. Geometria: macierz kapeluszowa i rzut prostopadły

Wartości dopasowane to $\hat{\mathbf{y}} = \mathbf{X}\hat{\boldsymbol\beta} = \mathbf{X}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y} = \mathbf{H}\mathbf{y}$, gdzie

$$ \mathbf{H} = \mathbf{X}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top $$

to macierz kapeluszowa (ang. hat matrix) — rzut prostopadły na przestrzeń kolumn $\mathbf{X}$. Reszty to $\mathbf{e} = \mathbf{y}-\hat{\mathbf{y}} = (\mathbf{I}-\mathbf{H})\mathbf{y} = \mathbf{M}\mathbf{y}$, gdzie $\mathbf{M} = \mathbf{I}-\mathbf{H}$ to macierz anihilująca.

Twierdzenie

Własności macierzy H i M

Obie są symetryczne i idempotentne ($\mathbf{H}^2=\mathbf{H}$, $\mathbf{M}^2=\mathbf{M}$), oraz:

$$ \mathbf{H}\mathbf{X}=\mathbf{X},\quad \mathbf{M}\mathbf{X}=\mathbf{0},\quad \mathbf{H}\mathbf{M}=\mathbf{0},\quad \operatorname{tr}(\mathbf{H})=k,\quad \operatorname{tr}(\mathbf{M})=n-k. $$

Stąd ortogonalność reszt względem regresorów: $\mathbf{X}^\top\mathbf{e} = \mathbf{X}^\top\mathbf{M}\mathbf{y} = \mathbf{0}$ — to samo równanie normalne, tym razem czytane geometrycznie. Wektor reszt jest prostopadły do przestrzeni kolumn $\mathbf{X}$, a $\hat{\mathbf{y}}$ to najbliższy $\mathbf{y}$ punkt tej przestrzeni.

Geometria najmniejszych kwadratów: rzut prostopadły wektora obserwacji y na przestrzeń kolumn col(X). Dopasowanie ŷ=Hy leży w tej przestrzeni, a reszta e=y−ŷ jest do niej prostopadła — kąt prosty w punkcie styku to geometryczny sens równań normalnych: reszty są ortogonalne do regresorów.

Część XI. Własności estymatora MNK

Podstawiając $\mathbf{y}=\mathbf{X}\boldsymbol\beta+\boldsymbol\varepsilon$ do wzoru na $\hat{\boldsymbol\beta}$, otrzymujemy kluczową tożsamość:

$$ \hat{\boldsymbol\beta} = \boldsymbol\beta + (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\boldsymbol\varepsilon. $$

Nieobciążoność. $\mathbb{E}[\hat{\boldsymbol\beta}\mid\mathbf{X}] = \boldsymbol\beta + (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\,\mathbb{E}[\boldsymbol\varepsilon\mid\mathbf{X}] = \boldsymbol\beta$ (z A3).
Macierz kowariancji. Przy sferyczności (A4): $$ \mathrm{Var}(\hat{\boldsymbol\beta}\mid\mathbf{X}) = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top(\sigma^2\mathbf{I})\mathbf{X}(\mathbf{X}^\top\mathbf{X})^{-1} = \sigma^2(\mathbf{X}^\top\mathbf{X})^{-1}. $$
Estymator wariancji błędu. $s^2 = \dfrac{\mathbf{e}^\top\mathbf{e}}{n-k}$ jest nieobciążony: $\mathbb{E}[s^2]=\sigma^2$ (dzielnik $n-k$, nie $n$ — analogia poprawki Bessela; $k$ stopni swobody „zużywają" parametry).

Dowód

Nieobciążoność s²: dlaczego dzielimy przez n−k

Reszty jako funkcja błędów. Ponieważ $\mathbf{M}\mathbf{X}=\mathbf{0}$, podstawiając $\mathbf{y}=\mathbf{X}\boldsymbol\beta+\boldsymbol\varepsilon$ dostajemy $\mathbf{e}=\mathbf{M}\mathbf{y}=\mathbf{M}\mathbf{X}\boldsymbol\beta+\mathbf{M}\boldsymbol\varepsilon=\mathbf{M}\boldsymbol\varepsilon$. Reszty nie zależą od $\boldsymbol\beta$ — to przefiltrowane błędy.
Suma kwadratów reszt. Z symetrii i idempotentności $\mathbf{M}$ ($\mathbf{M}^\top\mathbf{M}=\mathbf{M}^2=\mathbf{M}$): $$ \mathbf{e}^\top\mathbf{e}=\boldsymbol\varepsilon^\top\mathbf{M}^\top\mathbf{M}\boldsymbol\varepsilon=\boldsymbol\varepsilon^\top\mathbf{M}\boldsymbol\varepsilon. $$
Sztuczka ze śladem. $\boldsymbol\varepsilon^\top\mathbf{M}\boldsymbol\varepsilon$ jest skalarem, więc równa się swojemu śladowi; z przemienności śladu pod cyklicznym przestawieniem $\operatorname{tr}(\mathbf{M}\boldsymbol\varepsilon\boldsymbol\varepsilon^\top)$: $$ \mathbb{E}[\mathbf{e}^\top\mathbf{e}\mid\mathbf{X}]=\mathbb{E}\big[\operatorname{tr}(\mathbf{M}\boldsymbol\varepsilon\boldsymbol\varepsilon^\top)\big]=\operatorname{tr}\!\big(\mathbf{M}\,\mathbb{E}[\boldsymbol\varepsilon\boldsymbol\varepsilon^\top]\big)=\operatorname{tr}(\mathbf{M}\,\sigma^2\mathbf{I})=\sigma^2\operatorname{tr}(\mathbf{M}). $$
Wynik. Ponieważ $\operatorname{tr}(\mathbf{M})=n-k$, mamy $\mathbb{E}[\mathbf{e}^\top\mathbf{e}\mid\mathbf{X}]=\sigma^2(n-k)$, a stąd $$ \mathbb{E}[s^2\mid\mathbf{X}]=\frac{\mathbb{E}[\mathbf{e}^\top\mathbf{e}\mid\mathbf{X}]}{n-k}=\sigma^2. $$ Dzielnik $n-k$ — nie $n$ — bierze się więc wprost ze śladu rzutu na przestrzeń reszt. Gdyby dzielić przez $n$, estymator byłby obciążony w dół o czynnik $(n-k)/n$.

∎

Część XII. Twierdzenie Gaussa-Markowa — dowód macierzowy

To uogólnienie dowodu z części V na pełny model liniowy.

Dowód

MNK ma najmniejszą macierz kowariancji wśród liniowych nieobciążonych estymatorów

Dowolny liniowy estymator. Niech $\tilde{\boldsymbol\beta} = \mathbf{C}\mathbf{y}$ dla pewnej macierzy $\mathbf{C}$ ($k\times n$). Zapiszmy $\mathbf{C} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top + \mathbf{D}$, gdzie $\mathbf{D}$ mierzy odstępstwo od MNK.
Warunek nieobciążoności. $\mathbb{E}[\tilde{\boldsymbol\beta}\mid\mathbf{X}] = \mathbf{C}\mathbf{X}\boldsymbol\beta$. By był nieobciążony dla każdego $\boldsymbol\beta$, musi $\mathbf{C}\mathbf{X}=\mathbf{I}$, co po podstawieniu daje $\mathbf{D}\mathbf{X}=\mathbf{0}$.
Kowariancja. $\mathrm{Var}(\tilde{\boldsymbol\beta}\mid\mathbf{X}) = \sigma^2\mathbf{C}\mathbf{C}^\top$. Rozwijając $\mathbf{C}\mathbf{C}^\top$ i korzystając z $\mathbf{D}\mathbf{X}=\mathbf{0}$ (człony mieszane znikają): $$ \mathbf{C}\mathbf{C}^\top = (\mathbf{X}^\top\mathbf{X})^{-1} + \mathbf{D}\mathbf{D}^\top. $$
Wniosek. Zatem $$ \mathrm{Var}(\tilde{\boldsymbol\beta}\mid\mathbf{X}) = \underbrace{\sigma^2(\mathbf{X}^\top\mathbf{X})^{-1}}_{\mathrm{Var}(\hat{\boldsymbol\beta}_{\text{MNK}})} + \sigma^2\mathbf{D}\mathbf{D}^\top. $$ Macierz $\mathbf{D}\mathbf{D}^\top$ jest dodatnio półokreślona, więc kowariancja każdego innego liniowego nieobciążonego estymatora jest nie mniejsza od kowariancji MNK. Równość zachodzi tylko dla $\mathbf{D}=\mathbf{0}$, czyli dla samego MNK. To jest BLUE.

∎

Część XIII. Rozkłady i wnioskowanie (przy normalności)

Przy dodatkowym założeniu A5 ($\boldsymbol\varepsilon\sim\mathcal{N}$) dostajemy dokładne rozkłady, na których opiera się wnioskowanie:

$$ \hat{\boldsymbol\beta}\sim\mathcal{N}\!\big(\boldsymbol\beta,\ \sigma^2(\mathbf{X}^\top\mathbf{X})^{-1}\big),\qquad \frac{(n-k)s^2}{\sigma^2}\sim\chi^2_{n-k}. $$

Ponieważ $\sigma^2$ jest nieznane, w statystyce $t$ zastępujemy je przez $s^2$. Dla pojedynczego współczynnika:

$$ \frac{\hat\beta_j-\beta_j}{\operatorname{SE}(\hat\beta_j)}\sim t_{n-k},\qquad \operatorname{SE}(\hat\beta_j)=s\sqrt{[(\mathbf{X}^\top\mathbf{X})^{-1}]_{jj}}. $$

Dla $q$ łącznych ograniczeń liniowych $\mathbf{R}\boldsymbol\beta=\mathbf{r}$ używamy statystyki $F$:

$$ F=\frac{(\mathbf{R}\hat{\boldsymbol\beta}-\mathbf{r})^\top\big[\mathbf{R}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{R}^\top\big]^{-1}(\mathbf{R}\hat{\boldsymbol\beta}-\mathbf{r})}{q\,s^2}\sim F_{q,\,n-k}. $$

To formalna podstawa testów hipotez, p-wartości i przedziałów ufności. Poniżej wyprowadzamy te rozkłady od podstaw — z jednego założenia o normalności składników losowych.

Dowód

Niezależność estymatora i wariancji resztowej oraz rozkłady t i F

Wszystko jest liniowe w $\boldsymbol\varepsilon$. Z tożsamości $\hat{\boldsymbol\beta}-\boldsymbol\beta=(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\boldsymbol\varepsilon$ oraz $\mathbf{e}=\mathbf{M}\boldsymbol\varepsilon$ widać, że i estymator, i reszty są przekształceniami liniowymi wektora $\boldsymbol\varepsilon\sim\mathcal{N}(\mathbf{0},\sigma^2\mathbf{I})$. Są więc łącznie normalne.
(a) Niezależność $\hat{\boldsymbol\beta}$ i $s^2$. Ponieważ $\mathbf{X}^\top\mathbf{H}=\mathbf{X}^\top$ (bo $\mathbf{H}\mathbf{X}=\mathbf{X}$, a $\mathbf{H}$ jest symetryczna), mamy $\hat{\boldsymbol\beta}-\boldsymbol\beta=(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{H}\boldsymbol\varepsilon$ — jest to funkcja składowej $\mathbf{H}\boldsymbol\varepsilon$. Reszty zależą wyłącznie od $\mathbf{M}\boldsymbol\varepsilon$. Ich kowariancja $$ \mathrm{Cov}(\mathbf{H}\boldsymbol\varepsilon,\ \mathbf{M}\boldsymbol\varepsilon)=\mathbf{H}\,(\sigma^2\mathbf{I})\,\mathbf{M}^\top=\sigma^2\mathbf{H}\mathbf{M}=\mathbf{0}, $$ bo $\mathbf{H}\mathbf{M}=\mathbf{0}$. Dla wektorów łącznie normalnych zerowa kowariancja oznacza niezależność, więc $\hat{\boldsymbol\beta}$ jest niezależne od $\mathbf{e}$, a tym samym od $s^2=\mathbf{e}^\top\mathbf{e}/(n-k)$.
(b) Rozkład $s^2$. Z symetrii i idempotentności $\mathbf{M}$: $(n-k)s^2=\mathbf{e}^\top\mathbf{e}=\boldsymbol\varepsilon^\top\mathbf{M}^\top\mathbf{M}\boldsymbol\varepsilon=\boldsymbol\varepsilon^\top\mathbf{M}\boldsymbol\varepsilon$. Kładąc $\mathbf{z}=\boldsymbol\varepsilon/\sigma\sim\mathcal{N}(\mathbf{0},\mathbf{I})$, $$ \frac{(n-k)s^2}{\sigma^2}=\mathbf{z}^\top\mathbf{M}\mathbf{z}. $$ Macierz $\mathbf{M}$ — symetryczna i idempotentna — ma wartości własne $1$ (z krotnością $\operatorname{tr}\mathbf{M}=n-k$) i $0$. W jej bazie własnej $\mathbf{w}=\mathbf{Q}^\top\mathbf{z}\sim\mathcal{N}(\mathbf{0},\mathbf{I})$, więc forma kwadratowa redukuje się do sumy $n-k$ niezależnych kwadratów zmiennych standardowych normalnych: $$ \mathbf{z}^\top\mathbf{M}\mathbf{z}=\sum_{i=1}^{n-k}w_i^2\sim\chi^2_{n-k}. $$
(c) Statystyka $t$. Dla pojedynczego współczynnika $\hat\beta_j\sim\mathcal{N}(\beta_j,\ \sigma^2 v_{jj})$, gdzie $v_{jj}=[(\mathbf{X}^\top\mathbf{X})^{-1}]_{jj}$, zatem $Z=(\hat\beta_j-\beta_j)/(\sigma\sqrt{v_{jj}})\sim\mathcal{N}(0,1)$. Zastępując nieznane $\sigma$ przez $s$ i dzieląc przez pierwiastek z niezależnej zmiennej $\chi^2$ podzielonej przez stopnie swobody: $$ \frac{\hat\beta_j-\beta_j}{s\sqrt{v_{jj}}}=\frac{Z}{\sqrt{\dfrac{(n-k)s^2/\sigma^2}{n-k}}}=\frac{\mathcal{N}(0,1)}{\sqrt{\chi^2_{n-k}/(n-k)}}\sim t_{n-k}, $$ bo licznik i mianownik są niezależne na mocy punktu (a). To jest definicja rozkładu $t$ Studenta.
(c) Statystyka $F$. Przy $q$ ograniczeniach $\mathbf{R}\boldsymbol\beta=\mathbf{r}$ i prawdziwej hipotezie wektor $\mathbf{R}\hat{\boldsymbol\beta}-\mathbf{r}\sim\mathcal{N}\big(\mathbf{0},\ \sigma^2\mathbf{R}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{R}^\top\big)$. Standaryzowana forma kwadratowa tego wektora jest zmienną $\chi^2$ o $q$ stopniach swobody: $$ \frac{(\mathbf{R}\hat{\boldsymbol\beta}-\mathbf{r})^\top[\mathbf{R}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{R}^\top]^{-1}(\mathbf{R}\hat{\boldsymbol\beta}-\mathbf{r})}{\sigma^2}\sim\chi^2_q. $$ Iloraz dwóch niezależnych zmiennych $\chi^2$, każdej podzielonej przez własne stopnie swobody, ma rozkład $F$: $$ F=\frac{\chi^2_q/q}{\chi^2_{n-k}/(n-k)}\sim F_{q,\,n-k}, $$ przy czym $\sigma^2$ skraca się między licznikiem a mianownikiem — stąd końcowy wzór z $s^2$ w mianowniku.

∎

Część XIV. Twierdzenie Frischa-Waugha-Lovella

Jeden z najważniejszych wyników o interpretacji regresji wielorakiej (Frisch i Waugh 1933, Lovell 1963).

Twierdzenie

Twierdzenie FWL (wytrącanie zmiennych)

Podzielmy regresory: $\mathbf{X}=[\mathbf{X}_1\ \mathbf{X}_2]$. Współczynnik MNK przy $\mathbf{X}_2$ z pełnej regresji jest identyczny ze współczynnikiem z regresji:

reszt z regresji $\mathbf{y}$ na $\mathbf{X}_1$ na resztach z regresji $\mathbf{X}_2$ na $\mathbf{X}_1$.

Innymi słowy: współczynnik przy danej zmiennej w regresji wielorakiej to jej efekt po „wytrąceniu" (oczyszczeniu z) wpływu pozostałych zmiennych — formalne znaczenie zwrotu „przy stałych pozostałych".

Dowód

Twierdzenie Frischa-Waugha-Lovella

Równania normalne pełnego modelu. Dla $\mathbf{X}=[\mathbf{X}_1\ \mathbf{X}_2]$ i $\hat{\boldsymbol\beta}=[\hat{\boldsymbol\beta}_1;\ \hat{\boldsymbol\beta}_2]$ układ $\mathbf{X}^\top\mathbf{X}\hat{\boldsymbol\beta}=\mathbf{X}^\top\mathbf{y}$ rozpisuje się na dwa bloki: $$ \mathbf{X}_1^\top\mathbf{X}_1\hat{\boldsymbol\beta}_1 + \mathbf{X}_1^\top\mathbf{X}_2\hat{\boldsymbol\beta}_2 = \mathbf{X}_1^\top\mathbf{y}, $$ $$ \mathbf{X}_2^\top\mathbf{X}_1\hat{\boldsymbol\beta}_1 + \mathbf{X}_2^\top\mathbf{X}_2\hat{\boldsymbol\beta}_2 = \mathbf{X}_2^\top\mathbf{y}. $$
Wyrugowanie $\hat{\boldsymbol\beta}_1$. Z pierwszego bloku $\hat{\boldsymbol\beta}_1=(\mathbf{X}_1^\top\mathbf{X}_1)^{-1}\mathbf{X}_1^\top(\mathbf{y}-\mathbf{X}_2\hat{\boldsymbol\beta}_2)$. Wstawiamy do drugiego, oznaczając rzut $\mathbf{P}_1=\mathbf{X}_1(\mathbf{X}_1^\top\mathbf{X}_1)^{-1}\mathbf{X}_1^\top$: $$ \mathbf{X}_2^\top\mathbf{P}_1(\mathbf{y}-\mathbf{X}_2\hat{\boldsymbol\beta}_2) + \mathbf{X}_2^\top\mathbf{X}_2\hat{\boldsymbol\beta}_2 = \mathbf{X}_2^\top\mathbf{y}. $$
Porządkowanie. Przenosząc wyrazy i grupując przy $\hat{\boldsymbol\beta}_2$, z $\mathbf{M}_1=\mathbf{I}-\mathbf{P}_1$ (anihilator $\mathbf{X}_1$): $$ \mathbf{X}_2^\top\mathbf{M}_1\mathbf{X}_2\,\hat{\boldsymbol\beta}_2 = \mathbf{X}_2^\top\mathbf{M}_1\mathbf{y}. $$
Symetria i idempotentność. Ponieważ $\mathbf{M}_1=\mathbf{M}_1^\top=\mathbf{M}_1^2$, mamy $\mathbf{X}_2^\top\mathbf{M}_1\mathbf{X}_2=(\mathbf{M}_1\mathbf{X}_2)^\top(\mathbf{M}_1\mathbf{X}_2)$ oraz $\mathbf{X}_2^\top\mathbf{M}_1\mathbf{y}=(\mathbf{M}_1\mathbf{X}_2)^\top(\mathbf{M}_1\mathbf{y})$. Stąd $$ \boxed{\;\hat{\boldsymbol\beta}_2 = \big[(\mathbf{M}_1\mathbf{X}_2)^\top(\mathbf{M}_1\mathbf{X}_2)\big]^{-1}(\mathbf{M}_1\mathbf{X}_2)^\top(\mathbf{M}_1\mathbf{y})\;} $$ a to jest dokładnie estymator MNK z regresji reszt $\mathbf{M}_1\mathbf{y}$ (z regresji $\mathbf{y}$ na $\mathbf{X}_1$) na resztach $\mathbf{M}_1\mathbf{X}_2$ (z regresji $\mathbf{X}_2$ na $\mathbf{X}_1$).

∎

To twierdzenie tłumaczy, dlaczego współczynniki regresji wielorakiej interpretujemy jako efekty ceteris paribus, i jest narzędziem dowodowym w teorii danych panelowych i estymatorach efektów stałych. Z FWL wynika też wzór na pojedynczy współczynnik regresji wielorakiej i jego odporność: dodanie nieskorelowanego regresora nie zmienia pozostałych oszacowań.

Przykład

FWL na liczbach

Weźmy $n=5$, dwa regresory i wyraz wolny:

$x_1$	1	2	3	4	5
$x_2$	2	1	5	3	4
$y$	3	2	6	5	7

Pełna regresja $y$ na $\{1, x_1, x_2\}$ daje współczynnik przy $x_2$ równy $\hat\beta_2 = \tfrac{27}{32} = 0{,}84375$.

Przez FWL — najpierw „oczyszczamy" $y$ i $x_2$ z wpływu $\{1, x_1\}$ (bierzemy reszty z regresji każdego na stałą i $x_1$):

$$ \mathbf{M}_1\mathbf{y} = (0{,}6,\ -1{,}5,\ 1{,}4,\ -0{,}7,\ 0{,}2), \qquad \mathbf{M}_1\mathbf{x}_2 = (0{,}2,\ -1{,}4,\ 2{,}0,\ -0{,}6,\ -0{,}2). $$

Regresja reszt na reszty (przez początek układu):

$$ \hat\beta_2 = \frac{(\mathbf{M}_1\mathbf{x}_2)^\top(\mathbf{M}_1\mathbf{y})}{(\mathbf{M}_1\mathbf{x}_2)^\top(\mathbf{M}_1\mathbf{x}_2)} = \frac{5{,}4}{6{,}4} = \frac{27}{32} = 0{,}84375. $$

Identycznie — zgodnie z twierdzeniem.

Część XV. Naruszenia założeń — mapa

Każde założenie A1–A5 może zostać złamane; każde łamanie ma inną diagnozę i lekarstwo. Szczegóły w osobnych artykułach:

Złamane założenie	Skutek	Diagnoza	Lekarstwo
A1 liniowość	obciążenie	wzór reszt	człony kwadratowe, logarytmy
A2 pełny rząd	brak/niestabilność	VIF	usuń/połącz zmienne, regularyzacja
A3 egzogeniczność	obciążenie i niezgodność	argument merytoryczny	zmienne instrumentalne, panel
A4 homoskedastyczność	błędne SE	Breusch-Pagan	odporne SE, WLS
A4 brak autokorelacji	błędne SE	Breusch-Godfrey	błędy HAC
A5 normalność	testy w małej próbie	Q-Q, Shapiro	większa próba (CTG), bootstrap

Część XVI. Rozszerzenia metody

Ważona MNK (WLS): przy znanej heteroskedastyczności minimalizujemy $\sum w_i\varepsilon_i^2$; $\hat{\boldsymbol\beta}=(\mathbf{X}^\top\mathbf{W}\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{W}\mathbf{y}$.
Uogólniona MNK (GLS): dla dowolnej $\mathrm{Var}(\boldsymbol\varepsilon)=\sigma^2\boldsymbol\Omega$: $\hat{\boldsymbol\beta}=(\mathbf{X}^\top\boldsymbol\Omega^{-1}\mathbf{X})^{-1}\mathbf{X}^\top\boldsymbol\Omega^{-1}\mathbf{y}$ (Aitken).
Zmienne instrumentalne / 2SLS: przy endogeniczności, $\hat{\boldsymbol\beta}_{IV}=(\mathbf{Z}^\top\mathbf{X})^{-1}\mathbf{Z}^\top\mathbf{y}$ — patrz IV.
Regresja grzbietowa (ridge) i lasso: dodajemy karę za wielkość współczynników; ridge: $\hat{\boldsymbol\beta}=(\mathbf{X}^\top\mathbf{X}+\lambda\mathbf{I})^{-1}\mathbf{X}^\top\mathbf{y}$ — stabilizuje przy współliniowości i w wysokim wymiarze.
Nieliniowa MNK (NLS): minimalizacja $\sum(y_i-f(\mathbf{x}_i,\boldsymbol\beta))^2$ dla nieliniowej $f$, metodami iteracyjnymi (Gauss-Newton).

Część XVII. Metody obliczeniowe

W praktyce nie odwraca się jawnie $\mathbf{X}^\top\mathbf{X}$ — to numerycznie niestabilne, bo wskaźnik uwarunkowania podnosi się do kwadratu: $\kappa(\mathbf{X}^\top\mathbf{X})=\kappa(\mathbf{X})^2$. Lepsze są:

Rozkład QR: $\mathbf{X}=\mathbf{Q}\mathbf{R}$ (ortogonalno-trójkątny), wtedy $\mathbf{R}\hat{\boldsymbol\beta}=\mathbf{Q}^\top\mathbf{y}$ — rozwiązanie przez podstawianie wsteczne; standard w lm() (R) i lstsq.
Rozkład SVD: $\mathbf{X}=\mathbf{U}\boldsymbol\Sigma\mathbf{V}^\top$ — najstabilniejszy, radzi sobie nawet z (prawie) zdegenerowanym $\mathbf{X}$; daje pseudoodwrotność Moore’a-Penrose’a.
Rozkład Choleskiego $\mathbf{X}^\top\mathbf{X}=\mathbf{L}\mathbf{L}^\top$ — szybki, gdy uwarunkowanie jest dobre.
Eliminacja Gaussa — algorytm, który Gauss rozwinął właśnie po to, by ręcznie rozwiązywać równania normalne; do dziś podstawa rozwiązywania układów liniowych.

Część XVIII. Związki z innymi metodami estymacji

Największa wiarygodność: przy błędach normalnych MNW pokrywa się dokładnie z MNK (część III) — to ten sam estymator.
Bayes: z płaskim priorem rozkład a posteriori $\boldsymbol\beta$ jest skupiony wokół $\hat{\boldsymbol\beta}_{\text{MNK}}$; z normalnym priorem sprzężonym otrzymujemy regresję grzbietową (ridge).
Metoda momentów: warunek $\mathbb{E}[\mathbf{X}^\top\boldsymbol\varepsilon]=\mathbf{0}$ w wersji próbkowej to $\mathbf{X}^\top\mathbf{e}=\mathbf{0}$ — znów równania normalne. MNK jest więc estymatorem metody momentów.

Część XIX. Przykład liczbowy: regresja krok po kroku

Cała teoria sprowadza się do kilku działań arytmetycznych. Przejdźmy je ręcznie na małym zbiorze ($n=5$, jeden regresor i wyraz wolny), aby zobaczyć, skąd biorą się wszystkie liczby raportowane przez program statystyczny.

Definicja

Dane

$i$	$x_i$	$y_i$
1	1	2
2	2	4
3	3	5
4	4	4
5	5	5

Model: $y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$. Średnie: $\bar x = 3$, $\bar y = 4$.

Krok 1. Sumy i macierze

Macierz planu $\mathbf{X}$ ma w pierwszej kolumnie same jedynki (wyraz wolny), w drugiej wartości $x_i$. Stąd

$$ \mathbf{X}^\top\mathbf{X} = \begin{bmatrix} n & \sum x_i \\ \sum x_i & \sum x_i^2 \end{bmatrix} = \begin{bmatrix} 5 & 15 \\ 15 & 55 \end{bmatrix}, \qquad \mathbf{X}^\top\mathbf{y} = \begin{bmatrix} \sum y_i \\ \sum x_i y_i \end{bmatrix} = \begin{bmatrix} 20 \\ 66 \end{bmatrix}. $$

Wyznacznik $\det(\mathbf{X}^\top\mathbf{X}) = 5\cdot 55 - 15^2 = 275 - 225 = 50$, więc

$$ (\mathbf{X}^\top\mathbf{X})^{-1} = \frac{1}{50}\begin{bmatrix} 55 & -15 \\ -15 & 5 \end{bmatrix} = \begin{bmatrix} 1{,}1 & -0{,}3 \\ -0{,}3 & 0{,}1 \end{bmatrix}. $$

Krok 2. Estymator

$$ \hat{\boldsymbol\beta} = (\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y} = \begin{bmatrix} 1{,}1 & -0{,}3 \\ -0{,}3 & 0{,}1 \end{bmatrix}\begin{bmatrix} 20 \\ 66 \end{bmatrix} = \begin{bmatrix} 22 - 19{,}8 \\ -6 + 6{,}6 \end{bmatrix} = \begin{bmatrix} 2{,}2 \\ 0{,}6 \end{bmatrix}. $$

Ten sam wynik daje wzór skalarny dla regresji prostej (część skupiona w sumach odchyleń od średniej): z $S_{xx} = \sum(x_i-\bar x)^2 = 10$ i $S_{xy} = \sum(x_i-\bar x)(y_i-\bar y) = 6$,

$$ \hat\beta_1 = \frac{S_{xy}}{S_{xx}} = \frac{6}{10} = 0{,}6, \qquad \hat\beta_0 = \bar y - \hat\beta_1\bar x = 4 - 0{,}6\cdot 3 = 2{,}2. $$

Dopasowana prosta: $\hat y = 2{,}2 + 0{,}6\,x$.

Krok 3. Wartości dopasowane i reszty

$i$	$x_i$	$y_i$	$\hat y_i = 2{,}2+0{,}6x_i$	$e_i = y_i-\hat y_i$	$e_i^2$
1	1	2	2{,}8	$-0{,}8$	0{,}64
2	2	4	3{,}4	$0{,}6$	0{,}36
3	3	5	4{,}0	$1{,}0$	1{,}00
4	4	4	4{,}6	$-0{,}6$	0{,}36
5	5	5	5{,}2	$-0{,}2$	0{,}04
			suma	$0{,}0$	2{,}40

Reszty sumują się do zera ($\sum e_i = 0$) — to bezpośrednia konsekwencja równań normalnych przy obecnym wyrazie wolnym. Suma kwadratów reszt wynosi $\text{RSS} = \mathbf{e}^\top\mathbf{e} = 2{,}40$.

Krok 4. Wariancja resztowa i błędy standardowe

Mamy $n=5$, $k=2$, więc $n-k=3$ stopni swobody:

$$ s^2 = \frac{\text{RSS}}{n-k} = \frac{2{,}40}{3} = 0{,}80. $$

Macierz kowariancji estymatora: $\widehat{\mathrm{Var}}(\hat{\boldsymbol\beta}) = s^2(\mathbf{X}^\top\mathbf{X})^{-1}$, której przekątna daje błędy standardowe:

$$ \operatorname{SE}(\hat\beta_0) = \sqrt{0{,}80\cdot 1{,}1} = \sqrt{0{,}88} \approx 0{,}938, \qquad \operatorname{SE}(\hat\beta_1) = \sqrt{0{,}80\cdot 0{,}1} = \sqrt{0{,}08} \approx 0{,}283. $$

Krok 5. Statystyki $t$ i istotność

Przy hipotezie zerowej $\beta_j = 0$:

$$ t_0 = \frac{2{,}2}{0{,}938} \approx 2{,}345, \qquad t_1 = \frac{0{,}6}{0{,}283} \approx 2{,}121. $$

Wartość krytyczna $t$ dla $3$ stopni swobody i poziomu $0{,}05$ (dwustronnie) wynosi $3{,}182$. Obie statystyki są od niej mniejsze, więc przy tak małej próbie nie odrzucamy hipotezy o zerowych współczynnikach na poziomie 5% — mimo wyraźnego dopasowania. To dobra ilustracja, jak mało informacji niesie $n=5$. Zobacz: testy hipotez, wartość p.

Krok 6. Dopasowanie modelu

Całkowita suma kwadratów $\text{TSS} = \sum(y_i-\bar y)^2 = 4+0+1+0+1 = 6$. Stąd

$$ R^2 = 1 - \frac{\text{RSS}}{\text{TSS}} = 1 - \frac{2{,}4}{6} = 0{,}60, $$

skorygowane $\bar R^2 = 1 - (1-R^2)\dfrac{n-1}{n-k} = 1 - 0{,}4\cdot\dfrac{4}{3} \approx 0{,}467$, oraz statystyka

$$ F = \frac{(\text{TSS}-\text{RSS})/(k-1)}{\text{RSS}/(n-k)} = \frac{3{,}6/1}{2{,}4/3} = 4{,}5 = t_1^2, $$

co potwierdza tożsamość $F = t^2$ dla pojedynczego regresora. Model wyjaśnia 60% zmienności $y$. Zobacz: współczynnik $R^2$.

Intuicja

Co właśnie zrobiliśmy

Od pięciu par liczb przeszliśmy — wyłącznie przez dodawanie, mnożenie i odwrócenie macierzy $2\times 2$ — do pełnego raportu regresji: współczynników, ich błędów standardowych, statystyk $t$, $R^2$ i statystyki $F$. Dokładnie to robi pod spodem każdy pakiet statystyczny, tyle że dla większych macierzy i stabilniejszą metodą numeryczną (część XVII).

Część XX. Przedział ufności dla E[y₀] a przedział predykcji

Po dopasowaniu modelu zadajemy w punkcie $\mathbf{x}_0$ dwa różne pytania. Pierwsze: gdzie leży średnia warunkowa $\mathbb{E}[y\mid\mathbf{x}_0]=\mathbf{x}_0^\top\boldsymbol\beta$? Drugie: jaką wartość przyjmie nowa, pojedyncza obserwacja $y_0=\mathbf{x}_0^\top\boldsymbol\beta+\varepsilon_0$? Oba mają ten sam estymator punktowy $\hat y_0=\mathbf{x}_0^\top\hat{\boldsymbol\beta}$, lecz różną niepewność — i stąd rozróżnienie na przedział ufności i przedział predykcji.

Dowód

Dwie wariancje: dla średniej warunkowej i dla nowej obserwacji

Wspólny estymator. $\hat y_0=\mathbf{x}_0^\top\hat{\boldsymbol\beta}$ jest nieobciążonym estymatorem średniej $\mathbf{x}_0^\top\boldsymbol\beta$, bo $\mathbb{E}[\hat{\boldsymbol\beta}\mid\mathbf{X}]=\boldsymbol\beta$.
Wariancja średniej warunkowej. Niepewność pochodzi wyłącznie z estymacji $\hat{\boldsymbol\beta}$: $$ \mathrm{Var}(\hat y_0\mid\mathbf{X})=\mathbf{x}_0^\top\mathrm{Var}(\hat{\boldsymbol\beta}\mid\mathbf{X})\mathbf{x}_0=\sigma^2\,\mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0. $$
Błąd predykcji nowej obserwacji. Nowa obserwacja $y_0=\mathbf{x}_0^\top\boldsymbol\beta+\varepsilon_0$ niesie dodatkowy, niezależny składnik $\varepsilon_0$ o wariancji $\sigma^2$. Błąd predykcji rozkłada się na $y_0-\hat y_0=(\mathbf{x}_0^\top\boldsymbol\beta-\mathbf{x}_0^\top\hat{\boldsymbol\beta})+\varepsilon_0$; oba człony są niezależne (bo $\varepsilon_0$ dotyczy przyszłej obserwacji, nieobecnej w próbie), więc wariancje się dodają: $$ \mathrm{Var}(y_0-\hat y_0\mid\mathbf{X})=\sigma^2\,\mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0+\sigma^2=\sigma^2\big(1+\mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0\big). $$ Dodatkowa „1" to nieredukowalny szum pojedynczej obserwacji — pozostaje nawet przy nieskończonej próbie, gdy $\hat{\boldsymbol\beta}\to\boldsymbol\beta$.

∎

Zastępując nieznane $\sigma^2$ przez $s^2$ i korzystając z rozkładu $t_{n-k}$, otrzymujemy dwa przedziały (na poziomie ufności $1-\alpha$):

$$ \underbrace{\hat y_0\pm t_{n-k,\,\alpha/2}\;s\sqrt{\mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0}}_{\text{przedział ufności dla }\mathbb{E}[y_0]},\qquad \underbrace{\hat y_0\pm t_{n-k,\,\alpha/2}\;s\sqrt{1+\mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0}}_{\text{przedział predykcji dla nowego }y_0}. $$

Przykład

Liczbowo na przykładzie z części XIX

Bierzemy model z części XIX: $\hat{\boldsymbol\beta}=(2{,}2;\ 0{,}6)$, $s^2=0{,}8$, $(\mathbf{X}^\top\mathbf{X})^{-1}=\begin{bmatrix}1{,}1 & -0{,}3\\ -0{,}3 & 0{,}1\end{bmatrix}$, $n-k=3$, $t_{3;\,0{,}025}=3{,}182$. Dla środka danych $\mathbf{x}_0=(1,\ 3)$:

$$ \hat y_0=2{,}2+0{,}6\cdot 3=4{,}0,\qquad \mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0=\tfrac{1}{5}=0{,}2. $$

Dźwignia $\mathbf{x}_0^\top(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{x}_0=0{,}2$ jest tu najmniejsza z możliwych (środek próby — najpewniejsza predykcja).

Przedział ufności dla $\mathbb{E}[y_0]$: $\operatorname{SE}=\sqrt{0{,}8\cdot 0{,}2}=\sqrt{0{,}16}=0{,}4$, więc $4{,}0\pm 3{,}182\cdot 0{,}4=4{,}0\pm 1{,}273$, czyli $[2{,}727;\ 5{,}273]$.
Przedział predykcji dla nowego $y_0$: $\operatorname{SE}=\sqrt{0{,}8\cdot 1{,}2}=\sqrt{0{,}96}\approx 0{,}980$, więc $4{,}0\pm 3{,}182\cdot 0{,}980=4{,}0\pm 3{,}118$, czyli $[0{,}882;\ 7{,}118]$.

Przedział predykcji jest wyraźnie szerszy ($\pm 3{,}118$ wobec $\pm 1{,}273$) — musi objąć nie tylko niepewność co do położenia prostej, ale i losowy rozrzut samej obserwacji. Różnica nie znika z próbą: gdy $n\to\infty$, przedział ufności kurczy się do punktu, a predykcji — do szerokości $\pm t\cdot\sigma$.

Część XXI. Dekompozycja wariancji: R², skorygowane R² i tablica ANOVA

Jak dobrze model objaśnia zmienność danych? Odpowiedź daje rozłożenie całkowitej zmienności $\mathbf{y}$ na część wyjaśnioną przez regresję i część resztową — fundament analizy wariancji (ANOVA) oraz współczynnika determinacji $R^2$. Trzy sumy kwadratów (model z wyrazem wolnym; $\bar y$ to średnia $y$):

$$ \underbrace{\textstyle\sum_i (y_i-\bar y)^2}_{\text{TSS — całkowita}}, \qquad \underbrace{\textstyle\sum_i (\hat y_i-\bar y)^2}_{\text{ESS — wyjaśniona}}, \qquad \underbrace{\textstyle\sum_i (y_i-\hat y_i)^2}_{\text{RSS — resztowa}}. $$

Dowód

Tożsamość ANOVA: TSS = ESS + RSS

Rozbicie odchylenia. Dla każdej obserwacji $y_i-\bar y=(\hat y_i-\bar y)+(y_i-\hat y_i)=(\hat y_i-\bar y)+e_i$. Podnosząc do kwadratu i sumując po $i$: $$ \sum_i(y_i-\bar y)^2=\sum_i(\hat y_i-\bar y)^2+\sum_i e_i^2+2\sum_i(\hat y_i-\bar y)e_i. $$
Człon mieszany znika. $\sum_i(\hat y_i-\bar y)e_i=\sum_i\hat y_i e_i-\bar y\sum_i e_i$. Z równań normalnych reszty są ortogonalne do regresorów, $\mathbf{X}^\top\mathbf{e}=\mathbf{0}$; w szczególności kolumna jedynek daje $\sum_i e_i=0$, a kombinacja kolumn daje $\hat{\mathbf{y}}^\top\mathbf{e}=\hat{\boldsymbol\beta}^\top\mathbf{X}^\top\mathbf{e}=0$. Oba składniki się zerują.
Wniosek. $\text{TSS}=\text{ESS}+\text{RSS}$. Krok 2 wymaga wyrazu wolnego w modelu — bez niego $\sum_i e_i\neq 0$ i tożsamość się załamuje.

∎

Stąd współczynnik determinacji:

$$ R^2=\frac{\text{ESS}}{\text{TSS}}=1-\frac{\text{RSS}}{\text{TSS}}\in[0,1], $$

interpretowany jako udział zmienności $y$ wyjaśniony przez model. Równoważnie $R^2$ jest kwadratem współczynnika korelacji między $y_i$ a $\hat y_i$.

Problem w tym, że $R^2$ nigdy nie maleje po dodaniu regresora (każda nowa kolumna co najwyżej zmniejsza RSS). By karać za nadmiar parametrów, używa się skorygowanego $R^2$:

$$ \bar R^2=1-\frac{\text{RSS}/(n-k)}{\text{TSS}/(n-1)}=1-(1-R^2)\frac{n-1}{n-k}, $$

który rośnie tylko wtedy, gdy nowy regresor poprawia dopasowanie bardziej, niż wynikałoby z samego losu; $\bar R^2$ może być ujemne. Te same sumy kwadratów układają się w tablicę ANOVA, z której wprost wynika statystyka $F$ testu łącznej istotności regresji:

Źródło	Suma kwadratów	df	Średni kwadrat	$F$
Regresja	ESS	$k-1$	$\text{ESS}/(k-1)$	$\dfrac{\text{ESS}/(k-1)}{\text{RSS}/(n-k)}$
Reszty	RSS	$n-k$	$\text{RSS}/(n-k)=s^2$
Całkowita	TSS	$n-1$

Przykład

ANOVA na przykładzie z części XIX

Dla danych z części XIX ($\hat y=2{,}2+0{,}6x$, $\bar y=4$):

$$ \text{TSS}=6,\qquad \text{ESS}=\sum_i(\hat y_i-4)^2=1{,}44+0{,}36+0+0{,}36+1{,}44=3{,}6,\qquad \text{RSS}=2{,}4, $$

a więc $\text{ESS}+\text{RSS}=3{,}6+2{,}4=6=\text{TSS}$ — tożsamość się zgadza. Stąd

$$ R^2=\frac{3{,}6}{6}=0{,}60,\qquad \bar R^2=1-0{,}4\cdot\frac{4}{3}=\frac{7}{15}\approx0{,}467. $$

Tablica ANOVA dla tego dopasowania:

Źródło	SS	df	MS	$F$
Regresja	3,6	1	3,6	4,5
Reszty	2,4	3	0,8
Całkowita	6,0	4

Statystyka $F=3{,}6/0{,}8=4{,}5$ — dokładnie tyle, co $t_1^2=2{,}121^2$ z części XIX (dla jednego regresora zachodzi $F=t^2$). Model wyjaśnia 60% zmienności $y$.

Uwaga

Czego R² nie mówi

Wysokie $R^2$ nie oznacza, że model jest poprawny ani przyczynowy: można uzyskać $R^2\approx 1$ dla regresji pozornej (szeregi z trendem) albo niskie $R^2$ dla całkowicie poprawnego modelu o dużym szumie. $R^2$ nie wykrywa obciążenia przez zmienne pominięte, nie ocenia trafności predykcji poza próbą i — przy braku wyrazu wolnego — bywa ujemne lub nieporównywalne między modelami. To miara dopasowania w próbie, nie miara prawdy.

Część XXII. Regresja wieloraka i obciążenie przez zmienną pominiętą — przykład liczbowy

Część XIV pokazała, jak twierdzenie FWL odzyskuje współczynnik oczyszczony z wpływu innych zmiennych. Tu policzymy drugą stronę medalu: co się dzieje, gdy istotną zmienną pominiemy. Użyjemy tych samych danych co w części XIV:

$x_1$	1	2	3	4	5
$x_2$	2	1	5	3	4
$y$	3	2	6	5	7

Pełna regresja $y$ na $\{1,x_1,x_2\}$ — rozwiązanie równań normalnych $\hat{\boldsymbol\beta}=(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y}$ (dokładnie, w ułamkach):

$$ \hat\beta_0=\tfrac{23}{80}=0{,}2875,\qquad \hat\beta_1=\tfrac{19}{32}=0{,}59375,\qquad \hat\beta_2=\tfrac{27}{32}=0{,}84375. $$

Regresja skrócona, z pominięciem $x_2$ (tylko $y$ na $\{1,x_1\}$):

$$ \tilde\beta_0=\tfrac{13}{10}=1{,}3,\qquad \tilde\beta_1=\tfrac{11}{10}=1{,}1. $$

Współczynnik przy $x_1$ skoczył z $0{,}594$ do $1{,}1$ — niemal dwukrotnie. To obciążenie przez zmienną pominiętą: skrócony współczynnik przypisuje $x_1$ także część efektu $x_2$, bo zmienne są skorelowane.

Dowód

Wzór na obciążenie przez zmienną pominiętą

Regresja pomocnicza. Niech $\delta$ będzie współczynnikiem kierunkowym z regresji zmiennej pominiętej na regresory zachowane — tu $x_2$ na $\{1,x_1\}$ — czyli $\delta=S_{x_1x_2}/S_{x_1x_1}$.
Tożsamość próbkowa. Z partycjonowanego rozwiązania równań normalnych (ta sama algebra, co w dowodzie FWL, część XIV) wynika dokładna tożsamość: $$ \tilde\beta_1=\hat\beta_1+\hat\beta_2\,\delta. $$ Współczynnik skrócony zbiera własny efekt $x_1$ (czyli $\hat\beta_1$) powiększony o efekt $x_2$ (czyli $\hat\beta_2$) „przepuszczony" przez skorelowanie $x_2$ z $x_1$ (czyli $\delta$).
Wniosek. Obciążenie znika dokładnie wtedy, gdy $\hat\beta_2=0$ (zmienna pominięta nieistotna) albo $\delta=0$ (pominięta zmienna nieskorelowana z zachowanymi). To probabilistyczny odpowiednik [założenia egzogeniczności](/ekonometria/zalozenia-kmnk/) A3.

∎

Przykład

Sprawdzenie wzoru OVB na liczbach

Regresja $x_2$ na $\{1,x_1\}$ daje $\delta=S_{x_1x_2}/S_{x_1x_1}=6/10=0{,}6$ (bo $\bar x_1=\bar x_2=3$, $S_{x_1x_2}=6$, $S_{x_1x_1}=10$). Wtedy

$$ \hat\beta_1+\hat\beta_2\,\delta=\frac{19}{32}+\frac{27}{32}\cdot\frac{3}{5}=\frac{19}{32}+\frac{81}{160}=\frac{95+81}{160}=\frac{176}{160}=\frac{11}{10}=1{,}1=\tilde\beta_1. $$

Dokładnie współczynnik z regresji skróconej. Dla porównania reszty: pełny model ma $\text{RSS}=87/160\approx0{,}544$, model skrócony $\text{RSS}=5{,}1$ — pominięcie $x_2$ wielokrotnie pogarsza dopasowanie i jednocześnie zniekształca oszacowanie $x_1$.

Aneks A. Zestawienie najważniejszych wzorów

Wielkość	Wzór
Estymator	$\hat{\boldsymbol\beta}=(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top\mathbf{y}$
Wartości dopasowane	$\hat{\mathbf{y}}=\mathbf{H}\mathbf{y}$, $\mathbf{H}=\mathbf{X}(\mathbf{X}^\top\mathbf{X})^{-1}\mathbf{X}^\top$
Reszty	$\mathbf{e}=\mathbf{M}\mathbf{y}$, $\mathbf{M}=\mathbf{I}-\mathbf{H}$
Kowariancja	$\mathrm{Var}(\hat{\boldsymbol\beta})=\sigma^2(\mathbf{X}^\top\mathbf{X})^{-1}$
Estymator $\sigma^2$	$s^2=\mathbf{e}^\top\mathbf{e}/(n-k)$
Statystyka $t$	$(\hat\beta_j-\beta_j)/\operatorname{SE}(\hat\beta_j)\sim t_{n-k}$
$R^2$	$1-\mathbf{e}^\top\mathbf{e}/\sum(y_i-\bar y)^2$
Skorygowane $R^2$	$1-(1-R^2)\dfrac{n-1}{n-k}$
Statystyka $F$ (ANOVA)	$\dfrac{\text{ESS}/(k-1)}{\text{RSS}/(n-k)}\sim F_{k-1,\,n-k}$

Aneks B. Oznaczenia

Symbol	Znaczenie
$n,\ k$	liczba obserwacji, liczba parametrów
$\mathbf{y},\ \mathbf{X},\ \boldsymbol\beta,\ \boldsymbol\varepsilon$	wektor obserwacji, macierz regresorów, parametry, błędy
$\hat{\boldsymbol\beta},\ \mathbf{e},\ \hat{\mathbf{y}}$	estymator, reszty, wartości dopasowane
$\mathbf{H},\ \mathbf{M}$	macierz kapeluszowa, anihilująca
$\sigma^2,\ s^2$	wariancja błędu i jej estymator

Aneks C. Sylwetki

Krótkie noty o postaciach, których prace złożyły się na metodę najmniejszych kwadratów i regresję.

Adrien-Marie Legendre (1752–1833) — francuski matematyk, autor fundamentalnych prac z teorii liczb (Essai sur la théorie des nombres), funkcji eliptycznych i geometrii (jego Éléments de géométrie przez stulecie wypierały Euklidesa w szkołach). To on opublikował metodę najmniejszych kwadratów jako pierwszy (1805) i nadał jej nazwę. W ostatnich latach życia stracił rządową pensję, gdy odmówił poparcia kandydata władz w głosowaniu Instytutu; zmarł w ubóstwie. Jedyną zachowaną jego podobizną jest karykatura Boilly’ego.

Carl Friedrich Gauss (1777–1855) — niemiecki matematyk, astronom i fizyk, nazywany princeps mathematicorum („księciem matematyków"). Pochodził z ubogiej rodziny w Brunszwiku; jego talent dostrzeżono w dzieciństwie. W Disquisitiones Arithmeticae (1801) zbudował nowoczesną teorię liczb; obliczył orbitę Ceres; sformułował twierdzenie zasadnicze algebry (rozprawa doktorska, 1799); współtworzył geodezję, magnetyzm i elektrostatykę (jednostka indukcji magnetycznej nosi jego imię). Dla MNK kluczowe są Theoria Motus (1809) i Theoria combinationis (1821–1823).

Pierre-Simon de Laplace (1749–1827) — francuski matematyk i astronom, twórca mechaniki nieba (Traité de mécanique céleste) i nowoczesnej teorii prawdopodobieństwa (Théorie analytique des probabilités, 1812). Jego centralne twierdzenie graniczne wyjaśniło, dlaczego błędy pomiarowe bywają normalne, i połączyło MNK z rachunkiem prawdopodobieństwa. Sprawnie przetrwał rewolucję, cesarstwo i restaurację, zachowując wpływowe stanowiska naukowe.

Ruđer Josip Bošković (1711–1787) — uczony z Dubrownika, jezuita, astronom i fizyk działający we Włoszech. Zaproponował (1755–1760) kryterium najbliższe duchem MNK: minimalizację sumy wartości bezwzględnych odchyleń przy zerowej sumie odchyleń ze znakiem — dzisiejszą regresję $L_1$, do której statystyka wróciła dopiero w XX wieku.

Andriej Markow (1856–1922) — rosyjski matematyk, uczeń Czebyszewa, twórca teorii łańcuchów Markowa. Jego nazwisko trafiło do nazwy twierdzenia Gaussa-Markowa za sprawą późniejszych podręczników, choć sam wynik miał już Gauss w 1823 r.

Francis Galton (1822–1911) — brytyjski uczony, kuzyn Darwina, badacz dziedziczności. Wprowadził pojęcie regresji („powrotu do średniej") i korelacji, przenosząc metodę z błędów pomiarowych na związki między zmiennymi. (Był też propagatorem eugeniki — idei dziś odrzuconej.)

Karl Pearson (1857–1936) — brytyjski matematyk i statystyk, który sformalizował współczynnik korelacji, test $\chi^2$ i znaczną część aparatu statystyki matematycznej; założyciel pierwszej katedry statystyki (University College London) i czasopisma Biometrika.

Ronald Aylmer Fisher (1890–1962) — brytyjski statystyk i genetyk, jeden z twórców współczesnej statystyki. Wprowadził metodę największej wiarygodności, analizę wariancji, planowanie eksperymentu i pojęcie istotności statystycznej, ujmując MNK jako estymator największej wiarygodności przy błędach normalnych.

Aneks D. Teksty oryginalne i źródła

Zestawienie pierwotnych prac, w których metoda powstała, wraz z miejscem kluczowych fragmentów i wskazaniem przekładów. Cytaty w częściach II i III pochodzą wprost z tych wydań.

Legendre (1805). A. M. Legendre, Nouvelles méthodes pour la détermination des orbites des comètes, Paris: Firmin Didot, 1805. Pierwsza publikacja metody znajduje się w dodatku Sur la méthode des moindres carrés (s. 72–80). To stamtąd pochodzi słynne zdanie „…rendre minimum la somme des carrés des erreurs" (część II).

Gauss (1809). C. F. Gauss, Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium, Hamburg: Perthes & Besser, 1809. Łaciński oryginał; rozważania o najmniejszych kwadratach mieszczą się w Księdze II, dziale 3, artykuły 175–186. Standardowy przekład angielski: C. H. Davis, Theory of the Motion of the Heavenly Bodies Moving about the Sun in Conic Sections, Boston: Little, Brown, 1857 — z niego pochodzi cytat o pierwszeństwie (część III).

Gauss (1821–1823). C. F. Gauss, Theoria combinationis observationum erroribus minimis obnoxiae, Getynga (część pierwsza 1821, druga 1823) — tu znajduje się dojrzałe uzasadnienie wariancyjne (twierdzenie Gaussa-Markowa). Przekład angielski z komentarzem: G. W. Stewart, Theory of the Combination of Observations Least Subject to Errors, SIAM, 1995.

Laplace (1812). P. S. Laplace, Théorie analytique des probabilités, Paris: Courcier, 1812 — probabilistyczne ujęcie błędów i centralne twierdzenie graniczne.

Przekłady i opracowania. Angielskie przekłady wielu prac historycznych (m.in. Legendre’a, Laplace’a) udostępnił Richard J. Pulskamp (probabilityandfinance.com). Klasyczne ujęcie historyczne: S. M. Stigler, The History of Statistics: The Measurement of Uncertainty before 1900, Harvard University Press, 1986.

Aneks E. Bibliografia i dalsze lektury

Poniżej współczesne opracowania i klasyczne prace źródłowe, uzupełniające teksty pierwotne z aneksu D. Dla pełnej historii metody niezastąpione pozostaje dzieło Stiglera (1986), cytowane już wyżej.

Współczesne podręczniki ekonometrii i statystyki.

W. H. Greene, Econometric Analysis, Pearson, 8. wyd., 2018 — encyklopedyczny standard akademicki; pełny wykład macierzowego modelu liniowego, twierdzenia Gaussa-Markowa, FWL i rozszerzeń.
J. M. Wooldridge, Introductory Econometrics: A Modern Approach, Cengage, 7. wyd., 2019 — najpopularniejszy wstęp; oraz tegoż Econometric Analysis of Cross Section and Panel Data, MIT Press, 2. wyd., 2010 (poziom zaawansowany).
F. Hayashi, Econometrics, Princeton University Press, 2000 — rygorystyczne, oparte na metodzie momentów ujęcie MNK i GMM.
R. Davidson, J. G. MacKinnon, Econometric Theory and Methods, Oxford University Press, 2004 — silny nacisk na geometrię rzutów i twierdzenie FWL.
C. R. Rao, Linear Statistical Inference and Its Applications, Wiley, 2. wyd., 1973 — klasyka teorii estymacji liniowej.
H. Theil, Principles of Econometrics, Wiley, 1971 — historyczny punkt odniesienia współczesnej ekonometrii.

Klasyczne prace o metodzie i jej historii.

R. Frisch, F. V. Waugh, „Partial Time Regressions as Compared with Individual Trends", Econometrica 1(4), 1933, s. 387–401 — źródło twierdzenia FWL.
M. C. Lovell, „Seasonal Adjustment of Economic Time Series and Multiple Regression Analysis", Journal of the American Statistical Association 58(304), 1963, s. 993–1010 — uogólnienie i nazwa twierdzenia.
A. C. Aitken, „On Least Squares and Linear Combination of Observations", Proceedings of the Royal Society of Edinburgh 55, 1935, s. 42–48 — uogólniona metoda najmniejszych kwadratów (GLS).
R. L. Plackett, „The Discovery of the Method of Least Squares", Biometrika 59(2), 1972, s. 239–251 — szczegółowa rekonstrukcja sporu o pierwszeństwo.
S. M. Stigler, „Gauss and the Invention of Least Squares", The Annals of Statistics 9(3), 1981, s. 465–474 — analiza twierdzenia Gaussa o pierwszeństwie z 1809 r.

Kalendarium

Rok	Wydarzenie
1722	Cotes — ważona średnia obserwacji (pośmiertnie)
1736–44	Wyprawy do Laponii i Peru — pomiar kształtu Ziemi
~1750	Tobias Mayer — metoda uśredniania (libracja Księżyca)
1755–60	Bošković — minimalizacja sumy wartości bezwzględnych ($L_1$)
1795	Gauss zaczyna (wg własnych słów) używać MNK
1801	Piazzi odkrywa Ceres; Gauss wyznacza orbitę; planeta odnaleziona
1805	Legendre — pierwsza publikacja metody najmniejszych kwadratów
1808	Robert Adrain — niezależne wyprowadzenie prawa błędów
1809	Gauss, Theoria Motus — wyprowadzenie z postulatu średniej
1810	Laplace — centralne twierdzenie graniczne
1823	Gauss, Theoria combinationis — twierdzenie Gaussa-Markowa
1885	Galton — „regresja", przeniesienie metody na związki zmiennych
1896	Pearson — współczynnik korelacji
1922	Fisher — metoda największej wiarygodności

Dziedzictwo

Z jednego astronomicznego problemu wyrosło narzędzie leżące u podstaw regresji liniowej i ekonometrii, teorii estymacji, uczenia maszynowego (minimalizacja błędu kwadratowego) oraz numerycznej algebry liniowej (eliminacja Gaussa, rozkłady QR i SVD). A rozkład wyprowadzony przez Gaussa „przy okazji" nosi dziś jego imię i jest najważniejszym rozkładem statystyki — między innymi dzięki centralnemu twierdzeniu granicznemu.

Intuicja

Jedno zdanie do zapamiętania

Gauss nie założył rozkładu normalnego — wyprowadził go z przekonania, że średnia arytmetyczna jest najlepsza, a stąd otrzymał najmniejsze kwadraty (1809). Laplace wyjaśnił, dlaczego błędy bywają normalne (1810). Czternaście lat później Gauss pokazał, że metoda jest optymalna nawet bez normalności (1823). Te trzy argumenty czynią MNK fundamentem ekonometrii.

Powiązane: Metoda najmniejszych kwadratów — wyprowadzenie krok po kroku · Założenia KMNK i twierdzenie Gaussa-Markowa · Rozkład normalny · Centralne twierdzenie graniczne