Założenia klasycznej metody najmniejszych kwadratów (KMNK)

Streszczenie

Założenia klasycznej metody najmniejszych kwadratów (KMNK) prostymi słowami: co zakłada model, jak rozpoznać naruszenie po wykresie reszt i co wtedy zrobić

Znaczenie założeń

MNK zawsze policzy ci jakąś prostą. Ale czy można jej ufać — czy oszacowania są nieobciążone, a testy ważne — zależy od kilku założeń. Naruszysz je, a wnioski mogą być błędne, choć liczby wyglądają ładnie.

Dobra wiadomość: większość naruszeń widać na wykresie reszt. To twój najważniejszy przyrząd diagnostyczny.

✓ zdrowo: losowa chmura✗ heteroskedastyczność (lejek)✗ autokorelacja (fala)✗ nieliniowość (krzywa)
Wykres reszt vs wartości dopasowane — cztery scenariusze. Tylko pierwszy (losowa chmura wokół zera) jest zdrowy. Pozostałe to typowe naruszenia założeń, każde z charakterystycznym wzorem.

Założenie 1: liniowość

Model jest liniowy względem parametrów:

$$ y_i = \beta_0 + \beta_1 x_i + \varepsilon_i $$
Przykład
Co wolno, czego nie
„Liniowy względem parametrów" nie znaczy „prosta linia". Wolno: $y = \beta_0 + \beta_1 x + \beta_2 x^2$ (kwadrat zmiennej — wciąż liniowy w $\beta$). Nie wolno: $y = \beta_0 \cdot x^{\beta_1}$ (parametr w wykładniku) — chyba że zlogarytmujesz.

Naruszenie → krzywa we wzorze reszt (panel 4). Lek: dodaj człony kwadratowe, logarytmy, zmień formę funkcyjną.

Założenie 2: egzogeniczność

Składnik losowy jest średnio zerowy i nieskorelowany z regresorami:

$$ \mathbb{E}[\varepsilon_i \mid X_i] = 0 $$

To najważniejsze założenie. Jego złamanie (przez pominięte zmienne, błąd pomiaru lub symultaniczność) czyni MNK obciążonym i niezgodnym — i tego nie naprawi większa próba.

Lek: zmienne instrumentalne, efekty stałe, eksperyment.

Założenie 3: homoskedastyczność

Wariancja składnika losowego jest stała dla wszystkich obserwacji:

$$ \mathrm{Var}(\varepsilon_i) = \sigma^2 \quad \text{(taka sama dla każdego } i) $$

Naruszenie = heteroskedastyczność — wzór lejka w resztach (panel 2). MNK jest wtedy nieobciążone, ale błędy standardowe są błędne → testy zawodzą.

Lek: odporne błędy standardowe (HC), WLS.

Założenie 4: brak autokorelacji

Składniki losowe różnych obserwacji są nieskorelowane:

$$ \mathrm{Cov}(\varepsilon_i, \varepsilon_j) = 0 \quad \text{dla } i \neq j $$

Naruszenie = autokorelacja — fala w resztach (panel 3), typowa w szeregach czasowych. Jak przy heteroskedastyczności: SE są błędne.

Lek: błędy Neweya-Westa (HAC), lepsza dynamika modelu.

Założenie 5: brak współliniowości doskonałej

Żaden regresor nie jest dokładną kombinacją liniową innych. Inaczej macierz $X^\top X$ jest nieodwracalna i wzór MNK nie ma rozwiązania.

Uwaga
Współliniowość prawie-doskonała
Gdy regresory są silnie (ale nie idealnie) skorelowane, MNK działa, ale błędy standardowe puchną — współczynniki stają się niestabilne i trudno je rozdzielić. Diagnoza: VIF (Variance Inflation Factor); VIF > 10 to sygnał ostrzegawczy.

Hierarchia ważności

Intuicja
Nie wszystkie założenia są równe
Egzogeniczność (2) to król — jej złamanie obciąża oszacowania i niszczy wnioski przyczynowe. Heteroskedastyczność (3) i autokorelacja (4) są łagodniejsze: psują tylko błędy standardowe, a to da się załatać odpornymi SE. Dlatego w nowoczesnej ekonometrii niemal zawsze raportuje się odporne błędy „na wszelki wypadek".

Workflow diagnostyczny

model <- lm(y ~ x1 + x2, data = dane)

# 1. Wykresy diagnostyczne (reszty, Q-Q, skala, dźwignia)
par(mfrow = c(2,2)); plot(model)

# 2. Heteroskedastyczność
library(lmtest); bptest(model)         # Breusch-Pagan

# 3. Autokorelacja
bgtest(model, order = 2)               # Breusch-Godfrey

# 4. Współliniowość
library(car); vif(model)               # VIF > 10 = problem

# 5. Odporne błędy standardowe (gdy 3 lub 4 naruszone)
library(sandwich)
coeftest(model, vcov = vcovHC(model, type = "HC3"))

Zapamiętaj

Definicja
5 założeń KMNK
  1. Liniowość w parametrach → krzywa reszt = naruszenie
  2. Egzogeniczność $\mathbb{E}[\varepsilon\mid X]=0$ → najważniejsze; złamanie obciąża MNK
  3. Homoskedastyczność (stała wariancja) → lejek = naruszenie
  4. Brak autokorelacji → fala = naruszenie
  5. Brak współliniowości doskonałej → inaczej brak rozwiązania

Pod założeniami 1–5 MNK jest najlepszym liniowym nieobciążonym estymatorem (twierdzenie Gaussa-Markowa).


Dalej: Heteroskedastyczność · Autokorelacja · Zmienne instrumentalne