Założenia klasycznej metody najmniejszych kwadratów (KMNK)
Założenia klasycznej metody najmniejszych kwadratów (KMNK) prostymi słowami: co zakłada model, jak rozpoznać naruszenie po wykresie reszt i co wtedy zrobić
Znaczenie założeń
MNK zawsze policzy ci jakąś prostą. Ale czy można jej ufać — czy oszacowania są nieobciążone, a testy ważne — zależy od kilku założeń. Naruszysz je, a wnioski mogą być błędne, choć liczby wyglądają ładnie.
Dobra wiadomość: większość naruszeń widać na wykresie reszt. To twój najważniejszy przyrząd diagnostyczny.
Założenie 1: liniowość
Model jest liniowy względem parametrów:
$$ y_i = \beta_0 + \beta_1 x_i + \varepsilon_i $$Naruszenie → krzywa we wzorze reszt (panel 4). Lek: dodaj człony kwadratowe, logarytmy, zmień formę funkcyjną.
Założenie 2: egzogeniczność
Składnik losowy jest średnio zerowy i nieskorelowany z regresorami:
$$ \mathbb{E}[\varepsilon_i \mid X_i] = 0 $$To najważniejsze założenie. Jego złamanie (przez pominięte zmienne, błąd pomiaru lub symultaniczność) czyni MNK obciążonym i niezgodnym — i tego nie naprawi większa próba.
Lek: zmienne instrumentalne, efekty stałe, eksperyment.
Założenie 3: homoskedastyczność
Wariancja składnika losowego jest stała dla wszystkich obserwacji:
$$ \mathrm{Var}(\varepsilon_i) = \sigma^2 \quad \text{(taka sama dla każdego } i) $$Naruszenie = heteroskedastyczność — wzór lejka w resztach (panel 2). MNK jest wtedy nieobciążone, ale błędy standardowe są błędne → testy zawodzą.
Lek: odporne błędy standardowe (HC), WLS.
Założenie 4: brak autokorelacji
Składniki losowe różnych obserwacji są nieskorelowane:
$$ \mathrm{Cov}(\varepsilon_i, \varepsilon_j) = 0 \quad \text{dla } i \neq j $$Naruszenie = autokorelacja — fala w resztach (panel 3), typowa w szeregach czasowych. Jak przy heteroskedastyczności: SE są błędne.
Lek: błędy Neweya-Westa (HAC), lepsza dynamika modelu.
Założenie 5: brak współliniowości doskonałej
Żaden regresor nie jest dokładną kombinacją liniową innych. Inaczej macierz $X^\top X$ jest nieodwracalna i wzór MNK nie ma rozwiązania.
Hierarchia ważności
Workflow diagnostyczny
model <- lm(y ~ x1 + x2, data = dane)
# 1. Wykresy diagnostyczne (reszty, Q-Q, skala, dźwignia)
par(mfrow = c(2,2)); plot(model)
# 2. Heteroskedastyczność
library(lmtest); bptest(model) # Breusch-Pagan
# 3. Autokorelacja
bgtest(model, order = 2) # Breusch-Godfrey
# 4. Współliniowość
library(car); vif(model) # VIF > 10 = problem
# 5. Odporne błędy standardowe (gdy 3 lub 4 naruszone)
library(sandwich)
coeftest(model, vcov = vcovHC(model, type = "HC3"))
Zapamiętaj
- Liniowość w parametrach → krzywa reszt = naruszenie
- Egzogeniczność $\mathbb{E}[\varepsilon\mid X]=0$ → najważniejsze; złamanie obciąża MNK
- Homoskedastyczność (stała wariancja) → lejek = naruszenie
- Brak autokorelacji → fala = naruszenie
- Brak współliniowości doskonałej → inaczej brak rozwiązania
Pod założeniami 1–5 MNK jest najlepszym liniowym nieobciążonym estymatorem (twierdzenie Gaussa-Markowa).
Dalej: Heteroskedastyczność · Autokorelacja · Zmienne instrumentalne