Rozkłady prawdopodobieństwa w ekonometrii
Rozkład normalny, t-Studenta, chi-kwadrat i F — czym są i kiedy ich używamy w testowaniu hipotez
Zmienne losowe i rozkłady
Zmienna losowa to funkcja przypisująca liczbę wynikowi eksperymentu losowego.
- Dyskretna: skończona lub przeliczalna liczba wartości (np. liczba sukcesów)
- Ciągła: przyjmuje wartości z przedziału (np. wzrost, dochód, czas)
Rozkład prawdopodobieństwa opisuje, które wartości są możliwe i jak prawdopodobne.
Funkcja gęstości (PDF)
Dla zmiennej ciągłej, zamiast $P(X = x) = 0$, używamy funkcji gęstości prawdopodobieństwa $f(x)$:
$$P(a \leq X \leq b) = \int_a^b f(x)\, dx$$Warunki: $f(x) \geq 0$ i $\int_{-\infty}^{\infty} f(x)\, dx = 1$
Dystrybuanta (CDF)
$$F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t)\, dt$$W R: pnorm(), pt(), pchisq(), pf() — każda to dystrybuanta odpowiedniego rozkładu.
Rozkład normalny $N(\mu, \sigma^2)$
Najważniejszy rozkład w statystyce i ekonometrii.
Funkcja gęstości
$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$- $\mu$ — średnia (centrum)
- $\sigma^2$ — wariancja (rozpiętość)
- $\sigma$ — odchylenie standardowe
Standaryzacja
Każdą normalną możemy sprowadzić do standardowej $N(0,1)$:
$$Z = \frac{X - \mu}{\sigma} \sim N(0,1)$$Zasada 68-95-99.7
| Przedział | Prawdopodobieństwo |
|---|---|
| $\mu \pm \sigma$ | 68.3% |
| $\mu \pm 2\sigma$ | 95.4% |
| $\mu \pm 3\sigma$ | 99.7% |
| $\mu \pm 1.96\sigma$ | 95.0% (ważne!) |
Granica 1.96 pojawia się wszędzie w testowaniu hipotez przy poziomie istotności 5%.
Znaczenie rozkładu normalnego
Centralne Twierdzenie Graniczne (CTG): suma (lub średnia) wielu niezależnych zmiennych losowych o skończonej wariancji dąży do rozkładu normalnego, niezależnie od rozkładu składników.
$$\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{d} N\left(\mu, \frac{\sigma^2}{n}\right) \quad \text{gdy } n \to \infty$$To sprawia, że estymatory MNK mają przybliżony rozkład normalny dla dużych prób.
Rozkład $t$-Studenta
Gdy nie znamy $\sigma^2$ i estymujemy go z danych — statystyka testowa ma rozkład $t$, nie normalny.
$$t = \frac{\bar{X} - \mu_0}{s/\sqrt{n}} \sim t_{n-1}$$gdzie $s$ — odchylenie standardowe z próby, $n-1$ — stopnie swobody.
Własności
- Kształt dzwonu jak normalny, ale grubsze ogony
- Im więcej stopni swobody ($n$), tym bliżej rozkładu normalnego
- Dla $df > 30$ praktycznie nie różni się od $N(0,1)$
Pochodzenie grubszych ogonów
Estymujemy $\sigma$ z próby — ta niepewność dodatkowa sprawia, że wartości ekstremalne są bardziej prawdopodobne niż w normalnym. Ignorując to, zaniżalibyśmy przedziały ufności.
Zastosowanie: test $t$ dla współczynnika regresji
$$t = \frac{\hat{\beta}_j - 0}{SE(\hat{\beta}_j)} \sim t_{n-k-1}$$Odrzucamy $H_0: \beta_j = 0$ gdy $|t| > t_{\alpha/2, n-k-1}$.
Rozkład chi-kwadrat $\chi^2_k$
Suma kwadratów $k$ niezależnych standardowych zmiennych normalnych:
$$\chi^2_k = Z_1^2 + Z_2^2 + \cdots + Z_k^2, \quad Z_i \sim N(0,1)$$Własności
- Tylko wartości nieujemne: $\chi^2 \geq 0$
- Prawoskośny (asymetryczny w prawo)
- $E[\chi^2_k] = k$, $Var[\chi^2_k] = 2k$
Zastosowanie: test dla wariancji
$$\frac{(n-1)s^2}{\sigma^2_0} \sim \chi^2_{n-1}$$Zastosowanie: test niezależności (tablice kontyngencji)
Czy dwie zmienne kategoryczne są niezależne?
$$\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$gdzie $O_{ij}$ — obserwowane, $E_{ij}$ — oczekiwane (przy niezależności).
Rozkład F-Snedecora $F_{k_1, k_2}$
Iloraz dwóch niezależnych zmiennych chi-kwadrat podzielonych przez stopnie swobody:
$$F = \frac{\chi^2_{k_1}/k_1}{\chi^2_{k_2}/k_2} \sim F_{k_1, k_2}$$Zastosowanie: test F dla całego modelu regresji
Czy model wyjaśnia cokolwiek? $H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0$
$$F = \frac{(SST - SSR)/k}{SSR/(n-k-1)} \sim F_{k, n-k-1}$$- Licznik — poprawa modelu (ile wyjaśniliśmy) na zmienną
- Mianownik — niewyjaśniona wariancja na obserwację
Zastosowanie: test Walda (ograniczenia liniowe)
Testujemy $q$ ograniczeń liniowych na parametrach regresji:
$$F = \frac{(SSR_R - SSR_{UR})/q}{SSR_{UR}/(n-k-1)} \sim F_{q, n-k-1}$$gdzie $SSR_R$ — suma kwadratów reszt z modelu ograniczonego.
Związki między rozkładami
N(0,1)² = χ²(1)
χ²(k₁)/k₁ ÷ χ²(k₂)/k₂ = F(k₁, k₂)
t(k)² = F(1, k)
Rozkłady te są zbudowane z normalnego — to jeden system do wnioskowania statystycznego.
Wartości krytyczne — szybka ściąga
| Test | Poziom α=5% | Poziom α=1% |
|---|---|---|
| $N(0,1)$ (dwustronny) | $ | z |
| $t(30)$ (dwustronny) | $ | t |
| $\chi^2(5)$ | $> 11.07$ | $> 15.09$ |
| $F(2, 30)$ | $> 3.32$ | $> 5.39$ |
Następnie: Testy hipotez w ekonometrii
- Khan Academy — Probability distributions
- YouTube: StatQuest — Normal Distribution
- Podręcznik: Wooldridge, Introductory Econometrics (Appendix B)
R:
# Rozkład normalny
pnorm(1.96) # CDF: P(Z <= 1.96) = 0.975
qnorm(0.975) # Kwantyl: 1.96
dnorm(0, mean=0, sd=1) # PDF w punkcie 0
# Rozkład t-Studenta
qt(0.975, df=30) # Kwantyl t przy df=30 ≈ 2.042
pt(2.042, df=30) # CDF t
# Chi-kwadrat
qchisq(0.95, df=5) # Kwantyl chi^2(5) = 11.07
# F
qf(0.95, df1=2, df2=30) # Kwantyl F(2,30) = 3.32
# Wykres rozkładu normalnego
curve(dnorm(x), from=-4, to=4, col="blue", lwd=2,
main="Standardowy rozkład normalny N(0,1)")
abline(v=c(-1.96, 1.96), col="red", lty=2)
Python:
from scipy import stats
import numpy as np
# Rozkład normalny N(0,1)
z = stats.norm(0, 1)
print(z.cdf(1.96)) # 0.975
print(z.ppf(0.975)) # 1.96
# t-Studenta
t = stats.t(df=30)
print(t.ppf(0.975)) # 2.042
# Chi-kwadrat
chi2 = stats.chi2(df=5)
print(chi2.ppf(0.95)) # 11.07
# F-Snedecora
f = stats.f(dfn=2, dfd=30)
print(f.ppf(0.95)) # 3.32