Rozkłady prawdopodobieństwa w ekonometrii

Streszczenie

Rozkład normalny, t-Studenta, chi-kwadrat i F — czym są i kiedy ich używamy w testowaniu hipotez

Zmienne losowe i rozkłady

Zmienna losowa to funkcja przypisująca liczbę wynikowi eksperymentu losowego.

  • Dyskretna: skończona lub przeliczalna liczba wartości (np. liczba sukcesów)
  • Ciągła: przyjmuje wartości z przedziału (np. wzrost, dochód, czas)

Rozkład prawdopodobieństwa opisuje, które wartości są możliwe i jak prawdopodobne.

Funkcja gęstości (PDF)

Dla zmiennej ciągłej, zamiast $P(X = x) = 0$, używamy funkcji gęstości prawdopodobieństwa $f(x)$:

$$P(a \leq X \leq b) = \int_a^b f(x)\, dx$$

Warunki: $f(x) \geq 0$ i $\int_{-\infty}^{\infty} f(x)\, dx = 1$

Dystrybuanta (CDF)

$$F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t)\, dt$$

W R: pnorm(), pt(), pchisq(), pf() — każda to dystrybuanta odpowiedniego rozkładu.

Rozkład normalny $N(\mu, \sigma^2)$

Najważniejszy rozkład w statystyce i ekonometrii.

Funkcja gęstości

$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$
  • $\mu$ — średnia (centrum)
  • $\sigma^2$ — wariancja (rozpiętość)
  • $\sigma$ — odchylenie standardowe

Standaryzacja

Każdą normalną możemy sprowadzić do standardowej $N(0,1)$:

$$Z = \frac{X - \mu}{\sigma} \sim N(0,1)$$

Zasada 68-95-99.7

PrzedziałPrawdopodobieństwo
$\mu \pm \sigma$68.3%
$\mu \pm 2\sigma$95.4%
$\mu \pm 3\sigma$99.7%
$\mu \pm 1.96\sigma$95.0% (ważne!)

Granica 1.96 pojawia się wszędzie w testowaniu hipotez przy poziomie istotności 5%.

Znaczenie rozkładu normalnego

Centralne Twierdzenie Graniczne (CTG): suma (lub średnia) wielu niezależnych zmiennych losowych o skończonej wariancji dąży do rozkładu normalnego, niezależnie od rozkładu składników.

$$\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{d} N\left(\mu, \frac{\sigma^2}{n}\right) \quad \text{gdy } n \to \infty$$

To sprawia, że estymatory MNK mają przybliżony rozkład normalny dla dużych prób.

Rozkład $t$-Studenta

Gdy nie znamy $\sigma^2$ i estymujemy go z danych — statystyka testowa ma rozkład $t$, nie normalny.

$$t = \frac{\bar{X} - \mu_0}{s/\sqrt{n}} \sim t_{n-1}$$

gdzie $s$ — odchylenie standardowe z próby, $n-1$ — stopnie swobody.

Własności

  • Kształt dzwonu jak normalny, ale grubsze ogony
  • Im więcej stopni swobody ($n$), tym bliżej rozkładu normalnego
  • Dla $df > 30$ praktycznie nie różni się od $N(0,1)$

Pochodzenie grubszych ogonów

Estymujemy $\sigma$ z próby — ta niepewność dodatkowa sprawia, że wartości ekstremalne są bardziej prawdopodobne niż w normalnym. Ignorując to, zaniżalibyśmy przedziały ufności.

Zastosowanie: test $t$ dla współczynnika regresji

$$t = \frac{\hat{\beta}_j - 0}{SE(\hat{\beta}_j)} \sim t_{n-k-1}$$

Odrzucamy $H_0: \beta_j = 0$ gdy $|t| > t_{\alpha/2, n-k-1}$.

Rozkład chi-kwadrat $\chi^2_k$

Suma kwadratów $k$ niezależnych standardowych zmiennych normalnych:

$$\chi^2_k = Z_1^2 + Z_2^2 + \cdots + Z_k^2, \quad Z_i \sim N(0,1)$$

Własności

  • Tylko wartości nieujemne: $\chi^2 \geq 0$
  • Prawoskośny (asymetryczny w prawo)
  • $E[\chi^2_k] = k$, $Var[\chi^2_k] = 2k$

Zastosowanie: test dla wariancji

$$\frac{(n-1)s^2}{\sigma^2_0} \sim \chi^2_{n-1}$$

Zastosowanie: test niezależności (tablice kontyngencji)

Czy dwie zmienne kategoryczne są niezależne?

$$\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$

gdzie $O_{ij}$ — obserwowane, $E_{ij}$ — oczekiwane (przy niezależności).

Rozkład F-Snedecora $F_{k_1, k_2}$

Iloraz dwóch niezależnych zmiennych chi-kwadrat podzielonych przez stopnie swobody:

$$F = \frac{\chi^2_{k_1}/k_1}{\chi^2_{k_2}/k_2} \sim F_{k_1, k_2}$$

Zastosowanie: test F dla całego modelu regresji

Czy model wyjaśnia cokolwiek? $H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0$

$$F = \frac{(SST - SSR)/k}{SSR/(n-k-1)} \sim F_{k, n-k-1}$$
  • Licznik — poprawa modelu (ile wyjaśniliśmy) na zmienną
  • Mianownik — niewyjaśniona wariancja na obserwację

Zastosowanie: test Walda (ograniczenia liniowe)

Testujemy $q$ ograniczeń liniowych na parametrach regresji:

$$F = \frac{(SSR_R - SSR_{UR})/q}{SSR_{UR}/(n-k-1)} \sim F_{q, n-k-1}$$

gdzie $SSR_R$ — suma kwadratów reszt z modelu ograniczonego.

Związki między rozkładami

N(0,1)² = χ²(1)
χ²(k₁)/k₁ ÷ χ²(k₂)/k₂ = F(k₁, k₂)
t(k)² = F(1, k)

Rozkłady te są zbudowane z normalnego — to jeden system do wnioskowania statystycznego.

Wartości krytyczne — szybka ściąga

TestPoziom α=5%Poziom α=1%
$N(0,1)$ (dwustronny)$z
$t(30)$ (dwustronny)$t
$\chi^2(5)$$> 11.07$$> 15.09$
$F(2, 30)$$> 3.32$$> 5.39$

Następnie: Testy hipotez w ekonometrii

📚 Zasoby do nauki
💻 Kod źródłowy

R:

# Rozkład normalny
pnorm(1.96)          # CDF: P(Z <= 1.96) = 0.975
qnorm(0.975)         # Kwantyl: 1.96
dnorm(0, mean=0, sd=1) # PDF w punkcie 0

# Rozkład t-Studenta
qt(0.975, df=30)     # Kwantyl t przy df=30 ≈ 2.042
pt(2.042, df=30)     # CDF t

# Chi-kwadrat
qchisq(0.95, df=5)   # Kwantyl chi^2(5) = 11.07

# F
qf(0.95, df1=2, df2=30)  # Kwantyl F(2,30) = 3.32

# Wykres rozkładu normalnego
curve(dnorm(x), from=-4, to=4, col="blue", lwd=2,
      main="Standardowy rozkład normalny N(0,1)")
abline(v=c(-1.96, 1.96), col="red", lty=2)

Python:

from scipy import stats
import numpy as np

# Rozkład normalny N(0,1)
z = stats.norm(0, 1)
print(z.cdf(1.96))   # 0.975
print(z.ppf(0.975))  # 1.96

# t-Studenta
t = stats.t(df=30)
print(t.ppf(0.975))  # 2.042

# Chi-kwadrat
chi2 = stats.chi2(df=5)
print(chi2.ppf(0.95)) # 11.07

# F-Snedecora
f = stats.f(dfn=2, dfd=30)
print(f.ppf(0.95))    # 3.32