Rozkłady prawdopodobieństwa w ekonometrii

Zmienne losowe i rozkłady

Zmienna losowa to funkcja przypisująca liczbę wynikowi eksperymentu losowego.

Dyskretna: skończona lub przeliczalna liczba wartości (np. liczba sukcesów)
Ciągła: przyjmuje wartości z przedziału (np. wzrost, dochód, czas)

Rozkład prawdopodobieństwa opisuje, które wartości są możliwe i jak prawdopodobne.

Funkcja gęstości (PDF)

Dla zmiennej ciągłej, zamiast $P(X = x) = 0$, używamy funkcji gęstości prawdopodobieństwa $f(x)$:

$$P(a \leq X \leq b) = \int_a^b f(x)\, dx$$

Warunki: $f(x) \geq 0$ i $\int_{-\infty}^{\infty} f(x)\, dx = 1$

Dystrybuanta (CDF)

$$F(x) = P(X \leq x) = \int_{-\infty}^{x} f(t)\, dt$$

W R: pnorm(), pt(), pchisq(), pf() — każda to dystrybuanta odpowiedniego rozkładu.

Rozkład normalny $N(\mu, \sigma^2)$

Najważniejszy rozkład w statystyce i ekonometrii.

Funkcja gęstości

$$f(x) = \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)$$

$\mu$ — średnia (centrum)
$\sigma^2$ — wariancja (rozpiętość)
$\sigma$ — odchylenie standardowe

Standaryzacja

Każdą normalną możemy sprowadzić do standardowej $N(0,1)$:

$$Z = \frac{X - \mu}{\sigma} \sim N(0,1)$$

Zasada 68-95-99.7

Przedział	Prawdopodobieństwo
$\mu \pm \sigma$	68.3%
$\mu \pm 2\sigma$	95.4%
$\mu \pm 3\sigma$	99.7%
$\mu \pm 1.96\sigma$	95.0% (ważne!)

Granica 1.96 pojawia się wszędzie w testowaniu hipotez przy poziomie istotności 5%.

Znaczenie rozkładu normalnego

Centralne Twierdzenie Graniczne (CTG): suma (lub średnia) wielu niezależnych zmiennych losowych o skończonej wariancji dąży do rozkładu normalnego, niezależnie od rozkładu składników.

$$\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i \xrightarrow{d} N\left(\mu, \frac{\sigma^2}{n}\right) \quad \text{gdy } n \to \infty$$

To sprawia, że estymatory MNK mają przybliżony rozkład normalny dla dużych prób.

Rozkład $t$-Studenta

Gdy nie znamy $\sigma^2$ i estymujemy go z danych — statystyka testowa ma rozkład $t$, nie normalny.

$$t = \frac{\bar{X} - \mu_0}{s/\sqrt{n}} \sim t_{n-1}$$

gdzie $s$ — odchylenie standardowe z próby, $n-1$ — stopnie swobody.

Własności

Kształt dzwonu jak normalny, ale grubsze ogony
Im więcej stopni swobody ($n$), tym bliżej rozkładu normalnego
Dla $df > 30$ praktycznie nie różni się od $N(0,1)$

Pochodzenie grubszych ogonów

Estymujemy $\sigma$ z próby — ta niepewność dodatkowa sprawia, że wartości ekstremalne są bardziej prawdopodobne niż w normalnym. Ignorując to, zaniżalibyśmy przedziały ufności.

Zastosowanie: test $t$ dla współczynnika regresji

$$t = \frac{\hat{\beta}_j - 0}{SE(\hat{\beta}_j)} \sim t_{n-k-1}$$

Odrzucamy $H_0: \beta_j = 0$ gdy $|t| > t_{\alpha/2, n-k-1}$.

Rozkład chi-kwadrat $\chi^2_k$

Suma kwadratów $k$ niezależnych standardowych zmiennych normalnych:

$$\chi^2_k = Z_1^2 + Z_2^2 + \cdots + Z_k^2, \quad Z_i \sim N(0,1)$$

Własności

Tylko wartości nieujemne: $\chi^2 \geq 0$
Prawoskośny (asymetryczny w prawo)
$E[\chi^2_k] = k$, $Var[\chi^2_k] = 2k$

Zastosowanie: test dla wariancji

$$\frac{(n-1)s^2}{\sigma^2_0} \sim \chi^2_{n-1}$$

Zastosowanie: test niezależności (tablice kontyngencji)

Czy dwie zmienne kategoryczne są niezależne?

$$\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$

gdzie $O_{ij}$ — obserwowane, $E_{ij}$ — oczekiwane (przy niezależności).

Rozkład F-Snedecora $F_{k_1, k_2}$

Iloraz dwóch niezależnych zmiennych chi-kwadrat podzielonych przez stopnie swobody:

$$F = \frac{\chi^2_{k_1}/k_1}{\chi^2_{k_2}/k_2} \sim F_{k_1, k_2}$$

Zastosowanie: test F dla całego modelu regresji

Czy model wyjaśnia cokolwiek? $H_0: \beta_1 = \beta_2 = \cdots = \beta_k = 0$

$$F = \frac{(SST - SSR)/k}{SSR/(n-k-1)} \sim F_{k, n-k-1}$$

Licznik — poprawa modelu (ile wyjaśniliśmy) na zmienną
Mianownik — niewyjaśniona wariancja na obserwację

Zastosowanie: test Walda (ograniczenia liniowe)

Testujemy $q$ ograniczeń liniowych na parametrach regresji:

$$F = \frac{(SSR_R - SSR_{UR})/q}{SSR_{UR}/(n-k-1)} \sim F_{q, n-k-1}$$

gdzie $SSR_R$ — suma kwadratów reszt z modelu ograniczonego.

Związki między rozkładami

N(0,1)² = χ²(1)
χ²(k₁)/k₁ ÷ χ²(k₂)/k₂ = F(k₁, k₂)
t(k)² = F(1, k)

Rozkłady te są zbudowane z normalnego — to jeden system do wnioskowania statystycznego.

Wartości krytyczne — szybka ściąga

Test	Poziom α=5%	Poziom α=1%
$N(0,1)$ (dwustronny)	$	z
$t(30)$ (dwustronny)	$	t
$\chi^2(5)$	$> 11.07$	$> 15.09$
$F(2, 30)$	$> 3.32$	$> 5.39$

Następnie: Testy hipotez w ekonometrii