Centralne twierdzenie graniczne (CLT)
Centralne twierdzenie graniczne (CLT) prostymi słowami: dlaczego średnia z próby ma rozkład normalny niezależnie od danych, błąd standardowy i reguła √n — z rysunkami
Dlaczego rozkład normalny pojawia się tak często
Weźmy dowolny rozkład — również skośny lub nietypowy. Z każdej wylosowanej próbki obliczmy średnią. Te średnie ułożą się w rozkład normalny — i tym dokładniej, im większa próbka.
To jest centralne twierdzenie graniczne (CLT) — najważniejszy powód, dla którego krzywa dzwonowa jest wszędzie i dla którego w ogóle działają testy i przedziały ufności.
Jeśli losujemy niezależne próbki o liczebności $n$ z populacji o średniej $\mu$ i odchyleniu $\sigma$, to rozkład średniej z próby $\bar{X}$ dąży (dla rosnącego $n$) do rozkładu normalnego:
$$ \bar{X} \;\xrightarrow{\;n\to\infty\;}\; \mathcal{N}\!\left(\mu,\; \frac{\sigma^2}{n}\right) $$Niezależnie od kształtu rozkładu wyjściowego.
Ilustracja graficzna
Populacja może być mocno skośna (po lewej). A jednak rozkład średnich z próbek robi się coraz bardziej dzwonowy i coraz węższy, gdy próbka rośnie.
Dwie rzeczy dzieją się naraz, gdy zwiększamy $n$:
- Kształt robi się normalny (symetryczny dzwon) — nawet jeśli populacja nie była
- Szerokość maleje — średnie coraz ciaśniej skupiają się wokół prawdziwej $\mu$
Błąd standardowy: reguła √n
Odchylenie standardowe rozkładu średniej ma własną nazwę — błąd standardowy (standard error):
$$ \text{SE} = \frac{\sigma}{\sqrt{n}} $$Dlaczego to takie ważne w ekonometrii
CLT to fundament wnioskowania:
- Przedziały ufności dla średniej działają, bo $\bar{X}$ jest w przybliżeniu normalna — stąd słynne $\bar{x} \pm 1{,}96 \cdot \text{SE}$.
- Testy t i z zakładają normalność statystyki — CLT ją zapewnia przy odpowiednio dużej próbie.
- Estymatory MNK są sumami/średnimi, więc też mają w przybliżeniu rozkład normalny — dlatego możemy testować istotność współczynników.
Weryfikacja przez symulację
Najlepszy sposób, by uwierzyć w CLT, to go zasymulować:
# R — losujemy z mocno skośnego rozkładu (wykładniczego) i uśredniamy
set.seed(1)
srednie <- replicate(10000, mean(rexp(30, rate = 1))) # 10000 prób po n=30
hist(srednie, breaks = 40, col = "steelblue",
main = "Rozkład średnich (n=30) — i tak wychodzi dzwon!")
# populacja wykładnicza jest skrajnie skośna, a histogram średnich ~ normalny
# Python
import numpy as np
import matplotlib.pyplot as plt
srednie = [np.mean(np.random.exponential(1, 30)) for _ in range(10000)]
plt.hist(srednie, bins=40, color="steelblue")
plt.title("Rozkład średnich (n=30) — krzywa dzwonowa")
plt.show()
Zmień 30 na 2 i na 100 — zobaczysz, jak kształt z coraz większym $n$ staje się idealnym dzwonem.
Zapamiętaj
- Średnia z próby ma rozkład w przybliżeniu normalny — niezależnie od kształtu populacji.
- Jej rozrzut to błąd standardowy $\text{SE} = \sigma/\sqrt{n}$ — maleje jak pierwiastek z $n$.
- To dlatego działają przedziały ufności, testy i całe wnioskowanie statystyczne.
Dalej: Rozkład normalny · Testy hipotez · p-wartość