Rozkład normalny — krzywa dzwonowa i reguła 68-95-99,7
Rozkład normalny (Gaussa) wyjaśniony od zera: krzywa dzwonowa, reguła 68-95-99.7, standaryzacja i wynik z — z rysunkami i wyprowadzeniem krok po kroku
Pochodzenie kształtu dzwonowego
Zmierz wzrost 1000 osób, błędy pomiaru termometru albo zwroty z akcji — bardzo wiele zjawisk układa się w ten sam kształt: najwięcej wartości w środku, coraz mniej na skrajach, symetrycznie. To jest rozkład normalny, zwany też gaussowskim albo po prostu „krzywą dzwonową".
Dwie liczby, które definiują wszystko
Rozkład normalny jest w pełni opisany przez dwie liczby:
- Średnia $\mu$ — gdzie jest środek (szczyt dzwonu)
- Odchylenie standardowe $\sigma$ — jak szeroki jest dzwon (rozrzut)
Zapisujemy to skrótowo $X \sim \mathcal{N}(\mu, \sigma^2)$. Wzór na gęstość (kształt krzywej):
$$ f(x) = \frac{1}{\sigma\sqrt{2\pi}}\, e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$Nie trzeba go pamiętać na pamięć — ważne, że $\mu$ przesuwa dzwon w lewo/prawo, a $\sigma$ rozciąga lub ściska go.
Standaryzacja i wynik z
Problem: rozkładów normalnych jest nieskończenie wiele (każda para $\mu, \sigma$). Rozwiązanie: każdy z nich można przeliczyć na jeden wzorcowy — standardowy rozkład normalny $\mathcal{N}(0,1)$, ze średnią 0 i odchyleniem 1.
Robimy to przez wynik z (z-score):
$$ Z = \frac{X - \mu}{\sigma} $$Wynik $z$ mówi: o ile odchyleń standardowych dana wartość jest powyżej (lub poniżej) średniej. $z = 2$ znaczy „dwa σ powyżej średniej" — wartość rzadka (górne ~2,5%).
- Liczymy wartość oczekiwaną $Z$. Korzystamy z liniowości: $E[aX+b]=aE[X]+b$. Tu $Z=\frac{1}{\sigma}X-\frac{\mu}{\sigma}$, więc: $$ E[Z] = \frac{1}{\sigma}E[X] - \frac{\mu}{\sigma} = \frac{\mu}{\sigma} - \frac{\mu}{\sigma} = 0 $$ Średnia po standaryzacji jest zerowa.
- Liczymy wariancję $Z$. Korzystamy z $\mathrm{Var}(aX+b)=a^2\,\mathrm{Var}(X)$ (dodanie stałej nie zmienia rozrzutu, mnożenie skaluje go o $a^2$): $$ \mathrm{Var}(Z) = \frac{1}{\sigma^2}\,\mathrm{Var}(X) = \frac{\sigma^2}{\sigma^2} = 1 $$
- Odchylenie standardowe to pierwiastek z wariancji: $\sqrt{1}=1$. Zatem $Z \sim \mathcal{N}(0,1)$ — niezależnie od tego, jakie były wyjściowe $\mu$ i $\sigma$.
Zastosowanie w ekonometrii
Standardowy rozkład normalny to wspólny język statystyki:
- Wartości krytyczne — słynne $z = 1{,}96$ to granica środkowych 95%. Stąd biorą się przedziały ufności i testy.
- p-wartości — pole pod ogonem krzywej $\mathcal{N}(0,1)$ to prawdopodobieństwo wyniku „tak skrajnego lub bardziej".
- Twierdzenie graniczne (CLT) — średnia z dużej próby ma rozkład w przybliżeniu normalny, niezależnie od rozkładu danych. To dlatego normalność jest wszędzie.
Przykład na liczbach
Wynik egzaminu ma rozkład $\mathcal{N}(\mu=60, \sigma=10)$. Jakie miejsce zajmuje osoba z wynikiem 75?
$$ z = \frac{75 - 60}{10} = 1{,}5 $$Wynik jest 1,5 odchylenia powyżej średniej. Z tablic (lub funkcji) pole na lewo od $z=1{,}5$ to ok. 0,933 — osoba jest lepsza od ~93% zdających.
# R
pnorm(75, mean = 60, sd = 10) # 0.9332 -> percentyl 93
qnorm(0.975) # 1.96 -> wartość krytyczna 95%
# Python
from scipy.stats import norm
norm.cdf(75, loc=60, scale=10) # 0.9332
norm.ppf(0.975) # 1.96
Co zapamiętać
- Rozkład normalny opisują dwie liczby: środek $\mu$ i rozrzut $\sigma$.
- Reguła 68-95-99.7: tyle procent danych mieści się w 1, 2, 3 odchyleniach od średniej.
- Standaryzacja $Z=\frac{X-\mu}{\sigma}$ sprowadza każdy rozkład normalny do wzorcowego $\mathcal{N}(0,1)$.
- Stąd biorą się wartości krytyczne (1,96), p-wartości i większość testów.
Dalej: Rozkłady prawdopodobieństwa (t, chi², F) · Testy hipotez