Rozkład normalny — krzywa dzwonowa i reguła 68-95-99,7

Streszczenie

Rozkład normalny (Gaussa) wyjaśniony od zera: krzywa dzwonowa, reguła 68-95-99.7, standaryzacja i wynik z — z rysunkami i wyprowadzeniem krok po kroku

Pochodzenie kształtu dzwonowego

Zmierz wzrost 1000 osób, błędy pomiaru termometru albo zwroty z akcji — bardzo wiele zjawisk układa się w ten sam kształt: najwięcej wartości w środku, coraz mniej na skrajach, symetrycznie. To jest rozkład normalny, zwany też gaussowskim albo po prostu „krzywą dzwonową".

Krzywa dzwonowa rozkładu normalnego z regułą 68-95-99,7
Krzywa dzwonowa. Pole pod całą krzywą = 1 (100% przypadków). 68% mieści się w odległości jednego odchylenia σ od średniej, 95% w dwóch, 99,7% w trzech — to słynna reguła 68-95-99.7.
Intuicja
Co to znaczy w praktyce
Jeśli wzrost dorosłych ma rozkład normalny ze średnią $\mu = 175$ cm i odchyleniem $\sigma = 7$ cm, to: 68% osób mierzy 168–182 cm, 95% mierzy 161–189 cm, a tylko 0,3% jest poza zakresem 154–196 cm. Reguła 68-95-99.7 pozwala „w głowie" ocenić, co jest typowe, a co rzadkie.

Dwie liczby, które definiują wszystko

Rozkład normalny jest w pełni opisany przez dwie liczby:

  • Średnia $\mu$ — gdzie jest środek (szczyt dzwonu)
  • Odchylenie standardowe $\sigma$ — jak szeroki jest dzwon (rozrzut)

Zapisujemy to skrótowo $X \sim \mathcal{N}(\mu, \sigma^2)$. Wzór na gęstość (kształt krzywej):

$$ f(x) = \frac{1}{\sigma\sqrt{2\pi}}\, e^{-\frac{(x-\mu)^2}{2\sigma^2}} $$

Nie trzeba go pamiętać na pamięć — ważne, że $\mu$ przesuwa dzwon w lewo/prawo, a $\sigma$ rozciąga lub ściska go.

Trzy krzywe normalne o różnych odchyleniach standardowych σ
Ta sama rodzina, różne parametry. Większe $\sigma$ = szerszy i niższy dzwon (większy rozrzut). Zmiana $\mu$ przesuwa cały dzwon bez zmiany kształtu.

Standaryzacja i wynik z

Problem: rozkładów normalnych jest nieskończenie wiele (każda para $\mu, \sigma$). Rozwiązanie: każdy z nich można przeliczyć na jeden wzorcowy — standardowy rozkład normalny $\mathcal{N}(0,1)$, ze średnią 0 i odchyleniem 1.

Robimy to przez wynik z (z-score):

$$ Z = \frac{X - \mu}{\sigma} $$

Wynik $z$ mówi: o ile odchyleń standardowych dana wartość jest powyżej (lub poniżej) średniej. $z = 2$ znaczy „dwa σ powyżej średniej" — wartość rzadka (górne ~2,5%).

Dowód
Dlaczego standaryzacja daje średnią 0 i odchylenie 1
  1. Liczymy wartość oczekiwaną $Z$. Korzystamy z liniowości: $E[aX+b]=aE[X]+b$. Tu $Z=\frac{1}{\sigma}X-\frac{\mu}{\sigma}$, więc: $$ E[Z] = \frac{1}{\sigma}E[X] - \frac{\mu}{\sigma} = \frac{\mu}{\sigma} - \frac{\mu}{\sigma} = 0 $$ Średnia po standaryzacji jest zerowa.
  2. Liczymy wariancję $Z$. Korzystamy z $\mathrm{Var}(aX+b)=a^2\,\mathrm{Var}(X)$ (dodanie stałej nie zmienia rozrzutu, mnożenie skaluje go o $a^2$): $$ \mathrm{Var}(Z) = \frac{1}{\sigma^2}\,\mathrm{Var}(X) = \frac{\sigma^2}{\sigma^2} = 1 $$
  3. Odchylenie standardowe to pierwiastek z wariancji: $\sqrt{1}=1$. Zatem $Z \sim \mathcal{N}(0,1)$ — niezależnie od tego, jakie były wyjściowe $\mu$ i $\sigma$.
Standaryzacja: przejście z N(μ,σ²) do standardowego N(0,1)
Standaryzacja to przesunięcie (odjęcie $\mu$ — środek ląduje w 0) i przeskalowanie (podzielenie przez $\sigma$ — jednostką staje się odchylenie). Kształt dzwonu się nie zmienia.

Zastosowanie w ekonometrii

Standardowy rozkład normalny to wspólny język statystyki:

  • Wartości krytyczne — słynne $z = 1{,}96$ to granica środkowych 95%. Stąd biorą się przedziały ufności i testy.
  • p-wartości — pole pod ogonem krzywej $\mathcal{N}(0,1)$ to prawdopodobieństwo wyniku „tak skrajnego lub bardziej".
  • Twierdzenie graniczne (CLT) — średnia z dużej próby ma rozkład w przybliżeniu normalny, niezależnie od rozkładu danych. To dlatego normalność jest wszędzie.
Ogony rozkładu normalnego poza ±1,96 — po 2,5% z każdej strony
Pole pod ogonem krzywej to prawdopodobieństwo. Tu zaznaczono obszary poza $\pm 1{,}96$ — łącznie 5% (po 2,5% z każdej strony). To podstawa testów na poziomie istotności 5%.

Przykład na liczbach

Wynik egzaminu ma rozkład $\mathcal{N}(\mu=60, \sigma=10)$. Jakie miejsce zajmuje osoba z wynikiem 75?

$$ z = \frac{75 - 60}{10} = 1{,}5 $$

Wynik jest 1,5 odchylenia powyżej średniej. Z tablic (lub funkcji) pole na lewo od $z=1{,}5$ to ok. 0,933 — osoba jest lepsza od ~93% zdających.

# R
pnorm(75, mean = 60, sd = 10)   # 0.9332  -> percentyl 93
qnorm(0.975)                     # 1.96    -> wartość krytyczna 95%
# Python
from scipy.stats import norm
norm.cdf(75, loc=60, scale=10)   # 0.9332
norm.ppf(0.975)                  # 1.96

Co zapamiętać

Definicja
Najważniejsze fakty
  • Rozkład normalny opisują dwie liczby: środek $\mu$ i rozrzut $\sigma$.
  • Reguła 68-95-99.7: tyle procent danych mieści się w 1, 2, 3 odchyleniach od średniej.
  • Standaryzacja $Z=\frac{X-\mu}{\sigma}$ sprowadza każdy rozkład normalny do wzorcowego $\mathcal{N}(0,1)$.
  • Stąd biorą się wartości krytyczne (1,96), p-wartości i większość testów.

Dalej: Rozkłady prawdopodobieństwa (t, chi², F) · Testy hipotez