Statystyka opisowa — miary i interpretacja
Średnie, wariancja, odchylenie standardowe, kwantyle i korelacja — wszystko co trzeba wiedzieć przed ekonometrią
Rodzaje zmiennych
Zanim zaczniemy liczyć, musimy wiedzieć z jakim typem danych mamy do czynienia:
| Typ | Przykład | Co możemy mierzyć |
|---|---|---|
| Nominalna | Płeć, region | Moda, częstość |
| Porządkowa | Ocena (1-5), satysfakcja | Mediana, kwartyle |
| Ilorazowa | PKB, dochód, cena | Wszystko: średnia, SD, korelacja |
W ekonometrii głównie pracujemy ze zmiennymi ilorazowymi (continuous).
Miary położenia
Średnia arytmetyczna
$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + \cdots + x_n}{n}$$Zalety: Uwzględnia każdą obserwację, minimalizuje sumę kwadratów odchyleń.
Wady: Wrażliwa na wartości odstające (outliers).
Przykład: Zarobki 5 pracowników: 3000, 3200, 3500, 4000, 20000 zł
$\bar{x} = \frac{3000 + 3200 + 3500 + 4000 + 20000}{5} = 6740$ zł
Ta średnia jest myląca — jeden outlier (20 000 zł) mocno ją zawyża.
Mediana
Środkowa wartość po posortowaniu. Dla $n$ parzystego — średnia dwóch środkowych.
Dla tych samych zarobków: mediana = 3500 zł — bardziej representatywna!
Zasada: gdy dane są skośne → używaj mediany.
Moda
Najczęściej występująca wartość. Przydatna dla zmiennych dyskretnych i nominalnych.
Miary zmienności
Wariancja
$$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$$Uwaga: dzielimy przez $n-1$ (nie $n$) bo liczymy wariancję próby — to daje estymator nieobciążony wariancji populacji.
Odchylenie standardowe
$$s = \sqrt{s^2}$$Jest w tych samych jednostkach co dane — łatwiejsza do interpretacji.
Przykład: Jeśli $\bar{x} = 30$ tys. zł i $s = 5$ tys. zł, to większość obserwacji leży między 25 a 35 tys. zł (zasada $\pm 1$ SD).
Współczynnik zmienności
$$CV = \frac{s}{\bar{x}} \cdot 100\%$$Pozwala porównywać zmienność różnych zmiennych (np. ceny w różnych krajach).
Kwantyle i pudełko
Kwartyle dzielą dane na 4 równe części:
- $Q_1$ (25. percentyl) — dolny kwartyl
- $Q_2$ (50. percentyl) — mediana
- $Q_3$ (75. percentyl) — górny kwartyl
Rozstęp ćwiartkowy (IQR):
$$IQR = Q_3 - Q_1$$Wykres pudełkowy (boxplot) pokazuje: minimum, $Q_1$, medianę, $Q_3$, maksimum i outliers.
Skośność i kurtoza
Skośność (Skewness)
$$\gamma_1 = \frac{\frac{1}{n}\sum(x_i-\bar{x})^3}{s^3}$$- $\gamma_1 = 0$ → symetryczny
- $\gamma_1 > 0$ → skośny prawostronnie (długi ogon w prawo)
- $\gamma_1 < 0$ → skośny lewostronnie
Dla dochodów — typowo silna skośność prawostronna (kilku bogaczy zaburza rozkład).
Kurtoza (Kurtosis)
Mierzy “spiczastość” rozkładu względem normalnego.
$$\gamma_2 = \frac{\frac{1}{n}\sum(x_i-\bar{x})^4}{s^4} - 3$$- $\gamma_2 = 0$ → rozkład normalny
- $\gamma_2 > 0$ → leptokurtyczny (bardziej spiczasty, grubsze ogony)
- $\gamma_2 < 0$ → platykurtyczny (bardziej płaski)
Grube ogony mają znaczenie w ekonometrii — oznaczają więcej wartości ekstremalnych.
Korelacja
Współczynnik korelacji Pearsona
$$r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{(n-1) s_x s_y}$$- $r \in [-1, 1]$
- $r = 1$ → doskonała korelacja dodatnia
- $r = -1$ → doskonała korelacja ujemna
- $r = 0$ → brak korelacji liniowej
Ważne: korelacja $\neq$ przyczynowość! Dwie rzeczy mogą być skorelowane przez trzecią zmienną (zmienna zakłócająca).
Macierz korelacji
W ekonometrii często badamy korelacje wielu zmiennych jednocześnie:
# R
cor(dane[, c("GDP", "unemployment", "inflation", "interest_rate")])
Szukamy:
- Silnych korelacji między zmiennymi objaśniającymi (multikolinearność — problem!)
- Korelacji zmiennej zależnej z objaśniającymi (potencjalne predyktory)
Standaryzacja (Z-score)
$$z_i = \frac{x_i - \bar{x}}{s}$$Przekształca dane do jednostek odchyleń standardowych. Interpretacja: $z = 2$ oznacza “2 odchylenia standardowe powyżej średniej”.
Standaryzacja jest ważna gdy:
- Porównujemy zmienne o różnych jednostkach
- Używamy metod wymagających podobnych skali (np. regresja z regularyzacją)
Następnie: Rozkłady prawdopodobieństwa
- Khan Academy — Statistics & Probability
- Podręcznik: Aczel & Sounderpandian, Complete Business Statistics
- Zbiór danych: Dane GUS
R:
# Podstawowe statystyki opisowe
x <- c(12, 15, 18, 22, 25, 28, 30, 35, 40, 45)
mean(x) # średnia: 27
median(x) # mediana: 26.5
var(x) # wariancja: 105.6
sd(x) # odchylenie std: 10.28
quantile(x) # kwartyle
summary(x) # wszystko naraz
# Histogram
hist(x, col = "steelblue", main = "Rozkład", xlab = "Wartość")
Python:
import numpy as np
import pandas as pd
x = [12, 15, 18, 22, 25, 28, 30, 35, 40, 45]
print(np.mean(x)) # 27.0
print(np.median(x)) # 26.5
print(np.std(x)) # 9.79 (populacja) lub np.std(x, ddof=1) dla próby
print(np.percentile(x, [25, 50, 75])) # kwartyle
# DataFrame — szybkie statystyki
df = pd.DataFrame({'x': x})
print(df.describe())