Statystyka opisowa — miary i interpretacja

Rodzaje zmiennych

Zanim zaczniemy liczyć, musimy wiedzieć z jakim typem danych mamy do czynienia:

Typ	Przykład	Co możemy mierzyć
Nominalna	Płeć, region	Moda, częstość
Porządkowa	Ocena (1-5), satysfakcja	Mediana, kwartyle
Ilorazowa	PKB, dochód, cena	Wszystko: średnia, SD, korelacja

W ekonometrii głównie pracujemy ze zmiennymi ilorazowymi (continuous).

Miary położenia

Średnia arytmetyczna

$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + \cdots + x_n}{n}$$

Zalety: Uwzględnia każdą obserwację, minimalizuje sumę kwadratów odchyleń.

Wady: Wrażliwa na wartości odstające (outliers).

Przykład: Zarobki 5 pracowników: 3000, 3200, 3500, 4000, 20000 zł

$\bar{x} = \frac{3000 + 3200 + 3500 + 4000 + 20000}{5} = 6740$ zł

Ta średnia jest myląca — jeden outlier (20 000 zł) mocno ją zawyża.

Mediana

Środkowa wartość po posortowaniu. Dla $n$ parzystego — średnia dwóch środkowych.

Dla tych samych zarobków: mediana = 3500 zł — bardziej representatywna!

Zasada: gdy dane są skośne → używaj mediany.

Moda

Najczęściej występująca wartość. Przydatna dla zmiennych dyskretnych i nominalnych.

Miary zmienności

Wariancja

$$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$$

Uwaga: dzielimy przez $n-1$ (nie $n$) bo liczymy wariancję próby — to daje estymator nieobciążony wariancji populacji.

Odchylenie standardowe

$$s = \sqrt{s^2}$$

Jest w tych samych jednostkach co dane — łatwiejsza do interpretacji.

Przykład: Jeśli $\bar{x} = 30$ tys. zł i $s = 5$ tys. zł, to większość obserwacji leży między 25 a 35 tys. zł (zasada $\pm 1$ SD).

Współczynnik zmienności

$$CV = \frac{s}{\bar{x}} \cdot 100\%$$

Pozwala porównywać zmienność różnych zmiennych (np. ceny w różnych krajach).

Kwantyle i pudełko

Kwartyle dzielą dane na 4 równe części:

$Q_1$ (25. percentyl) — dolny kwartyl
$Q_2$ (50. percentyl) — mediana
$Q_3$ (75. percentyl) — górny kwartyl

Rozstęp ćwiartkowy (IQR):

$$IQR = Q_3 - Q_1$$

Wykres pudełkowy (boxplot) pokazuje: minimum, $Q_1$, medianę, $Q_3$, maksimum i outliers.

Skośność i kurtoza

Skośność (Skewness)

$$\gamma_1 = \frac{\frac{1}{n}\sum(x_i-\bar{x})^3}{s^3}$$

$\gamma_1 = 0$ → symetryczny
$\gamma_1 > 0$ → skośny prawostronnie (długi ogon w prawo)
$\gamma_1 < 0$ → skośny lewostronnie

Dla dochodów — typowo silna skośność prawostronna (kilku bogaczy zaburza rozkład).

Kurtoza (Kurtosis)

Mierzy “spiczastość” rozkładu względem normalnego.

$$\gamma_2 = \frac{\frac{1}{n}\sum(x_i-\bar{x})^4}{s^4} - 3$$

$\gamma_2 = 0$ → rozkład normalny
$\gamma_2 > 0$ → leptokurtyczny (bardziej spiczasty, grubsze ogony)
$\gamma_2 < 0$ → platykurtyczny (bardziej płaski)

Grube ogony mają znaczenie w ekonometrii — oznaczają więcej wartości ekstremalnych.

Korelacja

Współczynnik korelacji Pearsona

$$r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{(n-1) s_x s_y}$$

$r \in [-1, 1]$
$r = 1$ → doskonała korelacja dodatnia
$r = -1$ → doskonała korelacja ujemna
$r = 0$ → brak korelacji liniowej

Ważne: korelacja $\neq$ przyczynowość! Dwie rzeczy mogą być skorelowane przez trzecią zmienną (zmienna zakłócająca).

Macierz korelacji

W ekonometrii często badamy korelacje wielu zmiennych jednocześnie:

# R
cor(dane[, c("GDP", "unemployment", "inflation", "interest_rate")])

Szukamy:

Silnych korelacji między zmiennymi objaśniającymi (multikolinearność — problem!)
Korelacji zmiennej zależnej z objaśniającymi (potencjalne predyktory)

Standaryzacja (Z-score)

$$z_i = \frac{x_i - \bar{x}}{s}$$

Przekształca dane do jednostek odchyleń standardowych. Interpretacja: $z = 2$ oznacza “2 odchylenia standardowe powyżej średniej”.

Standaryzacja jest ważna gdy:

Porównujemy zmienne o różnych jednostkach
Używamy metod wymagających podobnych skali (np. regresja z regularyzacją)

Następnie: Rozkłady prawdopodobieństwa