Statystyka opisowa — miary i interpretacja

Streszczenie

Średnie, wariancja, odchylenie standardowe, kwantyle i korelacja — wszystko co trzeba wiedzieć przed ekonometrią

Rodzaje zmiennych

Zanim zaczniemy liczyć, musimy wiedzieć z jakim typem danych mamy do czynienia:

TypPrzykładCo możemy mierzyć
NominalnaPłeć, regionModa, częstość
PorządkowaOcena (1-5), satysfakcjaMediana, kwartyle
IlorazowaPKB, dochód, cenaWszystko: średnia, SD, korelacja

W ekonometrii głównie pracujemy ze zmiennymi ilorazowymi (continuous).

Miary położenia

Średnia arytmetyczna

$$\bar{x} = \frac{1}{n}\sum_{i=1}^{n} x_i = \frac{x_1 + x_2 + \cdots + x_n}{n}$$

Zalety: Uwzględnia każdą obserwację, minimalizuje sumę kwadratów odchyleń.

Wady: Wrażliwa na wartości odstające (outliers).

Przykład: Zarobki 5 pracowników: 3000, 3200, 3500, 4000, 20000 zł

$\bar{x} = \frac{3000 + 3200 + 3500 + 4000 + 20000}{5} = 6740$ zł

Ta średnia jest myląca — jeden outlier (20 000 zł) mocno ją zawyża.

Mediana

Środkowa wartość po posortowaniu. Dla $n$ parzystego — średnia dwóch środkowych.

Dla tych samych zarobków: mediana = 3500 zł — bardziej representatywna!

Zasada: gdy dane są skośne → używaj mediany.

Moda

Najczęściej występująca wartość. Przydatna dla zmiennych dyskretnych i nominalnych.

Miary zmienności

Wariancja

$$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(x_i - \bar{x})^2$$

Uwaga: dzielimy przez $n-1$ (nie $n$) bo liczymy wariancję próby — to daje estymator nieobciążony wariancji populacji.

Odchylenie standardowe

$$s = \sqrt{s^2}$$

Jest w tych samych jednostkach co dane — łatwiejsza do interpretacji.

Przykład: Jeśli $\bar{x} = 30$ tys. zł i $s = 5$ tys. zł, to większość obserwacji leży między 25 a 35 tys. zł (zasada $\pm 1$ SD).

Współczynnik zmienności

$$CV = \frac{s}{\bar{x}} \cdot 100\%$$

Pozwala porównywać zmienność różnych zmiennych (np. ceny w różnych krajach).

Kwantyle i pudełko

Kwartyle dzielą dane na 4 równe części:

  • $Q_1$ (25. percentyl) — dolny kwartyl
  • $Q_2$ (50. percentyl) — mediana
  • $Q_3$ (75. percentyl) — górny kwartyl

Rozstęp ćwiartkowy (IQR):

$$IQR = Q_3 - Q_1$$

Wykres pudełkowy (boxplot) pokazuje: minimum, $Q_1$, medianę, $Q_3$, maksimum i outliers.

Skośność i kurtoza

Skośność (Skewness)

$$\gamma_1 = \frac{\frac{1}{n}\sum(x_i-\bar{x})^3}{s^3}$$
  • $\gamma_1 = 0$ → symetryczny
  • $\gamma_1 > 0$ → skośny prawostronnie (długi ogon w prawo)
  • $\gamma_1 < 0$ → skośny lewostronnie

Dla dochodów — typowo silna skośność prawostronna (kilku bogaczy zaburza rozkład).

Kurtoza (Kurtosis)

Mierzy “spiczastość” rozkładu względem normalnego.

$$\gamma_2 = \frac{\frac{1}{n}\sum(x_i-\bar{x})^4}{s^4} - 3$$
  • $\gamma_2 = 0$ → rozkład normalny
  • $\gamma_2 > 0$ → leptokurtyczny (bardziej spiczasty, grubsze ogony)
  • $\gamma_2 < 0$ → platykurtyczny (bardziej płaski)

Grube ogony mają znaczenie w ekonometrii — oznaczają więcej wartości ekstremalnych.

Korelacja

Współczynnik korelacji Pearsona

$$r = \frac{\sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})}{(n-1) s_x s_y}$$
  • $r \in [-1, 1]$
  • $r = 1$ → doskonała korelacja dodatnia
  • $r = -1$ → doskonała korelacja ujemna
  • $r = 0$ → brak korelacji liniowej

Ważne: korelacja $\neq$ przyczynowość! Dwie rzeczy mogą być skorelowane przez trzecią zmienną (zmienna zakłócająca).

Macierz korelacji

W ekonometrii często badamy korelacje wielu zmiennych jednocześnie:

# R
cor(dane[, c("GDP", "unemployment", "inflation", "interest_rate")])

Szukamy:

  • Silnych korelacji między zmiennymi objaśniającymi (multikolinearność — problem!)
  • Korelacji zmiennej zależnej z objaśniającymi (potencjalne predyktory)

Standaryzacja (Z-score)

$$z_i = \frac{x_i - \bar{x}}{s}$$

Przekształca dane do jednostek odchyleń standardowych. Interpretacja: $z = 2$ oznacza “2 odchylenia standardowe powyżej średniej”.

Standaryzacja jest ważna gdy:

  • Porównujemy zmienne o różnych jednostkach
  • Używamy metod wymagających podobnych skali (np. regresja z regularyzacją)

Następnie: Rozkłady prawdopodobieństwa

📚 Zasoby do nauki
💻 Kod źródłowy

R:

# Podstawowe statystyki opisowe
x <- c(12, 15, 18, 22, 25, 28, 30, 35, 40, 45)

mean(x)      # średnia: 27
median(x)    # mediana: 26.5
var(x)       # wariancja: 105.6
sd(x)        # odchylenie std: 10.28
quantile(x)  # kwartyle
summary(x)   # wszystko naraz

# Histogram
hist(x, col = "steelblue", main = "Rozkład", xlab = "Wartość")

Python:

import numpy as np
import pandas as pd

x = [12, 15, 18, 22, 25, 28, 30, 35, 40, 45]

print(np.mean(x))    # 27.0
print(np.median(x))  # 26.5
print(np.std(x))     # 9.79 (populacja) lub np.std(x, ddof=1) dla próby
print(np.percentile(x, [25, 50, 75]))  # kwartyle

# DataFrame — szybkie statystyki
df = pd.DataFrame({'x': x})
print(df.describe())