Korelacja liniowa i współczynnik Pearsona
Współczynnik korelacji Pearsona prostymi słowami: co znaczy r, jak wygląda na wykresach, dlaczego korelacja to nie przyczynowość — z rysunkami i przykładami
Pojęcie korelacji
Korelacja odpowiada na pytanie: gdy jedna rzecz rośnie, czy druga też? I jak mocno?
Współczynnik korelacji Pearsona $r$ to liczba od $-1$ do $+1$:
- $r = +1$ — idealny związek rosnący (punkty na prostej w górę)
- $r = 0$ — brak liniowego związku (chmura bez kierunku)
- $r = -1$ — idealny związek malejący (punkty na prostej w dół)
Wzór — i co w nim siedzi
$$ r = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum (x_i-\bar{x})^2}\,\sqrt{\sum (y_i-\bar{y})^2}} $$Wygląda groźnie, ale licznik to kowariancja (czy $x$ i $y$ odchylają się od swoich średnich w tę samą stronę), a mianownik tylko normalizuje wynik do przedziału $[-1, 1]$.
Korelacja a przyczynowość
To najważniejsze zdanie w całej statystyce. Dwie rzeczy mogą iść w parze, choć żadna nie powoduje drugiej — bo obie zależą od trzeciej, ukrytej zmiennej.
Stąd cała ekonometria przyczynowa — metody (IV, DiD, eksperymenty), które pozwalają wyjść poza zwykłą korelację i mówić o przyczynie.
Współczynnik Pearsona mierzy tylko związek liniowy
Korelacja Pearsona mierzy liniowy związek. Dane mogą być w 100% powiązane, a $r$ i tak wyjdzie zero — jeśli związek jest krzywoliniowy.
Korelacja a nachylenie regresji
Korelacja i nachylenie MNK to krewni, ale nie to samo:
$$ b_1 = r \cdot \frac{s_y}{s_x} $$Oba mają ten sam znak, ale $r$ jest bezwymiarowe (zawsze $[-1,1]$), a nachylenie $b_1$ ma jednostki (np. „zł na rok stażu"). $r$ mówi jak ciasno, $b_1$ mówi jak stromo.
W kodzie
# R
cor(x, y) # korelacja Pearsona
cor(dane) # macierz korelacji wszystkich par
cor.test(x, y) # z testem istotności i przedziałem
cor(x, y, method = "spearman") # rangowa (dla zależności monotonicznych)
# Python
import numpy as np
np.corrcoef(x, y)[0, 1]
import pandas as pd
df.corr() # macierz korelacji
from scipy.stats import pearsonr
pearsonr(x, y) # (r, p-wartość)
Zapamiętaj
- $r \in [-1, 1]$: znak = kierunek, wartość bezwzględna = siła liniowego związku.
- Korelacja ≠ przyczynowość — może istnieć zmienna ukryta.
- $r$ widzi tylko linie — rysuj dane, by nie przeoczyć krzywej.
- Korelacja i nachylenie regresji mają ten sam znak: $b_1 = r\,\frac{s_y}{s_x}$.