Korelacja liniowa i współczynnik Pearsona

Streszczenie

Współczynnik korelacji Pearsona prostymi słowami: co znaczy r, jak wygląda na wykresach, dlaczego korelacja to nie przyczynowość — z rysunkami i przykładami

Pojęcie korelacji

Korelacja odpowiada na pytanie: gdy jedna rzecz rośnie, czy druga też? I jak mocno?

Współczynnik korelacji Pearsona $r$ to liczba od $-1$ do $+1$:

  • $r = +1$ — idealny związek rosnący (punkty na prostej w górę)
  • $r = 0$ — brak liniowego związku (chmura bez kierunku)
  • $r = -1$ — idealny związek malejący (punkty na prostej w dół)
r ≈ +0,95r ≈ +0,5r ≈ 0r ≈ −0,9
Jak $r$ wygląda na wykresie. Im bliżej $\pm 1$, tym ciaśniej punkty układają się wzdłuż prostej. Przy $r \approx 0$ chmura nie ma kierunku.

Wzór — i co w nim siedzi

$$ r = \frac{\sum (x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum (x_i-\bar{x})^2}\,\sqrt{\sum (y_i-\bar{y})^2}} $$

Wygląda groźnie, ale licznik to kowariancja (czy $x$ i $y$ odchylają się od swoich średnich w tę samą stronę), a mianownik tylko normalizuje wynik do przedziału $[-1, 1]$.

Intuicja
Skąd znak r
Patrz na jeden punkt. Jeśli $x_i$ jest powyżej swojej średniej i $y_i$ powyżej swojej → iloczyn $(x_i-\bar{x})(y_i-\bar{y})$ jest dodatni. Tak samo gdy oba poniżej. Gdy jeden powyżej, drugi poniżej → ujemny. Korelacja sumuje te sygnały: przewaga dodatnich → $r>0$, przewaga ujemnych → $r<0$.

Korelacja a przyczynowość

To najważniejsze zdanie w całej statystyce. Dwie rzeczy mogą iść w parze, choć żadna nie powoduje drugiej — bo obie zależą od trzeciej, ukrytej zmiennej.

upał (ukryty)sprzedaż lodówutonięciakorelacja (pozorna!)
Klasyczny przykład: sprzedaż lodów i liczba utonięć rosną razem ($r$ wysokie). Ale lody nie topią ludzi — obie rzeczy napędza upał. To zmienna ukryta (confounder).

Stąd cała ekonometria przyczynowa — metody (IV, DiD, eksperymenty), które pozwalają wyjść poza zwykłą korelację i mówić o przyczynie.

Współczynnik Pearsona mierzy tylko związek liniowy

Korelacja Pearsona mierzy liniowy związek. Dane mogą być w 100% powiązane, a $r$ i tak wyjdzie zero — jeśli związek jest krzywoliniowy.

r ≈ 0, ale związek pełnyr ≈ +0,98, związek liniowy
Po lewej idealna parabola — $y$ jest w pełni wyznaczone przez $x$, ale $r \approx 0$, bo związek nie jest liniowy. Zawsze rysuj dane, zanim zaufasz jednej liczbie.

Korelacja a nachylenie regresji

Korelacja i nachylenie MNK to krewni, ale nie to samo:

$$ b_1 = r \cdot \frac{s_y}{s_x} $$

Oba mają ten sam znak, ale $r$ jest bezwymiarowe (zawsze $[-1,1]$), a nachylenie $b_1$ ma jednostki (np. „zł na rok stażu"). $r$ mówi jak ciasno, $b_1$ mówi jak stromo.

W kodzie

# R
cor(x, y)                       # korelacja Pearsona
cor(dane)                       # macierz korelacji wszystkich par
cor.test(x, y)                  # z testem istotności i przedziałem
cor(x, y, method = "spearman")  # rangowa (dla zależności monotonicznych)
# Python
import numpy as np
np.corrcoef(x, y)[0, 1]

import pandas as pd
df.corr()                       # macierz korelacji
from scipy.stats import pearsonr
pearsonr(x, y)                  # (r, p-wartość)

Zapamiętaj

Definicja
Korelacja w pigułce
  • $r \in [-1, 1]$: znak = kierunek, wartość bezwzględna = siła liniowego związku.
  • Korelacja ≠ przyczynowość — może istnieć zmienna ukryta.
  • $r$ widzi tylko linie — rysuj dane, by nie przeoczyć krzywej.
  • Korelacja i nachylenie regresji mają ten sam znak: $b_1 = r\,\frac{s_y}{s_x}$.

Dalej: Statystyka opisowa · Metoda najmniejszych kwadratów