p-wartość — znaczenie i interpretacja

Streszczenie

p-wartość wyjaśniona prostymi słowami i rysunkami: czym jest, czym NIE jest, jak ją czytać i najczęstsze błędy. Logika testowania hipotez krok po kroku

Definicja

Definicja
p-wartość

p-wartość to prawdopodobieństwo zobaczenia wyniku tak skrajnego (lub bardziej) jak nasz — przy założeniu, że hipoteza zerowa jest prawdziwa.

Im mniejsza, tym bardziej nasze dane „nie pasują" do świata, w którym nic się nie dzieje.

Rozłóżmy tę definicję na części — z rysunkami.

Intuicja: rozumowanie testu

Załóżmy, że testujemy nowy lek. Pytanie brzmi: czy lek rzeczywiście działa, czy obserwowana różnica jest dziełem przypadku?

Punktem wyjścia jest hipoteza zerowa $H_0$: „lek nie działa, różnica jest dziełem przypadku". Następnie pytamy: gdyby $H_0$ była prawdziwa, jak często sam przypadek dałby wynik taki jak nasz lub bardziej skrajny?

  • Jeśli bardzo rzadko → przypadek to słabe wyjaśnienie → odrzucamy $H_0$ („lek chyba działa")
  • Jeśli często → przypadek spokojnie to tłumaczy → nie ma podstaw odrzucać $H_0$

Ta „częstość" to właśnie p-wartość.

0 (brak efektu)nasz wynikpświat H₀
Świat hipotezy zerowej: gdyby nic się nie działo, wyniki rozkładałyby się wokół zera. p-wartość to pole pod ogonem — szansa, że sam przypadek da wynik tak skrajny jak nasz (czerwona linia) lub bardziej.

Mały p kontra duży p

To samo na dwóch obrazkach. Po lewej wynik wpada głęboko w ogon (mało prawdopodobny przy $H_0$) — mała p-wartość. Po prawej wynik jest blisko środka (typowy dla przypadku) — duża p-wartość.

mała p (np. 0,002)wynik rzadki przy H₀duża p (np. 0,40)wynik typowy przy H₀
Mała p (lewy): wynik byłby przy $H_0$ rzadkością → mocny argument przeciw $H_0$. Duża p (prawy): wynik jest zupełnie zwyczajny dla samego przypadku → brak podstaw, by odrzucać $H_0$.

Próg 0,05 — skąd się wziął i co znaczy

Umownie przyjmuje się próg istotności $\alpha = 0{,}05$ (5%):

  • $p < 0{,}05$ → „istotne statystycznie" → odrzucamy $H_0$
  • $p \ge 0{,}05$ → brak podstaw do odrzucenia $H_0$
Uwaga
Uwaga: 0,05 to umowa, nie prawo natury
Próg 5% zaproponował Ronald Fisher w latach 20. XX w. — jest wygodny, ale arbitralny. Wynik $p = 0{,}049$ i $p = 0{,}051$ to praktycznie to samo, mimo że jeden „przechodzi", a drugi „nie". Traktuj p-wartość jako liczbę ciągłą (siłę dowodu), a nie wyłącznik 0/1.

Trzy częste błędy interpretacyjne

To najważniejsza część tego artykułu. Warto zapamiętać trzy pułapki interpretacyjne:

Uwaga
Trzy najczęstsze błędy
  1. p-wartość NIE jest prawdopodobieństwem, że $H_0$ jest prawdziwa. p mówi o prawdopodobieństwie danych przy założeniu $H_0$ — czyli $P(\text{dane}\mid H_0)$. To nie to samo co $P(H_0 \mid \text{dane})$. Mylenie tych dwóch to klasyczny błąd odwróconego warunku.
  2. $p = 0{,}03$ NIE znaczy „jest 3% szans, że to przypadek". Znaczy: gdyby rządził sam przypadek, wynik taki jak nasz (lub skrajniejszy) zdarzałby się w 3% powtórzeń eksperymentu.
  3. Duże p NIE dowodzi, że $H_0$ jest prawdziwa. „Brak dowodu na efekt" to nie „dowód na brak efektu". Może po prostu próba była za mała, by wykryć prawdziwy (ale słaby) efekt.

p-wartość a wielkość efektu

Intuicja
Istotność statystyczna ≠ istotność praktyczna
Przy ogromnej próbie nawet maleńka, nieistotna życiowo różnica wyjdzie „istotna statystycznie" ($p < 0{,}05$). I odwrotnie — przy małej próbie realny efekt może nie przekroczyć progu. Zawsze patrz na wielkość efektu i przedział ufności, a nie tylko na samo $p$.

W praktyce: gdzie to widać

W każdym wydruku regresji p-wartość stoi obok współczynnika:

             Estimate  Std.Error  t value  Pr(>|t|)
(Intercept)    0.5580    0.10847    5.144   3.7e-07  ***
education      0.0930    0.00813   11.433   < 2e-16  ***

Kolumna Pr(>|t|) to p-wartość: testuje $H_0$, że dany współczynnik = 0 (zmienna nie ma wpływu). Gwiazdki to skrót: *** = $p<0{,}001$, ** = $p<0{,}01$, * = $p<0{,}05$.

# R — p-wartość pojedynczego testu t
t.test(grupa_A, grupa_B)$p.value

# z modelu
summary(model)$coefficients[, "Pr(>|t|)"]
# Python
from scipy import stats
stats.ttest_ind(grupa_A, grupa_B).pvalue
model.pvalues   # statsmodels

Podsumowanie w 4 punktach

  1. p = jak dziwny byłby mój wynik, gdyby nic się nie działo (przy $H_0$)
  2. Mała p → dane słabo pasują do $H_0$ → przesłanka, by ją odrzucić
  3. 0,05 to umowa, nie magiczna granica — czytaj p jako siłę dowodu
  4. Zawsze dołącz wielkość efektu — istotność statystyczna to nie wszystko

Dalej: Testy hipotez — H₀, H₁, błędy I i II rodzaju · Rozkład normalny