p-wartość — znaczenie i interpretacja
p-wartość wyjaśniona prostymi słowami i rysunkami: czym jest, czym NIE jest, jak ją czytać i najczęstsze błędy. Logika testowania hipotez krok po kroku
Definicja
p-wartość to prawdopodobieństwo zobaczenia wyniku tak skrajnego (lub bardziej) jak nasz — przy założeniu, że hipoteza zerowa jest prawdziwa.
Im mniejsza, tym bardziej nasze dane „nie pasują" do świata, w którym nic się nie dzieje.
Rozłóżmy tę definicję na części — z rysunkami.
Intuicja: rozumowanie testu
Załóżmy, że testujemy nowy lek. Pytanie brzmi: czy lek rzeczywiście działa, czy obserwowana różnica jest dziełem przypadku?
Punktem wyjścia jest hipoteza zerowa $H_0$: „lek nie działa, różnica jest dziełem przypadku". Następnie pytamy: gdyby $H_0$ była prawdziwa, jak często sam przypadek dałby wynik taki jak nasz lub bardziej skrajny?
- Jeśli bardzo rzadko → przypadek to słabe wyjaśnienie → odrzucamy $H_0$ („lek chyba działa")
- Jeśli często → przypadek spokojnie to tłumaczy → nie ma podstaw odrzucać $H_0$
Ta „częstość" to właśnie p-wartość.
Mały p kontra duży p
To samo na dwóch obrazkach. Po lewej wynik wpada głęboko w ogon (mało prawdopodobny przy $H_0$) — mała p-wartość. Po prawej wynik jest blisko środka (typowy dla przypadku) — duża p-wartość.
Próg 0,05 — skąd się wziął i co znaczy
Umownie przyjmuje się próg istotności $\alpha = 0{,}05$ (5%):
- $p < 0{,}05$ → „istotne statystycznie" → odrzucamy $H_0$
- $p \ge 0{,}05$ → brak podstaw do odrzucenia $H_0$
Trzy częste błędy interpretacyjne
To najważniejsza część tego artykułu. Warto zapamiętać trzy pułapki interpretacyjne:
- p-wartość NIE jest prawdopodobieństwem, że $H_0$ jest prawdziwa. p mówi o prawdopodobieństwie danych przy założeniu $H_0$ — czyli $P(\text{dane}\mid H_0)$. To nie to samo co $P(H_0 \mid \text{dane})$. Mylenie tych dwóch to klasyczny błąd odwróconego warunku.
- $p = 0{,}03$ NIE znaczy „jest 3% szans, że to przypadek". Znaczy: gdyby rządził sam przypadek, wynik taki jak nasz (lub skrajniejszy) zdarzałby się w 3% powtórzeń eksperymentu.
- Duże p NIE dowodzi, że $H_0$ jest prawdziwa. „Brak dowodu na efekt" to nie „dowód na brak efektu". Może po prostu próba była za mała, by wykryć prawdziwy (ale słaby) efekt.
p-wartość a wielkość efektu
W praktyce: gdzie to widać
W każdym wydruku regresji p-wartość stoi obok współczynnika:
Estimate Std.Error t value Pr(>|t|)
(Intercept) 0.5580 0.10847 5.144 3.7e-07 ***
education 0.0930 0.00813 11.433 < 2e-16 ***
Kolumna Pr(>|t|) to p-wartość: testuje $H_0$, że dany współczynnik = 0 (zmienna nie ma wpływu). Gwiazdki to skrót: *** = $p<0{,}001$, ** = $p<0{,}01$, * = $p<0{,}05$.
# R — p-wartość pojedynczego testu t
t.test(grupa_A, grupa_B)$p.value
# z modelu
summary(model)$coefficients[, "Pr(>|t|)"]
# Python
from scipy import stats
stats.ttest_ind(grupa_A, grupa_B).pvalue
model.pvalues # statsmodels
Podsumowanie w 4 punktach
- p = jak dziwny byłby mój wynik, gdyby nic się nie działo (przy $H_0$)
- Mała p → dane słabo pasują do $H_0$ → przesłanka, by ją odrzucić
- 0,05 to umowa, nie magiczna granica — czytaj p jako siłę dowodu
- Zawsze dołącz wielkość efektu — istotność statystyczna to nie wszystko
Dalej: Testy hipotez — H₀, H₁, błędy I i II rodzaju · Rozkład normalny