Hypotesetesting er en metode i statistikk vi bruker for å kvantifisere usikkerhet og variasjon. Hva skjer om vi f.eks. tester et legemiddel på alt for små utvalg? Hva om det testes bare på menn? Utvalgene i legemiddeltester har inntil nylig bestått av 90% menn. Hvordan kan vi vite om observasjonene våre skyldes tilfeldigheter eller ikke? Dette kan vi finne svar på gjennom hypotesetesting.
Vi setter opp en nøytral nullhypotese (H0) og en alternativ hypotese (H1). Vi ønsker å vise at H1 er sann ved å undergrave H0. Formålet er å undersøke om datamaterialet gir tilstrekkelig grunnlag for å forkaste H0 til fordel for H1 med høy grad av sikkerhet. Vi regner ut en “p-verdi“, eller “signifikanssannsynlighet” med en antagelse om at H0 er sann og sammenligner med et “signifikansnivå” som bestemmes i forkant av forsøket. Dersom p-verdien er lavere enn signifikansnivået, sier vi at det er grunnlag for å forkaste H0. Det er vanlig at signifikansnivået er satt til 5%. Jo lavere signifikansnivå, jo sikrere vil konklusjonen være. Ved 5% signifikansnivå aksepterer vi at det er en risiko på 5% for å feilaktig forkaste H0. Dette kaller vi en feil av type I. Det motsatte, at vi ikke forkaster H0 selv om den er feil, kaller vi en feil av type II. Denne typen feil skyldes ofte at datamaterialet er for lite.
Hva er “p-verdi” og “signifikansnivå“?
Både p-verdi og signifikansnivå er verdier mellom 0 og 1.
La oss si at vi mistenker at en mynt havner på kron alt for ofte. Da er nullhypotesen P(K) = 0.5 og alternativhypotesen P(K) > 0.5. Av antall forsøk n vil det være a antall mynter som lander på kron. Dersom a er tilstrekkelig større enn 1/2 av n, kan vi forkaste H0. Med tilstrekkelig mye større menes da at a er større enn en verdi c. Verdien c velger vi utifra hvor sannsynlig vi vil at konklusjonen skal være. Vi vil at sannsyligheten for at vi forkaster H0 feilaktig skal være minst mulig. Denne sannsynligheten kaller vi “signifikansnivået”, ofte satt til 0.05 (5% sannsynlighet for at assosiasjonene vi har observert er tilfeldige). P-verdien er sannsynligheten for et testresultat dersom betingelsene i H0 er sanne.
La oss si at vi i et forsøk har fått at 70 av 100 mynter lander på kron. Vi går ut ifra at H0 er sann og ser på hvor sannsynlig det er å få dette resultatet (70/100 kron) eller noe mer ekstremt dersom P(K) = 0.5, altså P(X >= 70 | H0). Dette kunne vi regnet ut for hånd ved hjelp av den binomiske sannsynlighetsfordelingen, men det hadde vært tungvint. Det viser seg imidlertid at den binomiske fordelingen nærmer seg en normalfordeling når n, antall forsøk, er stort (ved sentralgrenseteoremet). Vi kan derfor forenkle utregningen via. en såkalt “normaltilnærmelse”
Når vi skal finne normalfordelingen som er mest lik histogrammet vårt, tar vi utgangspunkt i forventningen (μ) og standardavviket (σ) til den binomiske fordelingen. For en binomisk fordeling gjelder:
- Forventning, E(X) = n * p
- Varians, var(X) = n * p * (1 – p)
Derfor har vi at normalfordelingen har:
- Forventning, E(X), μ = n * p
- Standardavvik, SD(X), σ = sqrt(n * p * (1 – p))
Siden Var(X) = SD(X)^2
Utregning
P(K) = 0.5
N = 100
μ = 100 * 0.5 = 50
σ = sqrt(50 * (0.5)) = sqrt(25) = 5
Normaltilnærmelsen er best når μ >= 5 og Var(X) >= 5.
Det neste steget er å standardisere normaltilnærmelsen vår, Y ~ N(0, 1). Vi trekker μ fra X slik at standardfordelingen får sentrum i 0, og deler på σ for å få et standardavvik = 1. Y = (X – μ) / σ.
Vi er interessert i P(X >= 70) = 1 – P(X <= 70). P(X <= 70) = P((X – 50)/5 <= (70 – 50)/5) = P(Y <= 4). På engelsk, kaller vi 4 for z-skåren (z-score). Den sier noe om hvor mange standardavvik verdien vår ligger unna gjennomsnittet (0). Gjennomsnittet av utfallene i et forsøk med en stokastisk variabel vil nærme seg forventningen dersom forsøket gjentas tilstrekkelig mange ganger. På normalfordelingstabellen ser vi at en z-skår på 4 gir oss en sannsynlighet på 0.99997. Det vil si at sannsynligheten for at en tilfeldig valgt verdi ligger et mindre antall standardavvik fra gjennomsnittet enn 4 er 99.997%. Videre regner vi ut at 1 – 0.99997 = 0.00003 = 0.003%. Verdien vi har funnet nå er p-verdien, altså sannsynligheten for at vi får at 70 / 100 mynter lander på kron dersom H0 er sann, P(K) = 0.50. Med et signifikansnivå på 5%, kan vi forkaste H0 med relativt god sikkerhet og konkludere med at H1 er sann, altså at mistanken vår om at mynten landet på kron alt for ofte var vel begrunnet.
Estimering
Et utvalg på 1000 pasienter forteller oss ikke nødvendigvis virkeligheten for hele populasjonen. Når det ikke er praktisk mulig å samle data for en hel populasjon må vi estimere (tilnærme) den “sanne sannsynligheten” Estimatsannsynligheten noteres som en p med en “hatt” (^) over, altså p^ dersom “^” var direkte over p’en. Vi ser på p^ som sannsynligheten i et utvalg av en større gruppe og den “sanne sannsynligheten” som en tenkt verdi for hele gruppen. Vi tenker for oss at vi har en stokastisk variabel som er binomisk fordelt, men der sannsynligheten p er ukjent.
Rett fra boka til Aalen et al.:
“Generelt er det liten grunn til å tro at p^ faller eksakt sammen med p, og et viktig spørsmål er hvor mye de med rimelighet kan avvike fra hverandre. Denne usikkerheten kan beskrives ved et såkalt konfidensintervall. Med dette mener vi et område rundt p^ som med stor sannsynlighet dekker den sanne verdien p.”
Vi har formlene:
- E(p^) = p
- SD(p^) = sqrt((p * (1 – p) / n))
Dette leses som standardfeilen til estimatet p^.
Om vi vil estimere standardfeilen, erstatter vi bare p i formelen med p^. Da får vi Sp = sqrt((p^ * (1 – p^) / n)).
Konfidensintervallet er bestemt ved p^ +- x * Sp hvor x er en verdi fra normalfordelingstabellen. Jo større x, jo bredere konfidensintervall, og jo større sannsynlighet er det for at den sanne verdien p er inkludert. For eksempel vil et intervall på p^ +- 1.96 * Sp dekke 95% av fordelingen. Intervallet har altså en 95% sannsynlighet for å inneholde p.
Alle formlene er gitt at n er tilstrekkelig stor, evt. går mot ∞.
Foreleser: Magne Thoresen
Ressurser
Presentasjon