Hypotesetesting

Hypotesetesting er en metode i statistikk vi bruker for å kvantifisere usikkerhet og variasjon. Hva skjer om vi f.eks. tester et legemiddel på alt for små utvalg? Hva om det testes bare på menn? Utvalgene i legemiddeltester har inntil nylig bestått av 90% menn. Hvordan kan vi vite om observasjonene våre skyldes tilfeldigheter eller ikke? Dette kan vi finne svar på gjennom hypotesetesting.

Vi setter opp en nøytral nullhypotese (H0) og en alternativ hypotese (H1). Vi ønsker å vise at H1 er sann ved å undergrave H0. Formålet er å undersøke om datamaterialet gir tilstrekkelig grunnlag for å forkaste H0 til fordel for H1 med høy grad av sikkerhet. Vi regner ut en “p-verdi“, eller “signifikanssannsynlighet” med en antagelse om at H0 er sann og sammenligner med et “signifikansnivå” som bestemmes i forkant av forsøket. Dersom p-verdien er lavere enn signifikansnivået, sier vi at det er grunnlag for å forkaste H0. Det er vanlig at signifikansnivået er satt til 5%. Jo lavere signifikansnivå, jo sikrere vil konklusjonen være. Ved 5% signifikansnivå aksepterer vi at det er en risiko på 5% for å feilaktig forkaste H0. Dette kaller vi en feil av type I. Det motsatte, at vi ikke forkaster H0 selv om den er feil, kaller vi en feil av type II. Denne typen feil skyldes ofte at datamaterialet er for lite.

Hva er “p-verdi” og “signifikansnivå“?
Både p-verdi og signifikansnivå er verdier mellom 0 og 1.

La oss si at vi mistenker at en mynt havner på kron alt for ofte. Da er nullhypotesen P(K) = 0.5 og alternativhypotesen P(K) > 0.5. Av antall forsøk n vil det være a antall mynter som lander på kron. Dersom a er tilstrekkelig større enn 1/2 av n, kan vi forkaste H0. Med tilstrekkelig mye større menes da at a er større enn en verdi c. Verdien c velger vi utifra hvor sannsynlig vi vil at konklusjonen skal være. Vi vil at sannsyligheten for at vi forkaster H0 feilaktig skal være minst mulig. Denne sannsynligheten kaller vi “signifikansnivået”, ofte satt til 0.05 (5% sannsynlighet for at assosiasjonene vi har observert er tilfeldige). P-verdien er sannsynligheten for et testresultat dersom betingelsene i H0 er sanne.

La oss si at vi i et forsøk har fått at 70 av 100 mynter lander på kron. Vi går ut ifra at H0 er sann og ser på hvor sannsynlig det er å få dette resultatet (70/100 kron) eller noe mer ekstremt dersom P(K) = 0.5, altså P(X >= 70 | H0). Dette kunne vi regnet ut for hånd ved hjelp av den binomiske sannsynlighetsfordelingen, men det hadde vært tungvint. Det viser seg imidlertid at den binomiske fordelingen nærmer seg en normalfordeling når n, antall forsøk, er stort (ved sentralgrenseteoremet). Vi kan derfor forenkle utregningen via. en såkalt “normaltilnærmelse”

Når vi skal finne normalfordelingen som er mest lik histogrammet vårt, tar vi utgangspunkt i forventningen (μ) og standardavviket (σ) til den binomiske fordelingen. For en binomisk fordeling gjelder:

  • Forventning, E(X) = n * p
  • Varians, var(X) = n * p * (1 – p)

Derfor har vi at normalfordelingen har:

  • Forventning, E(X), μ = n * p
  • Standardavvik, SD(X), σ = sqrt(n * p * (1 – p))
    Siden Var(X) = SD(X)^2

Utregning
P(K) = 0.5
N = 100
μ = 100 * 0.5 = 50
σ = sqrt(50 * (0.5)) = sqrt(25) = 5
Normaltilnærmelsen er best når μ >= 5 og Var(X) >= 5.

Det neste steget er å standardisere normaltilnærmelsen vår, Y ~ N(0, 1). Vi trekker μ fra X slik at standardfordelingen får sentrum i 0, og deler på σ for å få et standardavvik = 1. Y = (X – μ) / σ.

Vi er interessert i P(X >= 70) = 1 – P(X <= 70). P(X <= 70) = P((X – 50)/5 <= (70 – 50)/5) = P(Y <= 4). På engelsk, kaller vi 4 for z-skåren (z-score). Den sier noe om hvor mange standardavvik verdien vår ligger unna gjennomsnittet (0). Gjennomsnittet av utfallene i et forsøk med en stokastisk variabel vil nærme seg forventningen dersom forsøket gjentas tilstrekkelig mange ganger. På normalfordelingstabellen ser vi at en z-skår på 4 gir oss en sannsynlighet på 0.99997. Det vil si at sannsynligheten for at en tilfeldig valgt verdi ligger et mindre antall standardavvik fra gjennomsnittet enn 4 er 99.997%. Videre regner vi ut at 1 – 0.99997 = 0.00003 = 0.003%. Verdien vi har funnet nå er p-verdien, altså sannsynligheten for at vi får at 70 / 100 mynter lander på kron dersom H0 er sann, P(K) = 0.50. Med et signifikansnivå på 5%, kan vi forkaste H0 med relativt god sikkerhet og konkludere med at H1 er sann, altså at mistanken vår om at mynten landet på kron alt for ofte var vel begrunnet.

Estimering
Et utvalg på 1000 pasienter forteller oss ikke nødvendigvis virkeligheten for hele populasjonen. Når det ikke er praktisk mulig å samle data for en hel populasjon må vi estimere (tilnærme) den “sanne sannsynligheten” Estimatsannsynligheten noteres som en p med en “hatt” (^) over, altså p^ dersom “^” var direkte over p’en. Vi ser på p^ som sannsynligheten i et utvalg av en større gruppe og den “sanne sannsynligheten” som en tenkt verdi for hele gruppen. Vi tenker for oss at vi har en stokastisk variabel som er binomisk fordelt, men der sannsynligheten p er ukjent.

Rett fra boka til Aalen et al.:
“Generelt er det liten grunn til å tro at p^ faller eksakt sammen med p, og et viktig spørsmål er hvor mye de med rimelighet kan avvike fra hverandre. Denne usikkerheten kan beskrives ved et såkalt konfidensintervall. Med dette mener vi et område rundt p^ som med stor sannsynlighet dekker den sanne verdien p.” 

Vi har formlene:

  • E(p^) = p
  • SD(p^) = sqrt((p * (1 – p) / n))
    Dette leses som standardfeilen til estimatet p^.
    Om vi vil estimere standardfeilen, erstatter vi bare p i formelen med p^. Da får vi Sp = sqrt((p^ * (1 – p^) / n)).

Konfidensintervallet er bestemt ved p^ +- x * Sp hvor x er en verdi fra normalfordelingstabellen. Jo større x, jo bredere konfidensintervall, og jo større sannsynlighet er det for at den sanne verdien p er inkludert. For eksempel vil et intervall på p^ +- 1.96 * Sp dekke 95% av fordelingen. Intervallet har altså en 95% sannsynlighet for å inneholde p.

Alle formlene er gitt at n er tilstrekkelig stor, evt. går mot ∞.


Foreleser: Magne Thoresen

Ressurser
Presentasjon

Binomisk fordeling

Hovedsakelig en presentasjon med utdypning.

Eksempler på begivenheter som kan være ikke-uavhengige:

  • Gjentatte observasjoner av samme subjekt
  • Slektskap mellom individer (genetisk predisposisjon)
  • Smittsomme sykdommer

Binomisk fordeling
For å kunne ta i bruk binomiske fordelinger må vi innfri visse krav:

  • Begivenhetene må være uavhengige
  • Begivenhetene må være binære (to utfall)
  • Sannsynlighetene for utfallene må være statiske

Hvor mange vil vi forvente?
E(X) – forventning til X
n – totalmengden
P – sannsynlighet for X

E(X) = n*P

Standardavvik
SD(X) – Standard deviation of X (Standardavviket til X)
n – totalmengden
p – sannsynlighet for X
Varians.PNG

Mer om dette


ForeleserMagne Thoresen

Ressurser
Presentasjon

 

 

Innledning, sannsynlighetsregning I

Hvorfor statistikk på medisinstudiet?
The New england Journal of Medicine, et av verdens mest toneangivende medisinske fagtidsskrifter, samlet en liste av det de mente var de viktigste innovasjonene innen medisinsk behandling de siste tusen årene. På den listen hadde de inkludert medisinsk statistikk. Hvorfor det? Jo, fordi det er et viktig verktøy for å dokumentere og tolke data. Behandlingsprosessen forenkles ofte til fire steg:

  1. Forebygge
    Hva er årsaken?
  2. Diagnostisere
    Hvilken sykdom?
  3. Behandle
    Hvilken behandling?
  4. Prognose
    Hvordan går det etter?

Alle de fire trinnene har en viss mengde usikkerhet. Statistikkens oppgave er å kvantifisere denne. Siden 1950 har statistikk bare blitt viktigere og viktigere innen medisinsk forskning.

For lite fisk gjør oss mentalt svakeDet er klart at leger i løpet av karrieren vil komme i møte med pasienter som har dårlig kjennskap til statistikk og stor tiltro til tabloidmagasiner. Konklusjoner dratt fra statistiske data blir ofte mistolket og forenklet. I praksis er det svært tøft å finne koblinger som er 100% sikre. F.eks. var det en gruppe i Kina som drev forskning på om chili kunne forlenge livet. De samlet ~500 000 folk, spurte dem om spisevanene deres, og fulgte dem opp i 9 år. Resultatene tydet på at de som (hevdet at de) spiste chili 1-2 ganger i uka hadde i snitt en dødelighet som var ~10% lavere enn kontrollgruppen. De som spiste chili mer enn > 3 ganger i uka opplevde en reduksjon på 14%. Relativ risiko var satt til 0.86. Likevel er det ikke så enkelt som at man dermed kan fastslå med sikkerhet at chili øker forventet levealder. Studien kontrollerte for eksempel ikke for andre faktorer (salt-inntak, livsstil osv.). Derfor var konklusjonen at studien i likhet med andre epidemiologiske studier kun kunne etablere assosiasjoner.

I sammenheng med medisinsk statistikk, er det noen stikkord det er lurt å ha orden på:

  • Epidemiologiske studier
    Studiet av helsetilstand og sykdomsutbredelse i en befolkning, og av årsaker til sykdom og død.
  • Prospektiv studie
    En prospektiv studie går gjerne under navnet kohortstudie. I epidemiologi betegner det studier hvor grupper følges opp over tid og undersøkes for sykdom.
  • Median
    I statistikken er medianen den verdien av en variabel som ligger midt i det statistiske materialet. Det vil si at like mange individer i materialet har verdier over medianen som under den. Dersom antallet observasjoner er et partall defineres medianen vanligvis som det aritmetiske gjennomsnittet av de to midterste verdiene.
  • Relativ risiko
    Den relative risikoen er forholdet mellom sannsynligheten for at individer som har blitt eksponert for sykdomsfremkallende fenomen utvikler død eller sykdom og tilsvarende sannsynlighet for dem det ikke gjelder.
  • Assosiasjoner / kausale sammenhenger
    Det er viktig å skille assosiasjon og årsakssammenheng. En kausal sammenheng mellom to fenomener er når et av dem fører direkte til det andre. Begrepet assosiasjon er vagere og brukes for å beskrive styrken til forholdet mellom to fenomener.
  • Kontrollere for
    Diskutere variabler og studiestruktur
  • Konfunderende faktor
    Når assosiasjonen mellom to hendelser (delvis) kommer av at begge har en felles årsak kalles det en konfundering. En konfunderende faktor kalles også for en bakenforliggende faktor. Dersom sammenhengen mellom årsaks- og virkningsvariablene skyldes en bakenforliggende faktor sier vi at sammenhengen er spuriøs. Kort fortalt: forskere finner en assosiasjon mellom A og B. Det viser seg at C påvirker både A og B (eller direkte forårsaker). Sammenhengen mellom A og B blir da spuriøs. Det vil si at en tilsynelatende kausal sammenheng ikke egentlig er tilstede enten tilfeldig eller grunnet en tredje faktor C som da kalles en konfunderende faktor.
    Eksempel på en konfunderende faktor: 
    Morens alder påvirker sannsynligheten for at fosteret utvikler Downs syndrom. I en undersøkelse av prevalensen av Downs syndrom i hvert søskenledd (første barn, andre barn, tredje barn usw.), kan morens alder kalles en konfunderende faktor.

Typer data
I første omgang har vi to (tre) typer data:

  • Kategorisk data
    Data som skal settes i bestemte “kategorier”, eksempel: kjønn, fødeland, sivilstatus, andeler (30% av X)
  • Kontinuerlig data
    I all hovedsak numeriske data, eksempel: alder, vekt, blodtrykk, kolesterol-nivå (riktignok telles kanskje ikke alder i praksis som en type kontinuerlig data da det sjeldent forekommer at folk svarer med desimal).
  • Diskrete numeriske data
    Eksempel: telledata, teller antall (eks. antall mål i en fotballkamp). Innen diskrete numeriske data gjelder kun naturlige tall.

Standardavvik og prevalens
Standardavvik
er definert som kvadratroten av variansen, på engelsk variance, og er et mål for spredningen av verdiene i et datasett (verdienes gjenomsnittlige avstand fra tyngdepunktet / det aritmetiske gjennomsnittet). Det er et viktig verktøy fordi andre metoder som for eksempel min-maks ser bare på ekstremene, noe som ikke nødvendigvis er nyttig for å illustrere den faktiske fordelingen av verdiene.

Prevalens er enkelt forklart andelen av en befolkning med en viss tilstand. Per 31. desember 2016 var det registrert 7507 pasienter i live med lungekreft. På samme tid var befolkningstallet i Norge ~5 258 317. Vi regner ut andelen (andel = kakestykket (7507) / kaken (5 258 317) og får som svar ~ 0.00143. Prevalensen av lungekreft i Norge var altså ved nyttår 2016 ~14.3 per 10 000 innbyggere. Det går an å trekke linja lenger og se på hvordan prevalensen har utviklet seg gjennom årene. Observasjoner viser nemlig at prevalensen av lungekreft har økt de siste årene. Hva kan det tyde på?

  • Flere tilfeller?
  • Bedre overlevelse?
    Flere overlever lengre med lungekreft (og generelt)
  • Endring i diagnostiske kriterier?
    Hva skal betegnes som lungekreft?

Ressurser
Det anbefales å sjekke ut fagsiden for medisinsk statistikk. SPSS er en programvarepakke som vil utnyttes i kurset. UiO har skrevet en egen instruksjonsmanual for å hjelpe studentene med innføringen. Det er ikke tenkt at medisinstudenter skal lese gjennom hele manualen, men den er nyttig for å bla i når det trengs.

AalenDersom man er stolt eier av Aalens bok, er det greit å vite at kapittel 7 (poissonfordeling), 12 (logistisk regresjon), 14 (Bayesiansk analyse) er utenfor pensum.

Foreleser vil være tilgjengelig for veiledningstimer gjennom semesteret. Det er først og fremst et lavterskeltilbud hvor studenter kan få svar på spørsmål de har rundt faget. “Åpningstidene” ligger ute på fagsiden. Det blir fort kø når det nærmer seg eksamen, men av erfaring lite fart før den tid.

I gruppeundervisningen i statistikk blir smågruppene på 10 igjen delt i to grupper på 5 (dvs. f.eks. 1A & 1B, 2A & 2B, usw.) som deretter blir satt sammen tre og tre. Gruppeaktivitetene kommer hovedsakelig til å finne sted i PC-stuene R211 (plass til 35, Rotunden), og en mindre (plass til 25, 2. etg ved bokhandleren Akademika). Første gruppeundervisning fredag 24. august. Opplegget er ment å være studentdrevet. Alle gruppene skal forberede en presentasjon / forelesning på et tema.

Beskjed fra foreleser
Ikke vær redd for å stille spørsmål du synes er dumme eller tåpelige!


ForeleserMagne Thoresen

Ressurser
Presentasjon