Normalfordelingen

Vi er hovedsakelig interessert i to typer variasjoner i målinger:

  • Variasjon mellom individer
  • Variasjon innen individer
    Hvilken variasjon ser vi om vi gjør samme måling gjentatte ganger på samme individ?

Variasjon innen individ er typisk mindre enn mellom.

Vi finner en tabell over verdier i en standard normalfordeling bl.a. bakerst i boken til Aalen. Tabellen gir svar på hvor mange prosent av verdiene i datamengden er mindre eller lik en tenkt verdi Z. I praksis spiller det ingen rolle om vi bruker ekte større eller mindre (<, >), da sannsynligheten for at målingene samsvarer eksakt er null når vi senere har med kontinuerlige skalaer å gjøre. Når vi skal finne svar for verdier som er større enn (eller lik) Z, bruker vi komplementsetningen 1-P. For negative verdier kan vi bruke at siden P(Z <= -X) er det samme som P(Z >= X), får vi 1 – P(Z<=X).  

Når vi analyserer data er det typisk å konstruere normalområder som definerer hva som skal være normalverdiene. Utenfor normalområdene tenker vi på verdiene som unormalt høye eller lave. Ved standarde normalfordelinger setter vi som oftest normalområdene til gjennomsnittet +- 1.96 SD (standardavvik). Da ligger 2.5% av fordelingen utenfor på “hver side” og de normale verdiene innenfor de resterende 95%.sd1.PNGsd 2.PNG

Vi noterer en normalfordeling på denne måten:  X ~ N(µ, σ), som leses “X er en normalfordelt variabel med forventning (gjennomsnitt) µ og standardavvik (spredning) σ.” I en standard normalfordeling er µ = 0 og σ = 1, altså N(0, 1). Når vi regner, er det vanlig å gjøre om frekvensfordelingen til en standard normalfordeling. Da bruker vi Z-verdier, som regnes ut på formen Z = (X − µ) / σ. Z er da X i den tenkte normalfordelingen.

Hvorfor er normalfordelingen nyttig?

  1. Mange fenomener er ~normalfordelte
  2. En sum av mange uavhengige størrelser der ingen dominerer er tilnærmet normalfordelt
    Sentralgrensesetningen

Å regne ut en binomisk sannsynlighetsfordeling kan bli tungt om det blir for mange forsøk, selv med datamaskin. Derfor er det vanlig å bruke normalfordeling som en tilnærming den binomiske. Ved tilnærmingen bruker vi at µ = n*p og σ = np(1-p). Helt generelt, funker tilnærmingen best når np >= 5 og n(1-p) >= 5. 

Normalfordeling av gjennomsnittsverdiene
Med gjennomsnittsverdiene mener vi da gjennomsnittene til verdiene i tenkte utvalg av en gitt populasjon. Et eksempel kan være at vi plukker ut grupper på 1000 personer og ber dem rangere “Ex on the Beach” fra 1-10. Vi tar så gjennomsnittsrangeringene i de ulike gruppene og normalfordeler dem. Konfidensintervallet handler om hvorvidt den “sanne verdien” for hele populasjonen er med i fordelingen. Med “hele populasjonen”, mener vi da f.eks. alle personer som har sett “Ex on the Beach” Det finnes jo et “sant gjennomsnitt” dersom vi hadde spurt absolutt alle og regnet på det. Poenget er at vi ikke har gjort det, men at det likevel er sannsynlig at den “sanne verdien” ligger blant de ulike gjennomsnittsverdiene. Når vi snakker om SE i forbindelse med en gjennomsnittsfordeling er det i grunn det samme som standardavviket deres (hvis alltid er mindre enn i den opprinnelige datamengden). Forventningen er da µ og standardfeilen σ / sqrt(n). Formelen blir da Z = (X − µ) / (σ / sqrt(n)), gitt at vi kjenner σ til populasjonen. Jo større utvalg når vi regner ut gjennomsnittsverdiene, jo mindre variasjon blir det.


ForeleserMagne Thoresen

Ressurser
Pres

Binomisk fordeling

Hovedsakelig en presentasjon med utdypning.

Eksempler på begivenheter som kan være ikke-uavhengige:

  • Gjentatte observasjoner av samme subjekt
  • Slektskap mellom individer (genetisk predisposisjon)
  • Smittsomme sykdommer

Binomisk fordeling
For å kunne ta i bruk binomiske fordelinger må vi innfri visse krav:

  • Begivenhetene må være uavhengige
  • Begivenhetene må være binære (to utfall)
  • Sannsynlighetene for utfallene må være statiske

Hvor mange vil vi forvente?
E(X) – forventning til X
n – totalmengden
P – sannsynlighet for X

E(X) = n*P

Standardavvik
SD(X) – Standard deviation of X (Standardavviket til X)
n – totalmengden
p – sannsynlighet for X
Varians.PNG

Mer om dette


ForeleserMagne Thoresen

Ressurser
Presentasjon

 

 

Bayes lov

Bayes lov er typisk den regneregelen som blir gitt mest på eksamen. Ikke tolk det som at de andre formlene overhodet ikke kan gis. Vi bruker Bayes formel bl.a. når vi skal beregne usikkerhet i diagnostiske tester (HIV, mammografi, HCG (graviditetstest). 

Sensitivitet
Sannsynligheten for at en test slår positivt (P) gitt at personen er syk (S). Med andre ord, sannsynligheten for at testen gir et positiv utslag når du er syk. 

Spesifisitet
Sannsynligheten for at en test slår negativt (iP) gitt at personen er frisk (iS). Med andre ord, sannsynligheten for at testen gir et negativt utslag når du er frisk. 

Positiv prediktiv verdi
Sannsynligheten for at en person er syk (S) gitt et positivt utslag (P). Med andre ord, sannsynligheten for at du faktisk er syk dersom testen har gitt et positivt uslag.

Negativ prediktiv verdi
Sannsynligheten for at en person er frisk (iS) gitt et negativt utslag (iP). Med andre ord, sannsynligheten for at du faktisk er frisk dersom testen har gitt et negativt utslag.

Denne bør være høy. Dersom en stor del av de negative utslagene er feil kan vi oppleve å ende opp med grupper som er syke, men som tror de er friske (og systemet). Dette er farlig bl.a. fordi de da fortsetter ubehandlet (dårlig for dem selv) og eventuelt fører smitten videre til andre (dårlig for samfunnet).

Prediktive verdier er avhengig av prevalensen til diagnosen. Ved lav prevalens går PPV ned. Det vil si at sannsynligheten for at en positiv test faktisk viser riktig blir mindre. En lav PPV er spesielt aktuelt ved masseundersøkelser. Vi kan ende opp med at de fleste av personene med positiv prøve faktisk er friske! Derfor er det viktig med høy spesifisitet, da i allefall de negative utslagene vil være å stole på. 

Forklaring på forhold mellom sensitivitet og spesifisitet, og PPV og NPV.
Anta teoretisk sensitivitet = 0.9.
Anta teoretisk spesifisitet = 0.9.

Sensitivitet sier at medisinen har en 90% sjanse for å riktig si at du er syk, men også 10% sjanse for å si at du er feilaktig frisk (syk person er frisk). Spesifisitet sier at medisinen har en 90% sjanse for å riktig si at du er frisk, men også 10% sjanse for at du er feilaktig syk (frisk person er syk). Det er en grunn til at det heter sykdom, så det vil i nesten alle tilfeller være mange flere som er friske. Dersom spesifisiteten ikke er høy nok, vil de 10% som får et feilaktig positivt utslag på at de er syke være flere enn de 90% som får et riktig et. Med andre ord, vil antall feilaktig positive utslag være større enn antall riktig positive utslag, dvs. at antallet friske vil være større enn faktisk syke blant de med positive utslag. 10% av 1000 er 100, mens 90% av 10 er 9. PPV = 9/109 ~= 0.083 = 8.3%. Så av de som får positivt utslag er bare 8.3% faktisk syke. 

Det er derfor vi sier at prediktive verdier er avhengig av prevalens. Dersom vi øker antall syke i testutvalget, dvs. at 90% er 1000, vil vi få en høyere PPV. Dette går imidlertid på bekostning av en lavere NPV dersom sensitiviteten forblir den samme. Flere syke, men samme sensitivitet vil si at vi får flere faktisk syke, men også flere feilaktig friske. Antall feilaktig friske er en faktor i NPV, mens antall faktisk syke er en faktor i PPV.

Mange diagnostiske tester baserer seg på en grenseverdi som bestemmer definisjonen på friske og syke. Dersom grenseverdien blir lagt til 0, vil i praksis ALLE bli diagnostisert som syke (alle under 0 er friske, alle over 0 er syke). Alle som er syke vil få et positivt utslag, dvs. at sensitiviteten er 100%. På den andre siden vil ingen få et utslag som er negativt, og spesifisiteten derfor 0%. Det vil være balansegang mellom høy spesifisitet og høy sensitivitet. Hva som er viktigst / hvilke verdier som er fornuftige avhenger av situasjonen.

Det er en del regneeksempler i presentasjonen.


ForeleserMagne Thoresen

Ressurser
Presentasjon