Gruppeøvelser i statistikk

Oppgave 6
Symptomer som vedvarende hoste og blodtilblandet oppspytt kan være symptomer på lungekreft, og vi vil studere denne muligheten nærmere. I data fra Kreftregisteret finner vi at det i 1993 var fem tilfeller av lungekreft blant norske menn i alderen 30‐39 år. Befolkningstallet av menn i denne aldersgruppen var 325.000. Prevalensen av lungekreft vil omtrent være lik insidensen og kan derfor settes lik 5/325.000.

1. Vedvarende hoste kan være et symptom på lungekreft. Hvis slik hoste betraktes som en diagnostisk indikator, kan en anslå at sensitiviteten er 95%, mens spesifisiteten er 90%. Forklar hva disse tallene betyr i den konkrete sammenhengen vi har her.
Sensitivitet
Hva er sannsynlighet for at en syk pasient får positivt utslag på en test?
Sannsynligheten for at pasienten har hoste gitt lungekreft.

Spesifisitet
Hva er sannsynligheten for at en frisk pasient får negativt utslag på en test?
Sannsynligheten for at pasienten ikke har hoste gitt ikke lungekreft.

2. Beregn den positive prediktive verdi av hoste som symptom på lungekreft for en mann i alderen 30‐39 år. Forklar hva tallet betyr.
Sensitivitet: 0.95
Spesifisitet: 0.90
Vi bruker Bayes lov:
PPV = Sensitivitet * Prevalens / (Sensitivitet * Prevalens + (1 – Spesifisitet) * (1 – Prevalens)) = (0.95 * 5/325000) / ((0.95 * 5/325000) + (1 – 0.90) * (1 – 5/325000)) ~= 0.000146 = 0.00015 = 0.015%

PPV er sannsynligheten for at en positiv diagnose er riktig.

3. Sammenlign med prevalensen: hvor mye vil sannsynligheten for lungekreft være forøket når det foreligger vedvarende hoste?
PPV: Sannsynligheten for at pasienten har lungekreft gitt hoste, dvs. 0.015%. Prevalensen er 0.0015%. En pasient med vedvarende hoste er ti ganger mer sannsynlig å ha lungekreft.

4. Hvis det foreligger både vedvarende hoste og blodtilblandet oppspytt, og vi betrakter kombinasjonen som en diagnostisk indikator for lungekreft, vil sensitiviteten bli redusert til 90%, mens spesifisiteten øker til 99%. Forklar hvorfor det å innføre en kombinasjon av to symptomer, og forlange at begge skal være tilstede, generelt må forventes å føre til redusert sensitivitet og forøket spesifisitet.
Sensitiviteten i denne sammenhengen vil da være sannsynligheten for at en pasient med lungekreft har både vedvarende hoste og blodtilblandet oppspytt. Kriteriene er strengere og det er derfor færre pasienter som regnes med enn når vi bare behøvde en enkel indikator. På den andre siden er det flere som blir regnet med i spesifisiteten, da alle andre kombinasjoner enn begge symptomer havner i spesifisiteten (dvs. enten vedvarende hoste eller blodtilblandet oppspytt og ingen av delene vs. begge deler).

5. Hvis det i tillegg er kjent at pasienten røyker 20‐25 sigaretter per dag vil prevalensen være ti ganger så høy som det som ble benyttet ovenfor. Beregn nå den positive prediktive verdi. Hvor mye er den forøket i forhold til det du fant over? Bruk sensitivitet og spesifisitet fra pkt. 1.
Sensitivitet: 0.95
Spesifisitet: 0.90
Vi bruker Bayes lov:
PPV = Sensitivitet * Prevalens / (Sensitivitet * Prevalens + (1 – Spesifisitet) * (1 – Prevalens)) = (0.95 * (50/325000)) / ((0.95 * (50/325000)) + (1 – 0.90) * (1 – (50/325000))) ~= 0.00146 = 0.146% ~= 0.15%. Denne er 100 ganger større enn 0.0015%.

Oppgave 7
1. Forklar hva vi mener med en binomisk sannsynlighetsfordeling. Hvilke betingelser må være oppfylt for at variabel skal være binomisk fordelt?
ref
En suksessfordeling av binære utfall ved n forsøk.

  • Begivenhetene må være uavhengige
  • Begivenhetene må være binære (to utfall)
  • Sannsynlighetene for utfallene må være statiske

2. Diskuter hva vi mener med en statistisk nullhypotese og alternativhypotesen.
Ved hypotesetesting forsøker vi å bevise en alternativhypotese ved å falsifisere en (nøytral) nullhypotese. Nullhypotesen er en beskrivelse av en antatt virkelighet. Alternativhypotesen er en beskrivelse vi prøver å bevise er en bedre antagelse.

3. Sett opp en nullhypotese og en alternativhypotese for sannsynligheten p i en binomisk situasjon.
ref

4. Diskuter hva vi mener med en p-verdi. Hvordan regner vi ut en p-verdi i en binomisk situasjon?
ref

En (europeisk) rulett har 37 felter, som er nummerert 0 og 1 til 36. Feltet 0 har fargen grønn, 18 er røde og 18 er sorte. Croupieren (spillelederen) spinner hjulet og ruller en liten ball langs hjulet i motsatt retning. Hjulet er balansert slik at det er like sannsynlig å lande på alle feltene. Spillerne kan spille på alle kombinasjoner av tall og farger.

5. Hva er sannsynligheten for at kulen skal falle på rødt?
18/37

6. En spiller bestemmer seg for å spille 6 ganger. Han teller opp antall ganger kulen faller på rødt felt og kaller dette antallet for X. Hva slags sannsynlighetsfordeling har da X?
Binomisk fordeling

7. Spilleren observerer at det kommer rødt 6 ganger etter hverandre. Han betviler at spillet er rettferdig, og vil bruke sin statistiske kunnskap til å utføre en statistisk test før han bestemmer seg for å «avsløre» om spillet er urettferdig. Hva er den statistiske nullhypotesen og hva er alternativhypotesen han setter opp?
H0: P(R) = 18/37
H1: P(R) != 18/37 (i denne sammenheng P(R) > 18/37)

8. Spilleren baserer selve testen på antall ganger han får rødt, altså X, og velger å forkaste nullhypotesen når X er stor. Hva er p-verdien for testen han utfører?
P(6R) = (6 av 6) * (18/37)^6 * (19/37)^0 = (6!/6!) * (18/37)^6 ~= 0.013 = 1.3%. P-verdien er 1.3%. Dette er under det typiske signifikansnivået på 5% som vil si at vi kan forkaste H0.

9. Hvis spilleren hadde observert 5 røde, og ikke 6 som over, hva hadde p-verdien vært da?
P(5R) = (5 av 6) * (18/37)^5 * (19/37) = (6!/(5!)) * … ~= 0.084 = 8.4%. Dette er over det typiske signifikansnivået på 5% som vil si at vi ikke kan forkaste H0.

10. Basert på resultatet med 6 kuler på rad på rødt, vil du gå til ledelsen for kasinoet og fortelle dem at spillet deres er urettferdig?
Det kan jo godt være en tilfeldighet, men om det skjedde konsekvent ville jeg sagt ifra. Utvalget vårt (antall observasjoner) er for “øyeblikket” for lite til å konkludere med sikkerhet.

Oppgave 8
Vi vet at forhøyet kolesterol er en risikofaktor for hjertesykdom. Det kan derfor være viktig å holde kolesterolnivået lavt, og forhindre moderat eller uttalt forhøyet nivå. Vi sier i denne sammenhengen at forhøyet kolesterol er verdier over 250 mg/dL (=6.5 mmol/l). Vi ønsker å kontrollere kolesterolnivået hos barn. Fra tidligere vet vi fra store studier av 
kolesterol (i blod) hos barn i alderen 2-14 år at gjennomsnittet er 175 mg/dL og standardavviket er 30 mg/dL.

1. Anta nå at målt kolesterol kan betraktes som normalfordelt. Hva er da sannsynligheten for at et barn skal ha kolesterolnivå over 250 mg/dL?
μ = 175 mg/dL
σ = 30 mg/dL
Vi standardiserer fordelingen ved Y = (X – μ)/σ.
P(Y > 250) = 1- P(Y < 250) = 1 – P((X – 175)/30 < ((250 – 175)/30) = 1 – P((X – 175)/30 < 2.5) = 1 – 0.9938 = 0.0062 = 0.62%
*Har stått feil her tidligere (-2.5), men riktig svar

2. Hvis vi undersøker 50.000 barn hvert år, hvor mange vil vi oppdage med forhøyet kolesterolverdi?
E(X) = 50000 * 0.0062 = 310

3. Hvor høyt kolesterolnivå har du hvis du er blant de 10% med høyest kolesterol?
P(Y < z) = 0.9
Sannsynligheten for å finne en verdi med standardavvik mindre enn en tenkt standardisert verdi x er 90%, dvs. den tenkte verdien er blant de høyeste 10%.

Ser i tabellen og finner at x = 1.28. Det nærmeste vi kommer 0.9000 er 0.8997. Gjør om fra standardisert format ved Y = (X – μ)/σ. 1.28 = (X – 175)/30 –> X = 213.4. Det vil si at en må ha kolesterolnivå på minst ~213.4 mg/dL for å kvalifiseres innen topp 10%.

Vi antar at det er sammenheng mellom forhøyet kolesterol hos foreldre og hos barn. I et utvalg av menn som har hatt hjerteinfarkt og som har forhøyede kolesterolverdier (altså verdier ≥ 250 mg/dL), måles kolesterolverdiene til deres barn i alderen 2-14. Gjennomsnittlig kolesterol for disse er 207 mg/dL, fortsatt med et standardavvik på 30 mg/dL.

4. Hva er sannsynligheten for at et barn, med en far som har hatt hjerteinfarkt, skal ha et kolesterolnivå mellom 207 mg/dL og 250 mg/dL?
P(Y>207) og P(Y<250)
Y = (X – μ)/σ.
P((X – 207)/30 > (207 – 207)/30)  = 1 – P((X – 207)/30 < 0) = 0.5000
P((X – 207)/30 < (250-207)/30) = P((X – 207)/30 < 1.43) = 0.9236
0.9236 – 0.5000 = 0.4236

5. Hva er sannsynligheten for at et barn med en far som har hatt hjerteinfarkt skal ha forhøyet kolesterolverdi?
P(Y>250) = 1 – P(Y<250) = 1 – P((X-207)/30) < (250-207)/30) = 1 – 0.9236 = 0.0764 = 7.64%

6. Hvis man undersøker 1.000 barn med fedre som har hatt infarkt, hvor mange vil man da oppdage? Kommenter dette resultatet opp mot det du fant i 2.
1000 * 0.0764 = 76.4
50000 * 0.0764 = 3820
I #2 var det 310.
3820 / 310 ~= 12.3 ganger flere.
(Evt. 0.0764 / 0.0062 ~= 12.3)

7. Vil du anbefale tester av kolesterol blant barn (og av utvalgte risikogrupper) for å avsløre forhøyet kolesterol?
Ja.

Vi ser på ut utvalg på 10 barn som har fedre som har hatt hjerteinfarkt og som har forhøyede kolesterolverdier. Sannsynligheten for at et tilfeldig valgt barn har forhøyet kolesterolverdier er den du fant i 5.

8. Kan dette antas å være et binomisk forsøk? Hvilke kriterier må være til stede?
En suksessfordeling av binære utfall ved n forsøk.

  • Begivenhetene må være uavhengige
  • Begivenhetene må være binære (to utfall)
  • Sannsynlighetene for utfallene må være statiske

Ja.

9. Hva er sannsynligheten for at mindre enn 2 av disse har forhøyet kolesterolverdier? Er det greit å bruke tilnærmingen til normalfordelingen her?
Nei, da utvalget ikke er stort nok.

Mindre enn 2 = 1 og 0
P(<2) = (1 av 10) * 0.0764^1 * (1-0.0764)^9 + (0 av 10) * 0.0764^0 * (1-0.0764)^10
P(<2) = 0.3736 + 0.4517 = 0.8253 ~= 0.83 = 83%


ForeleserSimon Lergenmuller

Ressurser
Oppgaver

Gruppeøvelser i statistikk

Oppgave 3
En (europeisk) rulett har 37 felter, som er nummerert 0 og 1 til 36. Feltet 0 har fargen grønn, 18 er røde og 18 er sorte. For mer informasjon, se http://no.wikipedia.org/wiki/Rulett. Croupieren (spillelederen) spinner hjulet og ruller en liten ball langs hjulet i motsatt retning. Hjulet er balansert slik at det er like sannsynlig å lande på alle feltene. Spillerne kan spille på alle kombinasjoner av tall og farger.

1. Hva er sannsynlighetene for å falle i hvert av feltene?
1/37

2. En spiller som spiller på rødt, vinner hvis ballen lander på et rødt felt. Hva er sannsynligheten for dette?
18/37

3. Spillekasinoet har bestemt at dersom kulene lander på feltet 0 (”huset vinner”), går innsatsen til spillerne til spillekasinoet. Hva er sannsynligheten for at spillekasinoet skal få innsatsen til en spiller?
1/37 P for at kulen lander på 0
19/37 for å tape gitt at sats på 0 ikke er mulig

4. Du går i spillekasinoet en kveld og bestemmer deg for å spille 20 ganger. Hver gang satser du 1000 kroner og hele tiden satser du på rødt. Hver gang kulen lander på sort eller på 0, går pengene dine til spillekasinoet, og hver gang det blir rødt, får du igjen det dobbelte av det du satset. Kan du forvente å vinne på dette spillet? Hvis ikke, hvor mye vil du i så fall måtte forvente å tape?
E(r) = 18/37 * 20 = 9.73
E(ir) = 19/37 * 20 = 10.27

Vi ser at andelen spill vi kan forvente å vinne blir mindre etterhvert som vi spiller flere spill. Om vi spiller 20 ganger kan vi forvente å vinne ~48.65% av gangene, altså 9.73 eller ~10 spill. Likeså forventer vi å tape ~51.35% av gangene, altså 10.27 eller ~ 10 spill. Ettersom vi bare kan spille “hele spill”, kan vi si at vi forventer å gå i null, men at sannsynligheten for at vi taper er større enn at vi vinner.

5. En annen spiller har observert at det har kommet rødt seks ganger etter hverandre. Han synes dette er mistenkelig og konkluderer med at ”rødt er i skuddet”, og vil fra da av satse bare på rødt. Hvis spillet er «rettferdig» i den forstand at sannsynligheten er som vi antok i pkt. 2, hva er da sannsynligheten for at kulen skal falle på rødt 6 ganger etter hverandre?
P(6rød) = (18/37)^6 ~= 0.013 = 1.3%

6. Spilleren mener at sannsynligheten for å falle på rødt kanskje kan være så høy som 0.6, siden kulen faller så ofte på rødt. Hva er sannsynligheten for at det skal komme rødt seks ganger hvis sannsynligheten er 0.6?
P(6rød) = (0.6)^6 ~= 0.047 = 4.7%

7. Spilleren vil gå til spillelederen og si at spillet ikke er rettferdig. Hva vil du si til denne spilleren? For å begrunne svaret ditt kan du tenke deg at spillelederen i løpet av en kveld rekker å spille 1000 sekvenser à 6 spill. Hvor mange av disse sekvensene kan vi forvente vil gi 6 røde på rad, når spillet er «rettferdig»?
P(6rød) ~= 0.013.
E(x) = 0.013*1000 = 13 sekvenser

Oppgave 4
En meteorolog som er ansatt på Værnes har fått gjentatte klager fordi han ikke klarer å treffe med værmeldingene sine. For å vurdere kvaliteten på det utførte arbeidet har sjefen hans laget en tabell med observerte frekvenser for hva meteorologen meldte og det det været som faktisk ble observert. 

Værbilde.PNGBruk sannsynlighetsregnereglene vi har lært til å svare på følgende spørsmål:

1. Hva er sannsynligheten for sol?
Addisjonsregelen.
P(S) = 0.3 + 0.05 + 0.05 = 0.4 = 40%

2. Hva er sannsynligheten for at meteorologen tar feil?
Komplementsetningen.
P(F) = P(iR) = 1 – P(R) = 1 – (0.3+0.2+0.2) = 1 – (0.7) = 0.3 = 30%

3. Hva er sannsynligheten for at for det kommer regn når meteorologen sier det blir sol?
P(R|OS) = 0.1 / 0.44 ~= 0.23 = 23%

Oppgave 5
Vi er interessert i å se på sammenhengen mellom en test og en sykdom for å undersøke testens evne til å skille mellom syke og friske. Vi ser på et utvalg av 50.000 personer som har blitt testet for en bestemt sykdom. Av disse har 100 sykdommen. Av de 100 som har sykdommen er det 95 som får positivt testresultat. Av de som er friske er det 48902 personer som får negativt testresultat.

1. Sett opp en tabell som viser antall syke/friske med positiv/negativ test.
Test1.PNG
2. Hva er sannsynligheten i dette utvalget for å ha sykdommen?
Prevalens = 100 / 50000 = 1/500 = 0.002 = 0.2%

3. Hva er testens sensitivitet og spesifisitet, og hva betyr dette i ord?
Sensitivitet = P(P|S) = 95 / 100 = 95%
Spesifisitet = P(N|F) = 48902 / 49900 = 98%
*Har stått feil her tidligere (50000)

4. Hva er den positive prediktive verdi av testen? Hva betyr dette i ord, og hva betyr dette for testens praktiske verdi?
PPV = P(S|P) = 95 / 1093 ~= 0.087 = 8.7%
Når bare 8.7% av de positive utslagene er riktige er det nok ikke lurt å bruke testen som veiledende for pasientbehandling.

5. Finn også hva negativ prediktiv verdi av testen er.
NPV = P(F|N) = 48902 / 48907 ~= 0.999 = 99.9%
Ettersom PPV er lav, men NPV høy, er det rimelig å anta at testens styrke ligger i å minske utvalget ved å kjemme bort de som i allefall ikke er syke, altså de friske. Når det er gjort kan vi gjøre en annen diagnostisk test med høyere PPV, men kanskje lavere NPV.

6. Sett også opp positiv prediktiv verdi og negativ prediktiv verdi ved hjelp av Bayes regel.
PPV
P(S) = Prevalens = 0.002
P(P) = 1093 / 50000 ~= 0.022
P(P|S) = Sensitivitet ~= 0.95
P(S|P) = (P(S) / P(P)) * P(P|S) = (0.002 / 0.024) * 0.95 ~= 0.086 = 8.6%

NPV
P(F) = 49900 / 50000 = 0.998
P(N) = 48907 / 50000 ~= 0.978
P(N|F) = Spesifisitet ~= 0.978
P(F|N) = (P(F) / P(N)) * P(N|F) = (0.998 / 0.978) * 0.978 = 0.998 = 99.8%

7. Hvis vi i stedet tester utsatte risikogrupper, øker sannsynligheten for sykdommen til 5%. Testens sensitivitet og spesifisitet er den samme som du fant i pkt. 3 over. Hva skjer med positiv prediktiv verdi hvis vi ser på 50.000 personer med utsatt risiko for sykdommen?
PPV øker.

Vi ser på en annen type test, der sannsynligheten for å ha sykdommen i utsatte land er 10%. Sannsynligheten for at testen er positiv når man er smittet av sykdommen er 0.999 og sannsynligheten for at testen er negativ når man ikke er smittet er 0.99.

8. Hva er testens sensitivitet og spesifisitet?
Sensitivitet = P(P|S) = 0.999
Spesifisitet = P(N|F) = 0.99

9. Hva blir positiv prediktiv verdi? Bruk Bayes regel.
P(S) = Prevalens = 10%
PPV = Sensitivitet * Prevalens / (Sensitivitet * Prevalens + (1 – Spesifisitet) * (1 – Prevalens)) = 0.999 * 0.1 / (0.999 * 0.1 + (1 – 0.99) * (1 – 0.1)) ~= 0.92 = 92%

10. På verdensbasis er sannsynligheten for å ha sykdommen 1%. Hvis testens sensitivitet og spesifisitet er den samme, hva blir da positiv prediktiv verdi?
P(S) = 1%
PPV = Sensitivitet * Prevalens / (Sensitivitet * Prevalens + (1 – Spesifisitet) * (1 – Prevalens)) = 0.999 * 0.01 / (0.999 * 0.01 + (1 – 0.99) * (1 – 0.01)) ~= 0.50 = 50%

11. Ser du en sammenheng mellom prevalensen av sykdommen og positiv prediktiv verdi?
Ja.
ref


ForeleserMorten Valberg

Ressurser
Oppgaver

Bayes lov

Bayes lov er typisk den regneregelen som blir gitt mest på eksamen. Ikke tolk det som at de andre formlene overhodet ikke kan gis. Vi bruker Bayes formel bl.a. når vi skal beregne usikkerhet i diagnostiske tester (HIV, mammografi, HCG (graviditetstest). 

Sensitivitet
Sannsynligheten for at en test slår positivt (P) gitt at personen er syk (S). Med andre ord, sannsynligheten for at testen gir et positiv utslag når du er syk. 

Spesifisitet
Sannsynligheten for at en test slår negativt (iP) gitt at personen er frisk (iS). Med andre ord, sannsynligheten for at testen gir et negativt utslag når du er frisk. 

Positiv prediktiv verdi
Sannsynligheten for at en person er syk (S) gitt et positivt utslag (P). Med andre ord, sannsynligheten for at du faktisk er syk dersom testen har gitt et positivt uslag.

Negativ prediktiv verdi
Sannsynligheten for at en person er frisk (iS) gitt et negativt utslag (iP). Med andre ord, sannsynligheten for at du faktisk er frisk dersom testen har gitt et negativt utslag.

Denne bør være høy. Dersom en stor del av de negative utslagene er feil kan vi oppleve å ende opp med grupper som er syke, men som tror de er friske (og systemet). Dette er farlig bl.a. fordi de da fortsetter ubehandlet (dårlig for dem selv) og eventuelt fører smitten videre til andre (dårlig for samfunnet).

Prediktive verdier er avhengig av prevalensen til diagnosen. Ved lav prevalens går PPV ned. Det vil si at sannsynligheten for at en positiv test faktisk viser riktig blir mindre. En lav PPV er spesielt aktuelt ved masseundersøkelser. Vi kan ende opp med at de fleste av personene med positiv prøve faktisk er friske! Derfor er det viktig med høy spesifisitet, da i allefall de negative utslagene vil være å stole på. 

Forklaring på forhold mellom sensitivitet og spesifisitet, og PPV og NPV.
Anta teoretisk sensitivitet = 0.9.
Anta teoretisk spesifisitet = 0.9.

Sensitivitet sier at medisinen har en 90% sjanse for å riktig si at du er syk, men også 10% sjanse for å si at du er feilaktig frisk (syk person er frisk). Spesifisitet sier at medisinen har en 90% sjanse for å riktig si at du er frisk, men også 10% sjanse for at du er feilaktig syk (frisk person er syk). Det er en grunn til at det heter sykdom, så det vil i nesten alle tilfeller være mange flere som er friske. Dersom spesifisiteten ikke er høy nok, vil de 10% som får et feilaktig positivt utslag på at de er syke være flere enn de 90% som får et riktig et. Med andre ord, vil antall feilaktig positive utslag være større enn antall riktig positive utslag, dvs. at antallet friske vil være større enn faktisk syke blant de med positive utslag. 10% av 1000 er 100, mens 90% av 10 er 9. PPV = 9/109 ~= 0.083 = 8.3%. Så av de som får positivt utslag er bare 8.3% faktisk syke. 

Det er derfor vi sier at prediktive verdier er avhengig av prevalens. Dersom vi øker antall syke i testutvalget, dvs. at 90% er 1000, vil vi få en høyere PPV. Dette går imidlertid på bekostning av en lavere NPV dersom sensitiviteten forblir den samme. Flere syke, men samme sensitivitet vil si at vi får flere faktisk syke, men også flere feilaktig friske. Antall feilaktig friske er en faktor i NPV, mens antall faktisk syke er en faktor i PPV.

Mange diagnostiske tester baserer seg på en grenseverdi som bestemmer definisjonen på friske og syke. Dersom grenseverdien blir lagt til 0, vil i praksis ALLE bli diagnostisert som syke (alle under 0 er friske, alle over 0 er syke). Alle som er syke vil få et positivt utslag, dvs. at sensitiviteten er 100%. På den andre siden vil ingen få et utslag som er negativt, og spesifisiteten derfor 0%. Det vil være balansegang mellom høy spesifisitet og høy sensitivitet. Hva som er viktigst / hvilke verdier som er fornuftige avhenger av situasjonen.

Det er en del regneeksempler i presentasjonen.


ForeleserMagne Thoresen

Ressurser
Presentasjon