Gruppeøvelser i statistikk

Oppgave 6
Symptomer som vedvarende hoste og blodtilblandet oppspytt kan være symptomer på lungekreft, og vi vil studere denne muligheten nærmere. I data fra Kreftregisteret finner vi at det i 1993 var fem tilfeller av lungekreft blant norske menn i alderen 30‐39 år. Befolkningstallet av menn i denne aldersgruppen var 325.000. Prevalensen av lungekreft vil omtrent være lik insidensen og kan derfor settes lik 5/325.000.

1. Vedvarende hoste kan være et symptom på lungekreft. Hvis slik hoste betraktes som
en diagnostisk indikator, kan en anslå at sensitiviteten er 95%, mens spesifisiteten er
90%. Forklar hva disse tallene betyr i den konkrete sammenhengen vi har her.
Sensitivitet
Hva er sannsynlighet for at en syk pasient får positivt utslag på en test?
Sannsynligheten for at pasienten har hoste gitt lungekreft.

Spesifisitet
Hva er sannsynligheten for at en frisk pasient får negativt utslag på en test?
Sannsynligheten for at pasienten ikke har hoste gitt ikke lungekreft.

2. Beregn den positive prediktive verdi av hoste som symptom på lungekreft for en mann
i alderen 30‐39 år. Forklar hva tallet betyr.
Sensitivitet: 0.95
Spesifisitet: 0.90
Vi bruker Bayes lov:
PPV = Sensitivitet * Prevalens / (Sensitivitet * Prevalens + (1 – Spesifisitet) * (1 – Prevalens)) = (0.95 * 5/325000) / ((0.95 * 5/325000) + (1 – 0.90) * (1 – 5/325000)) ~= 0.000146 = 0.00015 = 0.015%

PPV er sannsynligheten for at en positiv diagnose er riktig.

3. Sammenlign med prevalensen: hvor mye vil sannsynligheten for lungekreft være
forøket når det foreligger vedvarende hoste?
PPV: Sannsynligheten for at pasienten har lungekreft gitt hoste, dvs. 0.015%. Prevalensen er 0.0015%. En pasient med vedvarende hoste er ti ganger mer sannsynlig å ha lungekreft.

4. Hvis det foreligger både vedvarende hoste og blodtilblandet oppspytt, og vi betrakter
kombinasjonen som en diagnostisk indikator for lungekreft, vil sensitiviteten bli
redusert til 90%, mens spesifisiteten øker til 99%. Forklar hvorfor det å innføre en
kombinasjon av to symptomer, og forlange at begge skal være tilstede, generelt må
forventes å føre til redusert sensitivitet og forøket spesifisitet.
Sensitiviteten i denne sammenhengen vil da være sannsynligheten for at en pasient med lungekreft har både vedvarende hoste og blodtilblandet oppspytt. Kriteriene er strengere og det er derfor færre pasienter som regnes med enn når vi bare behøvde en enkel indikator. På den andre siden er det flere som blir regnet med i spesifisiteten, da alle andre kombinasjoner enn begge symptomer havner i spesifisiteten (dvs. enten vedvarende hoste eller blodtilblandet oppspytt og ingen av delene vs. begge deler).

5. Hvis det i tillegg er kjent at pasienten røyker 20‐25 sigaretter per dag vil prevalensen
være ti ganger så høy som det som ble benyttet ovenfor. Beregn nå den positive
prediktive verdi. Hvor mye er den forøket i forhold til det du fant over? Bruk
sensitivitet og spesifisitet fra pkt. 1.
Sensitivitet: 0.95
Spesifisitet: 0.90
Vi bruker Bayes lov:
PPV = Sensitivitet * Prevalens / (Sensitivitet * Prevalens + (1 – Spesifisitet) * (1 – Prevalens)) = (0.95 * (50/325000)) / ((0.95 * (50/325000)) + (1 – 0.90) * (1 – (50/325000))) ~= 0.00146 = 0.146% ~= 0.15%. Denne er 100 ganger større enn 0.0015%.

Oppgave 7
1. Forklar hva vi mener med en binomisk sannsynlighetsfordeling. Hvilke betingelser må
være oppfylt for at variabel skal være binomisk fordelt?
ref
En suksessfordeling av binære utfall ved n forsøk.

  • Begivenhetene må være uavhengige
  • Begivenhetene må være binære (to utfall)
  • Sannsynlighetene for utfallene må være statiske

2. Diskuter hva vi mener med en statistisk nullhypotese og alternativhypotesen.
Ved hypotesetesting forsøker vi å bevise en alternativhypotese ved å falsifisere en (nøytral) nullhypotese. Nullhypotesen er en beskrivelse av en antatt virkelighet. Alternativhypotesen er en beskrivelse vi prøver å bevise er en bedre antagelse.

3. Sett opp en nullhypotese og en alternativhypotese for sannsynligheten p i en binomisk
situasjon.
ref

4. Diskuter hva vi mener med en p-verdi. Hvordan regner vi ut en p-verdi i en binomisk
situasjon?
ref

En (europeisk) rulett har 37 felter, som er nummerert 0 og 1 til 36. Feltet 0 har fargen grønn, 18 er røde og 18 er sorte. Croupieren (spillelederen) spinner hjulet og ruller en liten ball langs hjulet i motsatt retning. Hjulet er balansert slik at det er like sannsynlig å lande på alle feltene. Spillerne kan spille på alle kombinasjoner av tall og farger.

5. Hva er sannsynligheten for at kulen skal falle på rødt?
18/37

6. En spiller bestemmer seg for å spille 6 ganger. Han teller opp antall ganger kulen
faller på rødt felt og kaller dette antallet for X. Hva slags sannsynlighetsfordeling har
da X?
Binomisk fordeling

7. Spilleren observerer at det kommer rødt 6 ganger etter hverandre. Han betviler at
spillet er rettferdig, og vil bruke sin statistiske kunnskap til å utføre en statistisk test
før han bestemmer seg for å «avsløre» om spillet er urettferdig. Hva er den statistiske
nullhypotesen og hva er alternativhypotesen han setter opp?
H0: P(R) = 18/37
H1: P(R) != 18/37 (i denne sammenheng P(R) > 18/37)

8. Spilleren baserer selve testen på antall ganger han får rødt, altså X, og velger å forkaste
nullhypotesen når X er stor. Hva er p-verdien for testen han utfører?
P(6R) = (6 av 6) * (18/37)^6 * (19/37)^0 = (6!/6!) * (18/37)^6 ~= 0.013 = 1.3%. P-verdien er 1.3%. Dette er under det typiske signifikansnivået på 5% som vil si at vi kan forkaste H0.

9. Hvis spilleren hadde observert 5 røde, og ikke 6 som over, hva hadde p-verdien vært
da?
P(5R) = (5 av 6) * (18/37)^5 * (19/37) = (6!/(5!)) * … ~= 0.084 = 8.4%. Dette er over det typiske signifikansnivået på 5% som vil si at vi ikke kan forkaste H0.

10. Basert på resultatet med 6 kuler på rad på rødt, vil du gå til ledelsen for kasinoet og
fortelle dem at spillet deres er urettferdig?
Det kan jo godt være en tilfeldighet, men om det skjedde konsekvent ville jeg sagt ifra. Utvalget vårt (antall observasjoner) er for “øyeblikket” for lite til å konkludere med sikkerhet.

Oppgave 8
Vi vet at forhøyet kolesterol er en risikofaktor for hjertesykdom. Det kan derfor være viktig å holde kolesterolnivået lavt, og forhindre moderat eller uttalt forhøyet nivå. Vi sier i denne sammenhengen at forhøyet kolesterol er verdier over 250 mg/dL (=6.5 mmol/l).Vi ønsker å kontrollere kolesterolnivået hos barn. Fra tidligere vet vi fra store studier av

kolesterol (i blod) hos barn i alderen 2-14 år at gjennomsnittet er 175 mg/dL og
standardavviket er 30 mg/dL.

1. Anta nå at målt kolesterol kan betraktes som normalfordelt. Hva er da sannsynligheten
for at et barn skal ha kolesterolnivå over 250 mg/dL?
μ = 175 mg/dL
σ = 30 mg/dL
Vi standardiserer fordelingen ved Y = (X – μ)/σ.
P(Y > 250) = 1- P(Y < 250) = 1 – P((X – 250)/30 < ((175 – 250)/30) = 1 – P((X – 175)/30 < -2.5) = 1- (1 – P((X – 175)/30 < 2.5)) = 0.9938 = 0.0062 = 0.62%

2. Hvis vi undersøker 50.000 barn hvert år, hvor mange vil vi oppdage med forhøyet
kolesterolverdi?
E(X) = 50000 * 0.0062 = 310

3. Hvor høyt kolesterolnivå har du hvis du er blant de 10% med høyest kolesterol?
P(Y < z) = 0.9
Sannsynligheten for å finne en verdi med standardavvik mindre enn en tenkt standardisert verdi x er 90%, dvs. den tenkte verdien er blant de høyeste 10%.

Ser i tabellen og finner at x = 1.28. Det nærmeste vi kommer 0.9000 er 0.8997. Gjør om fra standardisert format ved Y = (X – μ)/σ. 1.28 = (X – 175)/30 –> X = 213.4. Det vil si at en må ha kolesterolnivå på minst ~213.4 mg/dL for å kvalifiseres innen topp 10%.

Vi antar at det er sammenheng mellom forhøyet kolesterol hos foreldre og hos barn. I et
utvalg av menn som har hatt hjerteinfarkt og som har forhøyede kolesterolverdier (altså
verdier ≥ 250 mg/dL), måles kolesterolverdiene til deres barn i alderen 2-14. Gjennomsnittlig kolesterol for disse er 207 mg/dL, fortsatt med et standardavvik på 30 mg/dL.

4. Hva er sannsynligheten for at et barn, med en far som har hatt hjerteinfarkt, skal ha et
kolesterolnivå mellom 207 mg/dL og 250 mg/dL?
P(Y>207) og P(Y<250)
Y = (X – μ)/σ.
P((X – 207)/30 > (207 – 207)/30)  = 1 – P((X – 207)/30 < 0) = 0.5000
P((X – 207)/30 < (250-207)/30) = P((X – 207)/30 < 1.43) = 0.9236
0.9236 – 0.5000 = 0.4236

5. Hva er sannsynligheten for at et barn med en far som har hatt hjerteinfarkt skal ha
forhøyet kolesterolverdi?
P(Y>250) = 1 – P(Y<250) = 1 – P((X-207)/30) < (250-207)/30) = 1 – 0.9236 = 0.0764 = 7.64%

6. Hvis man undersøker 1.000 barn med fedre som har hatt infarkt, hvor mange vil man
da oppdage? Kommenter dette resultatet opp mot det du fant i 2.
1000 * 0.0764 = 76.4
50000 * 0.0764 = 3820
I #2 var det 310.
3820 / 310 ~= 12.3 ganger flere.
(Evt. 0.0764 / 0.0062 ~= 12.3)

7. Vil du anbefale tester av kolesterol blant barn (og av utvalgte risikogrupper) for å
avsløre forhøyet kolesterol?
Ja.

Vi ser på ut utvalg på 10 barn som har fedre som har hatt hjerteinfarkt og som har forhøyede kolesterolverdier. Sannsynligheten for at et tilfeldig valgt barn har forhøyet kolesterolverdier er den du fant i 5.

8. Kan dette antas å være et binomisk forsøk? Hvilke kriterier må være til stede?
En suksessfordeling av binære utfall ved n forsøk.

  • Begivenhetene må være uavhengige
  • Begivenhetene må være binære (to utfall)
  • Sannsynlighetene for utfallene må være statiske

Ja.

9. Hva er sannsynligheten for at mindre enn 2 av disse har forhøyet kolesterolverdier? Er
det greit å bruke tilnærmingen til normalfordelingen her?
Nei, da utvalget ikke er stort nok.

Mindre enn 2 = 1 og 0
P(<2) = (1 av 10) * 0.0764^1 * (1-0.0764)^9 + (0 av 10) * 0.0764^0 * (1-0.0764)^10
P(<2) = 0.3736 + 0.4517 = 0.8253 ~= 0.83 = 83%


ForeleserSimon Lergenmuller

Ressurser
Oppgaver

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s