Analyse av to uavhengige grupper: to-utvalgs t-test

Vi bruker to utvalgs t-test når vi skal sammenligne to uavhengige datasett.

Fremgangsmåte

  1. Bestemme hypoteser
    Ofte er H0 slik at µ1 = µ2 og HA: µ1 ≠ µ2
  2. Bestemme α-nivå
  3. Beregne standardavvik og gjennomsnitt for de to gruppene
  4. Vi antar at SD er ~like for de to gruppene og finner felles SD ved Sf = sqrt(((n1 – 1) * s1^2 + (n2 – 1) * s2^2) / n1 + n2 – 2)
  5. Standardfeilen SE(X1 – X2) = Sf * sqrt (1/n1 + 1/n2)
  6. Regne ut teststørrelsen T = (X1 – X2) / SE(X1 – X2)
  7. Sammnligne T med t-verdi fra tabell
    Forkast H0 om T > t

Konfidensintervall
(X1 – X2) +- c * SE(X1 – X2)

Vi antar at gjennomsnittsvariablene som hører til datasettene våre er normalfordelte. Dette gjelder dersom n er tilstrekkelig stor ved sentralgrenseteoremet.


ForeleserMagne Thoresen

Ressurser
Presentasjon

Analyse av pardata: ett-utvalgs t-test

Fortsettelse fra sist
Vi kan ikke gi en fornuftig fortolkning av relativ risiko: 0.64 (36% redusert risiko) uten å vite hvilke tall som ligger bak. Om vi regner på risikodifferansen, finner vi at den er 1%. Forsøket i eksempelet vårt ble stoppet fordi forskerne mente det ikke lenger var forsvarlig å la pasienter stå på placebo. I en større samfunnsgruppe er det hensiktsmessig å se på RR (36%) da selv en liten endring i den reelle risikodifferansen kan utgjøre en forskjell for mange når populasjonen er stor.

Dilemma:
Er det forsvarlig å la en pasient stå / starte en pasient på medikamenter som gjør at en risiko går fra 3% til 2%, men som vedkommende må ta hele livet?

Ny kunnskap
Om vi har et normalfordelt utvalg vil gjennomsnittet også være normalfordelt.
E(X) = μ
SE(X) = σ / sqrt(n)

SE har samme funksjon som SD ved gjennomsnitt. Vi bruker SE ved estimator, SD ved datamengde.

Vi estimerer sigma (empirisk standardavvik) ved s = sqrt(1/(n-1) * sigma(xi-x)^2). Når vi estimerer sigma får vi naturligvis mer usikkerhet og derfor et bredere konfidensintervall (avhengig av størrelse på datamengde da s nærmer seg σ når n blir stor). Vi kan derfor ikke lenger bruke 1.96 som konstant, men en faktor c fra studentfordelingen (t-fordelingen). Den nye formelen blir da x +- c * s/sqrt(n). S er det empiriske standardavviket. Det finnes mange t-fordelinger. Utseende på dem varierer med antall frihetsgrader. Fordi studentfordelingen har mer usikkerhet, har sannsynlighetstettheten tyngre haler (tar for seg flere verdier utover i begge retninger). Vi må derfor litt lenger ut for å ta for oss 95% (derfor C >= 1.96). Vi regner ut antall frihetsgrader ved n – 1. 

T-tabellen viser sannsynligheter for å overstige. Vi leser av 0.025 for å få et 0.05 α-nivå (tosidig). Fra presentasjon: “[…] siden vi skal ha 2.5% over verdien c og tilsvarende 2.5%
under verdien –c.” Vi forkaster H0 dersom verdien overstiger α-nivåverdien. Kjikvadratfordelingen er annerledes ved at vi ikke beregner noe konfidensintervall (gir oss direkte et svar).

Labtester vil ofte oppgi sin sigma, men i praksis må vi nesten alltid estimere den som s. Dersom vi forkaster H0 ved t-test, vil nullverdien (H0) aldri være inkludert i konfidensintervallet. Ved RR, kjikvadrat usw. kan det hende vi finner en/et overlapp.

Foreleser:
Det er ikke krise om den eksplisitte frihetsgraden ikke er gitt i tabellen. Forskjellene når vi får store frihetsgrader blir så små at de egentlig ikke har en stor praktisk betydning (innenfor våre rammer). “Bare begrunn valget.”

Notiser:
En paret t-test er bare en ett-utvalgs t-test på forskjellen mellom de to avhengige datasettene. Vi antar at standardavvikene i de opprinnelige datasettene er ~like. Standardavviket til forskjellene må nødvendigvis være mellom de to opprinnelige. SPSS tester om vi kan anta et tilstrekkelig likt standardavvik, men foreleser sier han ikke pleier å titte på den (dårlig test): “Pleier å krysse over.”


ForeleserMagne Thoresen

Ressurser
Presentasjon

Gruppeøvelser i statistikk

Oppgave 6
Symptomer som vedvarende hoste og blodtilblandet oppspytt kan være symptomer på lungekreft, og vi vil studere denne muligheten nærmere. I data fra Kreftregisteret finner vi at det i 1993 var fem tilfeller av lungekreft blant norske menn i alderen 30‐39 år. Befolkningstallet av menn i denne aldersgruppen var 325.000. Prevalensen av lungekreft vil omtrent være lik insidensen og kan derfor settes lik 5/325.000.

1. Vedvarende hoste kan være et symptom på lungekreft. Hvis slik hoste betraktes som en diagnostisk indikator, kan en anslå at sensitiviteten er 95%, mens spesifisiteten er 90%. Forklar hva disse tallene betyr i den konkrete sammenhengen vi har her.
Sensitivitet
Hva er sannsynlighet for at en syk pasient får positivt utslag på en test?
Sannsynligheten for at pasienten har hoste gitt lungekreft.

Spesifisitet
Hva er sannsynligheten for at en frisk pasient får negativt utslag på en test?
Sannsynligheten for at pasienten ikke har hoste gitt ikke lungekreft.

2. Beregn den positive prediktive verdi av hoste som symptom på lungekreft for en mann i alderen 30‐39 år. Forklar hva tallet betyr.
Sensitivitet: 0.95
Spesifisitet: 0.90
Vi bruker Bayes lov:
PPV = Sensitivitet * Prevalens / (Sensitivitet * Prevalens + (1 – Spesifisitet) * (1 – Prevalens)) = (0.95 * 5/325000) / ((0.95 * 5/325000) + (1 – 0.90) * (1 – 5/325000)) ~= 0.000146 = 0.00015 = 0.015%

PPV er sannsynligheten for at en positiv diagnose er riktig.

3. Sammenlign med prevalensen: hvor mye vil sannsynligheten for lungekreft være forøket når det foreligger vedvarende hoste?
PPV: Sannsynligheten for at pasienten har lungekreft gitt hoste, dvs. 0.015%. Prevalensen er 0.0015%. En pasient med vedvarende hoste er ti ganger mer sannsynlig å ha lungekreft.

4. Hvis det foreligger både vedvarende hoste og blodtilblandet oppspytt, og vi betrakter kombinasjonen som en diagnostisk indikator for lungekreft, vil sensitiviteten bli redusert til 90%, mens spesifisiteten øker til 99%. Forklar hvorfor det å innføre en kombinasjon av to symptomer, og forlange at begge skal være tilstede, generelt må forventes å føre til redusert sensitivitet og forøket spesifisitet.
Sensitiviteten i denne sammenhengen vil da være sannsynligheten for at en pasient med lungekreft har både vedvarende hoste og blodtilblandet oppspytt. Kriteriene er strengere og det er derfor færre pasienter som regnes med enn når vi bare behøvde en enkel indikator. På den andre siden er det flere som blir regnet med i spesifisiteten, da alle andre kombinasjoner enn begge symptomer havner i spesifisiteten (dvs. enten vedvarende hoste eller blodtilblandet oppspytt og ingen av delene vs. begge deler).

5. Hvis det i tillegg er kjent at pasienten røyker 20‐25 sigaretter per dag vil prevalensen være ti ganger så høy som det som ble benyttet ovenfor. Beregn nå den positive prediktive verdi. Hvor mye er den forøket i forhold til det du fant over? Bruk sensitivitet og spesifisitet fra pkt. 1.
Sensitivitet: 0.95
Spesifisitet: 0.90
Vi bruker Bayes lov:
PPV = Sensitivitet * Prevalens / (Sensitivitet * Prevalens + (1 – Spesifisitet) * (1 – Prevalens)) = (0.95 * (50/325000)) / ((0.95 * (50/325000)) + (1 – 0.90) * (1 – (50/325000))) ~= 0.00146 = 0.146% ~= 0.15%. Denne er 100 ganger større enn 0.0015%.

Oppgave 7
1. Forklar hva vi mener med en binomisk sannsynlighetsfordeling. Hvilke betingelser må være oppfylt for at variabel skal være binomisk fordelt?
ref
En suksessfordeling av binære utfall ved n forsøk.

  • Begivenhetene må være uavhengige
  • Begivenhetene må være binære (to utfall)
  • Sannsynlighetene for utfallene må være statiske

2. Diskuter hva vi mener med en statistisk nullhypotese og alternativhypotesen.
Ved hypotesetesting forsøker vi å bevise en alternativhypotese ved å falsifisere en (nøytral) nullhypotese. Nullhypotesen er en beskrivelse av en antatt virkelighet. Alternativhypotesen er en beskrivelse vi prøver å bevise er en bedre antagelse.

3. Sett opp en nullhypotese og en alternativhypotese for sannsynligheten p i en binomisk situasjon.
ref

4. Diskuter hva vi mener med en p-verdi. Hvordan regner vi ut en p-verdi i en binomisk situasjon?
ref

En (europeisk) rulett har 37 felter, som er nummerert 0 og 1 til 36. Feltet 0 har fargen grønn, 18 er røde og 18 er sorte. Croupieren (spillelederen) spinner hjulet og ruller en liten ball langs hjulet i motsatt retning. Hjulet er balansert slik at det er like sannsynlig å lande på alle feltene. Spillerne kan spille på alle kombinasjoner av tall og farger.

5. Hva er sannsynligheten for at kulen skal falle på rødt?
18/37

6. En spiller bestemmer seg for å spille 6 ganger. Han teller opp antall ganger kulen faller på rødt felt og kaller dette antallet for X. Hva slags sannsynlighetsfordeling har da X?
Binomisk fordeling

7. Spilleren observerer at det kommer rødt 6 ganger etter hverandre. Han betviler at spillet er rettferdig, og vil bruke sin statistiske kunnskap til å utføre en statistisk test før han bestemmer seg for å «avsløre» om spillet er urettferdig. Hva er den statistiske nullhypotesen og hva er alternativhypotesen han setter opp?
H0: P(R) = 18/37
H1: P(R) != 18/37 (i denne sammenheng P(R) > 18/37)

8. Spilleren baserer selve testen på antall ganger han får rødt, altså X, og velger å forkaste nullhypotesen når X er stor. Hva er p-verdien for testen han utfører?
P(6R) = (6 av 6) * (18/37)^6 * (19/37)^0 = (6!/6!) * (18/37)^6 ~= 0.013 = 1.3%. P-verdien er 1.3%. Dette er under det typiske signifikansnivået på 5% som vil si at vi kan forkaste H0.

9. Hvis spilleren hadde observert 5 røde, og ikke 6 som over, hva hadde p-verdien vært da?
P(5R) = (5 av 6) * (18/37)^5 * (19/37) = (6!/(5!)) * … ~= 0.084 = 8.4%. Dette er over det typiske signifikansnivået på 5% som vil si at vi ikke kan forkaste H0.

10. Basert på resultatet med 6 kuler på rad på rødt, vil du gå til ledelsen for kasinoet og fortelle dem at spillet deres er urettferdig?
Det kan jo godt være en tilfeldighet, men om det skjedde konsekvent ville jeg sagt ifra. Utvalget vårt (antall observasjoner) er for “øyeblikket” for lite til å konkludere med sikkerhet.

Oppgave 8
Vi vet at forhøyet kolesterol er en risikofaktor for hjertesykdom. Det kan derfor være viktig å holde kolesterolnivået lavt, og forhindre moderat eller uttalt forhøyet nivå. Vi sier i denne sammenhengen at forhøyet kolesterol er verdier over 250 mg/dL (=6.5 mmol/l). Vi ønsker å kontrollere kolesterolnivået hos barn. Fra tidligere vet vi fra store studier av 
kolesterol (i blod) hos barn i alderen 2-14 år at gjennomsnittet er 175 mg/dL og standardavviket er 30 mg/dL.

1. Anta nå at målt kolesterol kan betraktes som normalfordelt. Hva er da sannsynligheten for at et barn skal ha kolesterolnivå over 250 mg/dL?
μ = 175 mg/dL
σ = 30 mg/dL
Vi standardiserer fordelingen ved Y = (X – μ)/σ.
P(Y > 250) = 1- P(Y < 250) = 1 – P((X – 175)/30 < ((250 – 175)/30) = 1 – P((X – 175)/30 < 2.5) = 1 – 0.9938 = 0.0062 = 0.62%
*Har stått feil her tidligere (-2.5), men riktig svar

2. Hvis vi undersøker 50.000 barn hvert år, hvor mange vil vi oppdage med forhøyet kolesterolverdi?
E(X) = 50000 * 0.0062 = 310

3. Hvor høyt kolesterolnivå har du hvis du er blant de 10% med høyest kolesterol?
P(Y < z) = 0.9
Sannsynligheten for å finne en verdi med standardavvik mindre enn en tenkt standardisert verdi x er 90%, dvs. den tenkte verdien er blant de høyeste 10%.

Ser i tabellen og finner at x = 1.28. Det nærmeste vi kommer 0.9000 er 0.8997. Gjør om fra standardisert format ved Y = (X – μ)/σ. 1.28 = (X – 175)/30 –> X = 213.4. Det vil si at en må ha kolesterolnivå på minst ~213.4 mg/dL for å kvalifiseres innen topp 10%.

Vi antar at det er sammenheng mellom forhøyet kolesterol hos foreldre og hos barn. I et utvalg av menn som har hatt hjerteinfarkt og som har forhøyede kolesterolverdier (altså verdier ≥ 250 mg/dL), måles kolesterolverdiene til deres barn i alderen 2-14. Gjennomsnittlig kolesterol for disse er 207 mg/dL, fortsatt med et standardavvik på 30 mg/dL.

4. Hva er sannsynligheten for at et barn, med en far som har hatt hjerteinfarkt, skal ha et kolesterolnivå mellom 207 mg/dL og 250 mg/dL?
P(Y>207) og P(Y<250)
Y = (X – μ)/σ.
P((X – 207)/30 > (207 – 207)/30)  = 1 – P((X – 207)/30 < 0) = 0.5000
P((X – 207)/30 < (250-207)/30) = P((X – 207)/30 < 1.43) = 0.9236
0.9236 – 0.5000 = 0.4236

5. Hva er sannsynligheten for at et barn med en far som har hatt hjerteinfarkt skal ha forhøyet kolesterolverdi?
P(Y>250) = 1 – P(Y<250) = 1 – P((X-207)/30) < (250-207)/30) = 1 – 0.9236 = 0.0764 = 7.64%

6. Hvis man undersøker 1.000 barn med fedre som har hatt infarkt, hvor mange vil man da oppdage? Kommenter dette resultatet opp mot det du fant i 2.
1000 * 0.0764 = 76.4
50000 * 0.0764 = 3820
I #2 var det 310.
3820 / 310 ~= 12.3 ganger flere.
(Evt. 0.0764 / 0.0062 ~= 12.3)

7. Vil du anbefale tester av kolesterol blant barn (og av utvalgte risikogrupper) for å avsløre forhøyet kolesterol?
Ja.

Vi ser på ut utvalg på 10 barn som har fedre som har hatt hjerteinfarkt og som har forhøyede kolesterolverdier. Sannsynligheten for at et tilfeldig valgt barn har forhøyet kolesterolverdier er den du fant i 5.

8. Kan dette antas å være et binomisk forsøk? Hvilke kriterier må være til stede?
En suksessfordeling av binære utfall ved n forsøk.

  • Begivenhetene må være uavhengige
  • Begivenhetene må være binære (to utfall)
  • Sannsynlighetene for utfallene må være statiske

Ja.

9. Hva er sannsynligheten for at mindre enn 2 av disse har forhøyet kolesterolverdier? Er det greit å bruke tilnærmingen til normalfordelingen her?
Nei, da utvalget ikke er stort nok.

Mindre enn 2 = 1 og 0
P(<2) = (1 av 10) * 0.0764^1 * (1-0.0764)^9 + (0 av 10) * 0.0764^0 * (1-0.0764)^10
P(<2) = 0.3736 + 0.4517 = 0.8253 ~= 0.83 = 83%


ForeleserSimon Lergenmuller

Ressurser
Oppgaver

Hypotesetesting

Hypotesetesting er en metode i statistikk vi bruker for å kvantifisere usikkerhet og variasjon. Hva skjer om vi f.eks. tester et legemiddel på alt for små utvalg? Hva om det testes bare på menn? Utvalgene i legemiddeltester har inntil nylig bestått av 90% menn. Hvordan kan vi vite om observasjonene våre skyldes tilfeldigheter eller ikke? Dette kan vi finne svar på gjennom hypotesetesting.

Vi setter opp en nøytral nullhypotese (H0) og en alternativ hypotese (H1). Vi ønsker å vise at H1 er sann ved å undergrave H0. Formålet er å undersøke om datamaterialet gir tilstrekkelig grunnlag for å forkaste H0 til fordel for H1 med høy grad av sikkerhet. Vi regner ut en “p-verdi“, eller “signifikanssannsynlighet” med en antagelse om at H0 er sann og sammenligner med et “signifikansnivå” som bestemmes i forkant av forsøket. Dersom p-verdien er lavere enn signifikansnivået, sier vi at det er grunnlag for å forkaste H0. Det er vanlig at signifikansnivået er satt til 5%. Jo lavere signifikansnivå, jo sikrere vil konklusjonen være. Ved 5% signifikansnivå aksepterer vi at det er en risiko på 5% for å feilaktig forkaste H0. Dette kaller vi en feil av type I. Det motsatte, at vi ikke forkaster H0 selv om den er feil, kaller vi en feil av type II. Denne typen feil skyldes ofte at datamaterialet er for lite.

Hva er “p-verdi” og “signifikansnivå“?
Både p-verdi og signifikansnivå er verdier mellom 0 og 1.

La oss si at vi mistenker at en mynt havner på kron alt for ofte. Da er nullhypotesen P(K) = 0.5 og alternativhypotesen P(K) > 0.5. Av antall forsøk n vil det være a antall mynter som lander på kron. Dersom a er tilstrekkelig større enn 1/2 av n, kan vi forkaste H0. Med tilstrekkelig mye større menes da at a er større enn en verdi c. Verdien c velger vi utifra hvor sannsynlig vi vil at konklusjonen skal være. Vi vil at sannsyligheten for at vi forkaster H0 feilaktig skal være minst mulig. Denne sannsynligheten kaller vi “signifikansnivået”, ofte satt til 0.05 (5% sannsynlighet for at assosiasjonene vi har observert er tilfeldige). P-verdien er sannsynligheten for et testresultat dersom betingelsene i H0 er sanne.

La oss si at vi i et forsøk har fått at 70 av 100 mynter lander på kron. Vi går ut ifra at H0 er sann og ser på hvor sannsynlig det er å få dette resultatet (70/100 kron) eller noe mer ekstremt dersom P(K) = 0.5, altså P(X >= 70 | H0). Dette kunne vi regnet ut for hånd ved hjelp av den binomiske sannsynlighetsfordelingen, men det hadde vært tungvint. Det viser seg imidlertid at den binomiske fordelingen nærmer seg en normalfordeling når n, antall forsøk, er stort (ved sentralgrenseteoremet). Vi kan derfor forenkle utregningen via. en såkalt “normaltilnærmelse”

Når vi skal finne normalfordelingen som er mest lik histogrammet vårt, tar vi utgangspunkt i forventningen (μ) og standardavviket (σ) til den binomiske fordelingen. For en binomisk fordeling gjelder:

  • Forventning, E(X) = n * p
  • Varians, var(X) = n * p * (1 – p)

Derfor har vi at normalfordelingen har:

  • Forventning, E(X), μ = n * p
  • Standardavvik, SD(X), σ = sqrt(n * p * (1 – p))
    Siden Var(X) = SD(X)^2

Utregning
P(K) = 0.5
N = 100
μ = 100 * 0.5 = 50
σ = sqrt(50 * (0.5)) = sqrt(25) = 5
Normaltilnærmelsen er best når μ >= 5 og Var(X) >= 5.

Det neste steget er å standardisere normaltilnærmelsen vår, Y ~ N(0, 1). Vi trekker μ fra X slik at standardfordelingen får sentrum i 0, og deler på σ for å få et standardavvik = 1. Y = (X – μ) / σ.

Vi er interessert i P(X >= 70) = 1 – P(X <= 70). P(X <= 70) = P((X – 50)/5 <= (70 – 50)/5) = P(Y <= 4). På engelsk, kaller vi 4 for z-skåren (z-score). Den sier noe om hvor mange standardavvik verdien vår ligger unna gjennomsnittet (0). Gjennomsnittet av utfallene i et forsøk med en stokastisk variabel vil nærme seg forventningen dersom forsøket gjentas tilstrekkelig mange ganger. På normalfordelingstabellen ser vi at en z-skår på 4 gir oss en sannsynlighet på 0.99997. Det vil si at sannsynligheten for at en tilfeldig valgt verdi ligger et mindre antall standardavvik fra gjennomsnittet enn 4 er 99.997%. Videre regner vi ut at 1 – 0.99997 = 0.00003 = 0.003%. Verdien vi har funnet nå er p-verdien, altså sannsynligheten for at vi får at 70 / 100 mynter lander på kron dersom H0 er sann, P(K) = 0.50. Med et signifikansnivå på 5%, kan vi forkaste H0 med relativt god sikkerhet og konkludere med at H1 er sann, altså at mistanken vår om at mynten landet på kron alt for ofte var vel begrunnet.

Estimering
Et utvalg på 1000 pasienter forteller oss ikke nødvendigvis virkeligheten for hele populasjonen. Når det ikke er praktisk mulig å samle data for en hel populasjon må vi estimere (tilnærme) den “sanne sannsynligheten” Estimatsannsynligheten noteres som en p med en “hatt” (^) over, altså p^ dersom “^” var direkte over p’en. Vi ser på p^ som sannsynligheten i et utvalg av en større gruppe og den “sanne sannsynligheten” som en tenkt verdi for hele gruppen. Vi tenker for oss at vi har en stokastisk variabel som er binomisk fordelt, men der sannsynligheten p er ukjent.

Rett fra boka til Aalen et al.:
“Generelt er det liten grunn til å tro at p^ faller eksakt sammen med p, og et viktig spørsmål er hvor mye de med rimelighet kan avvike fra hverandre. Denne usikkerheten kan beskrives ved et såkalt konfidensintervall. Med dette mener vi et område rundt p^ som med stor sannsynlighet dekker den sanne verdien p.” 

Vi har formlene:

  • E(p^) = p
  • SD(p^) = sqrt((p * (1 – p) / n))
    Dette leses som standardfeilen til estimatet p^.
    Om vi vil estimere standardfeilen, erstatter vi bare p i formelen med p^. Da får vi Sp = sqrt((p^ * (1 – p^) / n)).

Konfidensintervallet er bestemt ved p^ +- x * Sp hvor x er en verdi fra normalfordelingstabellen. Jo større x, jo bredere konfidensintervall, og jo større sannsynlighet er det for at den sanne verdien p er inkludert. For eksempel vil et intervall på p^ +- 1.96 * Sp dekke 95% av fordelingen. Intervallet har altså en 95% sannsynlighet for å inneholde p.

Alle formlene er gitt at n er tilstrekkelig stor, evt. går mot ∞.


Foreleser: Magne Thoresen

Ressurser
Presentasjon

Normalfordelingen

Vi er hovedsakelig interessert i to typer variasjoner i målinger:

  • Variasjon mellom individer
  • Variasjon innen individer
    Hvilken variasjon ser vi om vi gjør samme måling gjentatte ganger på samme individ?

Variasjon innen individ er typisk mindre enn mellom.

Vi finner en tabell over verdier i en standard normalfordeling bl.a. bakerst i boken til Aalen. Tabellen gir svar på hvor mange prosent av verdiene i datamengden er mindre eller lik en tenkt verdi Z. I praksis spiller det ingen rolle om vi bruker ekte større eller mindre (<, >), da sannsynligheten for at målingene samsvarer eksakt er null når vi senere har med kontinuerlige skalaer å gjøre. Når vi skal finne svar for verdier som er større enn (eller lik) Z, bruker vi komplementsetningen 1-P. For negative verdier kan vi bruke at siden P(Z <= -X) er det samme som P(Z >= X), får vi 1 – P(Z<=X).  

Når vi analyserer data er det typisk å konstruere normalområder som definerer hva som skal være normalverdiene. Utenfor normalområdene tenker vi på verdiene som unormalt høye eller lave. Ved standarde normalfordelinger setter vi som oftest normalområdene til gjennomsnittet +- 1.96 SD (standardavvik). Da ligger 2.5% av fordelingen utenfor på “hver side” og de normale verdiene innenfor de resterende 95%.sd1.PNGsd 2.PNG

Vi noterer en normalfordeling på denne måten:  X ~ N(µ, σ), som leses “X er en normalfordelt variabel med forventning (gjennomsnitt) µ og standardavvik (spredning) σ.” I en standard normalfordeling er µ = 0 og σ = 1, altså N(0, 1). Når vi regner, er det vanlig å gjøre om frekvensfordelingen til en standard normalfordeling. Da bruker vi Z-verdier, som regnes ut på formen Z = (X − µ) / σ. Z er da X i den tenkte normalfordelingen.

Hvorfor er normalfordelingen nyttig?

  1. Mange fenomener er ~normalfordelte
  2. En sum av mange uavhengige størrelser der ingen dominerer er tilnærmet normalfordelt
    Sentralgrensesetningen

Å regne ut en binomisk sannsynlighetsfordeling kan bli tungt om det blir for mange forsøk, selv med datamaskin. Derfor er det vanlig å bruke normalfordeling som en tilnærming den binomiske. Ved tilnærmingen bruker vi at µ = n*p og σ = np(1-p). Helt generelt, funker tilnærmingen best når np >= 5 og n(1-p) >= 5. 

Normalfordeling av gjennomsnittsverdiene
Med gjennomsnittsverdiene mener vi da gjennomsnittene til verdiene i tenkte utvalg av en gitt populasjon. Et eksempel kan være at vi plukker ut grupper på 1000 personer og ber dem rangere “Ex on the Beach” fra 1-10. Vi tar så gjennomsnittsrangeringene i de ulike gruppene og normalfordeler dem. Konfidensintervallet handler om hvorvidt den “sanne verdien” for hele populasjonen er med i fordelingen. Med “hele populasjonen”, mener vi da f.eks. alle personer som har sett “Ex on the Beach” Det finnes jo et “sant gjennomsnitt” dersom vi hadde spurt absolutt alle og regnet på det. Poenget er at vi ikke har gjort det, men at det likevel er sannsynlig at den “sanne verdien” ligger blant de ulike gjennomsnittsverdiene. Når vi snakker om SE i forbindelse med en gjennomsnittsfordeling er det i grunn det samme som standardavviket deres (hvis alltid er mindre enn i den opprinnelige datamengden). Forventningen er da µ og standardfeilen σ / sqrt(n). Formelen blir da Z = (X − µ) / (σ / sqrt(n)), gitt at vi kjenner σ til populasjonen. Jo større utvalg når vi regner ut gjennomsnittsverdiene, jo mindre variasjon blir det.


ForeleserMagne Thoresen

Ressurser
Pres

Binomisk fordeling

Hovedsakelig en presentasjon med utdypning.

Eksempler på begivenheter som kan være ikke-uavhengige:

  • Gjentatte observasjoner av samme subjekt
  • Slektskap mellom individer (genetisk predisposisjon)
  • Smittsomme sykdommer

Binomisk fordeling
For å kunne ta i bruk binomiske fordelinger må vi innfri visse krav:

  • Begivenhetene må være uavhengige
  • Begivenhetene må være binære (to utfall)
  • Sannsynlighetene for utfallene må være statiske

Hvor mange vil vi forvente?
E(X) – forventning til X
n – totalmengden
P – sannsynlighet for X

E(X) = n*P

Standardavvik
SD(X) – Standard deviation of X (Standardavviket til X)
n – totalmengden
p – sannsynlighet for X
Varians.PNG

Mer om dette


ForeleserMagne Thoresen

Ressurser
Presentasjon

 

 

KURS: PC-øvelser

  1. Les oppgavebeskrivelsen her: oppgaver-uke-34.pdf
  2. Last ned programmet SPSS her
  3. Finn datafilene (og annen informasjon) hervo2.sav og vo2hr.sav
  4. Eventuelt titte på instruksjonshåndboken her

Oppgave 1 (kopiert rett fra oppgavefilen)
Vi skal introdusere et datamateriale, som også stammer fra University of Massachusetts. Det er til sammen data fra 233 menn (individ 139 mangler) som deltok i en undersøkelse av fysisk form og oksygenopptak under arbeid. En del av undersøkelsen ble foretatt på tredemølle hvor O2-opptak og blodtrykk ble målt.

De viktige variablene er maksimalt O2- opptak på tredemøllen (VO2, målt i ml/kg/min) og
Aerob svekkelse (FAI, målt i prosent relativt til alder og kjønn). VO2 er maksimum antall
milliliter av oksygen opptatt i løpet av 1 minutt, per kg kroppsvekt.

På nettet finnes det en rekke enkle kalkulatorer på av maksimalt O2- opptak – uten å løpe på tredemølle, se for eksempel https://www.ntnu.no/cerg/vo2max.

Det er ingen Missing values på datafilen

Løsning oppgave 1
3. Lag en deskriptiv analyse av VO2. Gjør dette via Analyze/Descriptive Statistics/Explore. 
Trinn 1Trinn 2Trinn 3Trinn 4Trinn 5Trinn 6Trinn 6.5
Forklar hva gjennomsnittene, medianene, standardavvikene og standardfeilen til gjennomsnittet (Std. Error) uttrykker. Forklar boksplottene.

  • Gjennomsnittet
    Sum av observasjoner / antall observasjoner.
  • Medianen
    Like mange observasjoner over som under medianobservasjonen. Om antall observasjoner er et partall, blir medianverdien vanligvis et gjennomsnitt av de to midterste verdiene.
  • Standardavviket
    Verdienes gjennomsnittsavstand fra gjennomsnittsverdien
  • Standardfeilen
    Standardavviket / kvadratroten av antall observasjoner. Hva ligger bak formelen? La oss si at det snart er stortingsvalg. Avisene tar en meningsmåling (typisk grupper på 1000) som viser at 23% stemmer på Høyre. I en annen måling med en annen gruppe mennesker får vi kanskje 26%. Jo flere målinger vi tar av grupper på 1000, jo nærmere kommer vi populasjonsverdien (altså den egentlige prosentverdien for hele befolkningen). Standardavviket til alle disse “småverdiene” kaller vi da for standardfeilen, altså graden av usikkerhet i meningsmålingene.
  • Interkvartil avstand
    Deler målingene i fire grupper. Når første 25% av målingene er bak oss kaller vi det for første kvartil. Like så kalles 50% for andre kvartil (eller medianen) og 75% for tredje kvartil. Avstanden mellom første og tredje kvartil kaller vi den interkvartile avstanden. I praksis har vi da med 50% av målingene.

box w coms.PNG
Figuren ovenfor kaller vi et boksplott og er en grafisk fremstilling av noen utvalgte deskriptive verdier.

HistogramAdd histro
Histogramgraph.PNG
Jo flere observasjoner, jo nærmere kommer vi en kurve (og en sannsynlighetsfordeling). Den mest brukte sannsynlighetsfordelingen er en normalfordeling som er symmetrisk rundt gjennomsnittet. Det er ofte interessant å se på hvordan målinger samsvarer med en normalfordeling. Dette kan vi sjekke ved:
Trinn 1Trinn 2Normal plots
Normality plot 1Normality plot 2
Jo nærmere verdiene er normalfordelte, jo mer samsvarer de med grafene (hvor stor andel som ligger innen normalfordelingen). I praksis vil vi aldri se reelle data som ligger eksakt på normalfordeligen. Foreleser forteller at han selv aldri har klart å tolke den horisontale grafen langs x. Da er det vel trygt å anta at dette heller ikke er pensum (med mindre det er ekstreme avvik eller samsvarelser).

For å undersøke om VO2 er normalfordelt skal vi laget et normalfordelingsplott. Da går vi tilbake til Analyze/Descriptive Statistics/Explore, og vi klikker på Plots i den høyre knapperekken. Da åpner det seg en ny meny. Der klikker vi på Normality plots with tests. Kan vi anta at VO2 er normalfordelt?

Nei.


Lag en frekvensfordeling for variabelen EXP. Gjør dette via Analyze/Descriptives/Frequencies. Forklar resultatene.
Trinn 1EXPTrenignsprogram
Vi ser her at 117 har fulgt treningsprogrammet og 116 ikke. Når vi har en så jevn fordeling er det naturlig å tenke seg at det ikke er et tilfeldig oppsett, men en designet studie (at halvparten f.eks. har fått et treningsprogram, halvparten ikke).

To prosenter

  • Precent
    Prosentandel av alle svarene
  • Valid precent
    Prosentandel av alle gyldige svar, dvs. ikke talt med “missing values”

Når det er snakk om kategoriske variabler med mange kategorier, f.eks. fødeland, kan det være naturlig å oppsummere det i et stolpediagram.

6. Variabelen FAI er en kontinuerlig variabel som angir graden av aerob svekkelse. Hvis FAI er større eller lik 0 er personen aerob svekket, er FAI mindre enn 0 er personen ikke svekket. Vi skal lage en variabel IMP som angir om personen er svekket eller ikke. Lag da variabelen:

  • IMP = 1 når FAI >= 0
  • IMP = 0 når FAI < 0

newvar1newvar2newvar3newvar4.png
Vi velger ikke “Range, LOWEST through value”, for da tar vi med 0 i begge omganger. Om det finnes “missing values” i datasettet “prikker vi av” “System-missing”-alternativet. Manglende verdier ser ut i datafilen som et åpent felt, men er kodet som en ekstremverdi (enten ekstremt høy eller lav). Disse verdiene tas med dersom vi f.eks. har alle verdier fra 0 og oppover og kan påvirke resultatene vi får. Det kan være lurt å gi den nye variabelen et “label”, f.eks. “Svekkelse”

Label 1.png

Label 2Label 3Frekvenstabell 2.PNG

Lag frekvenstabell som tidligere. Vi ser her at et overveiende flertall opplever å bli svekket (59 v. 174).

9. Lag en deskriptiv analyse av VO2 mht. til IMP. Meningen er da å gi en presentasjon av de sentrale målene, som gjennomsnitt, median, standardavvik etc. for VO2 for de to gruppene av IMP. Gjør dette via Analyze/Descriptive Statistics/Explore. Hva er gjennomsnittene, medianene, standardavvikene og standardfeilen til gjennomsnittet (Std. Error)? Forklar boksplottene.

Det er litt merkelig å undersøke disse forholdene da IMP er basert på VO2 (men la gå).
Trinn 1Trinn 2

Factor2Deskriptiv.PNGFactor1

Observer at det er en forskjell på feilmarginen “Std. Error” mellom gruppen som er svekket (0.7715) og ikke svekket (1.0000). Grunnen til det er fordi vi regner ut feilmarginen ved formelen: standardavvik/roten av antall observasjoner. Hva det vil si i praksis er at det rett og slett er flere som opplever å bli svekket enn ikke.

Boksplottet

  • Mindre spredning (interkvartil avstand, min-max) blant gruppen “ikke svekket”
  • Generelt høyere VO2 for “ikke svekket”

Merk at SPSS har satt ring rundt og skrevet “33” over boksplottet til “ikke svekket” Det er fordi programmet vil understreke at observasjon #33 er i overkant stor (i forhold til normen). Observasjon 33 har VO2-verdien: 59.7 som nærmer seg opptaket til en eliteutøver. Når SPSS skisserer boksplottene gjør de en antagelse om at datasettet er normalfordelt. Observasjoner som er lengre unna gjennomsnittsverdien enn et gitt antall standardavvik markeres automatisk av programmet.

Oppgave 2 (bytte til vo2hr.sav)
Kroppen opptar mer oksygen under arbeid enn under hvile, og for å transportere oksygen til musklene må hjertet slå fortere. Hjertefrekvens er lett å måle, mens oksygenopptaket er vanskeligere. Denne studien er basert på 38 arbeidere. Vi skal studere to arbeidsbetingelser, i det arbeidet er utført med og uten beskyttende arbeidsmaske. Arbeidet er av 19 arbeidere utført uten beskyttende ansiktsmaske og for 19 andre arbeidere er det utført med ansiktsmaske. Målsetningen i studien er å se om det er en sammenheng mellom oksygenopptak (VO2) og hjertefrekvens (HR) for de to arbeidsbetingelsene. Basert på dataene nedenfor skal vi undersøke om dette virker rimelig.

Merk ummidelbart at studieutvalget er svært lite og eventuelle konklusjoner dermed svekkede. 

Relevant informasjon:

  • To faktorer:
    Hjertefrekvens (HR)
    Oksygenopptak (VO2)
  • Med og uten maske
  • 38 arbeidere

analyze-1.pngAnalyze 2Analyze 4.PNG
Kurtosis 1Kurtosis 24. Lag boksplott for VO2 og HR for personer med og uten bruk av ansiktsmaske. Forklar hva du finner. Er fordelingen til disse to variablene symmetriske?

Kurtosis 3

  • HR uten maske
    Vi ser at boksplottet er relativt symmetrisk. Avstandene fra min og max til medianen er ~like. Avstanden fra 1. til 2. (medianen) og 3. til 2. (medianen) kvartil er ganske lik.
  • HR med maske
    Vi ser her at boksplottet er relativt usymmetrisk. Selv om avstanden fra 1. til 2. (medianen) og 3. til 2. kvartil (medianen) er ganske lik, er det stor forskjell på avstandene fra min og max til medianen (og den interkvartile avstanden). Det kan være fordi studieutvalget er for lite.

Sammenligning
Boksplottene viser en tydelig redusert hjertefrekvens for de som hadde på seg maske.

Kurtosis 4

  • VO2-opptak uten maske
    Vi ser at boksplottet er relativt symmetrisk. Avstandene fra min og max til medianen er ~like. Avstanden fra 1. til 2. (medianen) og 3. til 2. (medianen) kvartil er ganske lik.
  • VO2-opptak med maske
    Vi ser at boksplottet er relativt symmetrisk. Avstandene fra min og max til medianen er ~like. Avstanden fra 1. til 2. (medianen) og 3. til 2. (medianen) kvartil er ganske lik.

Sammenligning
Boksplottene viser noe lavere VO2-opptak med maske på. Det er naturlig da masken gjør det vanskeligere å puste.

Tolkning
Resultatene tyder på at det er en assosiasjon mellom maskebruk og både redusert VO2-opptak og hjertefrekvens. En konfunderende faktor kunne vært arbeidsintensitet. Resultatene kan f.eks. forklares ved at de som hadde på seg maske som gjorde det vanskeligere å puste jobbet mindre intenst og viste dermed også lavere hjertefrekvens.

5. Lag normalfordelingsplott for VO2 og HR for personer med og uten bruk av ansiktsmaske. Hva finner du?

Datamengdene samsvarer ikke med en normalfordeling.

Lag et spredningsdiagram for sammenhengen mellom VO2 og HR for dem med og uten ansiktsmaske, med VO2 på y-aksen og HR på x-aksen. Det gjør vi ved å gå til Graphs/Legacy Dialogs/Scatter/Dots. Her klikker vi på Simple Scatter og Define. Vi trekker VO2 over i y-aksen og HR over i x-aksen og MASK over i Set Markers by.Scatter 2scatter 1Scatter 3scatter 4
scatter 5.PNGDet at grafene (regresjonslinjene) er tilnærmet parallelle betyr at veksten (proporsjonalitetskonstanten a i y=ax+b) er ~lik. Grunnen til at grafene er forskjøvet er fordi oksygenopptaket er generelt lavere med maske på (gir mening i praksis!).

8. Forklar sammenhengen mellom oksygenopptak og hjertefrekvens ut fra resultatene fra denne studien.
Vi ser fra regresjonsplottet at forholdet mellom hjertefrekvens (HF) og oksygenopptak (VO2) er tilnærmet konstant uavhengig av faktorer som reduserer oksygentilgangen (maske). Er studien fullstendig konkluderende? Det er de aldri, men ideelt sett kunne vi gjort målingene på nytt med et større utvalg.


ForeleserMorten Valberg