Analyse av to uavhengige grupper: to-utvalgs t-test

Vi bruker to utvalgs t-test når vi skal sammenligne to uavhengige datasett.

Fremgangsmåte

  1. Bestemme hypoteser
    Ofte er H0 slik at µ1 = µ2 og HA: µ1 ≠ µ2
  2. Bestemme α-nivå
  3. Beregne standardavvik og gjennomsnitt for de to gruppene
  4. Vi antar at SD er ~like for de to gruppene og finner felles SD ved Sf = sqrt(((n1 – 1) * s1^2 + (n2 – 1) * s2^2) / n1 + n2 – 2)
  5. Standardfeilen SE(X1 – X2) = Sf * sqrt (1/n1 + 1/n2)
  6. Regne ut teststørrelsen T = (X1 – X2) / SE(X1 – X2)
  7. Sammnligne T med t-verdi fra tabell
    Forkast H0 om T > t

Konfidensintervall
(X1 – X2) +- c * SE(X1 – X2)

Vi antar at gjennomsnittsvariablene som hører til datasettene våre er normalfordelte. Dette gjelder dersom n er tilstrekkelig stor ved sentralgrenseteoremet.


ForeleserMagne Thoresen

Ressurser
Presentasjon

Analyse av krysstabeller: RD, RR og OR, kjikvadrattest

Nullhypotesen når det er snakk om risikodifferanse = 0 (ingen forskjell).

Begreper

  • Relativ risiko (RR)
    Risikoforholdet mellom grupper
  • Odds ratio (OR)
    Forholdet mellom sannsynligheten for suksess og ikke suksess.
  • Prevalensratio
    Forhold mellom f.eks. sykdomsprevalenser i ulike grupper (risikogruppe kontra. kontrollgruppe f.eks.).

Hvilken i teller og hvilken i nevner?
I praksis er det generelt en gruppe som er “kontroll” og en som er “eksponert” Da faller det naturlig at det blir eksponert over kontroll. Vi burde vite i hvilken situasjon vi burde regne ut de ulike forholdene. 

Eksempel på utfordring i eksamensoppgave:
Velg hvilket effektmål du skal bruke. Det er viktig å vite hvilke effektmål som gjelder for kategoriske variable og hvilke som er for numeriske. Hvert effektmål har sitt eget spesialområde. Vi har ikke hatt om noe som omhandler numeriske variabler ennå (per 11.09).

Kjikvadrat
Vi regner ut hvor mange observasjoner vi hadde ventet i hver celle dersom H0 var sann. Generelt vil testen være gyldig så sant antallet i hver celle er > 5. Om en teststørrelse ikke gir under 5% (signifikansnivå) sannsynlighet for å overskride den kritiske verdien (for den gitte frihetsgraden) forkaster vi ikke H0. Det er en 1:1 sammenheng mellom kjikvadratet og en normalfordeling (3.84 = 1.96^2).


ForeleserMagne Thoresen

Ressurser
Presentasjon

Hypotesetesting

Hypotesetesting er en metode i statistikk vi bruker for å kvantifisere usikkerhet og variasjon. Hva skjer om vi f.eks. tester et legemiddel på alt for små utvalg? Hva om det testes bare på menn? Utvalgene i legemiddeltester har inntil nylig bestått av 90% menn. Hvordan kan vi vite om observasjonene våre skyldes tilfeldigheter eller ikke? Dette kan vi finne svar på gjennom hypotesetesting.

Vi setter opp en nøytral nullhypotese (H0) og en alternativ hypotese (H1). Vi ønsker å vise at H1 er sann ved å undergrave H0. Formålet er å undersøke om datamaterialet gir tilstrekkelig grunnlag for å forkaste H0 til fordel for H1 med høy grad av sikkerhet. Vi regner ut en “p-verdi“, eller “signifikanssannsynlighet” med en antagelse om at H0 er sann og sammenligner med et “signifikansnivå” som bestemmes i forkant av forsøket. Dersom p-verdien er lavere enn signifikansnivået, sier vi at det er grunnlag for å forkaste H0. Det er vanlig at signifikansnivået er satt til 5%. Jo lavere signifikansnivå, jo sikrere vil konklusjonen være. Ved 5% signifikansnivå aksepterer vi at det er en risiko på 5% for å feilaktig forkaste H0. Dette kaller vi en feil av type I. Det motsatte, at vi ikke forkaster H0 selv om den er feil, kaller vi en feil av type II. Denne typen feil skyldes ofte at datamaterialet er for lite.

Hva er “p-verdi” og “signifikansnivå“?
Både p-verdi og signifikansnivå er verdier mellom 0 og 1.

La oss si at vi mistenker at en mynt havner på kron alt for ofte. Da er nullhypotesen P(K) = 0.5 og alternativhypotesen P(K) > 0.5. Av antall forsøk n vil det være a antall mynter som lander på kron. Dersom a er tilstrekkelig større enn 1/2 av n, kan vi forkaste H0. Med tilstrekkelig mye større menes da at a er større enn en verdi c. Verdien c velger vi utifra hvor sannsynlig vi vil at konklusjonen skal være. Vi vil at sannsyligheten for at vi forkaster H0 feilaktig skal være minst mulig. Denne sannsynligheten kaller vi “signifikansnivået”, ofte satt til 0.05 (5% sannsynlighet for at assosiasjonene vi har observert er tilfeldige). P-verdien er sannsynligheten for et testresultat dersom betingelsene i H0 er sanne.

La oss si at vi i et forsøk har fått at 70 av 100 mynter lander på kron. Vi går ut ifra at H0 er sann og ser på hvor sannsynlig det er å få dette resultatet (70/100 kron) eller noe mer ekstremt dersom P(K) = 0.5, altså P(X >= 70 | H0). Dette kunne vi regnet ut for hånd ved hjelp av den binomiske sannsynlighetsfordelingen, men det hadde vært tungvint. Det viser seg imidlertid at den binomiske fordelingen nærmer seg en normalfordeling når n, antall forsøk, er stort (ved sentralgrenseteoremet). Vi kan derfor forenkle utregningen via. en såkalt “normaltilnærmelse”

Når vi skal finne normalfordelingen som er mest lik histogrammet vårt, tar vi utgangspunkt i forventningen (μ) og standardavviket (σ) til den binomiske fordelingen. For en binomisk fordeling gjelder:

  • Forventning, E(X) = n * p
  • Varians, var(X) = n * p * (1 – p)

Derfor har vi at normalfordelingen har:

  • Forventning, E(X), μ = n * p
  • Standardavvik, SD(X), σ = sqrt(n * p * (1 – p))
    Siden Var(X) = SD(X)^2

Utregning
P(K) = 0.5
N = 100
μ = 100 * 0.5 = 50
σ = sqrt(50 * (0.5)) = sqrt(25) = 5
Normaltilnærmelsen er best når μ >= 5 og Var(X) >= 5.

Det neste steget er å standardisere normaltilnærmelsen vår, Y ~ N(0, 1). Vi trekker μ fra X slik at standardfordelingen får sentrum i 0, og deler på σ for å få et standardavvik = 1. Y = (X – μ) / σ.

Vi er interessert i P(X >= 70) = 1 – P(X <= 70). P(X <= 70) = P((X – 50)/5 <= (70 – 50)/5) = P(Y <= 4). På engelsk, kaller vi 4 for z-skåren (z-score). Den sier noe om hvor mange standardavvik verdien vår ligger unna gjennomsnittet (0). Gjennomsnittet av utfallene i et forsøk med en stokastisk variabel vil nærme seg forventningen dersom forsøket gjentas tilstrekkelig mange ganger. På normalfordelingstabellen ser vi at en z-skår på 4 gir oss en sannsynlighet på 0.99997. Det vil si at sannsynligheten for at en tilfeldig valgt verdi ligger et mindre antall standardavvik fra gjennomsnittet enn 4 er 99.997%. Videre regner vi ut at 1 – 0.99997 = 0.00003 = 0.003%. Verdien vi har funnet nå er p-verdien, altså sannsynligheten for at vi får at 70 / 100 mynter lander på kron dersom H0 er sann, P(K) = 0.50. Med et signifikansnivå på 5%, kan vi forkaste H0 med relativt god sikkerhet og konkludere med at H1 er sann, altså at mistanken vår om at mynten landet på kron alt for ofte var vel begrunnet.

Estimering
Et utvalg på 1000 pasienter forteller oss ikke nødvendigvis virkeligheten for hele populasjonen. Når det ikke er praktisk mulig å samle data for en hel populasjon må vi estimere (tilnærme) den “sanne sannsynligheten” Estimatsannsynligheten noteres som en p med en “hatt” (^) over, altså p^ dersom “^” var direkte over p’en. Vi ser på p^ som sannsynligheten i et utvalg av en større gruppe og den “sanne sannsynligheten” som en tenkt verdi for hele gruppen. Vi tenker for oss at vi har en stokastisk variabel som er binomisk fordelt, men der sannsynligheten p er ukjent.

Rett fra boka til Aalen et al.:
“Generelt er det liten grunn til å tro at p^ faller eksakt sammen med p, og et viktig spørsmål er hvor mye de med rimelighet kan avvike fra hverandre. Denne usikkerheten kan beskrives ved et såkalt konfidensintervall. Med dette mener vi et område rundt p^ som med stor sannsynlighet dekker den sanne verdien p.” 

Vi har formlene:

  • E(p^) = p
  • SD(p^) = sqrt((p * (1 – p) / n))
    Dette leses som standardfeilen til estimatet p^.
    Om vi vil estimere standardfeilen, erstatter vi bare p i formelen med p^. Da får vi Sp = sqrt((p^ * (1 – p^) / n)).

Konfidensintervallet er bestemt ved p^ +- x * Sp hvor x er en verdi fra normalfordelingstabellen. Jo større x, jo bredere konfidensintervall, og jo større sannsynlighet er det for at den sanne verdien p er inkludert. For eksempel vil et intervall på p^ +- 1.96 * Sp dekke 95% av fordelingen. Intervallet har altså en 95% sannsynlighet for å inneholde p.

Alle formlene er gitt at n er tilstrekkelig stor, evt. går mot ∞.


Foreleser: Magne Thoresen

Ressurser
Presentasjon

KURS: PC-øvelser

  1. Les oppgavebeskrivelsen her: oppgaver-uke-34.pdf
  2. Last ned programmet SPSS her
  3. Finn datafilene (og annen informasjon) hervo2.sav og vo2hr.sav
  4. Eventuelt titte på instruksjonshåndboken her

Oppgave 1 (kopiert rett fra oppgavefilen)
Vi skal introdusere et datamateriale, som også stammer fra University of Massachusetts. Det er til sammen data fra 233 menn (individ 139 mangler) som deltok i en undersøkelse av fysisk form og oksygenopptak under arbeid. En del av undersøkelsen ble foretatt på tredemølle hvor O2-opptak og blodtrykk ble målt.

De viktige variablene er maksimalt O2- opptak på tredemøllen (VO2, målt i ml/kg/min) og
Aerob svekkelse (FAI, målt i prosent relativt til alder og kjønn). VO2 er maksimum antall
milliliter av oksygen opptatt i løpet av 1 minutt, per kg kroppsvekt.

På nettet finnes det en rekke enkle kalkulatorer på av maksimalt O2- opptak – uten å løpe på tredemølle, se for eksempel https://www.ntnu.no/cerg/vo2max.

Det er ingen Missing values på datafilen

Løsning oppgave 1
3. Lag en deskriptiv analyse av VO2. Gjør dette via Analyze/Descriptive Statistics/Explore. 
Trinn 1Trinn 2Trinn 3Trinn 4Trinn 5Trinn 6Trinn 6.5
Forklar hva gjennomsnittene, medianene, standardavvikene og standardfeilen til gjennomsnittet (Std. Error) uttrykker. Forklar boksplottene.

  • Gjennomsnittet
    Sum av observasjoner / antall observasjoner.
  • Medianen
    Like mange observasjoner over som under medianobservasjonen. Om antall observasjoner er et partall, blir medianverdien vanligvis et gjennomsnitt av de to midterste verdiene.
  • Standardavviket
    Verdienes gjennomsnittsavstand fra gjennomsnittsverdien
  • Standardfeilen
    Standardavviket / kvadratroten av antall observasjoner. Hva ligger bak formelen? La oss si at det snart er stortingsvalg. Avisene tar en meningsmåling (typisk grupper på 1000) som viser at 23% stemmer på Høyre. I en annen måling med en annen gruppe mennesker får vi kanskje 26%. Jo flere målinger vi tar av grupper på 1000, jo nærmere kommer vi populasjonsverdien (altså den egentlige prosentverdien for hele befolkningen). Standardavviket til alle disse “småverdiene” kaller vi da for standardfeilen, altså graden av usikkerhet i meningsmålingene.
  • Interkvartil avstand
    Deler målingene i fire grupper. Når første 25% av målingene er bak oss kaller vi det for første kvartil. Like så kalles 50% for andre kvartil (eller medianen) og 75% for tredje kvartil. Avstanden mellom første og tredje kvartil kaller vi den interkvartile avstanden. I praksis har vi da med 50% av målingene.

box w coms.PNG
Figuren ovenfor kaller vi et boksplott og er en grafisk fremstilling av noen utvalgte deskriptive verdier.

HistogramAdd histro
Histogramgraph.PNG
Jo flere observasjoner, jo nærmere kommer vi en kurve (og en sannsynlighetsfordeling). Den mest brukte sannsynlighetsfordelingen er en normalfordeling som er symmetrisk rundt gjennomsnittet. Det er ofte interessant å se på hvordan målinger samsvarer med en normalfordeling. Dette kan vi sjekke ved:
Trinn 1Trinn 2Normal plots
Normality plot 1Normality plot 2
Jo nærmere verdiene er normalfordelte, jo mer samsvarer de med grafene (hvor stor andel som ligger innen normalfordelingen). I praksis vil vi aldri se reelle data som ligger eksakt på normalfordeligen. Foreleser forteller at han selv aldri har klart å tolke den horisontale grafen langs x. Da er det vel trygt å anta at dette heller ikke er pensum (med mindre det er ekstreme avvik eller samsvarelser).

For å undersøke om VO2 er normalfordelt skal vi laget et normalfordelingsplott. Da går vi tilbake til Analyze/Descriptive Statistics/Explore, og vi klikker på Plots i den høyre knapperekken. Da åpner det seg en ny meny. Der klikker vi på Normality plots with tests. Kan vi anta at VO2 er normalfordelt?

Nei.


Lag en frekvensfordeling for variabelen EXP. Gjør dette via Analyze/Descriptives/Frequencies. Forklar resultatene.
Trinn 1EXPTrenignsprogram
Vi ser her at 117 har fulgt treningsprogrammet og 116 ikke. Når vi har en så jevn fordeling er det naturlig å tenke seg at det ikke er et tilfeldig oppsett, men en designet studie (at halvparten f.eks. har fått et treningsprogram, halvparten ikke).

To prosenter

  • Precent
    Prosentandel av alle svarene
  • Valid precent
    Prosentandel av alle gyldige svar, dvs. ikke talt med “missing values”

Når det er snakk om kategoriske variabler med mange kategorier, f.eks. fødeland, kan det være naturlig å oppsummere det i et stolpediagram.

6. Variabelen FAI er en kontinuerlig variabel som angir graden av aerob svekkelse. Hvis FAI er større eller lik 0 er personen aerob svekket, er FAI mindre enn 0 er personen ikke svekket. Vi skal lage en variabel IMP som angir om personen er svekket eller ikke. Lag da variabelen:

  • IMP = 1 når FAI >= 0
  • IMP = 0 når FAI < 0

newvar1newvar2newvar3newvar4.png
Vi velger ikke “Range, LOWEST through value”, for da tar vi med 0 i begge omganger. Om det finnes “missing values” i datasettet “prikker vi av” “System-missing”-alternativet. Manglende verdier ser ut i datafilen som et åpent felt, men er kodet som en ekstremverdi (enten ekstremt høy eller lav). Disse verdiene tas med dersom vi f.eks. har alle verdier fra 0 og oppover og kan påvirke resultatene vi får. Det kan være lurt å gi den nye variabelen et “label”, f.eks. “Svekkelse”

Label 1.png

Label 2Label 3Frekvenstabell 2.PNG

Lag frekvenstabell som tidligere. Vi ser her at et overveiende flertall opplever å bli svekket (59 v. 174).

9. Lag en deskriptiv analyse av VO2 mht. til IMP. Meningen er da å gi en presentasjon av de sentrale målene, som gjennomsnitt, median, standardavvik etc. for VO2 for de to gruppene av IMP. Gjør dette via Analyze/Descriptive Statistics/Explore. Hva er gjennomsnittene, medianene, standardavvikene og standardfeilen til gjennomsnittet (Std. Error)? Forklar boksplottene.

Det er litt merkelig å undersøke disse forholdene da IMP er basert på VO2 (men la gå).
Trinn 1Trinn 2

Factor2Deskriptiv.PNGFactor1

Observer at det er en forskjell på feilmarginen “Std. Error” mellom gruppen som er svekket (0.7715) og ikke svekket (1.0000). Grunnen til det er fordi vi regner ut feilmarginen ved formelen: standardavvik/roten av antall observasjoner. Hva det vil si i praksis er at det rett og slett er flere som opplever å bli svekket enn ikke.

Boksplottet

  • Mindre spredning (interkvartil avstand, min-max) blant gruppen “ikke svekket”
  • Generelt høyere VO2 for “ikke svekket”

Merk at SPSS har satt ring rundt og skrevet “33” over boksplottet til “ikke svekket” Det er fordi programmet vil understreke at observasjon #33 er i overkant stor (i forhold til normen). Observasjon 33 har VO2-verdien: 59.7 som nærmer seg opptaket til en eliteutøver. Når SPSS skisserer boksplottene gjør de en antagelse om at datasettet er normalfordelt. Observasjoner som er lengre unna gjennomsnittsverdien enn et gitt antall standardavvik markeres automatisk av programmet.

Oppgave 2 (bytte til vo2hr.sav)
Kroppen opptar mer oksygen under arbeid enn under hvile, og for å transportere oksygen til musklene må hjertet slå fortere. Hjertefrekvens er lett å måle, mens oksygenopptaket er vanskeligere. Denne studien er basert på 38 arbeidere. Vi skal studere to arbeidsbetingelser, i det arbeidet er utført med og uten beskyttende arbeidsmaske. Arbeidet er av 19 arbeidere utført uten beskyttende ansiktsmaske og for 19 andre arbeidere er det utført med ansiktsmaske. Målsetningen i studien er å se om det er en sammenheng mellom oksygenopptak (VO2) og hjertefrekvens (HR) for de to arbeidsbetingelsene. Basert på dataene nedenfor skal vi undersøke om dette virker rimelig.

Merk ummidelbart at studieutvalget er svært lite og eventuelle konklusjoner dermed svekkede. 

Relevant informasjon:

  • To faktorer:
    Hjertefrekvens (HR)
    Oksygenopptak (VO2)
  • Med og uten maske
  • 38 arbeidere

analyze-1.pngAnalyze 2Analyze 4.PNG
Kurtosis 1Kurtosis 24. Lag boksplott for VO2 og HR for personer med og uten bruk av ansiktsmaske. Forklar hva du finner. Er fordelingen til disse to variablene symmetriske?

Kurtosis 3

  • HR uten maske
    Vi ser at boksplottet er relativt symmetrisk. Avstandene fra min og max til medianen er ~like. Avstanden fra 1. til 2. (medianen) og 3. til 2. (medianen) kvartil er ganske lik.
  • HR med maske
    Vi ser her at boksplottet er relativt usymmetrisk. Selv om avstanden fra 1. til 2. (medianen) og 3. til 2. kvartil (medianen) er ganske lik, er det stor forskjell på avstandene fra min og max til medianen (og den interkvartile avstanden). Det kan være fordi studieutvalget er for lite.

Sammenligning
Boksplottene viser en tydelig redusert hjertefrekvens for de som hadde på seg maske.

Kurtosis 4

  • VO2-opptak uten maske
    Vi ser at boksplottet er relativt symmetrisk. Avstandene fra min og max til medianen er ~like. Avstanden fra 1. til 2. (medianen) og 3. til 2. (medianen) kvartil er ganske lik.
  • VO2-opptak med maske
    Vi ser at boksplottet er relativt symmetrisk. Avstandene fra min og max til medianen er ~like. Avstanden fra 1. til 2. (medianen) og 3. til 2. (medianen) kvartil er ganske lik.

Sammenligning
Boksplottene viser noe lavere VO2-opptak med maske på. Det er naturlig da masken gjør det vanskeligere å puste.

Tolkning
Resultatene tyder på at det er en assosiasjon mellom maskebruk og både redusert VO2-opptak og hjertefrekvens. En konfunderende faktor kunne vært arbeidsintensitet. Resultatene kan f.eks. forklares ved at de som hadde på seg maske som gjorde det vanskeligere å puste jobbet mindre intenst og viste dermed også lavere hjertefrekvens.

5. Lag normalfordelingsplott for VO2 og HR for personer med og uten bruk av ansiktsmaske. Hva finner du?

Datamengdene samsvarer ikke med en normalfordeling.

Lag et spredningsdiagram for sammenhengen mellom VO2 og HR for dem med og uten ansiktsmaske, med VO2 på y-aksen og HR på x-aksen. Det gjør vi ved å gå til Graphs/Legacy Dialogs/Scatter/Dots. Her klikker vi på Simple Scatter og Define. Vi trekker VO2 over i y-aksen og HR over i x-aksen og MASK over i Set Markers by.Scatter 2scatter 1Scatter 3scatter 4
scatter 5.PNGDet at grafene (regresjonslinjene) er tilnærmet parallelle betyr at veksten (proporsjonalitetskonstanten a i y=ax+b) er ~lik. Grunnen til at grafene er forskjøvet er fordi oksygenopptaket er generelt lavere med maske på (gir mening i praksis!).

8. Forklar sammenhengen mellom oksygenopptak og hjertefrekvens ut fra resultatene fra denne studien.
Vi ser fra regresjonsplottet at forholdet mellom hjertefrekvens (HF) og oksygenopptak (VO2) er tilnærmet konstant uavhengig av faktorer som reduserer oksygentilgangen (maske). Er studien fullstendig konkluderende? Det er de aldri, men ideelt sett kunne vi gjort målingene på nytt med et større utvalg.


ForeleserMorten Valberg