Analyse av to uavhengige grupper: to-utvalgs t-test

Vi bruker to utvalgs t-test når vi skal sammenligne to uavhengige datasett.

Fremgangsmåte

  1. Bestemme hypoteser
    Ofte er H0 slik at µ1 = µ2 og HA: µ1 ≠ µ2
  2. Bestemme α-nivå
  3. Beregne standardavvik og gjennomsnitt for de to gruppene
  4. Vi antar at SD er ~like for de to gruppene og finner felles SD ved Sf = sqrt(((n1 – 1) * s1^2 + (n2 – 1) * s2^2) / n1 + n2 – 2)
  5. Standardfeilen SE(X1 – X2) = Sf * sqrt (1/n1 + 1/n2)
  6. Regne ut teststørrelsen T = (X1 – X2) / SE(X1 – X2)
  7. Sammnligne T med t-verdi fra tabell
    Forkast H0 om T > t

Konfidensintervall
(X1 – X2) +- c * SE(X1 – X2)

Vi antar at gjennomsnittsvariablene som hører til datasettene våre er normalfordelte. Dette gjelder dersom n er tilstrekkelig stor ved sentralgrenseteoremet.


ForeleserMagne Thoresen

Ressurser
Presentasjon

Analyse av pardata: ett-utvalgs t-test

Fortsettelse fra sist
Vi kan ikke gi en fornuftig fortolkning av relativ risiko: 0.64 (36% redusert risiko) uten å vite hvilke tall som ligger bak. Om vi regner på risikodifferansen, finner vi at den er 1%. Forsøket i eksempelet vårt ble stoppet fordi forskerne mente det ikke lenger var forsvarlig å la pasienter stå på placebo. I en større samfunnsgruppe er det hensiktsmessig å se på RR (36%) da selv en liten endring i den reelle risikodifferansen kan utgjøre en forskjell for mange når populasjonen er stor.

Dilemma:
Er det forsvarlig å la en pasient stå / starte en pasient på medikamenter som gjør at en risiko går fra 3% til 2%, men som vedkommende må ta hele livet?

Ny kunnskap
Om vi har et normalfordelt utvalg vil gjennomsnittet også være normalfordelt.
E(X) = μ
SE(X) = σ / sqrt(n)

SE har samme funksjon som SD ved gjennomsnitt. Vi bruker SE ved estimator, SD ved datamengde.

Vi estimerer sigma (empirisk standardavvik) ved s = sqrt(1/(n-1) * sigma(xi-x)^2). Når vi estimerer sigma får vi naturligvis mer usikkerhet og derfor et bredere konfidensintervall (avhengig av størrelse på datamengde da s nærmer seg σ når n blir stor). Vi kan derfor ikke lenger bruke 1.96 som konstant, men en faktor c fra studentfordelingen (t-fordelingen). Den nye formelen blir da x +- c * s/sqrt(n). S er det empiriske standardavviket. Det finnes mange t-fordelinger. Utseende på dem varierer med antall frihetsgrader. Fordi studentfordelingen har mer usikkerhet, har sannsynlighetstettheten tyngre haler (tar for seg flere verdier utover i begge retninger). Vi må derfor litt lenger ut for å ta for oss 95% (derfor C >= 1.96). Vi regner ut antall frihetsgrader ved n – 1. 

T-tabellen viser sannsynligheter for å overstige. Vi leser av 0.025 for å få et 0.05 α-nivå (tosidig). Fra presentasjon: “[…] siden vi skal ha 2.5% over verdien c og tilsvarende 2.5%
under verdien –c.” Vi forkaster H0 dersom verdien overstiger α-nivåverdien. Kjikvadratfordelingen er annerledes ved at vi ikke beregner noe konfidensintervall (gir oss direkte et svar).

Labtester vil ofte oppgi sin sigma, men i praksis må vi nesten alltid estimere den som s. Dersom vi forkaster H0 ved t-test, vil nullverdien (H0) aldri være inkludert i konfidensintervallet. Ved RR, kjikvadrat usw. kan det hende vi finner en/et overlapp.

Foreleser:
Det er ikke krise om den eksplisitte frihetsgraden ikke er gitt i tabellen. Forskjellene når vi får store frihetsgrader blir så små at de egentlig ikke har en stor praktisk betydning (innenfor våre rammer). “Bare begrunn valget.”

Notiser:
En paret t-test er bare en ett-utvalgs t-test på forskjellen mellom de to avhengige datasettene. Vi antar at standardavvikene i de opprinnelige datasettene er ~like. Standardavviket til forskjellene må nødvendigvis være mellom de to opprinnelige. SPSS tester om vi kan anta et tilstrekkelig likt standardavvik, men foreleser sier han ikke pleier å titte på den (dårlig test): “Pleier å krysse over.”


ForeleserMagne Thoresen

Ressurser
Presentasjon

Gruppeøvelser i statistikk

Oppgave 9
1. Forklar hva vi mener med et konfidensintervall. Ta utgangspunkt i den binomiske situasjonen.
Om vi gjentar et forsøk mange ganger, vil et 95% konfidensintervall si at andelen konfidensintervall (basert på en estimert sannsynlighet) som inneholder den sanne populasjonsverdien p er 95%.

Binomisk situasjon: X ~ bin(n, p)
Konfidensintervall: p^ +- 1.96 * sqrt(p^(1-p^)/n) hvor sqrt(p^(1-p^)/n) er den estimerte standardfeilen.

Del 1
1. Gjør de beregningene som er nødvendige for å finne de feilmarginene som er oppgitt over.
Feilmarginene her vil si 1.96 * standardfeilene for et 95% konfidensintervall. Leser av partibarometer og får p^ = 0.297 for Ap og 0.250 for Høyre. Vi finner standardfeil ved Sp = sqrt(p^(1-p^)/n) hvor n er 721. Vi får Sp(Ap) ~= 0.017. 0.017 * 1.96 ~= 0.033. Sp(H) ~= 0.016. 0.016 * 1.96 ~= 0.032

2. Hva skal vi mene med øvre og nedre grense for partitilslutning? Gjør de beregningene som er nødvendig for å finne øvre og nedre grense for Arbeiderpartiet og Høyre. Hva synes du om overskriften til NRK: Dårlig måling for Støre: Ap under 30 prosent
Med øvre og nedre grense mener vi konfidensintervall. Formelen for et 95% konfidensintervall er p^ +- 1.96 * Sp. Vi får for Ap: 0.297 +- 0.033. For høyre får vi: 0.250 +- 0.032. Sannsynligheten for at den sanne oppslutningen for Ap er over 30% er nesten like stor som at den er under. Litt misvisende overskrift.

3. Kan vi bruke tilnærmingen til normalfordelingen i de beregningene vi gjør her? Hvor er det vi bruker den i våre beregninger?
Vi bruker antagelsen når vi regner ut feilmargin og konfidensintervall (øvre/nedre partigrense). Vi kan bruke tilnærmingen pg.a. sentralgrenseteoremet. np og nq er > 5.

Del 2
4. Gi en begrunnelse for at en skulle vente en binomisk fordeling med samme p hvis risikoen for spontanabort var den samme for hver kvinne.

  1. Kvinnene er uavhengig fra hverandre
  2. Vi kan måle om hendelsen spontanabort inntreffer
  3. Sannsynligheten for spontanabort er samme og konstant for hver kvinne

5. Hvilken andel av det totale antallet graviditeter har resultert i spontanabort?
p^ = ((28 + 14 + 15 + 24) = 81) / (70 * 4 = 280) ~= 0.29

6. Beregn et 95% konfidensintervall for andelen spontanaborter. Forklar med ord hva denne betyr. Kan vi bruke tilnærmingen til normalfordelingen her?
p^ ~= 0.29
Sp ~= 0.027
Feilmargin ~= 0.053
95% KI: (0.24, 0.34)
Vi tolker det slik at intervallet (0.24, 0.34) har en 95% for å inneholde den sanne populasjonsverdien p.

Vi kan bruke tilnærming pg.a. sentralgrenseteorem og np & nq > 5.

7. Hvis den binomiske sannsynligheten p settes lik denne andelen, beregn da de forventede antall kvinner med henholdsvis 0, 1, 2, 3 og 4 aborter. Sammenlign med den observerte fordelingen over. Diskuter eventuelle avvik.
(4 0): 0.254 * 70 = 17.78
(4 1): 0.415 * 70 = 29.05
(4 2): 0.254 * 70 = 17.78
(4 3): 0.069 * 70 = 4.83
(4 4): 0.007 * 70 = 0.49

Fra tabellen:
(4 0): 24
(4 1): 28
(4 2): 7
(4 3): 5
(4 4): 6

Vi ser at de forventede tallene vi får ikke stemmer så godt overens med tallene vi observerer. Dette kan tyde på at fordelingen vi har ikke er binomisk og at f.eks. p ikke er lik for alle kvinner.

Oppgave 10
1. Hva er sannsynligheten for at en (tilfeldig valgt) pasient med metabolsk syndrom har hjerte- og karsykdom. Finn et konfidensintervall for denne andelen.
p^ = 29/198 ~= 0.146
Sp ~= 0.025
95% KI: (0.097, 0.195)

2. Beregn differansen i andelen med hjerte- og karsykdom for dem med og uten metabolsk syndrom. Beregn også konfidensintervallet for differansen. Dette må du regne ut for hånd!
p^1 = 0.146
p^2 = 8/73 ~= 0.110
RD = 0.146 – 0.110 = 0.036

Regner ut konfidensintervall:
Finner felles standardfeil Sf = sqrt((p^1 * (1 – p^1) / n1) + (p^2 * (1 – p^2) / n2)) ~= 0.044
95% konfidensintervall er gitt ved: RD +- 1.96 * Sf
Vi får konfidensintervall (-0.05, 0.12).

3. Beregn relativ risiko (RR), med konfidensintervall.
RR = 0.146 / 0.110 ~= 1.33

95% konfidensintervall for RR er definert ved RR * e^(+- 1.96 * SRR) hvor SRR = sqrt(1/29 + 1/8 – 1/198 – 1/73) ~= 0.375. Da får vi konfidensintervall (0.64, 2.77).

4. Beregn også odds ratio (OR), med konfidensintervall.
OR = (29/169) / (8/65) ~= 1.39

95% konfidensintervall for OR er definert ved OR * e^(+- 1.96 * SOR) hvor SOR = sqrt(1/29 + 1/8 + 1/169 + 1/65) ~= 0.425. Da får vi konfidensintervall (0.60, 3.20).

5. Du har i pkt. 2, 3 og 4 beregnet tre alternative mål for effekten som metabolsk syndrom har på hjerte- og karsykdom. Hvilket av disse ville du bruke hvis du skal presentere dette for en gruppe lekfolk?
Alle effektmålene har egne styrker. I denne sammenhengen ville jeg valgt RR eller RD da disse er lettere å forstå. Vi får at en pasient med metabolsk syndrom er ~33% (1.33) mer eksponert for hjerte- og karsykdom. RD forteller oss at den reelle forskjellen er ~3.6%.

6. Sett opp nullhypotesen for å studere om andelene med hjerte- og karsykdom er like for
dem med og uten metabolsk syndrom. Test nullhypotesen. Hvilken konklusjon finner
du?
Vi kan bruke Y-test og Chi-kvadrat-test.

Y-test:
Setter α-nivå = 0.05
H0: p1 = p2
HA: p1 != p2

p^1 ~= 0.146
p^2 ~= 0.110

Finner z-skår, altså Y = (p^1 – p^2) / sqrt(((1/n1)+(1/n2))*p-(1-p-)) hvor p-, den gjennomsnittlige p, = (x1 + x2) / (n1 + n2). Vi får da Y ~= 0.77 som gir i tabellen 0.7794. P-verdi blir da 2*(1 – 0.7794) ~= 0.44. Dette er mye større enn 0.05. Vi kan ikke forkaste H0.

Chi-kvadrat-test:
H0: p1 = p2
HA: p1 != p2

Andel med metabolsk syndrom: 198/271 ~= 0.73
Forventet andel med metabolsk syndrom med hjerte- og karsykdom: 37*0.73 = 27.01
Forventet andel med metabolsk syndrom uten hjerte- og karsykdom: 234*0.73 = 170.82

Andel uten metabolsk syndrom: 73/271 ~= 0.27
Forventet andel uten metabolsk syndrom med hjerte- og karsykdom: 37*0.27 = 9.99
Forventet andel uten metabolsk syndrom med hjerte- og karsykdom: 234*0.27 = 63.18

Vi regner ut teststørrelse X^2:
X^2 = (29 – 27.01)^2 / 27.01 + (169 – 170.82)^2 / 170.82 + (8 – 9.99)^2 / 9.99 + (65 – 63.18)^2 / 63.18 ~= 0.61

Antall frihetsgrader: (kolonner – 1) * (rader – 1) = 1
For α-nivå 0.05 har vi en verdi 3.84. Fordi teststørrelsen vi fant er mye mindre enn 3.84, kan vi ikke forkaste H0.

Oppgave 11
1. Bruk tabellen til å undersøke om andelen med hjerte- og karsykdom avhenger av om personen er overvektig eller ikke. Sett opp en nullhypotese og test den.
Vi kan bruke Y-test og Chi-kvadrat-test.

Y-test:
Setter α-nivå = 0.05
H0: p1 = p2
HA: p1 != p2

p^1 ~= 0.19
p^2 ~= 0.060

Finner z-skår, altså Y = (p^1 – p^2) / sqrt(((1/n1)+(1/n2))*p-(1-p-)) hvor p-, den gjennomsnittlige p, = (x1 + x2) / (n1 + n2). Vi får da Y ~= 6.32 som gir i tabellen > 0.9998. P-verdi blir da < 2*(1 – 0.9998) ~= 0.0004. Dette er mye mindre enn 0.05. Vi kan med god sikkerhet forkaste H0.

Chi-kvadrat-test:
H0: p1 = p2
HA: p1 != p2

Andel med overvekt: 312/994 ~= 0.31
Forventet andel med overvekt med hjerte- og karsykdom: 100*0.31 = 31
Forventet andel med overvekt uten hjerte- og karsykdom: 894*0.31 = 277.14

Andel uten overvekt: 682/994 ~= 0.69
Forventet andel uten overvekt med hjerte- og karsykdom: 100*0.69 = 69
Forventet andel uten overvekt med hjerte- og karsykdom: 894*0.69 = 616.86

Vi regner ut teststørrelse X^2:
X^2 = (60 – 31 )^2 / 31 + (40 – 69)^2 / 69 + (252 – 277.14)^2 / 277.14 + (642 – 616.86)^2 / 616.86 ~= 42.62

Antall frihetsgrader: (kolonner – 1) * (rader – 1) = 1
For α-nivå 0.05 har vi en verdi 3.84. Fordi teststørrelsen vi fant er mye større enn 3.84, kan vi med god sikkerhet forkaste H0.

2. Bruk differansen i andelen med hjerte- og karsykdom som effektmål for effekten av overvekt på hjerte- og karsykdom. Finn et estimat for effekten og lag et konfidensintervall (for hånd!).
p^1 ~= 0.19
p^2 ~= 0.060
RD = 0.19 – 0.060 = 0.13

Regner ut konfidensintervall:
Finner felles standardfeil Sf = sqrt((p^1 * (1 – p^1) / n1) + (p^2 * (1 – p^2) / n2)) ~= 0.024
95% konfidensintervall er gitt ved: RD +- 1.96 * Sf
Vi får konfidensintervall (0.083, 0.18).

3. Bruk relativ risiko som effektmål. Beregn den og finn et konfidensintervall for den.
RR = 0.19 / 0.060 ~= 3.17

95% konfidensintervall for RR er definert ved RR * e^(+- 1.96 * SRR) hvor SRR = sqrt(1/60 + 1/40 – 1/312 – 1/682) ~= 0.19. Da får vi konfidensintervall (2.18, 4.60).

4. Bruk odds ratio som effektmål, beregn den og finn konfidensintervallet.
OR = (60/252) / (40/642) ~= 3.82

95% konfidensintervall for OR er definert ved OR * e^(+- 1.96 * SOR) hvor SOR = sqrt(1/60 + 1/40 + 1/252 + 1/642) ~= 0.22. Da får vi konfidensintervall (2.48, 5.88).

5. Les inn tabellen over i SPSS. Lag variabelnavn, variabel labels og value labels og
presenter selve tabellen.
Kommer senere

6. Beregn RR, OR med tilhørende konfidensintervall ved å bruke SPSS.
Kommer senere

7. Hvordan vil du presentere sammenhengen mellom overvekt og hjerte- og karsykdom, og hvordan vil du konkludere om sammenhengen mellom overvekt og hjerte- og karsykdom?
Alle effektmålene har egne styrker. I denne sammenhengen ville jeg valgt RR eller RD da disse er lettere å forstå. Vi får at en pasient med overvekt er ~317% (3.17) mer eksponert for hjerte- og karsykdom. RD forteller oss at den reelle forskjellen er ~13%. Vi ser at om H0 for RR = 1 og RD = 0, er ingen av disse inkludert i deres tilsvarende 95% konfidensintervall. Vi kan si med 95% sikkerhet at det er en betydelig sammenheng mellom overvekt og økt forekomst av hjerte- og karsykdom.


ForeleserSimon Lergenmuller

Ressurser
Oppgaver

Konfidensintervall

Hovedsakelig små avvik fra presentasjonen

  • Tradisjonelt sett forholder vi oss til at populasjonen er uendelig stor.
    Det er praktisk vanskelig å få tall på hele populasjonen da det ofte står store logistiske og økonomiske utfordringer i veien.

  • Konfidensintervall som hypotesetesting
    Konfidensintervall gir oss samme konklusjon som en tradisjonell hypotesetesting (H0, 1). Dersom konfidensintervallet ikke dekker nullverdien (H0-verdien), vil p-verdien være mindre enn 0.05 (signifikansnivået).

Foreleser: Magne Thoresen

Ressurser
Presentasjon

Hypotesetesting

Hypotesetesting er en metode i statistikk vi bruker for å kvantifisere usikkerhet og variasjon. Hva skjer om vi f.eks. tester et legemiddel på alt for små utvalg? Hva om det testes bare på menn? Utvalgene i legemiddeltester har inntil nylig bestått av 90% menn. Hvordan kan vi vite om observasjonene våre skyldes tilfeldigheter eller ikke? Dette kan vi finne svar på gjennom hypotesetesting.

Vi setter opp en nøytral nullhypotese (H0) og en alternativ hypotese (H1). Vi ønsker å vise at H1 er sann ved å undergrave H0. Formålet er å undersøke om datamaterialet gir tilstrekkelig grunnlag for å forkaste H0 til fordel for H1 med høy grad av sikkerhet. Vi regner ut en “p-verdi“, eller “signifikanssannsynlighet” med en antagelse om at H0 er sann og sammenligner med et “signifikansnivå” som bestemmes i forkant av forsøket. Dersom p-verdien er lavere enn signifikansnivået, sier vi at det er grunnlag for å forkaste H0. Det er vanlig at signifikansnivået er satt til 5%. Jo lavere signifikansnivå, jo sikrere vil konklusjonen være. Ved 5% signifikansnivå aksepterer vi at det er en risiko på 5% for å feilaktig forkaste H0. Dette kaller vi en feil av type I. Det motsatte, at vi ikke forkaster H0 selv om den er feil, kaller vi en feil av type II. Denne typen feil skyldes ofte at datamaterialet er for lite.

Hva er “p-verdi” og “signifikansnivå“?
Både p-verdi og signifikansnivå er verdier mellom 0 og 1.

La oss si at vi mistenker at en mynt havner på kron alt for ofte. Da er nullhypotesen P(K) = 0.5 og alternativhypotesen P(K) > 0.5. Av antall forsøk n vil det være a antall mynter som lander på kron. Dersom a er tilstrekkelig større enn 1/2 av n, kan vi forkaste H0. Med tilstrekkelig mye større menes da at a er større enn en verdi c. Verdien c velger vi utifra hvor sannsynlig vi vil at konklusjonen skal være. Vi vil at sannsyligheten for at vi forkaster H0 feilaktig skal være minst mulig. Denne sannsynligheten kaller vi “signifikansnivået”, ofte satt til 0.05 (5% sannsynlighet for at assosiasjonene vi har observert er tilfeldige). P-verdien er sannsynligheten for et testresultat dersom betingelsene i H0 er sanne.

La oss si at vi i et forsøk har fått at 70 av 100 mynter lander på kron. Vi går ut ifra at H0 er sann og ser på hvor sannsynlig det er å få dette resultatet (70/100 kron) eller noe mer ekstremt dersom P(K) = 0.5, altså P(X >= 70 | H0). Dette kunne vi regnet ut for hånd ved hjelp av den binomiske sannsynlighetsfordelingen, men det hadde vært tungvint. Det viser seg imidlertid at den binomiske fordelingen nærmer seg en normalfordeling når n, antall forsøk, er stort (ved sentralgrenseteoremet). Vi kan derfor forenkle utregningen via. en såkalt “normaltilnærmelse”

Når vi skal finne normalfordelingen som er mest lik histogrammet vårt, tar vi utgangspunkt i forventningen (μ) og standardavviket (σ) til den binomiske fordelingen. For en binomisk fordeling gjelder:

  • Forventning, E(X) = n * p
  • Varians, var(X) = n * p * (1 – p)

Derfor har vi at normalfordelingen har:

  • Forventning, E(X), μ = n * p
  • Standardavvik, SD(X), σ = sqrt(n * p * (1 – p))
    Siden Var(X) = SD(X)^2

Utregning
P(K) = 0.5
N = 100
μ = 100 * 0.5 = 50
σ = sqrt(50 * (0.5)) = sqrt(25) = 5
Normaltilnærmelsen er best når μ >= 5 og Var(X) >= 5.

Det neste steget er å standardisere normaltilnærmelsen vår, Y ~ N(0, 1). Vi trekker μ fra X slik at standardfordelingen får sentrum i 0, og deler på σ for å få et standardavvik = 1. Y = (X – μ) / σ.

Vi er interessert i P(X >= 70) = 1 – P(X <= 70). P(X <= 70) = P((X – 50)/5 <= (70 – 50)/5) = P(Y <= 4). På engelsk, kaller vi 4 for z-skåren (z-score). Den sier noe om hvor mange standardavvik verdien vår ligger unna gjennomsnittet (0). Gjennomsnittet av utfallene i et forsøk med en stokastisk variabel vil nærme seg forventningen dersom forsøket gjentas tilstrekkelig mange ganger. På normalfordelingstabellen ser vi at en z-skår på 4 gir oss en sannsynlighet på 0.99997. Det vil si at sannsynligheten for at en tilfeldig valgt verdi ligger et mindre antall standardavvik fra gjennomsnittet enn 4 er 99.997%. Videre regner vi ut at 1 – 0.99997 = 0.00003 = 0.003%. Verdien vi har funnet nå er p-verdien, altså sannsynligheten for at vi får at 70 / 100 mynter lander på kron dersom H0 er sann, P(K) = 0.50. Med et signifikansnivå på 5%, kan vi forkaste H0 med relativt god sikkerhet og konkludere med at H1 er sann, altså at mistanken vår om at mynten landet på kron alt for ofte var vel begrunnet.

Estimering
Et utvalg på 1000 pasienter forteller oss ikke nødvendigvis virkeligheten for hele populasjonen. Når det ikke er praktisk mulig å samle data for en hel populasjon må vi estimere (tilnærme) den “sanne sannsynligheten” Estimatsannsynligheten noteres som en p med en “hatt” (^) over, altså p^ dersom “^” var direkte over p’en. Vi ser på p^ som sannsynligheten i et utvalg av en større gruppe og den “sanne sannsynligheten” som en tenkt verdi for hele gruppen. Vi tenker for oss at vi har en stokastisk variabel som er binomisk fordelt, men der sannsynligheten p er ukjent.

Rett fra boka til Aalen et al.:
“Generelt er det liten grunn til å tro at p^ faller eksakt sammen med p, og et viktig spørsmål er hvor mye de med rimelighet kan avvike fra hverandre. Denne usikkerheten kan beskrives ved et såkalt konfidensintervall. Med dette mener vi et område rundt p^ som med stor sannsynlighet dekker den sanne verdien p.” 

Vi har formlene:

  • E(p^) = p
  • SD(p^) = sqrt((p * (1 – p) / n))
    Dette leses som standardfeilen til estimatet p^.
    Om vi vil estimere standardfeilen, erstatter vi bare p i formelen med p^. Da får vi Sp = sqrt((p^ * (1 – p^) / n)).

Konfidensintervallet er bestemt ved p^ +- x * Sp hvor x er en verdi fra normalfordelingstabellen. Jo større x, jo bredere konfidensintervall, og jo større sannsynlighet er det for at den sanne verdien p er inkludert. For eksempel vil et intervall på p^ +- 1.96 * Sp dekke 95% av fordelingen. Intervallet har altså en 95% sannsynlighet for å inneholde p.

Alle formlene er gitt at n er tilstrekkelig stor, evt. går mot ∞.


Foreleser: Magne Thoresen

Ressurser
Presentasjon

Normalfordelingen

Vi er hovedsakelig interessert i to typer variasjoner i målinger:

  • Variasjon mellom individer
  • Variasjon innen individer
    Hvilken variasjon ser vi om vi gjør samme måling gjentatte ganger på samme individ?

Variasjon innen individ er typisk mindre enn mellom.

Vi finner en tabell over verdier i en standard normalfordeling bl.a. bakerst i boken til Aalen. Tabellen gir svar på hvor mange prosent av verdiene i datamengden er mindre eller lik en tenkt verdi Z. I praksis spiller det ingen rolle om vi bruker ekte større eller mindre (<, >), da sannsynligheten for at målingene samsvarer eksakt er null når vi senere har med kontinuerlige skalaer å gjøre. Når vi skal finne svar for verdier som er større enn (eller lik) Z, bruker vi komplementsetningen 1-P. For negative verdier kan vi bruke at siden P(Z <= -X) er det samme som P(Z >= X), får vi 1 – P(Z<=X).  

Når vi analyserer data er det typisk å konstruere normalområder som definerer hva som skal være normalverdiene. Utenfor normalområdene tenker vi på verdiene som unormalt høye eller lave. Ved standarde normalfordelinger setter vi som oftest normalområdene til gjennomsnittet +- 1.96 SD (standardavvik). Da ligger 2.5% av fordelingen utenfor på “hver side” og de normale verdiene innenfor de resterende 95%.sd1.PNGsd 2.PNG

Vi noterer en normalfordeling på denne måten:  X ~ N(µ, σ), som leses “X er en normalfordelt variabel med forventning (gjennomsnitt) µ og standardavvik (spredning) σ.” I en standard normalfordeling er µ = 0 og σ = 1, altså N(0, 1). Når vi regner, er det vanlig å gjøre om frekvensfordelingen til en standard normalfordeling. Da bruker vi Z-verdier, som regnes ut på formen Z = (X − µ) / σ. Z er da X i den tenkte normalfordelingen.

Hvorfor er normalfordelingen nyttig?

  1. Mange fenomener er ~normalfordelte
  2. En sum av mange uavhengige størrelser der ingen dominerer er tilnærmet normalfordelt
    Sentralgrensesetningen

Å regne ut en binomisk sannsynlighetsfordeling kan bli tungt om det blir for mange forsøk, selv med datamaskin. Derfor er det vanlig å bruke normalfordeling som en tilnærming den binomiske. Ved tilnærmingen bruker vi at µ = n*p og σ = np(1-p). Helt generelt, funker tilnærmingen best når np >= 5 og n(1-p) >= 5. 

Normalfordeling av gjennomsnittsverdiene
Med gjennomsnittsverdiene mener vi da gjennomsnittene til verdiene i tenkte utvalg av en gitt populasjon. Et eksempel kan være at vi plukker ut grupper på 1000 personer og ber dem rangere “Ex on the Beach” fra 1-10. Vi tar så gjennomsnittsrangeringene i de ulike gruppene og normalfordeler dem. Konfidensintervallet handler om hvorvidt den “sanne verdien” for hele populasjonen er med i fordelingen. Med “hele populasjonen”, mener vi da f.eks. alle personer som har sett “Ex on the Beach” Det finnes jo et “sant gjennomsnitt” dersom vi hadde spurt absolutt alle og regnet på det. Poenget er at vi ikke har gjort det, men at det likevel er sannsynlig at den “sanne verdien” ligger blant de ulike gjennomsnittsverdiene. Når vi snakker om SE i forbindelse med en gjennomsnittsfordeling er det i grunn det samme som standardavviket deres (hvis alltid er mindre enn i den opprinnelige datamengden). Forventningen er da µ og standardfeilen σ / sqrt(n). Formelen blir da Z = (X − µ) / (σ / sqrt(n)), gitt at vi kjenner σ til populasjonen. Jo større utvalg når vi regner ut gjennomsnittsverdiene, jo mindre variasjon blir det.


ForeleserMagne Thoresen

Ressurser
Pres