Normalfordelingen

Vi er hovedsakelig interessert i to typer variasjoner i målinger:

  • Variasjon mellom individer
  • Variasjon innen individer
    Hvilken variasjon ser vi om vi gjør samme måling gjentatte ganger på samme individ?

Variasjon innen individ er typisk mindre enn mellom.

Vi finner en tabell over verdier i en standard normalfordeling bl.a. bakerst i boken til Aalen. Tabellen gir svar på hvor mange prosent av verdiene i datamengden er mindre eller lik en tenkt verdi Z. I praksis spiller det ingen rolle om vi bruker ekte større eller mindre (<, >), da sannsynligheten for at målingene samsvarer eksakt er null når vi senere har med kontinuerlige skalaer å gjøre. Når vi skal finne svar for verdier som er større enn (eller lik) Z, bruker vi komplementsetningen 1-P. For negative verdier kan vi bruke at siden P(Z <= -X) er det samme som P(Z >= X), får vi 1 – P(Z<=X).  

Når vi analyserer data er det typisk å konstruere normalområder som definerer hva som skal være normalverdiene. Utenfor normalområdene tenker vi på verdiene som unormalt høye eller lave. Ved standarde normalfordelinger setter vi som oftest normalområdene til gjennomsnittet +- 1.96 SD (standardavvik). Da ligger 2.5% av fordelingen utenfor på “hver side” og de normale verdiene innenfor de resterende 95%.sd1.PNGsd 2.PNG

Vi noterer en normalfordeling på denne måten:  X ~ N(µ, σ), som leses “X er en normalfordelt variabel med forventning (gjennomsnitt) µ og standardavvik (spredning) σ.” I en standard normalfordeling er µ = 0 og σ = 1, altså N(0, 1). Når vi regner, er det vanlig å gjøre om frekvensfordelingen til en standard normalfordeling. Da bruker vi Z-verdier, som regnes ut på formen Z = (X − µ) / σ. Z er da X i den tenkte normalfordelingen.

Hvorfor er normalfordelingen nyttig?

  1. Mange fenomener er ~normalfordelte
  2. En sum av mange uavhengige størrelser der ingen dominerer er tilnærmet normalfordelt
    Sentralgrensesetningen

Å regne ut en binomisk sannsynlighetsfordeling kan bli tungt om det blir for mange forsøk, selv med datamaskin. Derfor er det vanlig å bruke normalfordeling som en tilnærming den binomiske. Ved tilnærmingen bruker vi at µ = n*p og σ = np(1-p). Helt generelt, funker tilnærmingen best når np >= 5 og n(1-p) >= 5. 

Normalfordeling av gjennomsnittsverdiene
Med gjennomsnittsverdiene mener vi da gjennomsnittene til verdiene i tenkte utvalg av en gitt populasjon. Et eksempel kan være at vi plukker ut grupper på 1000 personer og ber dem rangere “Ex on the Beach” fra 1-10. Vi tar så gjennomsnittsrangeringene i de ulike gruppene og normalfordeler dem. Konfidensintervallet handler om hvorvidt den “sanne verdien” for hele populasjonen er med i fordelingen. Med “hele populasjonen”, mener vi da f.eks. alle personer som har sett “Ex on the Beach” Det finnes jo et “sant gjennomsnitt” dersom vi hadde spurt absolutt alle og regnet på det. Poenget er at vi ikke har gjort det, men at det likevel er sannsynlig at den “sanne verdien” ligger blant de ulike gjennomsnittsverdiene. Når vi snakker om SE i forbindelse med en gjennomsnittsfordeling er det i grunn det samme som standardavviket deres (hvis alltid er mindre enn i den opprinnelige datamengden). Forventningen er da µ og standardfeilen σ / sqrt(n). Formelen blir da Z = (X − µ) / (σ / sqrt(n)), gitt at vi kjenner σ til populasjonen. Jo større utvalg når vi regner ut gjennomsnittsverdiene, jo mindre variasjon blir det.


ForeleserMagne Thoresen

Ressurser
Pres

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google+ photo

You are commenting using your Google+ account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s