Innledning, sannsynlighetsregning I

Hvorfor statistikk på medisinstudiet?
The New england Journal of Medicine, et av verdens mest toneangivende medisinske fagtidsskrifter, samlet en liste av det de mente var de viktigste innovasjonene innen medisinsk behandling de siste tusen årene. På den listen hadde de inkludert medisinsk statistikk. Hvorfor det? Jo, fordi det er et viktig verktøy for å dokumentere og tolke data. Behandlingsprosessen forenkles ofte til fire steg:

Forebygge
Hva er årsaken?
Diagnostisere
Hvilken sykdom?
Behandle
Hvilken behandling?
Prognose
Hvordan går det etter?

Alle de fire trinnene har en viss mengde usikkerhet. Statistikkens oppgave er å kvantifisere denne. Siden 1950 har statistikk bare blitt viktigere og viktigere innen medisinsk forskning.

Det er klart at leger i løpet av karrieren vil komme i møte med pasienter som har dårlig kjennskap til statistikk og stor tiltro til tabloidmagasiner. Konklusjoner dratt fra statistiske data blir ofte mistolket og forenklet. I praksis er det svært tøft å finne koblinger som er 100% sikre. F.eks. var det en gruppe i Kina som drev forskning på om chili kunne forlenge livet. De samlet ~500 000 folk, spurte dem om spisevanene deres, og fulgte dem opp i 9 år. Resultatene tydet på at de som (hevdet at de) spiste chili 1-2 ganger i uka hadde i snitt en dødelighet som var ~10% lavere enn kontrollgruppen. De som spiste chili mer enn > 3 ganger i uka opplevde en reduksjon på 14%. Relativ risiko var satt til 0.86. Likevel er det ikke så enkelt som at man dermed kan fastslå med sikkerhet at chili øker forventet levealder. Studien kontrollerte for eksempel ikke for andre faktorer (salt-inntak, livsstil osv.). Derfor var konklusjonen at studien i likhet med andre epidemiologiske studier kun kunne etablere assosiasjoner.

I sammenheng med medisinsk statistikk, er det noen stikkord det er lurt å ha orden på:

Epidemiologiske studier
Studiet av helsetilstand og sykdomsutbredelse i en befolkning, og av årsaker til sykdom og død.
Prospektiv studie
En prospektiv studie går gjerne under navnet kohortstudie. I epidemiologi betegner det studier hvor grupper følges opp over tid og undersøkes for sykdom.
Median
I statistikken er medianen den verdien av en variabel som ligger midt i det statistiske materialet. Det vil si at like mange individer i materialet har verdier over medianen som under den. Dersom antallet observasjoner er et partall defineres medianen vanligvis som det aritmetiske gjennomsnittet av de to midterste verdiene.
Relativ risiko
Den relative risikoen er forholdet mellom sannsynligheten for at individer som har blitt eksponert for sykdomsfremkallende fenomen utvikler død eller sykdom og tilsvarende sannsynlighet for dem det ikke gjelder.
Assosiasjoner / kausale sammenhenger
Det er viktig å skille assosiasjon og årsakssammenheng. En kausal sammenheng mellom to fenomener er når et av dem fører direkte til det andre. Begrepet assosiasjon er vagere og brukes for å beskrive styrken til forholdet mellom to fenomener.
Kontrollere for
Diskutere variabler og studiestruktur
Konfunderende faktor
Når assosiasjonen mellom to hendelser (delvis) kommer av at begge har en felles årsak kalles det en konfundering. En konfunderende faktor kalles også for en bakenforliggende faktor. Dersom sammenhengen mellom årsaks- og virkningsvariablene skyldes en bakenforliggende faktor sier vi at sammenhengen er spuriøs. Kort fortalt: forskere finner en assosiasjon mellom A og B. Det viser seg at C påvirker både A og B (eller direkte forårsaker). Sammenhengen mellom A og B blir da spuriøs. Det vil si at en tilsynelatende kausal sammenheng ikke egentlig er tilstede enten tilfeldig eller grunnet en tredje faktor C som da kalles en konfunderende faktor.
Eksempel på en konfunderende faktor:
Morens alder påvirker sannsynligheten for at fosteret utvikler Downs syndrom. I en undersøkelse av prevalensen av Downs syndrom i hvert søskenledd (første barn, andre barn, tredje barn usw.), kan morens alder kalles en konfunderende faktor.

Typer data
I første omgang har vi to (tre) typer data:

Kategorisk data
Data som skal settes i bestemte “kategorier”, eksempel: kjønn, fødeland, sivilstatus, andeler (30% av X)
Kontinuerlig data
I all hovedsak numeriske data, eksempel: alder, vekt, blodtrykk, kolesterol-nivå (riktignok telles kanskje ikke alder i praksis som en type kontinuerlig data da det sjeldent forekommer at folk svarer med desimal).
Diskrete numeriske data
Eksempel: telledata, teller antall (eks. antall mål i en fotballkamp). Innen diskrete numeriske data gjelder kun naturlige tall.

Standardavvik og prevalens
Standardavvik er definert som kvadratroten av variansen, på engelsk variance, og er et mål for spredningen av verdiene i et datasett (verdienes gjenomsnittlige avstand fra tyngdepunktet / det aritmetiske gjennomsnittet). Det er et viktig verktøy fordi andre metoder som for eksempel min-maks ser bare på ekstremene, noe som ikke nødvendigvis er nyttig for å illustrere den faktiske fordelingen av verdiene.

Prevalens er enkelt forklart andelen av en befolkning med en viss tilstand. Per 31. desember 2016 var det registrert 7507 pasienter i live med lungekreft. På samme tid var befolkningstallet i Norge ~5 258 317. Vi regner ut andelen (andel = kakestykket (7507) / kaken (5 258 317) og får som svar ~ 0.00143. Prevalensen av lungekreft i Norge var altså ved nyttår 2016 ~14.3 per 10 000 innbyggere. Det går an å trekke linja lenger og se på hvordan prevalensen har utviklet seg gjennom årene. Observasjoner viser nemlig at prevalensen av lungekreft har økt de siste årene. Hva kan det tyde på?

Flere tilfeller?
Bedre overlevelse?
Flere overlever lengre med lungekreft (og generelt)
Endring i diagnostiske kriterier?
Hva skal betegnes som lungekreft?

Ressurser
Det anbefales å sjekke ut fagsiden for medisinsk statistikk. SPSS er en programvarepakke som vil utnyttes i kurset. UiO har skrevet en egen instruksjonsmanual for å hjelpe studentene med innføringen. Det er ikke tenkt at medisinstudenter skal lese gjennom hele manualen, men den er nyttig for å bla i når det trengs.

Dersom man er stolt eier av Aalens bok, er det greit å vite at kapittel 7 (poissonfordeling), 12 (logistisk regresjon), 14 (Bayesiansk analyse) er utenfor pensum.

Foreleser vil være tilgjengelig for veiledningstimer gjennom semesteret. Det er først og fremst et lavterskeltilbud hvor studenter kan få svar på spørsmål de har rundt faget. “Åpningstidene” ligger ute på fagsiden. Det blir fort kø når det nærmer seg eksamen, men av erfaring lite fart før den tid.

I gruppeundervisningen i statistikk blir smågruppene på 10 igjen delt i to grupper på 5 (dvs. f.eks. 1A & 1B, 2A & 2B, usw.) som deretter blir satt sammen tre og tre. Gruppeaktivitetene kommer hovedsakelig til å finne sted i PC-stuene R211 (plass til 35, Rotunden), og en mindre (plass til 25, 2. etg ved bokhandleren Akademika). Første gruppeundervisning fredag 24. august. Opplegget er ment å være studentdrevet. Alle gruppene skal forberede en presentasjon / forelesning på et tema.

Beskjed fra foreleser
Ikke vær redd for å stille spørsmål du synes er dumme eller tåpelige!

Foreleser: Magne Thoresen

Ressurser
Presentasjon

Share this:

Related

Leave a comment Cancel reply