Study Notes bij Academische Wetenschappelijke Vorming - Jaar 2 - Geneeskunde UL - Deel 1 (2013-2014)

Deze samenvatting is gebaseerd op het studiejaar 2013-2014.


Opfris college statistiek

Statistiek: er is een grote, onbekende populatie (bijvoorbeeld alle inwoners van Nederland boven de 65 jaar) en het is vaak lastig om iedereen te meten. Daarom neemt men een steekproef uit de populatie. Met deze steekproef gaat men proberen om uitspraken te doen over de gehele populatie. Kansrekening is het kijken naar: als mijn populatie er op deze manier uitziet, hoe ziet mijn steekproef er dan uit? Bij statistiek gaat het juist andersom: als dit mijn steekproef is, hoe ziet de populatie er dan uit?

 

Medische artikelen beginnen meestal met een tabel 1, die de karakteristieken geeft van de mensen in de studie. Mean is het gemiddelde. De sd is de standaarddeviatie. Met de standaarddeviatie kan men zeggen dat 95% van de bevolking zich bevindt tussen het gemiddelde + 2 x sd en gemiddelde – 2 x sd. De standaarddeviatie is de gemiddelde spreiding. Officieel is het geen 2 x sd, maar 1,96 x sd. Als een individu buiten dit interval ligt, dan is deze persoon ‘extreem’. 68% van de bevolking ligt één sd van het gemiddelde af.

 

De standaard fout (error) zegt hoe nauwkeurig het gemiddelde geschat is, dus het meet de precisie van het steekproef gemiddelde.

 

Wat gebeurt er nu als de steekproef groter wordt? De standaard fout zal dan kleiner worden, want het gemiddelde wordt steeds preciezer. De standaard deviatie zal ongeveer hetzelfde blijven, doordat de verhouding (95% ertussen en 5% erbuiten) hetzelfde zal blijven.

 

P-waarde

Een voorbeeld: men vergelijkt twee medicijnen (A en B). 10 patiënten krijgen A en 3 patiënten genezen. 10 patiënten krijgen B en 4 patiënten genezen. Er is dus 10% verschil (40%-30%). De kans dat dit wordt gezien als A en B dezelfde medicijnen zijn, is 64%: p = 0,64. Stel nu dat het gaat om 30 uit 100 en 40 uit 100 genezen. Dan is de kans op dit toeval 14%, dus p=0,14. Bij 300 uit 1000 en 400 uit 1000 is de p < 0,001 op toeval. Dus de p-waarde is de kans op het krijgen van de geobserveerde resultaten, of nog extremer, onder de veronderstelling dat beide behandelingen even effectief zijn. De p-waarde wordt berekend door middel van statistische toetsen.

 

Het algemene idee van de hypothese toetsen is steeds hetzelfde. Het gaat als volgt:

  1. Men begint met het definiëren van twee verschillende hypotheses:

    1. H0 = geen verschil. Dit is de uitgangssituatie, want men gaat er van uit dat er geen verschil is in werking. De nul hypothese zegt dat er geen associatie tussen twee factoren is (bijvoorbeeld roken en longkanker).

    2. H1 = er is een verschil.

  2. Het verzamelen van data.

  3. Veronderstellen dat H0 waar is.

  4. De waarschijnlijkheid berekenen dat de verkregen resultaten, of extremer, gezien worden als de nul hypothese waar is. Dit wordt gedaan door middel van een statistische toets. Het gaat hier om de p-waarde.

  5. Als de resultaten sterk afwijken van de nulhypothese, dan wordt de H0 verworpen. Er is dan een significant effect of verschil.

Als de p-waarde <0,05, dan is er een significant verschil.

 

In de tabel hieronder kan men zien welke test er wanneer gebruikt moet worden.

 

1 steekproef

2 steekproeven

2 steekproeven

>2 steekproeven

 

 

Gepaard

Ongepaard

 

Parametrisch (gemiddelde)

T-toets voor één steekproef

Gepaarde T-toets

Ongepaarde T-toets

Anova T-toets

Niet-parametrisch (mediaan)

(tekentoets)

Wilcoxon rangtekentoets

Mann-Whitney-toets

(Kruskall-Wallis-toets)

Proporties

Binomiale toets

McNemar’s toets

Chi-kwadraat toets

(Chi-kwadraat toets)

 

De keuze van de statistische test hangt af van een aantal factoren, namelijk:

  • Welk type uitkomst?

    • Numeriek (means of medianen)

    • Categorisch (percentages of proporties)

  • Hoeveel groepen of steekproeven zijn er?

    • 1 groep: is de bloeddruk in de populatie gelijk aan 90 mm Hg?

    • 2 groepen: is het percentage rokers onder mannen en vrouwen gelijk?

    • Meer dan twee groepen

  • Gepaard of ongepaard (onafhankelijke) observaties.

 

Men wijst de nul hypothese niet af, behalve als er een sterk bewijs is tegen de nul hypothese vanuit de data. Bij het toetsen van de hypothese kunnen fouten gemaakt worden. De tabel hieronder vertelt welke fouten gemaakt kunnen worden.

 

De waarheid

Onze beslissing

Geen verschil, H0 waar

Verschil, H0 niet waar

Niet significant

Correct

Type 2 fout

Significant

Type 1 fout

Correct

 

Bij een type 1 fout zegt men dat er niks aan de hand is, terwijl dat niet waar is. α is de waarschijnlijkheid op een type 1 fout. Dit is dus de waarschijnlijkheid dat de nulhypothese verworpen wordt, terwijl deze waar is. Normaal gesproken is deze waarschijnlijkheid 0,05.

β is de waarschijnlijkheid op een type 2 fout. Het is dus de waarschijnlijkheid op het niet verwerpen van de nulhypothese, terwijl deze fout is. Deze waarschijnlijkheid hangt af van α, van de steekproef grootte, van de standaarddeviatie van de observaties en van het eigenlijke verschil. Bij een kleine steekproef zal men bijna nooit iets significants vinden, terwijl kleine verschillen bij een grote steekproef heel significant kunnen zijn.

 

Als twee behandeling even goed zijn, dan kan er nog steeds een significant verschil gevonden worden door toeval. De kans dat er een vals significant verschil gevonden wordt, is gelijk aan 5%. Als er heel veel hypotheses getoetst worden, dan is de kans veel groter dan 5%. Hierbij spelen twee problemen een rol:

  • Data uitbaggeren (dredging) en vissen (fishing). Men blijft dan continu hypotheses testen, totdat men uiteindelijk iets significants vindt.

  • Publicatie bias: positieve resultaten hebben een grotere waarschijnlijkheid om gepubliceerd te worden dan negatieve resultaten.

 

Het gebeurt vaak dat de p-waarde verkeerd geïnterpreteerd wordt. Heel veel mensen concluderen vanuit een p-waarde groter dan 0,05 dat twee behandelingen gelijk zijn. Dit is fout. In kleine studies zijn grote verschillen vaak niet statistisch significant en in grote studies zijn kleine, irrelevante verschillen wel statistisch significant. Om deze reden zijn er betere manieren voor het rapporteren van resultaten, namelijk via betrouwbaarheidsintervallen. Er is een 95% betrouwbaarheidsinterval. Dit bevat alle waarschijnlijke waardes van de populatie, dat wil zeggen alle populatie waardes die niet verworpen worden. De standaard fout van de proportie is wortel(proportie(1-proportie)/n). Het 95% betrouwbaarheidsinterval is (proportie-1,96se, prop+1,96se). In 95% van alle studies, liggen de echte populatie waardes in het 95% betrouwbaarheidsinterval. Het reflecteert de nauwkeurigheid van de geschatte proportie.

Betrouwbaarheidsintervallen kunnen gebruikt worden voor het testen van hypotheses. Als een risicoverschil van 0% niet in het 95% betrouwbaarheidsinterval valt, dan is er een significant verschil. Als het risicoverschil namelijk 0 is, dan is er geen verschil in behandeling en dus geen significant verschil. Als het betrouwbaarheidsinterval van het relatieve risico wordt gebruikt, dan is er geen significant verschil als 1 binnen het betrouwbaarheidsinterval valt. Bij een relatief risico van 1 zijn de risico’s bij beide behandelingen namelijk even groot. Bij de odds ratio mag ook 1 niet in het betrouwbaarheidsinterval vallen, alleen dan is het statistisch significant.

 

HC 1 – Introductie

Als iemand een beroerte gehad heeft, dan moet snel achterhaald worden of het om een ischemische beroerte ging of om een hemorragische beroerte. De ischemische beroerte wordt veroorzaakt door een bloedprop, wat behandeld moet worden met anticoagulanten. Een hemorragische beroerte mag zeker niet worden behandeld met anticoagulanten. Om deze reden moet men snel het onderscheid kunnen maken.

 

Als het mogelijk is, moeten alle klinische beslissingen gebaseerd zijn op deugend wetenschappelijk bewijs. Er zijn dokters die de resultaten van een wetenschappelijk proces gebruiken (de kritische klant/academicus) en er zijn dokters die actief betrokken zijn bij het wetenschappelijke proces (deelnemer/wetenschapper). Iedereen die een goede dokter wil worden, moet een academicus zijn. Sommigen zullen ook wetenschapper worden. Een dokter is dus niet per definitie een wetenschapper, maar hij maakt altijd deel uit van de academische wereld die de medische kennis verbetert.

HC 2 – Gerandomiseerde Klinische Onderzoeken

Onderzoeksvraag: Verlaagt prozac de symptomen van depressie in mannen van 40-60 jaar? Is dit een goede onderzoeksvraag? Een onderzoeksvraag moet vier componenten bevatten, namelijk Populatie/Patiënt, Interventie, Controle en Uitkomst (Outcome): PICO.

 

Stel dat er een jonge psychiater (A) is en een depressieve man komt naar hem toe. Hij schrijft prozac voor en zes weken later komt de man terug zonder symptomen. De psychiater behandelt nog drie depressieve mannen en zij komen ook terug zonder symptomen. De conclusie die de psychiater trekt, is dat prozac werkt. Deze conclusie mag niet getrokken worden, want het natuurlijke beloop kan ook zijn dat de symptomen binnen zes weken weg zijn. Een andere psychiater (B) gelooft de resultaten niet. Psychiater A schrijft prozac voor en na 6 weken zijn 8 van de 10 patiënten genezen. Psychiater B zet mensen op een wachtlijst en dan zijn na 6 weken 6 van de 10 patiënten genezen. Nu concludeert psychiater A dat prozac beter is dan niks doen.

 

Elk onderzoek dat gedaan wordt, kan een naam krijgen zoals retrospectief, longitudinaal, follow-up en case-control. Het onderzoek dat psychiater A deed, was een case-series. Een case-series is niet belangrijk voor het bepalen van een therapeutische interventie. Het resultaat kan veroorzaakt worden door het natuurlijke beloop van de ziekte of door een non-specifiek effect. Er is power nodig, waarvoor gezorgd kan worden door een cohort te gebruiken. Er wordt dan een cohort studie gedaan. In dit geval wordt er een prospectief onderzoek gedaan. Door het introduceren van een controle groep kan worden uitgesloten dat het natuurlijke beloop zorgt voor genezing en niet het medicijn. Bij een cohort studie kan er een probleem zijn in de vergelijkbaarheid van de controle groepen. Een retrospectieve cohort studie zal zorgen dat de power goed is. Bij een RCT wordt het placebo effect ingevoerd. Een placebo is een pil, die er vanaf de buitenkant hetzelfde uitziet als het echte medicijn, alleen zit het medicijn er niet echt in. De patiënten weten niet of ze het echte medicijn (interventie) of een placebo (controle) krijgen. Bij RCT zorgt randomisatie voor gelijkheid van de prognose. Een controle groep vergemakkelijkt de vergelijking in het natuurlijke beloop van de ziekte. De placebo vergemakkelijkt blindering en dit zorgt voor gelijke co-interventies. Er is dan een unbiased uitkomst meting.

 

 

Natuurlijk beloop

Non-specifiek effect

Vergelijkbaarheid

Uitkomst

Case-series

Probleem

Probleem

Probleem

Probleem

Prospectieve cohort studie

Goed

Probleem

Probleem

Probleem

Retrospectieve cohort studie

Goed

Probleem

Probleem

Probleem

Trial

Goed

Probleem

Goed

Probleem

RCT

Goed

Goed

Goed

Goed

 

De resultaten van een hypothetische RCT

In deze tabel staan de resultaten van een RCT.

 

Overleden

Niet overleden

Totaal

Medicijn

20

80

100

Placebo

40

60

100

 

Eerst wil men een risico verschil (RD) berekenen. Het risico is de waarschijnlijkheid dat iets zal gebeuren. Het risico is een getal: een percentage. Het risico verschil is het absolute verschil tussen twee risico’s. Als er geen effect is, dan zal de RD 0 zijn, want het risico zal in beide groepen even hoog zijn. Uit deze tabel kan men een RD halen, want het risico bij de medicijn groep is 20% en het risico bij de placebo groep is 40%. RD = 40-20=20%.

 

Het relatieve risico of de risico ratio (RR) is de verhouding tussen de twee risico’s. In dit geval is het RR 20%/40%=0,5.

 

De relatieve risico reductie (RRR) kan berekend worden met de formule 1-RR. In dit geval is dat dus 1-0,5=0,5.

 

De odds ratio (OR) is de verhouding van twee kansen: de kans binnen één groep om te overlijden en om niet te overlijden. Bij deze tabel is dat (20/80)/(40/60)=0,375. Als er geen effect is, dan is de odds ratio 1.

 

Number-needed-to-treat (NTT) is het aantal patiënten dat behandeld moet worden om één bepaalde gebeurtenis te voorkomen (in dit geval gaat het om overlijden). Dit wordt berekend door 1/RD. In ons voorbeeld is dit 1/0,2=5.

HC 3 – Kritisch lezen

Er is een richtlijn voor de medische literatuur. Het is richtlijn die zegt hoe men medische literatuur moet lezen en moet gebruiken, niet hoe deze geschreven moet worden. Het wordt gebruikt voor de kritische schatting van klinische onderzoekspapers. Er zijn drie vragen die men zich altijd kan stellen:

  1. Zijn de resultaten valide? - Validiteit

  2. Wat zijn de resultaten? - Resultaten

  3. Kan ik deze resultaten toepassen bij mijn patiënten? – Toepasselijkheid

Bij elk van deze vragen kunnen weer een aantal andere vragen gesteld worden, om de hoofdvraag te kunnen beantwoorden.

 

We gaan nu kijken naar een checklist die gebruikt kan worden voor het kritisch lezen van klinische studies. Deze checklist bestaat uit een lijst aan vragen:

  • Wat was de onderzoeksvraag?

  • Is er randomisatie gebruikt?

  • Zo ja, hoe werd de randomisatie gedaan?

  • Werd de toewijzing van de behandeling verborgen?

  • Zo ja, hoe werd het verbergen van de toewijzing van de behandeling geïmplementeerd?

  • Waren de groepen gelijk in de basislijn, wat betreft de belangrijkste prognostische factoren?

  • Wat was het grootste verschil tussen de groepen?

  • Zijn de keuze criteria gespecificeerd?

  • Noem twee keuze criteria voor de patiënten van deze trial.

  • Was de uitkomst geblindeerd?

  • Zo ja, hoe was dit dan gedaan?

  • Was de toediener geblindeerd?

  • Zo ja, hoe?

  • Was de patiënt geblindeerd?

  • Zo ja, hoe dan?

  • Werden punt schattingen en metingen van de variabiliteit gepresenteerd voor de primaire uitkomst maat?

  • Vermeld de uitkomst van het primaire eindpunt, inclusief het 95% betrouwbaarheidsinterval, de standaardfout, de standaarddeviatie of de p-waarde.

  • Omvatte de analyse een intentie-om-te-behandelen analyse?

  • Wat was het percentage van afhakers tijdens de trial?

  • Is de studie populatie vergelijkbaar beschreven in de advertentie en het artikel?

  • Is de controle groep vergelijkbaar beschreven in de advertentie en het artikel?

  • Is de interventie vergelijkbaar beschreven in de advertentie en het artikel?

  • Is het primaire eindpunt vergelijkbaar beschreven in de advertentie en het artikel?

  • Vermeldde het artikel dat het farmaceutische bedrijf de trial sponsorde?

  • Zijn er andere redenen waarom de claim in de advertentie niet gerechtvaardigd kan worden?

  • Wordt de claim in de advertentie gerechtvaardigd door de trial?

Kritisch lezen is belangrijk, omdat men wil weten of de resultaten die in een artikel staan ook echt waar zijn.

 

Er is een botsing tussen de dokter en de wetenschapper. De wetenschapper wil namelijk dat er twee groepen zijn met een gelijk baseline risico. De dokter weet echter welke patiënt er het best of het slechtst aan toe is en deze wil het juiste medicijn voor bepaalde patiënten.

 

Een abstract is een samenvatting van een groot studiepaper. Aan het eind van de inleiding staat meestal de onderzoeksvraag. Bij de methode staan de patiënt recruitment, het studie design en definities en de analyses. Tabel 1 beschrijft de patiënten populatie, oftewel het studie domein. De resultaten omvatten alles wat er gebeurt na de start van de trial. Voorbeelden zijn de follow-up, het effect en de veiligheid. De discussie is het deel van het artikel waarin de onderzoeker het meest vrij is om iets te vertellen. De lezer moet over dit stuk het meest kritisch zijn. De discussie is een korte samenvatting van de belangrijkste resultaten. Verder staan er de sterktes en zwaktes van het onderzoek in. Het is in feite een interpretatie van de auteurs.

 

 

Statistiek HC1

Statistiek is het doen van uitspraken over een grote populatie, waarin men niet iedereen kan meten, door een steekproef te nemen waarop allerlei berekeningen gedaan worden.

 

Randomised clinical trial (RCT) gaat ervan uit dat er een onderzoeksvraag is (vaak gaat het om een nieuw middel waarvan men wil weten of het beter is dan een oud middel), maar meestal zijn er twee groepen die random gemaakt zijn. De ene groep krijgt medicijn A en de andere groep krijgt medicijn B. Wat doet men? Men selecteert mensen voor de studie. Daarna randomiseert men de mensen voor behandeling A en B. Maar een belangrijke vraag die vaak gesteld wordt, is: hoeveel mensen heb ik nodig voor een studie? Waarom wil men dit weten? Er zijn nadelen als er maar heel weinig mensen gebruikt worden, want dan zijn de uitkomsten onnauwkeurig. Er kunnen dan geen uitspraken gedaan worden met zekerheid. Men is dan niet in staat om verschillen te detecteren en dit noemt men ook wel een onderzoek zonder power. Wat is het nadeel van te veel mensen? Dit kost te veel tijd, geld en energie. Ook is het niet medisch-ethisch verantwoord om meer mensen te gebruiken, dan dat nodig is. Het is te belastend voor mensen.

 

De grootte van de steekproef (= het aantal mensen in een studie) hangt af van een aantal factoren:

  1. Haalbaarheid:

    1. Als er onderzoek wordt gedaan naar een bepaalde ziekte, hangt het af van de populatie met die ziekte.

    2. Hoeveel van deze patiënten met de ziekte willen er meedoen?

    3. Tijd

    4. Geld – een subsidie kan bijvoorbeeld op zijn.

  2. Statistische argumenten:

    1. Hoe groot effect kan ontdekt worden met dit aantal patiënten?

 

De meeste studies die uitgevoerd worden zijn rechttoe, rechtaan: een nieuw middel en een oud middel worden met elkaar vergeleken. Hoe gaat men hier de steekproef grootte berekenen? Er zijn een aantal dingen, die men hiervoor moet weten:

  • Men moet weten wat de primaire uitkomst van de trial is.

  • Is de uitkomst numeriek (gemiddeldes vergelijken) of binair (ja/nee, proporties vergelijken)?

    • Voor numerieke uitkomst: wat is de standaarddeviatie?

  • Hoe groot effect wil je detecteren (als het verschil bestaat)?

  • Wat is waarschijnlijk? Wil je 80% zekerheid of 90%? Of….? 100% zekerheid is in feite onmogelijk door toeval.

 

Voorbeeld: de werkzaamheid van gabapentin in migraine profylaxe. Er wordt een RCT gedaan op migraine met gabapentin (nieuw medicijn) en een placebo. De belangrijkste uitkomst is de frequentie van hoofdpijn aanvallen in vier weken. De frequentie van hoofdpijn bij dit soort patiënten heeft een standaarddeviatie van 3,5 aanvallen per maand. Een verschil van twee aanvallen per maand is relevant.

Nu gaat men de hypothese testen. De nulhypothese is dat gabapentin niet werkt; er is geen verschil in de frequentie hoofdpijn aanvallen tussen de twee behandelingen. H1: er is een verschil. Als de nulhypothese waar is, dan wordt er een verschil van bijna 0 verwacht. Wat dichtbij en niet dichtbij 0 is, hangt af van de standaardfout van het geschatte verschil.

Stel dat er twee groepen zijn van 30 patiënten en de nulhypothese is waar. Er is dan een grafiek met een normale verdeling met een top bij 0 en een paar uitschieters naar 3. Er wordt dan gekeken waar 95% van de mensen tussen valt en als er een dergelijk verschil wordt gevonden dan wordt de nulhypothese niet verworpen. Als het verschil in de extreme 5% valt, dan wordt de nulhypothese wel verworpen. Met behulp van een grafiek met de verspreiding van de verschillen kan de power worden berekend. Dit is de kans dat er een significant verschil wordt gevonden bij het verschil van 2 aanvallen per maand. De power is hier 60%. Dit is bij twee groepen van 30. Bij twee groepen van 40 mensen, dan is de power 72%. Zo kan men doorgaan met het vergroten van de onderzoeksgroep. Bij twee groepen van 50 is er 81% power en bij twee groepen van 70 is er een power van 92%.

Dus: men gaat fluctueren en per steekproef grootte wordt er gekeken wat de power is. Er wordt gevarieerd tot een power waar men tevreden mee is. Bij het vergroten van de groep zal de standaarddeviatie niet veranderen, maar de standaardfout zal kleiner worden (die zegt hoe goed het gemiddelde geschat is).

 

Er is ook een formule voor die het aantal patiënten geeft dat nodig is per groep:

N=2 (zα/2 + zβ)2 s2/d2. Met: n=aantal, d=verschil van interest tussen de gemiddeldes van de groepen (in het voorbeeld was dit 2), s=de standaarddeviatie van de uitkomst variabele (in het voorbeeld 3,5), α=het significantie niveau (normaal =0,05) en β=type 2 fout (1-power), vaak =0,20 of =0,10. Zα en zβ zijn waardes die in de normale verdeling opgezocht kunnen worden. Als α=0,05, dan is zα 1,96 (de waarde waarin 95% valt) en bij zβ wordt één kant uitgekeken en is hetzelfde maar dan voor de type 2 fout. Bij β=0,80 dan zβ=0,84.

Ons voorbeeld komt uit op 48 patiënten nodig per groep. d=2; s=3,5; α=0,05, power is 80% en dus β=0,20, dan n= 48. Als de power 90% is en β=0,10 (dan zβ=1,2) dan zijn er 64 patiënten per groep nodig.

 

Als de uitkomst binair is (ja/nee):

  • P1 = de waarschijnlijkheid van succes in groep 1;

  • P2 = de waarschijnlijkheid van succes in groep 2 (onder H1);

Aantal patiënten nodig per groep:

N=2 (zα/2 + zβ)2 (1-)/d2 met =(p1+p2)/2 en d=p1-p2.

 

Na het doen van een calculatie wordt er vaak gevonden dat de steekproef te groot zou moeten zijn. Om de steekproef grootte te verkleinen, kan men een aantal dingen doen. Men kan het relevante verschil kleiner maken, α groter maken, de power verkleinen en het verschil (d) vergroten. Het verkleinen van de power kan wel, maar dit wordt niet altijd geaccepteerd. Het verhogen van α is ongewoon om te doen. Ook kan de SD kleiner gemaakt worden, door een nauwkeurige maat te meten. Dit kan door bijvoorbeeld het BMI te gebruiken in plaats van overgewicht ja/nee.

Statistiek HC2 – Regressie analyse

Voorbeeld: 40 kinderen met longfunctie metingen (FEV-1, in liter). Gemiddelde FEV1 = 3,16 liter en de standaarddeviatie = 0,41 liter. Ongeveer 95% van de observaties ligt 2SD van het gemiddelde af. Dus tussen 3,16-2x0,41=2,34 en 3,16+2x0,41=3,84 liter. Er zijn kinderen van 2 tot 12 jaar in de studie. Kinderen van 12 jaar hebben een grotere longinhoud dan kinderen van 2 jaar. Het is dus beter om per leeftijdscategorie een aparte longinhoud te berekenen. Dus men moet de gemiddelde longinhoud berekenen als functie van de leeftijd. Hier komt een formule uit, namelijk: FEV1 = 2,281+0,119xleeftijd. Een jaar ouder geeft een gemiddelde verhoging van 0,119 liter longinhoud.

 

Bij lineaire regressie berekent een regressie lijn de gemiddelde waarde van Y voor een waarde van X. Y is de afhankelijke variabele, de uitkomst of de reactie variabele. X is de onafhankelijke variabele, de covariant, de risicofactor, de predictor of de voorspellende variabele. Het model ziet er als volgt uit: Y = α+βx + e met e ~ N(0,σ2). α is de constante en β is de richtingscoëfficiënt. σ toont aan hoeveel observaties variëren rondom de regressie lijn (SD). Als X één eenheid toeneemt, dan zal het gemiddelde van Y verhogen met β.

 

De regressie lijn kan geschat worden met behulp van SPSS. De lijn Y = α+βx is de onbekende echte regressie lijn in de populatie. Er worden dan waardes voor α en β gekozen, zodat de punten zo dicht mogelijk bij de lijn liggen. Voor alle waardes wordt de afstand tot de lijn bepaald en dan wordt die lijn genomen, waarbij de som van alle kwadratische afstanden tussen observaties en regressielijn zo klein mogelijk is. Dit is de kleinste kwadraten methode. Voor elk punt van alle personen wordt de afstand bepaald  .

 

De schattingen van α en β zijn niet exact. Er worden hier standaardfouten (se) gemaakt. In ons voorbeeld is het gebaseerd op 40 kinderen. Hoe onnauwkeurig de schatting is, wordt bepaald door de standaardfout van α en β. Dit wordt gebruikt om de betrouwbaarheidsintervallen (c.i.) voor de echte onbekende α en β te maken. Het 95% c.i. voor β ligt bij (b-2se(b), b+2se(b)). Om dit heel netjes te doen, neemt men niet 2, maar neemt men t0,5/2 in de t-tabel met n-2 graden van vrijheid. Dit wordt gedaan door SPSS. Een voorbeeld voor het c.i. is b=0,119 en se(b)=0,011. Hierbij is c.i. (0.097, 0.141). Deze populatie waardes passen heel goed bij de data. De echte, onbekende richtingscoëfficiënt in de populatie ligt 95% zeker in dit c.i. De waarde van 0 (geen associatie) tussen leeftijd en FEV is heel onwaarschijnlijk want deze ligt niet in het c.i.

 

Als er een lineaire relatie is tussen X en Y, dan wordt er een toets gedaan. H0 is dat er geen relatie is, dus β=0. H1 zegt β≠0 en dan is er wel een relatie. Als statistische test gebruikt men t=b/se(b). Verwerp H0 als |t| heel groot is of bereken de p-waarde (de waarschijnlijkheid om |t| of extremer te observeren als H0 waar is). H0 wordt ook verworpen als de p-waarde klein is.

 

Er kan ook een c.i. gemaakt worden voor de gemiddelde Y. Het 95% c.i. voor gemiddelde Y=a+bx voor een gegeven waarde van x is: (a+bx-2se(a+bx), a+bx+se(a+bx)). Se(a+bx) kan SPSS berekenen. De echte regressie lijn ligt tussen deze twee grenzen.

 

De regressie lijn kan gebruikt worden om waardes te voorspellen. Men kan bijvoorbeeld de verwachte FEV-1 van een kind van 6 jaar berekenen door de formule van de regressie lijn in te vullen. Er zijn twee bronnen van variatie: onnauwkeurigheid in het de geschatte regressie lijn: se(a+bx); de spreiding rond de regressie lijn σ. Wanneer dit gecombineerd wordt, geeft dit het 95% referentie of voorspellingsinterval voor een nieuwe observatie. Dit is het interval waartussen 95% van de waardes van de populaties in valt.

 

De X kan ook categorisch zijn. Stel dat X astma behandeling indiceert, dan is X=0 geen behandeling en X=1 wel behandeling. Kinderen die wel behandeld zijn, die hebben iets meer longinhoud. De gegevens worden in een regressie model gestopt. Hieruit komen weer een constante en een richtingscoëfficiënt. In dit geval is de richtingscoëfficiënt het verschil in longfunctie tussen kinderen die wel en niet behandeld zijn. Wat er in feite gedaan wordt, is het vergelijken van het gemiddelde van de behandelde en de niet behandelde kinderen. Dit is equivalent aan een ongepaarde t-toets.

Statistiek – HC3

Bij het maken van een grafiek van het 95% voorspel (referentie) interval is een SD nodig.

 

Men kan ook meerdere X’en tegelijk bestuderen. Dus bijvoorbeeld: hoe varieert de gemiddelde Y als functie van X1, X2,…., Xp? Kan ik Y voorspellen als X1, X2, …., Xp bekend zijn? Wat is de invloed van X1 op Y, gecorrigeerd voor X2,…,XP? Welke combinatie van X’en is gerelateerd aan Y?

Stel: X2=leeftijd, XP=geslacht en X1=wel of niet behandeld. In de tabel die SPSS van de gegevens maakt, zijn er meerdere dingen te zien, namelijk: een constante en meerdere richtingscoëfficiënten (rico). De gemiddelde Y-waarde = constante + rico x leeftijd + rico x lengte. De uitkomst is dus afhankelijk van twee X-waarden. De rico van leeftijd is hier 0,058 en van lengte 0,008. De rico van leeftijd is hier heel anders dan in het vorige voorbeeld. Dit komt doordat deze nu gecorrigeerd is voor de lengte. Het gaat hier om een multipele lineaire regressie. Het model ziet er als volgt uit: Y = β0 + β1X1 + β2X2 + e, met e ~ N(0,σ2). De geschatte regressie vergelijking is Y = b0 +b1X1 + b2X2. Wat gebeurt er bij dit voorbeeld als X1 met één eenheid stijgt? Dan zal Y stijgen met b1. De interpretatie van b1 is de hoeveelheid die het gemiddelde van Y zal stijgen als X1 één eenheid verhoogt en alle andere X’en constant gehouden worden. Na deze correctie voor lengte is zou de relatie tussen longinhoud en leeftijd net niet meer significant (p=0,058). Als iets niet significant is, betekent dit niet dat er geen effect is. Het betekent dus niet dat de leeftijd geen invloed heeft op de longfunctie, maar het gaat er om dat een dergelijke waarde ook voor zou kunnen komen als er geen effect zou zijn (toeval).

 

In de output van SPSS zijn nog meer dingen te zijn. R is bijvoorbeeld de correlatie tussen de voorspelde FEV en de geobserveerde FEV. Het gaat hier om R2. Hoe dichter deze bij de 1 ligt, hoe meer samenhang er is. Dan is het ook een betere voorspeller. Ook ziet men de standaardfout van het geschatte. Dit is de geschatte σ, of de standaarddeviatie rond de regressie vergelijking. Hiermee kan men de referentie intervallen maken.

 

Bij ons voorbeeld zag men dat de mensen die behandeld waren, een grotere longfunctie hadden. Toen dit werd gecorrigeerd voor de leeftijd, werd het effect van de behandeling negatief. Hier is er sprake van confounding: een verstoring. Het lijkt dan alsof de behandeling effect heeft, maar dit komt waarschijnlijk door de leeftijd. De reactie van het effect verandert. Leeftijd is in dit geval de confounder.

 

Er zijn verschillende types regressie modellen voor verschillende types van uitkomst:

Type uitkomst

Type regressie model

Numeriek

Lineair of niet lineaire regressie

Binair (0-1, succes/falen)

Logistieke regressie

Overlevingsdata

Proportioneel hazard model (Cox regressie)

 

Waarom gebruikt men lineaire regressie?

  • Om te voorspellen – wat is de gemiddelde FEV voor kinderen van 7 jaar, 1,30 m en zonder medicatie gebruik?

  • Om te corrigeren voor confounders – wat is het effect van behandeling op FEV, na aanpassing voor de leeftijd?

  • In RCT om de precisie te verhogen – aanpassing voor de variabiliteit van belangrijke risico variabelen.

 

HC 4 - Cohort studies

Cohort studies zijn heel belangrijk, want ze kunnen worden gebruikt om bepaalde bijwerkingen van een medicatie vast te stellen. Zo heeft men met een cohort studie bekeken of de anticonceptiepil een verhoogd risico op diepe veneuze trombose zou kunnen geven. De definitie van een cohort: een groep van individuen die worden gevolgd over een bepaalde tijdsperiode. Andere namen voor cohort studies zijn ook longitudinale studies en follow-up studies.

In een gerandomiseerde klinische trial zijn er bepaalde factoren waar men aan moet denken. Ten eerst is er randomisatie, dit resulteert in groepen met een zelfde prognose en hierbij wordt de voorkeur van de arts vermeden. Daarbij moet er ook blindering zijn. Bij blindering onderscheidt men enkel, dubbel en drievoudig. Drievoudige blindering houdt in dat ook de onderzoeker geen idee heeft welke patiënt welke behandeling krijgt. Blindering zorgt ervoor dat ook de patiënten niet weten wat voor middel zij krijgen toegediend.

De uitslag van een onderzoek hangt nooit alleen af van de p-waarde, maar hangt ook vooral af van de hoeveelheid mensen die betrokken is bij het onderzoek.

Follow-up studies zijn een heel andere tak dan de RCT. In deze soort van studie bestudeert men een bepaalde factor en kijkt wat voor uitkomst deze heeft. Bijvoorbeeld: wat is het effect van roken op het risico op longkanker? Tijdens een follow-up studie worden mensen gevolgd in de tijd, maar net als bij een RCT kijkt men naar de kenmerken van patiënten op tijdstip 0. Daarna worden enkele mensen wel blootgesteld aan een bepaalde factor en andere niet. Zo kan men kijken in hoeverre deze factor een risico zal zijn voor bijvoorbeeld longkanker.

Er kan een onderscheid worden gemaakt tussen experimentele en observationele onderzoeken. Bij experimentele onderzoeken worden de mensen bepaald door de onderzoeker en vindt er randomisatie plaats. Bij observationele onderzoeken worden de mensen en de behandeling bepaald door de arts en de patiënt. Aangezien de arts hierbij dus bepaalt welke behandeling de patiënt zal krijgen, is deze vorm van onderzoek niet willekeurig.

We hebben observationele studies nodig omdat het simpelweg af en toe niet mogelijk is om een RCT toe te passen. Dit kan komen doordat het niet ethisch is om mensen bijvoorbeeld te gaan laten roken. Soms kan een RCT ook lastig zijn omdat een patiënt zo zijn voorkeuren heeft voor een bepaalde behandeling. Op deze manier ga je dus geen patiënten vinden die het geen probleem vinden om te randomiseren.

We onderscheiden een cohort en een dynamische populatie. In een cohort worden mensen op basis van een bepaalde karakteristiek toegevoegd aan de groep en worden ze gevolgd over de tijd. Het aantal mensen dat zich in het cohort bevindt kan alleen maar omlaag gaan, omdat ze zullen overlijden. De karakteristieken van de mensen zullen wel veranderen in de tijd. Voorbeeld: alle mensen geboren in Leiden in 2010.

In een dynamische populatie kunnen mensen op verschillende tijdstippen in de groep worden opgenomen. Deze populatie is dus altijd open, er kunnen altijd weer mensen bijkomen. Voorbeeld: studentenpopulatie in Leiden.

De source populatie is de populatie die men wil studeren. In een cohort studie heb je de mensen die zijn blootgesteld en de mensen die niet zijn blootgesteld en deze worden gevolgd over de tijd. Na een bepaalde tijd wordt gekeken welke mensen de ziekte wel hebben ontwikkeld en welke niet.

Prospectief en retrospectief zijn te onderscheiden in de tijd. Prospectief betekent dat men zal bekijken wat er gebeurt in de toekomst. Bijvoorbeeld men bepaalt op tijdstip 0 welke mensen er roken en welke niet. 10 jaar later zal men kijken hoeveel procent van deze mensen is overleden. Retrospectief betekent dat mensen in het verleden gaan kijken naar een bepaalde groep mensen en dan naar de gegevens van vandaag gaan kijken wat de uitkomst zal zijn. Een RCT kan alleen maar prospectief zijn, omdat men niet terug kan gaan in de tijd om een interventie te doen en dan kijken wat er is gebeurd. Dit is dus niet mogelijk. Een retrospectief onderzoek kan soms beter zijn dan een prospectieve studie omdat deze vaak sneller gedaan kan worden. Dus als men snel een bepaald resultaat wil zien, zou dit een betere vorm van studie zijn. Wel is er een nadeel aan retrospectieve studies, want het is afhankelijk van de beschikbare data.

Het probleem met studies is vaak dat de groepen mensen die worden vergeleken niet overeenkomen in bepaalde karakteristieken. Wanneer men de normale distributie gebruikt leidt dit vaak tot groepen die niet te vergelijken zijn.

In cohort studies worden er bepaalde effectmaten gebruikt. Deze effectmaten zijn specifiek voor deze vorm van onderzoek. Een case-control studie kan weer andere effect maten gebruiken. Bij cohort studies kijkt men naar de cumulatieve incidentie; het absoluut risico op een ziekte. Stel er worden 5 personen gevolgd over 2 jaar, waarvan er 2 na 1 jaar overlijden. De cumulatieve incidentie is dan 2/5.

 

Uitkomst +

Uitkomst -

Totaal

Blootgesteld

A

B

A + B

Niet Blootgesteld

C

D

C + D

Men berekent de cumulatieve incidentie (CI)
CI onder blootgestelde = A / (A+B)
CI onder niet-blootgestelde = C/ (C+D)
Het relatieve risico (RR) is CI(blootgesteld)/CI(niet blootgesteld)

Incidentiecijfer (IC): absoluut risico op ziekte met tijdseenheid
IC blootgestelde = A / persoonstijd
IC niet-blootgestelde = C / persoonstijd

Zowel in een gesloten cohort als in een dynamische populatie kan men goed gebruik maken van het incidentiecijfer. De cumulatieve incidentie kan men niet gebruiken in een dynamische populatie en in een gesloten cohort alleen als de periode van follow up kort zal zijn.

Cohort studies zijn heel erg handig wanneer men een bepaalde factor bestudeert waar mensen maar heel weinig aan worden blootgesteld. Daarbij kan er meer dan één uitkomst worden bestudeerd en is er goede kwaliteit van de data die men gebruikt. Cohort studies zijn niet handig wanneer men hele zeldzame ziektes bestudeert en deze studies kunnen lang duren. De oplossing hiervoor is om een retrospectief onderzoek te doen, maar dit zorgt voor minder betrouwbare data.

HC 5 - Case-control studies

Case-control studies zijn eigenlijk het tegenovergestelde van cohort studies. Een case-control studie kan bijvoorbeeld worden uitgevoerd om een verband te vinden tussen veneuze trombose en lange vliegreizen. Hiervoor heb je mensen nodig met trombose en die hebben gevlogen. Tevens zijn er mensen nodig die niet gevlogen hebben. Hiermee zou je een 2x2 tabel kunnen maken. De vliegreis is de factor waaraan men wordt blootgesteld en deze zal dus ook in de verticale rij staan.

Om überhaupt een case-control studie te beginnen moet men wel weten of er een causale relatie zou kunnen zijn tussen twee dingen. Als we nog eens terug kijken naar het voorbeeld van de trombose en de vliegreis. Er zijn per jaar heel veel mensen die vliegen en er zijn er maar weinig die ook trombose zullen krijgen. Het zou dus makkelijk toeval kunnen zijn. Echter is het wel zo dat vliegen gepaard gaat met stase van het bloed in de benen.

In een case-control studie wil men dus weten hoeveel mensen met trombose er daarvoor hebben gevlogen. Hierbij moet je ze wel vergelijken met mensen die misschien af en toe maar vliegen. Hiervoor moet je weten hoeveel normaal eigenlijk is. Dit kan men doen aan de hand van de website van KLM/Schiphol, door het CBS te checken of een enquête te sturen naar de gehele populatie. Dit laatste is echter wel heel veel werk, dus kan men ook een random steekproef doen. Een steekproef is voldoende, men hoeft niet alle mensen te vragen.

Voor de studie zal je dus alle mensen met trombose binnen een bepaalde tijd moeten gaan verzamelen. Dit zijn de cases. De controle groep is een steekproef van de normale populatie. Aan de hand van deze groepen vergelijk je de frequentie van blootstelling in mensen met de blootstelling en mensen zonder de blootstelling.

Bij case-control studies maakt men vaak gebruik van de Odds-Ratio: deze kan men ook weer berekenen aan de hand van een 2x2 tabel. Het maakt niet uit hoe groot men de groep van onderzoek maakt, de odds zal altijd gelijk blijven. Bij een case-control studie moet er altijd een odds-ratio worden vermeld.

 

Trombose +

Trombose -

Totaal

Vliegen +

A

B

A+B

Vliegen -

C

D

C+D

Totaal

A+C

B+D

A+B+C+D

De odds-ratio kan men dan berekenen door OR = (A/B) / (C/D). De odds = p/(1-p)

In een case-control studie moeten er nieuwe cases zijn en er mag absoluut geen selectie plaatsvinden. Het vinden van een goede control groep is echter best lastig. Men vraagt vaak partners of vrienden van de patiënt. Dit is echter niet altijd handig. Wanneer de patiënt bijvoorbeeld vaak vliegt, is de kans groot dat de partner ook vaak zal vliegen. Verder kunnen er andere mensen in het ziekenhuis worden gevraagd of neemt men gewoon een random groep uit de populatie.

Verschillen tussen cohort en case-control
In case-control kan men maar één uitkomst bestuderen, terwijl er in een cohort meerdere uitkomst kunnen worden bekeken. In een cohort maakt men gebruik van een absoluut en een relatief risico en in de case-control studies is er alleen een relatief risico (hetzelfde als de OR). Case-control studies worden gedaan bij ziektes (uitkomsten) die zeldzaam zijn.

HC 6 – Meta-analyse

Een meta-analyse is een onderzoek waarin onderzoeken van een bepaalde ziekte of behandeling worden samengevoegd om een secuurdere uitkomst te verkrijgen. Op deze manier kunnen er soms uitspraken worden gedaan en inzichten verkregen worden die voorheen nog niet gezien zijn, maar door de gegevens samen te voegen wel.

Wanneer iemand bijvoorbeeld bij je komt met de vraag of chemoradiatie de beste behandeling is voor baarmoederhalskanker kun je meta-analyse gebruiken. Je zoekt dan uit andere onderzoeken resultaten en voegt deze allemaal bij elkaar tot een nieuw verslag. Uit dit verslag kan men dan halen of chemoradiatie daadwerkelijk de beste behandeling is, of dat er een betere behandeling beschikbaar is.

Er is een onderscheid te maken tussen een systematische en een niet-systematische paper. In een systematische review gebruikt men een procedure om een klinische relevante vraag te beantwoorden. Er zijn meestal meerdere auteurs en er is een duidelijke vraagstelling. Er kan meta-analyse gebruikt worden. Bij een niet-systematische paper worden er heel veel data gebruikt en de paper is veel onduidelijker.

De systematische paper bestaat uit een aantal dingen: een goede onderzoeksvraag, men moet studies zoeken in de literatuur, men maakt een selectie van de literatuur, er is een kritische schatting, data extractie, data synthese, de resultaten worden gepresenteerd in een gestructureerd verslag en er moet een discussie aanwezig zijn.

Er moet een goede onderzoeksvraag worden geformuleerd aan de hand van PICO.

Pooling gebeurt door het verhogen van het aantal deelnemers, vanuit verschillende trials. Hierdoor verhoogt de aanname dat het behandelingseffect daadwerkelijk bestaat. Het wordt ook wel gezien als het verhogen van de power van de studie.

Zoeken in de literatuur: men moet alle literatuur doorzoeken, omdat er anders een grote kans is dat men iets zal missen. Hiermee voorkomt men publicatie bias: positieve resultaten worden meer gepubliceerd dan negatieve resultaten. Als dit niet wordt meegenomen in het onderzoek kan er een heel groot significant effect uit komen, terwijl dit dan helemaal niet het geval hoeft te zijn.
Selectie van de literatuur: je moet vermelden waarom je sommige informatie niet hebt gebruikt en andere informatie wel. Men kan de literatuur selecteren op basis van heel veel verschillende aspecten. Zo kan het zijn dat men studies wil hebben waarbij randomisering en blindering is toegepast. Maar het kan ook zijn dat een studie niet specifiek is gericht op de ziekte die jij zoekt, maar op een grotere groep. Bijvoorbeeld niet op baarmoederhalskanker, maar op kanker in het algemeen.

Kritische schatting: bij blindering weten zowel de dokter als de patiënt niet welke pil er wordt gegeven. Zo wordt voorkomen dat de dokter al beïnvloed wordt en daarmee ook de patiënt zal beïnvloeden. Ook moet er worden gekeken of er geen co-interventie is. Als er sprake is van co-interventie kan het gebeuren dat de ene patiënt meer wordt gestimuleerd dan de ander. Dit beïnvloedt de onderzoeksresultaten. Er kunnen mensen verloren gaan in het onderzoek (tijdens de follow-up), deze moeten ook bekeken worden. Het verlies van follow-up moet lager zijn dan 20%, anders is het onderzoek niet meer relevant. Als laatste is het belangrijk dat men kijkt naar de sponsoring. Het gebeurt namelijk heel vaak dat onderzoeken die gesponsord zijn een gunstig resultaat laten zien.

Gestructureerd verslag: de resultaten moet gestructureerd worden gepubliceerd.

 

 

HC 7a – Bias en Confounding: Bias

In ethiologisch onderzoek onderzoekt men een associatie. Door deze associatie komt men tot een interpretatie. Een positieve associatie kan verklaard worden door een causale relatie, door kans, door een systematische fout in het design of uitvoeren van de studie of door confounding. De systematische fout die gemaakt wordt door de onderzoeker, is bias. Dit kan niet opgelost worden tijdens de analyse van de resultaten. Confounding is aanwezig in nature. Er zijn verschillende associaties en uitkomsten en dit kan wel opgelost worden tijdens de analyse van de resultaten.

 

De begrippen precisie en validiteit gaan we bekijken aan de hand van een dartbord. Precisie zegt hoe groot de kans is dat verschillende studies dezelfde resultaten vinden als in een bepaalde studie. We gaan kijken naar vier situaties:

  1. Een dartbord met rechtsboven vijf darts dicht bij elkaar. Hier zijn vijf studies die bijna dezelfde resultaten vinden (heel precies), maar ze bevinden zich ver van de roos (niet valide). Er is dus een gebrek aan validiteit: systematische fouten.

  2. Een dartbord met in het midden één dart en verder bovenin, onderin, rechts en links een pijl. Dit is niet precies, maar gemiddeld zitten de darts in de roos: valide. Er is dus een gebrek aan precisie: random fouten. De fouten die gemaakt worden zijn bij elke studie anders.

  3. Een dartbord met vijf darts op heel verschillende plekken, maar niet in de roos: het is niet precies en niet valide.

  4. Een dartbord met vijf darts dichtbij of in de roos. Deze studie is heel precies (dezelfde resultaten) en heel valide (allemaal in/dichtbij de roos).

 

Een random fout in een case-control studie (een niet-differentiële misclassificatie) is niet verschillend in de patiënten of de controlegroep. Stel dat 1/3 van de personen met blootstelling verkeerd geclassificeerd wordt als niet blootgesteld, dan wordt de odds ratio lager (hij komt dichter bij één te liggen) dan bij een studie waarbij het perfect gemeten is. Als de odds ratio één is, dan is er geen verschil. Bij random fouten neigt het dus meer naar ‘geen effect’. Random fouten geven altijd een onderschatting van het echte risico en nooit een overschatting.

 

Bij een systematische fout gebeurt er juist iets heel anders. Er wordt een grafiek gemaakt met op de x-as de steekproef grootte en op de y-as de fouten. De hoeveelheid random fouten kan verkleind worden door het vergroten van de steekproef. Systematische fouten zullen echter niet minder worden door het vergroten van de steekproef. Als iemand een systematische fout gemaakt heeft, dan kan dit niet opgelost worden door het doorgaan met includeren van patiënten.

 

Bias is dus een systematische error in het design of het uitvoeren van een studie. Men kan niet zeggen in welke richting het zal gaan: een random error zorgt voor een onderschatting, maar een systematische fout kan voor meerdere dingen zorgen. Er zijn drie categorieën van bias:

  1. Selectie bias – verkeerde vergelijking door een verschillende selectie van groepen. Dus er is een fout gemaakt in de selectie van de groepen.

  2. Informatie bias – slechte vergelijking door verschillende methodes van data collectie.

  3. (Confounding bias)

 

Selectie bias is voornamelijk een probleem in case-control studies. Het is een probleem als men de cases of de controle groep selecteert en men te veel (overselectie) of te weinig (onderselectie) mensen selecteert met een bepaalde blootstelling. Dit is voornamelijk een probleem bij de controle groep. Stel dat men de relatie tussen roken en longkanker onderzoekt, dan is er een bepaald percentage van de mensen dat rookt. In de controlegroep kan er dan een andere frequentie van rokers zijn dan in de normale bevolking. Als er overselectie is van rokers, dan zal er een onderschatting zijn van de relatie. Bij onderselectie, is er overschatting. Het is dus belangrijk waar men de controles vandaan haalt. Het doel van de controlegroep is het schatten van de frequentie van de blootstelling in de bron populatie van de cases. De selectie hangt dus af van de blootstelling.

 

In case-control studies kan er selectie bias zijn. Hieronder volgen enkele voorbeelden:

  • Geselecteerde controles:

    • Relatie tussen roken en MI? Controles worden geselecteerd vanuit hetzelfde ziekenhuis. Hierbij is er een probleem in de controlegroep: de kansen van het vinden van een hogere frequentie van roken is waarschijnlijk. Er is dan een overselectie in de controles en dus een onderschatting van het risico.

    • Relatie tussen hormoontherapie en MI? Controles worden geselecteerd vanuit vrouwen met een heup fractuur. Hormoontherapie beschermt tegen heupfracturen. Het probleem bij deze controles is dan dat de vrouwen waarschijnlijk minder hormoontherapie doen, want anders hadden ze hun heup niet gebroken. Er is een onderselectie en dus een overschatting van het risico.

    • Relatie tussen alcohol en oesofagus carcinoom? De controles zijn vrienden van de casus. Vrienden lijken op elkaar wat betreft het sociaal gedraag, dus de vrienden zullen meer drinken dan gemiddeld. Er is een overselectie en dus een onderschatting van het risico.

 

Bij een cohort studie gebeurt het bijna nooit. Wel kan er selectie bias zijn in follow-up studies. Dit komt door een differentieel verlies van follow-up. De hoeveelheid mensen ‘loss to follow-up’ verschilt van groep tot groep, door een aantal factoren:

  • Migratie – verlies van heel gezonde individuen

  • Weigering tot follow-up – meestal minder gezonde individuen.

  • Overlijden door andere oorzaken – een voorbeeld is dat rokers overlijden aan longkanker in een onderzoek naar MI.

Er moet altijd geprobeerd worden te bereiken dat iedereen een follow-up heeft.

 

Informatie bias is onvergelijkbaarheid door verschillende methodes van data collecties. Dit kan in observationele studies gebeuren. In case-control studies wordt er begonnen met mensen die de uitkomst hebben en niet. Data collectie op blootstelling verschilt tussen casussen en controles. Het interviewen van cases gaat bijvoorbeeld voor de studie en het interviewen van controles pas na de studie. Bij een cohort studie begint men met wel en niet blootgestelde mensen en men wil informatie verkrijgen over de uitkomst. Als men hier anders naar zoekt of andere criteria gebruikt in de twee groepen, dan zal er bias ontstaan. Voorbeelden zijn recall bias en observer bias. Recall bias heeft te maken met het geheugen van deelnemers en het gebeurt alleen bij case-control studies. Er zijn al uitkomsten en daarna gaat men vragen of mensen wel of niet zijn blootgesteld aan bepaalde factoren. Een voorbeeld is: vrouwen die een baby krijgen met een geboortedefect, die herinneren beter welke medicijnen ze gebruikt hebben tijdens de zwangerschap dan vrouwen die gezonde baby’s krijgen. Er zal hierdoor een overschatting zijn van het risico. Er is dan namelijk meer blootstelling in de cases dan in de controles, doordat de controles het niet zullen herinneren. Observer bias kan in case-control studies en in cohort studies voorkomen. De persoon die de data verzamelt, differentieert deze data in de vergeleken groepen. De informatie over de blootstelling beïnvloedt de classificatie van de uitkomst of andersom. Een voorbeeld is onderzoek naar de relatie tussen roken en longkanker. De observer vraagt een case gedetailleerder naar zijn rook gewoontes dan een patiënt uit de controle groep. Ook dit leidt tot een overschatting van het risico.

 

Voor informatie bias zijn er enkele oplossingen:

  • Objectieve data collectie, door farmacologische informatie. Dit kan bijv. gedaan worden bij de moeders met baby’s met geboortedefecten.

  • Blinderen van de observer voor de status van de deelnemer.

  • Instructie voor interviewers.

  • Voor recall bias: kies een controle groep met een gelijke recall.

 

Een voorbeeld vanuit de klinische praktijk gaat over de relatie tussen orale contraceptiva en trombose. De discussie is over een risico dat hoger is in derde generatie gebruikers dan in tweede generatie gebruiken. Veel onderzoekers hebben geprobeerd deze verschillen in risico uit te leggen door de aanwezigheid van bias: voorschrijf bias, doorverwijs bias en gezonde gebruiker bias.

 

Publicatie bias is dat positieve studies vaker gepubliceerd worden dan negatieve studies.

HC 7b– Bias en Confounding: Confounding

Confounding is het ‘onderbuikgevoel’, het gevoel dat er ‘iets anders’ moet zijn. Confounding is dat men het effect van een effector met het effect van een andere effector verwart. Het ‘effect’ van de blootstelling op de ziekte is in feite het effect van de confounder. Een variabele verstoort de oorzaak-effect relatie van een andere variabele. Een heel simpel voorbeeld is een studie van het effect van grijs haar op het risico om te overlijden. Kan er dan uit het onderzoek geconcludeerd worden dat grijs haar een hoger risico geeft op overlijden? Nee. Er is ook een relatie tussen grijs haar en leeftijd. Is er ook een relatie tussen leeftijd en het risico om te overlijden? Ja, dit is er. Er is geen effect van haarkleur met een subgroep van leeftijd. Het effect van haarkleur wordt uitgelegd door leeftijd, leeftijd is een confounder.

 

Criteria voor een confounder:

  1. Een confounder wordt geassocieerd met de uitkomst (conditioneel op de blootstelling; niet noodzakelijk direct causaal, maar ook correlaat van de causale factor).

  2. Een confounder wordt geassocieerd met een blootstelling.

  3. Een confounder kan niet het resultaat zijn van de blootstelling; het mag niet in de causale pathway zitten. De confounder moet de blootstelling beïnvloeden.

Hiervan kan een schema gemaakt worden:

De dubbele pijl tussen C en E laat een associatie zien. Een confounder mag géén consequentie zijn van de blootstelling, maar een oorzaak van de blootstelling.

 

 

In observationele studies moet confounding vermeden worden. Vermijden kan via:

  • Restrictie: alleen een bepaalde subgroep analyseren.

  • Matching: kan gedaan worden in een cohort studie. Er zijn blootgestelde mensen en niet blootgestelde mensen. Voor elke patiënt moet er dan een passende controle gevonden worden.

  • Stratificatie: het analyseren in subgroepen.

  • Statistische aanpassingen.

 

In welke studie designs kan er het probleem van confounding zijn:

  • Case-control studie

  • Retrospectieve cohort studies

  • Prospectieve cohort studies

  • Gerandomiseerde gecontroleerde trials

 

In epidemiologische studies is het belangrijk om bias te vermijden en aan te passen voor confounding. Bias is een fout/inaccuraatheid van de onderzoeker en confounding is dit niet. Confounding is het verwarren van het effect van twee determinanten. Het is een risicofactor voor de uitkomst, die in voorgaande studies ontdekt is.

HC – Causaliteit

Klinisch onderzoek heeft een aantal karakteristieken, want de eenheid van het onderzoek is een persoon en er zijn altijd numerieke aspecten. Dit betekent dat er statistieken aan vast zitten. Nadelen van klinisch onderzoek zijn dat er vaak veel variabelen zijn en dat het vaak niet experimenteel is. Voordelen zijn dat het vaak de enige manier is om aan te kunnen tonen of iets op gaat in mensen: of er effecten zijn in mensen.

 

Wat is causaliteit? Causa (Latijn) betekent oorzaak. Een oorzaak is iets zonder welke een bepaald iets niet gebeurd zou zijn. Het vormt dus het verschil tussen het wel en niet gebeuren van een bepaald iets. Een voorbeeld: een auto rijdt tegen een boom. De bestuurder heeft alcohol in zijn bloed. De causale vraag is: is alcohol de oorzaak van het ongeluk? Nee. Is alcohol een oorzaak van het ongeluk? Mogelijk. Jaarlijks zijn er 250 doden in het verkeer waar alcohol bij betrokken was. Het totale aantal verkeersdoden was 900 per jaar. Dit lijkt heel veel (250/900), maar waarom? Dit komt doordat er van de mensen die niet overlijden in het verkeer, veel minder mensen alcohol gedronken hebben.

 

 

Fataal ongeluk +

Fataal ongeluk -

Alcohol +

250

3

Alcohol -

650

97

Odds ratio: (250/650)/(3/97)=12,4=(250/3)/(650/97)

 

Een individuele oorzaak laat zien hoe het in dat ene geval was. Rechtszaken gaan bijvoorbeeld om individuele oorzaken. Een legale oorzaak is individueel, met uitzonderingen. Een biomedische oorzaak is vaak algemeen. Bij iemand die met alcohol op achter het stuur gaat zitten, en een ongeluk veroorzaakt, staat het vast dat er een verkeersfout is begaan i.v.m. alcohol gebruik.

 

Koch’s kijk op causaliteit: een bacterie veroorzaakt een ziekte als hij aanwezig is in elke casus, hij geïsoleerd kan worden en kan groeien en de kweek altijd de ziekte overdraagt. Dit zijn de postulaten van Koch. Een oorzaak moet noodzakelijk en sufficiënt zijn (als de bacterie wordt ingespoten, dan wordt men ziek). Is dit waar voor rijden met alcohol op? Als het noodzakelijk zou zijn, zouden er geen ongelukken gebeuren zonder alcoholgebruik. Als het sufficiënt zou zijn, zou alcohol gebruik altijd leiden tot een ongeluk. Beiden uitspraken zijn niet waar. Een sufficiënte oorzaak zegt dus dat de oorzaak zal leiden tot de consequentie en een noodzakelijke oorzaak zegt dat er zonder de oorzaak geen consequentie zou zijn.

 

Het componenten oorzaak model (Mill) wordt gezien als een taartpunt. Elke punt van de taart is een oorzaak, want als één van deze taartpunten weggehaald wordt, dan zal de uitkomst niet ontstaan. Elke component op zich is niet noodzakelijk of sufficiënt, maar samen zijn ze sufficiënt. Dit is bijvoorbeeld zo bij ziektes, want elke ziekte heeft verschillende component oorzaken. Elk component is dan een oorzaak, maar ze zijn niet allemaal bekend.

 

Wanneer is iets een oorzaak? Dit is zo als er meer mensen ziek zijn met de oorzaak dan zonder en als er geen simpelere alternatieve verklaring voor is. Roken is een oorzaak van longkanker, want rokers hebben vaker longkanker dan niet rokers. Grijs haar is geen oorzaak voor overlijden, want er is een simpelere verklaring (leeftijd).

 

Hume’s probleem: hoe kan men uitspraken doen over niet geobserveerde gebeurtenissen? Dit kan alleen als iets een oorzaak zou zijn. Dit wordt normaliter gedaan door inductie (tot nu toe: altijd als A gebeurt, dan volgt B [altijd als ik het lichtknopje indruk, dan gaat het licht aan]). Dit is niet een formeel mathematisch bewijs. In een open systeem (empirisch onderzoek) is formeel bewijs onmogelijk.

 

Popper’s falsificatie. Een voorbeeld hiervan is de uitspraak: alle zwanen zijn zwart, waarbij er falsificatie is: het zien van een witte zwaan. Dit wordt gedaan als inductief bewijs onmogelijk is. Het werkt goed voor causaliteit zoals bij Koch’s postulaten. Het is geen praktische toepassing voor component oorzaken. Als een stelling niet falsifieerbaar is, dan is het niet onderhevig aan de wetenschap. Voorbeeld: God bestaat niet. Dit kan niet gefalsifieerd worden.

Falsificatie is moeilijk voor complexe oorzaken. Het uiteindelijke oordeel is subjectief. De afweging wordt gedaan door positeive criteria en Bayesiane redenering. Popper’s falsificatie: het bepalen van de grenzen van de wetenschap.

 

Peter Medawar: ‘de mate waarin iemand gelooft in een hypothese, heeft er geen effect op of het waar is of niet’. Dus: men moet onderzoek doen.

 

Er zijn criteria van Hill over causaliteit. Dit zijn positieve criteria, waarvoor geen bewijs is maar ze geven een referentiekader.

 

De theorie van Bayes zegt dat P(A|B) = P(B|A)P(A) / P(B). A is de ziekte en B is de test. P(A|B) is ongeveer gelijk aan P(A). De waarschijnlijkheid dat iemand met een positieve test ziek is, hangt af van de totale waarschijnlijkheid van ziekte. De posteriore waarschijnlijkheid hangt af van de prior waarschijnlijkheid. Dezelfde redenering kan toegepast worden bij onderzoeksbevindingen. Het onaannemelijke is onwaarschijnlijk om waar te zijn.

 

De uitspraken van de verschillende personen over oorzaken zijn dus:

  • Mill: de oorzaak is deel van component oorzaak.

  • Hume: de oorzaak kan niet bewezen worden.

  • Popper: de oorzaak kan gefalsifieerd worden.

  • Bayes: de oorzaak kan gezien worden als waarschijnlijkheid.

 

HC – Causaliteit in de epidemiologische praktijk

Drie algemeen geldende definities van oorzakelijkheid:

  • Een rechterlijke oorzaak verwijst naar een oordeel van causaliteit in een persoon.

  • Een medische oorzaak verwijst naar de vermoeden van causaliteit in een patiënt.

  • Een epidemiologische oorzaak verwijst naar een vaststelling van causaliteit in een populatie. Er kan iets bepaald worden: bepalen of er causaliteit is in algemene zin. Men kan dus niks zeggen over een individu en het kan niet worden bewezen.

 

Etiologie in de geneeskunde. Er zijn drie types vragen:

  1. Wat is er mis met me? Diagnose

  2. Wat zal er met me gebeuren? Voorspelling

  3. Kan ik iets doen om dit te voorkomen? Interventie

 

De counterfactual theory zegt wat er was gebeurt als er een interventie geweest zou zijn in het verleden: als er in het verleden één ding zou veranderen en de rest hetzelfde zou blijven, wat zou er dan gebeurd zijn? Het is hypothetisch, want men kan dit niet waarnemen. In feite zou men dan teruggaan in de tijd en een bepaalde blootstelling veranderen. Ceteris paribus: alle andere dingen zijn gelijk. RCT: twee groepen met een gelijk baseline risico op een ontwikkelende uitkomst. Dit nadert het counterfactual ideaal. Bij multicausualiteit zijn er meerdere oorzaken.

 

Component oorzaak model: alles is een enkele component oorzaak en één causaal mechanisme leidt tot de uiteindelijke ziekte (alle componenten bij elkaar). Dit kan voorgesteld worden als een triviant rondje. Iedereen heeft een aantal triviant rondjes. Bij een trigger (dus één van de rondjes raakt vol), dan gebeurt er iets (overlijden o.i.d.). Als er één component oorzaak is die altijd de laatste oorzaak is die het rondje vol maakt, dan wordt dit vaak gezien als dé oorzaak. Dit is dan niet zo, want naast die oorzaak, moeten er nog andere oorzaken zijn om het rondje vol te maken. Als iemand altijd al A, B, C en D heeft, dan maakt E het rondje vol. A t/m D zijn wel nodig. Dus ook A t/m D kunnen voorkomen worden om de ziekte (of uitkomst) te voorkomen. Meerdere oorzaken leiden dus ook tot ziekte.

 

Associatie impliceert geen oorzakelijkheid. Observaties geven data over associaties, niet op oorzakelijkheid. Kan men, door slechts observatie, komen tot causale gevolgtrekking? Confouding en bias kunnen leiden tot associaties, hoewel causale associaties niet aanwezig zijn. Hoe zit dit bij een RCT? In principe zit het in het RCT dat er geen bias en confounding (of minimaal) is. Bij een RCT zijn er twee groepen met hetzelfde risico op de uitkomst en slechts één ding is verschillend: de interventie. RCT’s zijn niet altijd mogelijk.

 

Hill’s criteria zijn 9 criteria:

  • Sterkte van de associatie – een risicofactor verhoogt het risico op een ziekte 100 keer, vergeleken met een factor die het risico slechts 1,1x verhoogt. Dit verwijst naar de mogelijkheid van bias.

  • Consistentie – het is waar wanneer hetzelfde resultaat wordt gevonden op verschillende locaties, door verschillende onderzoekers, met verschillende studie designs etc.

  • Specificiteit – het is waar wanneer de factor van belang geassocieerd is met een bepaald type ziekte met opvallende karakteristieken.

  • Temporaliteit – een oorzaak moet zijn consequentie voorgaan. Dit is de enige uitspraak waarvan men kan zeggen dat het een criterium is, en niet een leidraad. Belangrijk om te weten is dat men niet altijd weet dat een oorzaak al speelt.

  • Biologische gradiënt – kansen op ziekte vergroten als het niveau van blootsteling ook verhoogt (dosis-response relatie).

  • Plausibiliteit – er moet een biologische logische verklaring zijn voor het causale mechanisme. Het moet niet in contrast staan met wat al bekend is in de biologie.

  • Coherentie – het is waar wanneer de oorzaak en effect relatie past in de biologische karakteristieken van de ziekte, zoals bekend van laboratorium studie.

  • Experimentele resultaten – experimentele resultaten, van RCT, laboratorium testen op mensen en dieren, kunnen observationele studies vervangen.

  • Analogie – het is waar wanneer de oorzaak-consequentie relatie gelijk is aan de al bekende en vastgestelde oorzaak-consequentie relaties.

Naar deze ‘criteria’ wordt altijd verwezen als ‘criteria’, maar het was nooit de bedoeling dat ze dit zouden zijn. Er zit dus maar één echt criterium tussen: temporaliteit.

 

De kruiswoord samenvatting (Susan Haack) zegt één toegang is één studie (emperisch bewijs). De toegang moet op dezelfde lijn liggen als bekende feiten en vastgestelde theorieën. Er zijn nieuwe studies die de manier waarop men denkt dat de wereld werkt, uitdagen. Deze studies moeten heel overtuigend zijn en ze dagen voorgaande toegangen uit.

 

Wat weet men dus over de oorzaak in de epidemiologische praktijk?

  • Counterfactual: het leidt tot meer ziekte indien aanwezig.

  • Mill/Rothman: Het is deel van een component oorzaak

  • Hume/Popper/counterfactual: het kan niet bewezen worden, slechts gefalsifieerd.

  • Counterfactual: denk RCT, als men denkt aan een RQ.

  • Haack: het moet ondersteund worden door meer dan één studie.

  • Bradford Hill: criteria als overwegingen.

Join World Supporter
Join World Supporter
Log in or create your free account

Waarom een account aanmaken?

  • Je WorldSupporter account geeft je toegang tot alle functionaliteiten van het platform
  • Zodra je bent ingelogd kun je onder andere:
    • pagina's aan je lijst met favorieten toevoegen
    • feedback achterlaten
    • deelnemen aan discussies
    • zelf bijdragen delen via de 7 WorldSupporter tools
Follow the author: Medicine Supporter
Comments, Compliments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Promotions
special isis de wereld in

Waag jij binnenkort de sprong naar het buitenland? Verzeker jezelf van een goede ervaring met de JoHo Special ISIS verzekering

More contributions of WorldSupporter author: Medicine Supporter