Boeksamenvatting bij Clinical Epidemiology: the essentials - Fletcher - 4e druk
- Epidemiologie: een inleiding - Chapter 1
- Epidemiologie: abnormaliteiten - Chapter 2
- Epidemiologie: diagnose - Chapter 3
- Epidemiologie: frequenties - Chapter 4
- Epidemiologie: risico’s in de toekomst - Chapter 5
- Epidemiologie: risico’s in het verleden - Chapter 6
- Epidemiologie: prognose - Chapter 7
- Epidemiologie: behandeling - Chapter 8
- Epidemiologie: preventie - Chapter 9
- Epidemiologie: toevalsstatistiek - Chapter 10
- Epidemiologie: de oorzaak van de ziekte - Chapter 11
- Epidemiologie: (systemische) reviews - Chapter 12
Epidemiologie: een inleiding - Chapter 1
Een patiënt heeft vaak veel vragen. Ook een arts heeft vragen aan de patiënt en moet de verkregen informatie koppelen aan zijn/haar kennis van medische zaken. De informatie hiervoor haalt de arts uit zijn eigen expertise, uit advies van collega’s, uit biomedisch redeneren en uit klinisch onderzoek. De wetenschappelijke basis voor geneeskunde ligt in verschillende wetenschappelijke disciplines:
Biologische wetenschappen
De volgorde van biologische gebeurtenissen die leiden tot ziekte: anatomie, fysiologie, biochemie en moleculaire genetica. Kennis van biologie is echter niet genoeg om ziekte te voorspellen, omdat dit van veel meer factoren afhangt: vaak zijn ziektemechanismes nog onvoldoende begrepen. Zo worden genetische afwijkingen beïnvloed door genetische, fysieke en sociale omgeving. Biologische kennis genereert hypothesen die in mensen onderzocht moeten worden.
Klinische wetenschappen
Onder andere de klinische epidemiologie geeft informatie die gebruikt wordt in de zorg voor de individuele patiënt.
Populatie wetenschappen
Onder andere de epidemiologie onderzoekt grote groepen mensen. Epidemiologie is de studie van het vóórkomen van ziekte in populaties. Dit wordt gedaan door “gezondheidsevents” te tellen bij mensen, in relatie tot het natuurlijk voorkomen van deze events in de populatie. De resultaten zijn toepasbaar voor de zorg van de individuele patiënt, maar ook voor de volksgezondheid.
Onderzoek naar gezondheidszorgsysteem
Non-biologische factoren als het gezondheidszorgsysteem hebben ook effect op gezondheid en deze kunnen bestudeerd worden.
Kwantitatieve keuzes maken
Kosteneffectiviteitsanalyses om zo goed mogelijke zorg te bieden tegen de laagste kosten en decision analyses om keuzen te rationaliseren en de consequenties van keuzen te begrijpen.
Sociale wetenschappen
Deze tak van wetenschap bestudeert hoe het sociale milieu gezondheid, gedrag en het gezondheidszorgsysteem beïnvloedt.
Klinische epidemiologie
De klinische epidemiologie doet voorspellingen over individuele patiënten. Dit wordt gedaan door klinische events te tellen in een groep vergelijkbare patiënten. Er wordt gebruik gemaakt van wetenschappelijke methoden voor accuratesse. Het doel is het ontwikkelen en toepassen van klinische observatie wat zal leiden tot valide conclusies en geen systematische fouten of toevalsfouten. Het is klinisch, omdat het antwoorden zoekt op klinische vragen en keuzes. Er is sprake van epidemiologie, omdat er epidemiologische methoden worden gebruikt en de individuele patiënt in de context van een populatie wordt gezien.
Evidence based medicine is de toepassing van klinische epidemiologie in de patiëntenzorg en is dus van toepassing op individuele patiënten. Evidence based medicine bestaat uit:
1. Het formuleren van een klinische vraag voor een individuele patiënt
2. De beste wetenschappelijke bewijzen vinden
3. De bewijzen op waarde beoordelen
4. De bewijzen toepassen in de zorg voor de patiënt
Klinische bewijzen goed op waarde kunnen beoordelen is belangrijk, omdat er tegenwoordig heel veel informatie is en therapeutische interventies potentieel geweldig, maar ook gevaarlijk kunnen zijn.
Basisprincipes in de klinische epidemiologie
Een aantal principes zijn erg belangrijk voor klinische epidemiologie, waaronder: klinische vraag, variabelen, uitkomstmaat, getallen en waarschijnlijkheid, populatie en steekproef, bias, toeval en validiteit.
Klinische vragen gaan over onderwerpen die zowel arts als patiënt bezighouden en zijn dus vaak onderdeel van één van de volgende categorieën: diagnose, prognose, behandeling, oorzaak en preventie.
Variabelen zijn zaken die kunnen verschillen en gemeten kunnen worden. De onafhankelijke variabele is de vermeende oorzaak of voorspeller. De afhankelijke variabele is het mogelijke effect. Extraneous (vreemde) variabelen kunnen ook een effect hebben op de relatie tussen de afhankelijke en onafhankelijke variabele.
De uitkomstmaat heeft altijd met gezondheid te maken, de 5 D’s:
Death: overlijden van de patiënt
Disease: symptomen (of ook wel illness: patiënt zijn/ haar perceptie over ziekte)
Discomfort: symptomen die de patiënt ongemak bezorgen
Disability: niet meer dingen kunnen doen die voorheen wel konden
Dissatisfaction: emotioneel ongenoegen over de situatie
(Eventueel ook destitution: financiële kosten voor de patiënt en/of gemeenschap)
Deze uitkomstmaten kunnen alleen bij mensen worden onderzocht en dit zijn de zaken die in de patiëntenzorg kunnen worden verbeterd.
Getallen en waarschijnlijkheid: kwantitatieve metingen vormen een solide basis van informatie die zorgen voor betere bevestiging, communicatie en schatting van error (toeval). De klinische uitkomstmaten kunnen in cijfers worden uitgedrukt. Dit kan het beste worden geschat op basis van grotere groepen patiënten.
Een populatie is een groep mensen op een bepaalde locatie of met een bepaald karakteristiek. Een klinische populatie is een groep patiënten met eenzelfde klinische karakteristiek. Een steekproef (sample) is een aantal mensen uit de populatie.
Men wil de karakteristieken van een populatie bepalen aan de hand van de steekproef.
“Inference” is trekken van een conclusie op basis van de onderzoeksresultaten in de steekproef die geldig is voor de populatie. Het is belangrijk dat de steekproef op de populatie lijkt, omdat de onderzoeksresultaten (die gevonden worden op basis van de steekproef) ook geldig moeten zijn voor de gehele populatie. In hoeverre de steekproef op de populatie lijkt is afhankelijk van de selectieprocedure. Als elke persoon in de populatie evenveel kans maakt om gekozen te worden, lijkt de steekproef heel erg op de populatie.
Bias
Bias is een proces tijdens de inference waarin de resultaten systematisch afwijken van de waarheid (systematische fout), en waarbij de onderzoeksresultaten niet volledig toepasbaar zijn op de gehele populatie. Met name observaties kunnen bias geven, vanwege uitval van patiënten of bevooroordeelde onderzoekers.
Selectiebias
Wanneer er behalve de interventie andere systematische verschillen tussen groepen zijn. Als er getest wordt of een interventie beter werkt dan een andere interventie, moeten de groepen het liefst exact gelijk zijn, behalve de variabele (het type interventie). Bij selectiebias is er toch een verschil in beide groepen (die is ontstaan op basis van selectie).
Informatie (measurement) bias
De meetmethode verschilt tussen de twee interventiegroepen.
Confounding-bias
Een derde factor is geassocieerd met een variabele en verandert de uitkomst. Hierbij is er nog een variabele (naast de variabele die je wilt onderzoeken) die invloed heeft op de afhankelijke variabele en de onafhankelijke variabele. Dit kan de resultaatvorming verstoren.
Selectiebias treedt op in de selectie van groepen, terwijl confounding-bias tijdens de analyse van de data optreedt. De twee kunnen naast elkaar in één studie voorkomen. Om bias te voorkómen, moet je weten hoe je het kunt opsporen en tegengaan, bepalen hoe groot het effect is van de bias en of het invloed heeft op de klinische uitkomst.
Toeval kan voorkomen in de beste steekproeven, waardoor de steekproef niet een afspiegeling is van de populatie, maar wel heel dicht bij de ware waarde komt. Als er van vele steekproeven het gemiddelde wordt genomen komen de resultaten heel dicht bij de ware waarde.
Random variatie is de afwijking van de ware waarde door toeval. Toeval kan voorkomen in elke stap van klinische observatie: het kiezen van steekproeven, indelen van de groepen en uitkomsten van metingen. Met behulp van statistiek kan de mate van toeval worden bepaald in de resultaten en worden verminderd, maar nooit volledig worden geëlimineerd.
De effecten van bias en toeval kunnen samen voorkomen. Een instrument kan verkeerd gekalibreerd zijn en systematisch verkeerde resultaten laten zien (bias). Daarnaast kan er random variatie zijn in de waarde die je wilt meten (random variatie). De belangrijkste reden om onderscheid te maken tussen bias en toeval is de manier waarop ermee wordt omgegaan. Bias kan voorkómen worden of worden gecorrigeerd tijdens de analyse. Daarnaast kan bias worden opgemerkt door een oplettende lezer. Toeval kan niet voorkomen worden, maar het kan wel worden verminderd en er kan tijdens de data-analyse rekening mee worden gehouden.
Interne en externe validiteit
Interne validiteit is de mate waarin de resultaten van een studie correct zijn voor de bestudeerde patiënten, dus of het onderzoek goed is uitgevoerd. Confounding-bias en selectiebias zijn voorbeelden van bedreigingen voor de interne validiteit van een studie. De externe validiteit is de mate waarin de resultaten van een studie correct zijn voor de gehele populatie, dus dit wordt ook wel de generaliseerbaarheid genoemd. De generaliseerbaarheid is echter afhankelijk van de beoordeling door de lezer. Als de interne validiteit goed is, is het aan de lezer om te bepalen of de uitkomsten van de studie toepasbaar zijn voor zijn of haar patiënt.
Medische informatie en keuzes maken
Goede keuzes zijn gebaseerd op goede informatie, maar ook op basis van beoordelingen, risico’s en voordelen. Medical decision making is een discipline op zichzelf, waarbij er kwalitatieve onderzoeken zijn gedaan naar de wijze waarop clinici keuzen maken. Er wordt ook gebruik gemaakt van kwantitatieve methodes als decision analysis, cost-benefit analysis en cost-effectiveness analysis. Met deze methodes kan het keuzeproces expliciet gemaakt worden en onderzocht worden.
Shared decision making is het proces waarbij patiënt en arts samen de keuze maken. De patiënt is de expert op het gebied van zijn eigen hoop op uitkomst van zorg, en de arts is de expert op het gebied van wat nodig is om de doelen van de patiënt te bereiken. Om dit te kunnen doen, is de arts afhankelijk van wetenschappelijk bewijs, maar ook van zijn ervaring over zorg waar patiënten niets van weten (bijvoorbeeld hoe het is om geïntubeerd te worden). Dit noemt men ook wel de empirische basis van handelen. De basis waarop een keuze wordt gemaakt tussen behandelingsalternatieven is dus de voorkeur van de patiënt, gecombineerd met het meest recente wetenschappelijke bewijs.
Epidemiologie: abnormaliteiten - Chapter 2
Het is belangrijk in de klinische observatie om abnormaal van normaal te onderscheiden, omdat abnormaal de basis is van handelen. Elk werk van een clinicus eindigt in een beslissing: doorgaan met evalueren of wachten, een behandeling beginnen of de ”test” opnieuw doen om zeker te zijn van de uitkomst.
Er zijn verschillende typen data:
Nominale data zijn kwalitatieve data in categorieën zonder bepaalde volgorde. Bijvoorbeeld het bloedgroep ABO systeem. Er is geen geleidende schaal in de indeling. Nominale data die zijn onderverdeeld in 2 groepen worden ook wel dichotome data genoemd. Voorbeeld: man/vrouw.
Ordinale data zijn kwalitatieve data die geordend zijn en een bepaalde volgorde hebben, zoals van klein naar groot, of goed naar slecht. Voorbeeld in een vragenlijst: ‘helemaal mee eens’/ ‘mee eens’ / neutraal / ‘oneens’ / ‘helemaal mee oneens’
Interval data kwantitatieve data, waarbij het interval tussen verschillende waarden gelijk is. Er zijn twee typen interval data: continue en discrete data.
Continue data kunnen elke waarde hebben in een continuüm, bijvoorbeeld gewicht, bloeddruk of zuurstof in arterieel bloed. Bijv: syst. bloeddruk is tussen de 80-100mmHg, 100-120mmHg of 120-140mmHg. Zo zijn de intervallen gelijk, maar de variabele (bloeddruk) is continu van aard.
Discrete data kunnen alleen specifieke waarden aannemen. Bijv. het aantal zwangerschappen van een vrouw. De intervallen zijn gelijk, maar de aard van de variabele (aantal zwangerschappen) is niet continu van aard.
Beoordeling metingen; validiteit en betrouwbaarheid
De validiteit is de waarde die aangeeft in hoeverre een test meet wat hij behoort te meten. Dat wil zeggen, of een test correspondeert met de eigenlijke staat. Een ander woord voor validiteit is accuracy (nauwkeurigheid). De ‘gouden standaard’-test is een test met een validiteit van 100%. Sommige klinische metingen als angst of depressie kunnen niet op een fysieke manier achterhaald worden. Hiervoor worden gestandaardiseerde benaderingen gebruikt zoals het gestructureerde interview. Individuele vragen oftewel items zijn ontworpen om een specifiek fenomeen te meten. Deze items worden gegroepeerd in schalen.
Er zijn drie strategieën om validiteit te verkrijgen bij metingen die niet geverifieerd kunnen worden, namelijk ‘Content Validity’, ‘Construct Validity’ en ‘Criterion Validity’:
Content Validity is de mate waarin een meetmethode alle dimensies van de vraagstelling meet die de onderzoeker tracht te meten.
Construct Validity is de mate waarin een meting is gerelateerd op een samenhangende manier aan een andere meting die ook niet fysiek waarneembaar is, en waarvan gedacht wordt dat het ook deel uitmaakt van hetzelfde fenomeen.
Criterion Validity is aanwezig voor zover de meting een observeerbaar fenomeen voorspelt. Je kunt bijvoorbeeld zien of een pijnschaal een voorspelbare relatie heeft met de ernst van de pijn. Zo verwacht je bij hoofdpijn minder pijn dan bij nierstenen.
De betrouwbaarheid is de mate waarin herhaalde metingen van een stabiel fenomeen door verschillende personen, verschillende tijd en plaats dezelfde resultaten hebben. Reproduceerbaarheid is het synoniem. Het gaat er dus niet om of een test de variabele precies zo meet zoals deze in het echt is, maar of een test bij herhaalde metingen onder dezelfde omstandigheden dezelfde uitslag geeft.
Een instrument kan vaak maar vanaf, en tot een bepaalde hoogte meten. Het instrument heeft dan een ‘limited range’. Dit limiteert het verkrijgen van informatie in bepaalde situaties.
Een meetinstrument demonstreert responsiviteit als de resultaten veranderen wanneer de meetomstandigheden veranderen. Een voorbeeld hiervan is de new york heart association scale (NYHAS). Deze schaal is niet gevoelig voor kleine veranderingen, maar wel voor grote.
Interpreteerbaarheid is het verschil in waarneming tussen verschillende personen. Hiervoor worden schalen gemaakt. Om een getal uit te drukken (bijvoorbeeld functionele capaciteit), zijn er beschrijvingen bij getallen geplaatst om een duidelijker beeld te krijgen.
Variatie
Clinici moeten bedachtzaam zijn op het feit dat een situatie kan variëren. De totale variatie is de som van variatie van biologische verschillen binnen individuen (intra-individuele variatie) en tussen individuen (inter-individuele variatie). Variatie in metingen kunnen ook ontstaan omdat er maar één meting is gedaan van het fenomeen. Vaak is de ‘sampling fraction’, de fractie van het geheel dat is geïncludeerd in de proef, erg klein. Bijvoorbeeld: een leverbiopsie laat maar 1/100.000e deel zien van de lever. Het is dus mogelijk dat een ander stuk lever andere eigenschappen heeft. Biologische variatie is ook een grote bron van variatie omdat een lichaam verschilt naarmate de tijd voortschrijdt. De totale variatie is de som van alle variatie.
Frequentieverdeling
Data die gemeten zijn via intervalschalen worden vaak gepresenteerd als een figuur, namelijk een frequentieverdeling. Dit laat het aantal of proportie van een bepaalde groep personen zien met een bepaalde uitkomst in een interval. Er zijn twee eigenschappen van een verdeling: de central tendency (het midden van de verdeling) en de dispersion (spreiding).
De normale verdeling (of Gaussische verdeling) is een statistische theorie. Het beschrijft de frequentieverdeling van herhaalde metingen van hetzelfde fysieke object door hetzelfde instrument. Het heeft de mathematische eigenschap dat 2/3e van de observaties binnen 1 standaarddeviatie van het gemiddelde valt, en 95% valt binnen 2 standaard deviaties.
Criteria voor abnormaliteit
Het zou gemakkelijk zijn als de waarden tussen ziek en gezond enorm zouden verschillen, maar dit is helaas niet vaak het geval. Voor afwijkende genen is dit wel het geval. Als er geen scherpe grens is tussen normaal en abnormaal, dan kan de clinicus kiezen waar de grens ligt. Hiervoor zijn drie criteria: ongewoon zijn, ziek zijn en behandelbaar. Normaal verwijst vaak naar frequent voorkomend of een gebruikelijke conditie. De referentiepopulatie bestaat vaak uit mensen zonder ziekte, maar dit hoeft niet altijd het geval te zijn. Bijvoorbeeld: het is gebruikelijk dat je pijn hebt na een operatie. Een gebruikelijke manier van een afkappunt tussen normaal en abnormaal is dat alle waarden buiten twee standaarddeviaties vanaf het gemiddelde abnormaal zijn.
De meeste biologische metingen zijn niet normaal verdeeld. Daarom is het vaak handig om de ongebruikelijke waarden te beschrijven.
Het begrip “normaal” kan misleidend zijn om verschillende redenen:
Als alle waarden buiten de statistische willekeurige limiet 95e percentiel abnormaal zouden zijn, dan zou de frequentie van alle ziekten hetzelfde zijn.
Er is geen relatie tussen de mate van statistische ongebruikelijkheid en klinische ziekte. De relatie is specifiek voor de ziekte en setting in kwestie. Soms zijn extreme waarden voordelig. Mensen met een extreem lage bloeddruk hebben minder risico’s op hart en vaatziekten dan mensen met meer gebruikelijke waarden. Veel metingen zijn gerelateerd aan het ziekterisico over een grote range aan waarden zonder drempelwaardes.
Abnormaal is geassocieerd met ziekte. Abnormaal is geassocieerd met het risico voor een ontwikkelende ziekte, disability of dood. Zoniet, dan heeft het geen zin om een drempelwaarde te bepalen. Abnormale waarden moeten behandelbaar zijn. Vaak is het alleen nuttig om een drempelwaarde vast te stellen als boven de waarde de ziekte ook behandelbaar is. Het heeft dan ook geen zin om het te onderzoeken, omdat de onrust niet voor een betere prognose zal zorgen.
Regressie naar het gemiddelde
Als een clinici een test doet en een abnormale waarde tegenkomt, zal hij/zij de test herhalen. Vaak zal de uitkomst dan dichter bij normaal liggen. Dit fenomeen wordt regression to the mean genoemd. Dit gebeurt om statistische redenen en niet omdat de patiënt verbeterd is.
Epidemiologie: diagnose - Chapter 3
Clinici verminderen data van een test naar een simpelere vorm om de data bruikbaar te maken in de praktijk. Bij hartgeruis maakt het kleine verschil niet uit, maar gaat het om het verschil tussen verwaarloosbaar geruis en ernstig geruis dat behandeld dient te worden. De vereenvoudiging van testresultaten wordt dus door artsen gedaan als het gaat om het vaststellen van diagnose en behandeling. Na een testuitslag gekregen te hebben, kan er nooit met zekerheid een diagnose gesteld worden. De waarschijnlijkheid van de diagnose is alleen groter geworden.
Een test heeft een correct resultaat gegeven als hij een positief resultaat geeft bij de aanwezigheid van de ziekte. De test is dan terecht positief. Als de test een negatief resultaat geeft bij afwezigheid van de ziekte is de test terecht negatief. Maar als de test een positief resultaat geeft bij afwezigheid van de ziekte is de test fout-positief. Als het testresultaat negatief is, terwijl de ziekte aanwezig is, is de test fout-negatief.
De gouden standaard
De nauwkeurigheid van een test laat zien of de ziekte echt aanwezig is of niet. De “perfecte” test die een diagnose met 100% zekerheid kan bevestigen, wordt de “gouden standaard” genoemd. Soms is de gouden standaard goedkoop en simpel, denk aan een keeluitstrijkje voor een groep A streptokokken, maar biopsie, radiologie en autopsie zijn vele malen duurder. Bij sommige ziekten geldt het screenen en follow-up als gouden standaard. Dit is het geval bij kankers. Vaak zijn er duurdere en gevaarlijkere, maar wel betere manieren om achter een diagnose te komen, maar verkiezen arts en patiënt voor de makkelijkere en veiligere manier. De patiënt verkiest een sputumkweek boven longbiopsie bij verdenking op een pneumonie.
De grootste waarde van een diagnostische test is verkregen door de kliniek en niet door onderzoek. Ook is het zo dat het aantal fout positieven beter naar voren komt dan het aantal fout negatieven, omdat deze vaak niet meer onderzocht worden naderhand, of pas bij klachten. Dan is de uitslag van een volgende test terecht positief geworden. Een andere misleidende factor is dat testen alleen gedaan worden bij mensen met klachten. Mensen zonder klachten zouden eigenlijk ook een keer getest moeten worden om de accuraatheid van een test te kunnen meten.
Bij sommige aandoeningen mist er een objectieve standaard voor de ziekte. Zo is het bij angina pectoris moeilijk vast te stellen wanneer iemand het wel of niet heeft. Ook bij andere ziekten is de diagnose moeilijk te stellen, omdat er geen echte diagnose gesteld kan worden. Denk aan opvliegers, autisme, prikkelbare darmsyndroom (oftewel IBS, irritable bowel syndrome). Bij deze ziekten worden standaardgroepen gemaakt en lijsten met symptomen en testuitslagen (de zogeheten ziektecriteria) om tot een diagnose te komen.
Het is soms moeilijk om informatie te vinden over de overeenkomst tussen de test die gebruikt wordt en de standaard. Dit kan ervoor zorgen dat er imperfecte testen vergeleken worden. Hierbij wordt een test verkozen boven een andere, omdat deze test meer is gebruikt als gevolg van consensus door experts. Hierdoor ontstaat de volgende paradox: als een nieuwe test wordt vergeleken met een oude, imperfecte standaardtest, dan kan de nieuwe test slechter lijken terwijl de accuraatheid van de test juist beter is. Bijvoorbeeld: als een nieuwe test meer sensitief is dan de standaardtest, dan zouden de nieuwe patiënten fout-positief lijken in vergelijking tot de oude test. Ook zijn nieuwe testen vaak meer negatief dan oude testen, en dan zouden deze patiënten fout-negatief lijken, terwijl ze terecht negatief zijn.
Sensitieve en specifieke testen
Sensitieve testen worden gebruikt om geen personen te missen. Bijvoorbeeld bij een gevaarlijke, maar behandelbare conditie als tuberculose, syfilis of Hodgkin. Ook zijn sensitieve testen goed te gebruiken bij vroegdiagnostiek.
Een hoog sensitieve test is dus het meest bruikbaar voor de clinicus als het resultaat negatief is, om de ziekte uit te sluiten. Denk aan het ezelsbruggetje ‘SNOUT’: when a sensitive (SN) test is negative (N), it rules out (OUT) the disease.
Specifieke testen zijn erg bruikbaar om een ziekte te bevestigen (to rule in) die hoog in de differentiaal diagnose stond na anamnese en lichamelijk onderzoek. Een hoog specifieke test is zelden positief in de afwezigheid van ziekte. Het geeft dus maar weinig fout negatieve resultaten. Hoog specifieke testen zijn vooral erg belangrijk als een fout positief resultaat een patiënt fysiek, emotioneel of financieel kan beschadigen. Denk aan het ezelsbruggetje ‘SPIN’: when a specific (SP) test is positive (P), it rules in (IN) the disease.
Het is bijna niet mogelijk om een test zo te maken dat hij en heel specifiek en heel sensitief is. Bij een test waar de grens op verschillende waarden gelegd kan worden, is er vaak en cut-off punt. Dit punt ligt in een continuüm tussen normaal en abnormaal, en is een arbitraire beslissing. Als consequentie van dit cut-off punt kan de sensitiviteit van de test verhoogd worden ten koste van de specificiteit.
ROC curve
De ROC curve wordt gebruikt om een relatie tussen sensitiviteit en specificiteit aan te geven. ROC staat voor ‘receiver operator characteristic’ curve. Deze is geplot door de terecht-positieven (sensitiviteit) tegen de fout positieven (1-specificiteit) te plotten.
Testen die goed discrimineren liggen in de linkerbovenhoek. Testen die minder goed discrimineren liggen meer richting de diagonaal. De diagonaal laat de relatie zien tussen terecht positieven en fout positieven. De ROC curve laat zien hoe de trade-off tussen sensitiviteit en specificiteit is voor een test en deze kan gebruikt worden om te beslissen waar het beste cut-off punt is.
De accuraatheid van een test kan beschreven worden als de oppervlakte onder de grafiek (‘area under the curve’). Hoe groter dit gebied, hoe beter de test is. Moeilijkheden kunnen ontstaan als de patiënten die gebruikt worden om de test te beschrijven verschillend zijn dan de patiënten voor wie de test gebruikt zal worden in praktijk. Verder verschillen patiënten met de ziekte vaak in ernst, stagering of duur van de ziekten. De testsensitiviteit neigt hoger te zijn in ernstigere aangedane patiënten.
In theorie zijn sensitiviteit en specificiteit van een test onafhankelijk van de prevalentie van een ziek individu en ze worden tot de testeigenschappen van een test gerekend.
Screenen is het gebruiken van een test in een asymptomatische populatie waarin de prevalentie van de ziekte laag is. Vaak is zijn de gevallen die gevonden worden niet ernstig.
Waarden van sensitiviteit en specificiteit zijn meestal geschat van observaties op relatief kleine groepen proefpersonen met en zonder ziekte. Omdat de kans (random variatie) in elke groep, zeker als deze klein is, verschilt, kan deze fout geïnterpreteerd worden, zelfs als er geen studie is. De geobserveerde waarden zijn verenigbaar met een range van echte waarden die gekarakteriseerd worden als 95% ‘confidence intervals’ (95%-betrouwbaarheidsinterval). Binnen de wijdte van deze range van waarden wordt de geschatte sensitiviteit en specificiteit gedefinieerd. De precisie van een schatting van sensitiviteit stijgt als de groep geteste mensen stijgt.
De voorspellende waarde
Sensitiviteit en specificiteit zijn waarden van een test die worden gebruikt om te bekijken of een test wel of niet gebruikt dient te worden. Op het moment dat de resultaten van een test beschikbaar zijn, dan zijn de begrippen sensitiviteit en specificiteit niet meer relevant, omdat de waarden zijn verkregen in personen die de ziekte wel of niet hebben.
De mogelijkheid van ziekte, gegeven als een resultaat van de test, wordt ook wel de voorspellende waarde van een test genoemd. Een positief voorspellende waarde is de mogelijkheid van een ziekte bij een patiënt met een positief testresultaat. De negatief voorspellende waarde is de mogelijkheid van het niet hebben van de ziekte waarbij het testresultaat normaal is, dus negatief.
De vraag is dus: als een patiënt een positief testresultaat krijgt, wat zijn dan de kansen dat de patiënt de ziekte ook daadwerkelijk heeft? En andersom, als een patiënt een negatief testresultaat heeft, wat is dan de kans dat deze persoon de ziekte niet heeft?
De voorspellende waarden wordt soms posterior (of posttest) voorspelbaarheid genoemd, oftewel de kans op ziekte nadat het testresultaat bekend is. Accuraatheid wordt soms gebruikt om de waarde van een test te sommeren. De accuraatheid is de proportie van alle testresultaten, negatief en positief, die uiteindelijk waar blijken te zijn.
De voorspellende waarde van een test is niet alleen een eigenschap van de test alleen. Het is vastgesteld door de sensitiviteit en specificiteit van de test en de prevalentie van een ziekte in de geteste populatie.
Prevalentie wordt ook wel prior of pretest waarschijnlijkheid genoemd. Dus de waarschijnlijkheid van een ziekte voordat het testresultaat bekend is. Je kunt je voorstellen dat in een populatie waarin de ziekte vaak voorkomt, de kans op ziekte voor het inzetten van een test al groot is.
Voor de positief voorspellende waarde wordt ook wel de volgende formule gebruikt:
Sensitiviteit x prevalentie
(sensitiviteit x prevalentie) + (1-specificiteit) x (1- prevalentie)
Hoe sensitiever een test is, hoe beter de negatief voorspellende waarde zal zijn.
Hoe specifieker een test is, hoe beter de positief voorspellende waarde.
Omdat de voorspellende waarde ook beïnvloed wordt door de prevalentie van een ziekte is het niet afhankelijk van de setting waarin de test wordt gebruikt.
Positieve resultaten bij patiënten met een lage likelihood zullen veelal foutpositief zijn. Negatieve resultaten bij een sensitieve test en een hoge likelihood zijn veelal fout negatief zijn.
Prevalentie en voorspellende waarde
De prevalentie is belangrijker dan de sensitiviteit en specificiteit in het vaststellen van de voorspellende waarde. De prevalentie kan over een veel grotere range verschillen dan de sensitiviteit en specificiteit. Prevalentie van een ziekte kan variëren van een fractie van een procent tot wel 100 procent in klinische settings die afhangen van leeftijd, geslacht, risicofactoren en klinische bevindingen.
Vaak wordt de prevalentie geschat door een arts alvorens een test wordt aangevraagd. Deze geschatte prevalentie van ziekte is vaak niet nauwkeurig. Er wordt aangeraden om te kijken in MEDLINE om de prevalentie te weten te komen.
De prevalentie kan verhoogd worden voordat er getest wordt. Zo kunnen de geteste groepen in ziekenhuizen zijn, waardoor de kans op ziekte al groter is. Dit wordt referral process genoemd. Ook kan er sprake zijn van verschillende demografische groepen. Zo heeft iemand die 65 is en pijn op de borst heeft, 15 keer meer kans op hart- en vaatziekten dan iemand van 30. De specifieke klinische situatie is de grootste beïnvloedende factor van de beslissing om tests wel of niet aan te vragen. Een mevrouw met pijn op de borst heeft veel meer kans op hart- en vaatziekten als ze rookt en typische anginaklachten heeft.
De ideale diagnostische test
Een diagnostische test is het meest bruikbaar in een gemiddelde situatie waarin de prevalentie niet erg hoog is, maar ook niet erg laag. Bijvoorbeeld, een 60 jaar oude man met atypische pijn op de borst heeft 67% kans op de diagnose coronaire hartziekten alvorens een stress-test te ondergaan. Na de test, met een langer dan 2,5mm ST-segment depressie op het ECG heeft hij 99% kans op coronaire harziekten. Je ziet dus dat de stress-test de waarschijnlijkheid op de ziekte vergroot en in dit geval zelfs bijna 100% maakt. Testen dienen dus om de waarschijnlijkheid op ziekte te vergroten of te verkleinen.
Likelihood ratio’s
Likelihood ratio’s zijn een alternatieve manier van het beschrijven van de uitvoering van een diagnostische test. De ratio’s vatten dezelfde informatie samen als bij de sensitiviteit en specificiteit, en kunnen gebruikt worden om de waarschijnlijkheid van een ziekte te berekenen na het verkrijgen van een positieve of negatieve test. Het voordeel van de likelihoodratio’s is dat ze gebruikt kunnen worden op multipele niveaus van testresultaten.
Probability (waarschijnlijkheid) wordt gebruikt om sensitiviteit, specificiteit en de voorspellende waarde uit te drukken. De probability is de proportie van mensen waarin de geteste karakteristieken aanwezig zijn.
Odds is de ratio van twee probabilities.
Odds = probability of event : (1 – probability of event)
Probability = Odds : (1 – Odds)
De likelihood ratio van een waarde van een diagnostische test wordt gedefinieerd als de probability van dat testresultaat in mensen met de ziekte gedeeld door de probability van het resultaat in mensen zonder de ziekte. Likelihood ratio’s drukken uit hoeveel keer meer of minder waarschijnlijk het is om een testresultaat te vinden bij een ziek persoon ten opzichte van een gezond person. In een dichotoom resultaat bij een positieve likelihood ratio is de ratio van de omvang van zieke mensen met een positief testresultaat (sensitiviteit) tegen de omvang niet zieke mensen met een positief testresultaat (1 – specificiteit). De negatieve likelihood wordt berekend als het testresultaat negatief is. De proportie van zieke mensen met een negatief testresultaat (1-sensitiviteit) worden gedeeld door de proportie niet zieke mensen met een negatief testresultaat (specificiteit).
Likelihood wordt gebruikt met odds, niet met probability. Daarom is de eerste stap om probability om te zetten naar pretest odds door middel van: Odds = probability of event : (1 – probability of event). De likelihood ratio’s kunnen dan gebruikt worden om de pretest odds om te zetten naar posttest odds door de volgende formule:
Pretest odds x Likelihood ratio = posttest odds.
Posttest odds kunnen ook weer omgezet worden naar probability door de volgende formule:
Probability = odds : (1 + Odds).
In deze relaties hebben pretest odds dezelfde informatie als pretest probability (prevalentie). Likelihood ratio’s hebben dezelfde ratio’s als sensitiviteit/specificiteit en posterior odds hebben dezelfde als de positief voorspellende waarde (posttest probability).
Het grote voordeel van likelihood ratio’s is dat je verder kan gaan dan de simpele classificaties van een testresultaat. Je krijgt dus een betere uitslag dan ‘normaal’ of abnormaal door een cutoff punt.
Voorwaarden in de marginale range kunnen likelihood ratio’s een betere beschrijving geven met allerlei soorten waarden die eruit komen. Likelihood geeft dus meer informatie dan alleen afwezig of aanwezig. De likelihood kan dus op elk niveau van testresultaat informatie geven.
Multipele diagnostische tests kunnen op twee manieren geldig zijn. Ze kunnen gebruikt worden in parallelle testen (tegelijkertijd), en een positief testresultaat van een test wordt gezien als bewijs voor de ziekte. Of ze worden in serie gedaan (consecutief testen) met het de besluit om de volgorde van testen af te laten hangen van vorige testresultaten.
Epidemiologie: frequenties - Chapter 4
Beslissingen die patiënten en clinici in de praktijk moeten maken kunnen tegenwoordig gebaseerd worden op ‘research-based’ waarschijnlijkheden/frequenties. Bij beantwoording van een klinische vraag komen de volgende zaken aan bod: waarschijnlijkheden van een ziekte, verbetering, verslechtering, behandeling, bijwerkingen en de dood.
Woorden en getallen
Soms communiceren clinici waarschijnlijkheden in woorden in plaats van getallen. Een voordeel hiervan is dat je het niet op de procent precies hoeft te weten en toch een indruk kan geven. Een nadeel hiervan is echter wel dat woorden verschillend opgevat kunnen worden en de grens tussen verschillende woorden (bijvoorbeeld zelden en vaak) is niet duidelijk. Woorden vervagen de informatie en het is daarom ook aan te raden om wanneer mogelijk getallen te gebruiken om waarschijnlijkheden uit te drukken.
Prevalentie en incidentie
In klinische metingen van frequenties stelt het getal in de teller de mensen voor met de ziekte en het getal in de noemer de totale populatie. De twee basismetingen voor de frequentie van een bepaalde aandoening zijn prevalentie en incidentie. De prevalentie van een aandoening is het deel van een populatie die een bepaalde aandoening hebben op een bepaald moment. Dit wordt gemeten door een cross-sectional studie (observatie van een populatie op een bepaald moment). De punt-prevalentie wordt gemeten op een specifiek moment. De periode-prevalentie beschrijft gevallen die aanwezig waren over een bepaalde periode. Het gaat dan wel over de hoeveelheid mensen met een bepaalde aandoening op één moment, toch worden de gegevens niet op exact één moment verzameld. De incidentie van een aandoening is het deel van een populatie die aanvankelijk vrij waren van de aandoening, maar die in een bepaalde periode de aandoening ontwikkelen. Dit wordt ook wel cumulatieve incidentie genoemd. Dit wordt gemeten door middel van een cohort studie.
Prevalentie: alle mensen met een aandoening / totale populatie
Incidentie: nieuwe gevallen in een bepaalde periode / aanvankelijk gezonde mensen
Er is een relatie tussen prevalentie, incidentie en de duur van de ziekte. Hoe langer de duur van de ziekte, hoe hoger de prevalentie en hoe relatief lager de incidentie. Hoe korter de duur van de ziekte (bijvoorbeeld bij voedselvergiftiging) hoe lager de prevalentie (deze wordt onderschat) en hoe relatief hoger de incidentie. Het verband tussen de drie factoren is: prevalentie = incidentie x gemiddelde duur van de ziekte. Er is dus uit de incidentie en prevalentie op de maken hoe lang de ziekte gemiddeld duurt.
Case fatility rate en complication rate
De mortaliteit (case fatility rate) is het deel van de mensen met een ziekte die eraan overlijdt. Dit moet over een periode gemeten worden waarin alle overlijdensgevallen die kunnen plaatsvinden, plaatsgevonden hebben. De complication rate is het deel van de mensen met een ziekte die complicaties krijgt. Hetzelfde geldt voor de periode van meten als bij de mortaliteit. Het kindersterftecijfer is een afleiding van de incidentie omdat gevallen in de teller niet dezelfde hoeven te zijn in de noemer. Sommige kinderen die overlijden in een bepaald jaar zijn niet geboren in datzelfde jaar.
Meten van prevalentie en incidentie
De prevalentie en incidentie worden door middel van verschillende studies gemeten. Prevalentiestudies worden ook wel cross-sectional studies genoemd. Hierbij worden mensen onderzocht naar de te onderzoeken aandoening. Een deel van deze mensen heeft de aandoening wel en de rest niet. Het deel van de mensen die de aandoening wel heeft, vormt de prevalentie van die aandoening.
Incidentiestudies worden ook wel cohort studies genoemd. Hierbij wordt een groep mensen gemeten die iets gemeen hebben (bijvoorbeeld afwezigheid van een bepaalde ziekte) en deze worden dan gevolgd voor een bepaalde periode. Er wordt dan gekeken hoeveel mensen de te onderzoeken ziekte ontwikkelen.
Persoonsjaren
Een andere manier van het meten van incidentie is het meten van de incidentie in een dynamische populatie, genaamd de ‘incidence density’. De patiënten in deze studie variëren gedurende de tijd dat ze in de studie gevolgd worden. De tijd dat de patiënt gevolgd wordt, is het aantal jaren dat deze bijdraagt aan de noemer van de incidentie-breuk. Dit worden de persoonsjaren van deze patiënt genoemd. ‘Incidence density’ wordt uitgedrukt in het aantal nieuwe gevallen per totaal aantal persoonsjaren. Deze vorm van incidentie is bruikbaar wanneer er sprake is van een dynamische populatie. Er komen bijvoorbeeld nieuwe mensen in een huisartsenpraktijk omdat ze verhuisd zijn of geboren zijn, maar er verhuizen ook mensen weg van de praktijk en er gaan mensen dood. Zo verandert de populatie steeds.
Er is ook een nadeel aan deze vorm van incidentie. Het is namelijk zo dat een kleine groep mensen die voor een lange periode gevolgd worden evenveel bijdragen als een grote groep die voor een korte periode gevolgd worden. Het kan zijn dat de mensen die een korte periode gevolgd worden systematisch anders zijn. Ze kunnen bijvoorbeeld verhuisd zijn, omdat het niet goed ging met hun gezondheid.
De teller en noemer definiëren
Om prevalentie en incidentie toepasbaar te maken moet de definitie van de teller (de aandoening hebben – een ‘case’ zijn) en de noemer (de populatie) goed vastgesteld worden. Het is belangrijk om goed te definiëren wanneer iemand een case is en wanneer niet. De incidentie kan veranderen wanneer de technieken om een case op te sporen beter zijn. Ook de populatie moet helder gedefinieerd zijn. Vier karakteristieken van de noemer (populatie) zijn belangrijk. Ten eerste, alle mensen uit de populatie moeten de ziekte kunnen ontwikkelen (population at risk). Vrouwen kunnen bijvoorbeeld geen prostaatkanker krijgen, dus deze moeten ook niet opgenomen worden in de populatie bij onderzoek naar de incidentie van prostaatkanker. Ten tweede moet de populatie relevant zijn voor de onderzoeksvraag. Als je bijvoorbeeld benieuwd bent hoe vaak een ziekte in een bepaalde bevolkingsgroep voorkomt, moet je alleen mensen uit die groep in de populatie betrekken. Ten derde moet de populatie goed omschreven worden zodat het resultaat toegepast kan worden op de juiste patiënten. En als laatste moet de steekproef waar metingen op uitgevoerd worden representatief zijn voor de populatie waar ze uit komen (belangrijk voor de externe validiteit).
Steekproeven
Het is onmogelijk om in een onderzoek de hele populatie te testen. Daarom wordt er een steekproef genomen. Er zijn twee manieren om deze steekproef te maken, namelijk willekeurig en onwillekeurig.
Willekeurige steekproeven zijn meestal representatief voor de gehele populatie want iedereen uit die populatie heeft evenveel kans om in deze steekproef te komen. Bij het maken van een waarschijnlijkheidssteekproef, of aselecte steekproef, heeft iedere persoon uit de populatie een bekende kans (niet perse gelijk) om geselecteerd te worden. Dit wordt gedaan om minderheden goed te representeren in de steekproef. Als het totaal willekeurig gebeurt, zouden er waarschijnlijk te weinig mensen uit deze subgroepen in de onderzoekspopulatie terecht komen. Om dit te voorkomen, stelt de onderzoeker een steekproeffractie van iedere subgroep op. Het kan voorkomen dat hierdoor een bepaalde subgroep overgerepresenteerd wordt. De steekproef zal representatief blijven als hier rekening mee wordt gehouden bij de analyse.
Onwillekeurige steekproeven worden veel gebruikt in onderzoek om praktische redenen. Mensen worden in een steekproef opgenomen omdat dat makkelijk is. Bijvoorbeeld wanneer ze behandeld worden of wanneer ze zich aanbieden voor een studie. Er is niks mis met de steekproef als er maar rekening mee wordt gehouden op welke populatie de resultaten toepasbaar zijn.
Verdeling van ziekte
Grote determinanten in de epidemiologie zijn tijd, plaats en persoon. Een epidemie is een concentratie van nieuwe gevallen in de tijd. Er wordt van een pandemie gesproken wanneer de ziekte over een groot gebied voorkomt. Een epidemische curve laat de stijging van een vóórkomen van een ziekte zien. De plaats van een ziekte geeft aanwijzingen voor de oorzaak. Als bepaald groep uit een populatie, met speciale karakteristieken zoals bijv. leeftijd of geslacht, vaker aangedaan zijn door een bepaalde ziekte geeft dit ook informatie over de oorzaak en hoe het bestreden moet worden.
Voor- en nadelen van prevalentie studies
Uit een prevalentiestudie is de specificiteit en sensitiviteit van de gebruikte test af te leiden. Ook is het belangrijk om op de hoogte te zijn van de prevalentie om de zorg zo optimaal mogelijk te organiseren. Huisartsen moeten daarom bedacht zijn op veel voorkomende aandoeningen en in ziekenhuizen moet meer gelet worden op zeldzame ziekten. Prevalentie studies geven geen goed beeld van oorzaak en effect van de ziekte, omdat ze op hetzelfde moment gemeten zijn. De prevalentie van een ziekte alleen zegt weinig, want het geeft alleen informatie voor het stellen van hypothesen. Om deze te testen moet er ook gekeken worden naar de incidentie.
Epidemiologie: risico’s in de toekomst - Chapter 5
Een risico is de waarschijnlijkheid dat een gebeurtenis plaatsvindt. Mensen zijn geïnteresseerd naar hun kans op ziekte. De karakteristieken die geassocieerd worden met een verhoogde kans op ziekte zijn risicofactoren. Deze kunnen geërfd zijn (genetisch), verworven uit de fysische of sociale omgeving of voortkomen uit gedrag. Het in contact komen met een risicofactor kan op één bepaald moment (röntgenstraling bij het maken van een foto) of over een langere periode (roken) plaatsvinden.
Er zijn verschillende manieren om de mate van blootstelling weer te geven: ooit in aanraking gekomen met de risicofactor, huidige dosis, hoogste dosis, totale cumulatieve dosis, aantal jaren van blootstelling, etc. De verschillende maten zeggen verschillende dingen over de relatie met ziekte (de cumulatieve dosis zonnestraling verhoogt het risico op een niet-melanoom, terwijl verbranden door de zon de kans op een melanoom verhoogt).
Het is eenvoudig om een groot risico geassocieerd met het effect wat direct na de blootstelling optreedt, te herkennen. In de volgende gevallen is de relatie minder duidelijk: lange latentie periode, risicofactoren waar bijna iedereen aan wordt blootgesteld, lage incidentie van het gevolg van de risicofactor, de risicofactor geeft een klein verhoogd risico (meestal veroorzaken meerdere kleine risicofactoren een bepaald effect, als er al meerdere risicofactoren bekend zijn, is er minder stimulans om te zoeken naar nog meer) of als er geen duidelijke één-op-één relatie is tussen risicofactor en ziekte.
Risicofactoren
Risicofactoren kunnen het vóórkomen van ziekte voorspellen. Deze voorspellingen worden weergegeven als een waarschijnlijkheid. Deze zijn niet altijd toe te passen op iedere patiënt.
Als je zoekt naar risicofactoren zoek je meestal naar de oorzaak. Je hebt directe oorzaken (bijv. rokende moeder en een laag geboortegewicht) en verafgelegen oorzaken (bijv. laag opgeleide moeder en een laag geboortegewicht). Een risicofactor hoeft niet altijd de oorzaak te zijn van de ziekte; dit wordt een ‘marker’ genoemd. In dat geval wordt de risicofactor geassocieerd met de oorzaak van de ziekte (een soort confounder). Deze marker heeft wel een voorspellende functie voor de waarschijnlijkheid van het optreden van de ziekte, maar als de risicofactor wordt weggenomen, verkleint dit de kans op de ziekte niet.
Kennis van risico’s wordt gebruikt tijdens het diagnostisch proces. Een hoge waarschijnlijkheid verhoogt de voorafkans, maar zegt weinig over de individuele patiënt. De afwezigheid van een sterke risicofactor (werken met asbest) kan een diagnose (mesothelioom) ook uitsluiten. Een bestaand voorstadium van een ziekte zegt het meeste over de waarschijnlijkheid.
Kennis van risico’s kan de efficiëntie van onderzoek verhogen. Er kan op basis van risico’s gestratificeerd worden (subgroepen maken op basis van risicofactoren). Ook kan geconcludeerd worden dat screenen pas vanaf een bepaalde leeftijd nodig is waardoor er minder mensen gescreend hoeven te worden.
Als een risicofactor de oorzaak van de ziekte is, kan de kans op de ziekte verminderd worden door deze risicofactor weg te nemen. Hiervoor hoeft het ontstaansmechanisme van de ziekte niet bekend te zijn.
Onderzoek naar risico
Bij een ideaal onderzoek (experiment) naar de sterkte van een risicofactor wordt de populatie in tweeën gedeeld. Deze twee groepen moeten gelijke variaties hebben. De ene groep wordt vervolgens blootgesteld aan een risicofactor en de andere niet. Alle verschillen die vervolgens optreden, zijn dan te wijten aan de risicofactor.
Echter, de meeste risicofactoren zijn niet op deze manier te onderzoeken. Het kan zijn dat deze manier onethisch is, of de mensen willen niet dat hun gedrag of dieet voor een lange tijd bepaald wordt door anderen. Een dergelijk onderzoek duurt ook lang en kost daardom veel geld. De meeste studies naar risicofactoren zijn observationeel. Twee soorten observationele studies zijn de cohort studie en de case-control studie.
Cohortstudie
Tijdens een cohort studie wordt een groep mensen (cohort) voor een bepaalde periode geobserveerd en er wordt gekeken of een bepaald resultaat (bijv. een ziekte) optreedt of niet. De mensen worden geselecteerd op basis van blootstelling aan risicofactoren (exposed en non-exposed). Het vóórkomen van de ziekte in beide groepen wordt vergeleken. Er zijn drie criteria gesteld aan deze vorm van studie:
1. De mensen mogen de ziekte aan het begin van de studie nog niet hebben
2. De populatie moet lang genoeg geobserveerd worden zodat de ziekte de kans heeft gekregen om te ontstaan
3. Alle informatie uit de gehele follow-up moet meegenomen worden in de resultaten, want ook als patiënten uit de studie stappen geeft dit zinnige informatie.
Er zijn twee vormen van een cohort studie: retrospectief en prospectief. Bij een retrospectieve cohort studie worden gegevens uit het verleden (bijv. uit het dossier van de huisarts) gebruikt. Hiervoor is een zeer grote database nodig. Bij een prospectieve cohort studie wordt de populatie op dat moment gevormd en voor de tijd daaropvolgend gevolgd. Een voordeel van een prospectieve cohort studie is dat de informatie specifiek voor die studie verzameld wordt. Hiermee wordt bias voorkomen. Bij een retrospectief onderzoek kan het doel van de studie niet overeenkomen met de data.
Case-cohort studie
Bij een case-cohort studie wordt een groep mensen die blootgesteld is aan een risicofactor gevolgd en er wordt gekeken of een bepaald resultaat optreedt. Daarnaast wordt een kleine groep gevolgd die niet is blootgesteld. In deze kleine groep wordt de verhouding van mensen die de ziekte ontwikkelen en die dat niet doen gelijkgesteld aan de gehele populatie.
Er zitten voor- en nadelen aan een cohort studie (zie ook tabel 5.2). Een cohort is de beste vervanging voor een experiment. Het is alleen niet efficiënt want er moeten veel mensen aan het onderzoek meedoen. Een ander nadeel is dat het verzamelen van de data veel tijd en geld kost. Het kan ook niet voor alle risicofactoren gedaan worden. Voor deze risicofactoren kan een case-control studie gedaan worden. Een cohort is gevoeliger voor bias dan experimenten: de exposed groep verschilt vaak systematisch van de non-exposed groep.
Uitdrukken van risico
Een manier om een risico uit te drukken is door middel van de incidentie. In een cohort wordt de incidentie tussen de exposed en non-exposed groepen vergeleken. De volgende begrippen worden gebruikt om risico’s te vergelijken en de metingen van associatie tussen de risicofactor en de ziekte: absoluut risico, attributief risico en het relatief risico.
Het absoluut risico is de waarschijnlijkheid van het optreden van een uitkomst. Dit is ongeveer gelijk aan de incidentie. Het attributief risico is wat er aan extra risico bijkomt wanneer je blootgesteld wordt aan een risicofactor. Dit is de incidentie van de ziekte bij de blootgestelde mensen minus de incidentie van de niet blootgestelde mensen. Het wordt ook wel risicoverschil genoemd. De meest gebruikte uitkomst bij studies is het relatief risico. Dit is hoeveel keer meer kans je hebt op een ziekte als je blootgesteld bent aan een risicofactor. Het is te berekenen door een incidentie van de ziekte bij de blootgestelde mensen te delen door de incidentie bij de niet blootgestelde mensen.
Het relatief risico kan hoog zijn terwijl het risicoverschil klein is. Dit is bijvoorbeeld het geval als de ziekte weinig voorkomt. Het absoluut en attributief risico zijn bruikbaar voor de individuele patiënt terwijl het relatief risico de sterkte van de causale relatie tussen risicofactor en ziekte aangeeft.
Risico in de populatie
Door te kijken naar risico in de hele populatie (in plaats van de individuele patiënt) wordt duidelijk waar aandacht aan besteed moet worden in de zorg. Om dit populatie-risico te meten, moet je weten hoe vaak mensen in de populatie blootgesteld worden aan de risicofactor. Het populatie-attributief risico (risicoverschil) is het product van het attributief risico en de prevalentie van blootstelling aan de risicofactor. De populatie-attributief fractie is de fractie van het optreden van de ziekte geassocieerd met de risicofactor. Anders gezegd: het deel van het optreden van de ziekte veroorzaakt door de risicofactor.
De preventieparadox is het fenomeen dat het risico van de individuele patiënt klein is terwijl het behandelen/voorkómen ervan veel gezondheidswinst voor de populatie oplevert. Bijvoorbeeld het behandelen van iets verhoogde bloeddruk ten opzichte van veel te hoge bloeddruk. De kans op het ontwikkelen van cardiovasculaire aandoeningen bij een iets verhoogde bloeddruk is kleiner dan bij een veel te hoge bloeddruk. Echter, omdat een iets verhoogde bloeddruk veel meer vóórkomt, levert het meer gezondheidswinst op om dit te behandelen.
Epidemiologie: risico’s in het verleden - Chapter 6
Cohort studies kunnen direct risico bestuderen. Ze hebben echter praktische limieten. Sommige ziekten duren erg lang tot ze ontstaan: een lange latentie periode. Daarnaast ontwikkelen maar een aantal mensen in het cohort de aandoening, maar alle mensen in het cohort moeten gevolgd worden. De studies kosten dus veel tijd, moeite en geld. Case-control studies kunnen de relatie tussen een risicofactor en ziekte uitkomst veel efficiënter bestuderen. Er hoeft niet van heel veel mensen die de ziekte toch niet ontwikkelen data verzameld te worden en het is sneller. Daarentegen is de kans op bias groter en kan het relatieve risico alleen benaderd worden. In tabel 6.1 staan de voor- en nadelen van alle soorten studies.
Hoe zit een case-control studie in elkaar?
Er worden twee steekproeven uit éénzelfde populatie genomen. De patiënten die de ziekte hebben ontwikkelt (cases) en gezonde mensen die in niets van de patiënten verschillen behalve de ziekte (controles). De onderzoekers kijken dan terug in de tijd naar het vóórkomen van een risicofactor in het leven van de cases en controles. Met deze data kan er een benadering worden gegeven van het relatieve risico.
Selecteren van cases en controles
De validiteit van het onderzoek is afhankelijk van de zorg waarmee de steekproeven zijn geselecteerd, de zorg waarmee de uitkomst wordt gemeten en hoe uitwendige variabelen worden gecontroleerd.
De cases zijn altijd nieuwe patiënten (incidenten). De beste manier om de steekproef te selecteren is om patiënten in een specifieke populatie te kiezen. Er ontstaan bijvoorbeeld validiteitsproblemen als er cases worden gezocht in ziekenhuizen, omdat deze vaker zeldzame aandoeningen hebben. Tegenwoordig is het makkelijker om cases te vinden, omdat er veel databanken zijn.
De controles moeten op alle vlakken gelijk zijn aan de cases, behalve op de ziekte-uitkomst. De validiteit van het onderzoek is hiervan afhankelijk. Ze moeten uit dezelfde specifieke populatie komen en dezelfde kans op de risicofactor hebben gehad. De controles kunnen op verschillende manieren worden geselecteerd: de population approach is het random selecteren van controles in dezelfde populatie.
De cases en controles kunnen ook uit hetzelfde cohort gehaald worden: nested case-control studie. Met deze aanpak zijn de analyses efficiënter. Cases en controles moeten aan dezelfde criteria voldoen om aan de studie mee te mogen doen, omdat er anders bias optreedt. Als dit niet mogelijk is, kunnen er controles worden gekozen uit een ziekenhuis waar men dezelfde cases hebben. Er kunnen ook meerdere controle groepen worden opgesteld uit verschillende populaties, bijvoorbeeld uit hetzelfde ziekenhuis en uit dezelfde geografische populatie. Zo kunnen er meerdere vergelijkingen worden gedaan. Als de benadering van het relatieve risico in beide groepen gelijk is, pleit dit tegen een eventuele bias. Als er verschillen zitten in de benadering van het relatieve risico, is één van beide groepen gebiased en kan dit onderzocht worden. Ook kunnen er meerdere controles per case worden gekozen. Het maximum hiervoor is vier, omdat er bij meer controles geen toegevoegde waarde is.
De laatste manier waarop controles geselecteerd kunnen worden is matching. Dit wordt gedaan bij studies waarbij sommige karakteristieken erg sterk gerelateerd zijn aan risico of ziekte. Als dit zo is wil men graag dat de cases en controles echt vergelijkbaar zijn en worden ze gematched aan elkaar. Eén of meer controles worden gematched aan een case met dezelfde karakteristieken, zoals leeftijd. Dit vergroot de overeenkomsten tussen de groepen, maar brengt ook een risico met zich mee. Het gevaar is overmatching: de karakteristieken worden zo veel gematched dat er geen verschil meer is tussen de cases en controles en er daardoor geen uitkomst uit de studie komt.
Meten van de uitkomstmaten
Als de groepen gekozen zijn, moet bepaald worden hoe de uitkomst gemeten wordt. De validiteit van de studie en het risico op bias hangt af van het goed meten van de risico exposure. Het beste om de uitkomst te meten, is het beschikken over complete en accurate statussen van cases en controles die waren opgesteld voor het ontstaan van ziekte. Dit is helaas vaak niet mogelijk en kunnen de risicofactoren alleen maar gevraagd worden. Dit brengt een groot risico op error met zich mee. Bias kan ontstaan op drie manieren:
De blootstelling aan de risicofactor kan beïnvloed zijn door de aanwezigheid van ziekte
Recall bias: de ziekte hebben kan het herinneren van risicofactoren versterken in de cases. Dit kan voorkómen worden door alternatieve manieren van informatie verzamelen (bijvoorbeeld de partner vragen) en het doel van de studie niet mededelen.
Het hebben van de ziekte kan het meten ervan beïnvloeden: de onderzoeker zal bij de patiënt verder vragen naar risicofactoren. Ook hier kan het verhullen van het doel van de studie helpen.
Odds ratio
In een cohort studie wordt het relatieve risico bepaald. Dit wordt gedaan met behulp van de incidentie in het cohort. De volgende 2x2 tabel wordt gemaakt:
Cases | Controles | |
Risicofactor aanwezig | A | B |
Risicofactor afwezig | C | D |
In verloop van tijd kan de tabel ingevuld worden. Het relatieve risico wordt als volgt berekend: (A/(A+B)) / (C/(C+D)).
In een case-control studie kan dit niet, omdat er geen sprake is van incidentie. In plaats daarvan kan een benadering van het relatieve risico worden gegeven: het vergelijken van het relatieve voorkomen van risico tussen de cases en controles. Dit heet de odds ratio. De odds is de kans dat een case de risicofactor heeft gedeeld door de odds dat een controle de risicofactor heeft: (A*D) / (B*C). Als de frequentie van risicofactor hoger is in de case groep, is de odds ratio groter dan 1 en dit betekent dat er een hoger risico in deze groep is. Als de frequentie van risicofactor lager is in de case groep, is de odds ratio kleiner dan 1 en betekent dat er een beschermende factor in de case groep is. De odds ratio kan echter alleen gebruikt worden bij incidenties lager dan 1 op 100. Bij hogere incidenties zal de odds ratio het relatieve risico overschatten als het groter is dan 1, en onderschatten als het kleiner is dan 1.
Dezelfde principes die hierboven beschreven zijn, kunnen worden gebruikt om risicofactoren in het ontstaan van kleine epidemieën te voorspellen, zoals de manier van overdracht van acute infecties. Hierbij complementeren epidemiologische methodes en laboratorium werk elkaar.
Het overbrengen van risico’s aan de patiënt
Risico-communicatie is een lastig onderwerp in de spreekkamer. Risico’s kunnen in kwantitatieve termen worden beschreven en kunnen andere fenomenen beschrijven. De risico’s worden door patiënten echter op verschillende manieren geïnterpreteerd. Dit is niet goed omdat de patiënt goed moet begrijpen wat het risico is om goede keuzes te maken. De verschillen in interpretatie ontstaan doordat mensen cijfers niet goed begrijpen. Daarnaast is de manier van het formuleren van het risico erg belangrijk in hoe de patiënt het oppikt. Ook de eigen ervaringen met de ziekte zullen de interpretatie van het risico beïnvloeden: een patiënt die de ziekte van dichtbij heeft meegemaakt bij een geliefde, zal het risico sneller groter opvatten.
Om risico-communicatie makkelijker en voor de patiënt inzichtelijk te maken, kun je het beste het risico op meerdere manieren formuleren: dus 1 op 100, 1%, etc. Het laten zien van afbeeldingen die het risico weergeven is ook een goede manier om het risico minder abstract te maken.
Epidemiologie: prognose - Chapter 7
De prognose geeft een voorspelling van het verloop van de ziekte na het ontstaan ervan. Het doel is om prognoses zonder vage omschrijvingen te geven, maar niet meer informatie te geven dan dat er feitelijk bekend is. Studies die gaan over prognoses zijn vergelijkbaar met de cohortstudies over risicofactoren. Er is één gemeenschappelijke factor, namelijk ziekte, en deze groep wordt gevolgd in de tijd om klinische uitkomstmaten te meten. Factoren die geassocieerd worden met een bepaalde uitkomst van de ziekte, oftewel prognostische factoren, worden gedestilleerd en bestudeerd.
Prognostische- en risicofactoren
Prognostische factoren en risicofactoren verschillen van elkaar in bepaalde opzichten: zo is de populatie bij een studie naar risicofactoren vaak gezond, terwijl dit niet het geval is bij studies naar prognostische factoren. Ook de uitkomt is anders: bij risicofactoren is het ziekte/niet ziekte (dichotoom), terwijl het bij prognostische factoren bijvoorbeeld dood is.
De prognose kan beschreven worden als de ‘clinical course’ of de ‘natural history of disease’. De clinical course behelst het verloop van een ziekte die onder medische aandacht is komen te staan. Hierbij is een patiënt onder behandeling van een arts. Bij het natuurlijke verloop van de ziekte (‘natural history of disease’) wordt er bestudeerd hoe het met patiënten gaat als er niks aan hun ziekte wordt gedaan.
De steekproef is, net als bij risicofactoren, bij een geselecteerde populatie (bijv. een onmisbaar inclusiecriterium is dat iedere proefpersoon dezelfde ziekte heeft) in een gedefinieerde geografische regio. Hierdoor wordt bias zoveel mogelijk voorkomen. Cohortstudies moeten beginnen bij een bepaald tijdspunt in het verloop van de ziekte, oftewel ‘zero time’. De term ‘inception cohort’ wordt gebruikt voor een groep mensen die verzameld is bij het begin van de ziekte.
De 5 D’s (death, disease, discomfort, disability and dissatisfaction) zijn belangrijke beschrijvingen van prognose. Een zeer veel gebruikte prognostische factor, die ook tot de 5 D’s gerekend kan worden, is de 5-jaarsoverleving van een ziekte.
5-jaarsoverlevingscurve
Bij een 5-jaarsoverlevingscurve is het van belang om het verloop ervan te zien. Het kan namelijk zijn dat in het eerste jaar al zeer veel patiënten overlijden, maar er kan ook een geleidelijk verloop zijn. De grafiek die gebruikt wordt bij overlevingscurves wordt ook wel de Kaplan-Meier curve genoemd. Hierbij wordt er begonnen bij 100% van de populatie die nog leeft op de y-as op punt 0 in de tijd (x-as). Op het moment dat er één patiënt overlijdt, daalt de curve (afhankelijk van de groepsgrootte): op deze manier wordt de time-to-survival grafisch weergegeven.
De overlevingskans tot een bepaald punt in de tijd wordt gedefinieerd als de cumulatieve waarschijnlijkheid van overleving in het tijdsinterval dat eraan vooraf ging. Wanneer patiënten uit de studie zijn verdwenen door een andere reden dan de uitkomsteenheid (bijv. dood), worden ze ‘censored’ (gecensureerd), dat wil zeggen dat ze niet meer onderdeel uitmaken van de berekende overlevingskans.
Een andere manier om prognose te bestuderen, is door middel van ‘false cohort studies’. Hierbij wordt er in de kliniek gekeken naar patiënten met een bepaalde ziekte (een zogeheten ‘survival cohort’) en wordt er gekeken in de ziektegeschiedenis van de patiënten om prognostische factoren te bepalen. Deze studievorm is minder betrouwbaar dan de daadwerkelijke cohortstudie. Verslagen van survival cohorts zijn relatief vaak aanwezig in de medische literatuur, vooral in de vorm van ‘case series’: dit zijn beschrijvingen van een groep patiënten met een bepaalde ziekte. Merk hierbij op dat deze studies niet gaan over het verloop van de ziekte sinds het ontstaan ervan, dus er is sprake van een geselecteerde populatie.
De effecten van mogelijke prognostische factoren in relatie tot andere effecten kunnen samengevat worden door een ‘hazard ratio’. Dit is vergelijkbaar aan de ‘risk ratio’ (relatieve risico) bij de bestudering van risicofactoren.
Bias in cohortstudies
Hieronder zullen enkele vormen van bias besproken worden die in ogenschouw genomen moeten worden bij het uitvoeren van cohortstudies.
Susceptibility bias: dit is een vorm van selectiebias die optreedt wanneer groepen patiënten die verzameld wordt en voor een studie op een andere manier van elkaar verschillen dan de bestudeerde variabelen. Een andere term hiervoor is de ‘assembly bias’.
Migration bias: dit is een andere vorm van selectiebias die kan optreden als patiënten uit een subgroep hun originele groep verlaten en de studie verlaten of ingedeeld worden in een andere groep (‘crossover’). Als dit op een grote schaal plaatsvindt, kan dit de validiteit van de conclusies aantasten. Het liefste vinden er natuurlijk geen ‘dropouts’ plaats, maar als dit gebeurt, moet dit ‘at random’ gebeuren.
Measurement bias: dit is mogelijk wanneer patiënten in één subgroep van een cohort een grotere detectiekans hebben om hun uitkomsten te laten bepalen dan de patiënten in een andere subgroep.
Er zijn bepaalde methodes om het ontstaan van bias in een studie tegen te gaan. Hieronder worden deze besproken.
Randomisatie: hierbij hebben patiënten van een steekproef evenveel kans om in de ene of de andere groep ingedeeld te worden. Dit is de sterkste methode om bias tegen te gaan.
Restrictie: hierbij worden er alleen een set patiënten toegelaten tot een studie als ze een zeer nauwe range van karakteristieken bevatten. Kortom, het aantal exclusiecriteria is zeer groot. Als dit wordt gedaan, kunnen de karakteristieken in de verschillende groepen niet erg verschillen.
Matching: hierbij wordt één patiënt die in de ene groep is ingedeeld, ‘gematcht’ aan een andere patiënt met dezelfde karakteristieken die in de andere groep wordt ingedeeld. Zo houdt de onderzoeker de groepen ook vergelijkbaar. Vaak wordt er gematcht voor leeftijd en sekse, omdat dit zeer sterke prognostische factoren zijn.
Stratificatie: hierbij wordt de data geanalyseerd in subgroepen van patiënten met dezelfde karakteristieken.
Vervolgens kunnen er bij de analyse verschillende mathematische regressiemethodes toegepast worden. Cox proportional hazard model wordt bijvoorbeeld gebruikt bij de analyse als de uitkomstmaat ‘time-to-event’ is. Logistische regressie wordt vaak gebruikt bij dichotome variabelen.
Epidemiologie: behandeling - Chapter 8
Hypothesen (veronderstellingen) worden gevormd over wat een mogelijke behandeling zou kunnen zijn. Deze kunnen gaan over ziektemechanismen op moleculair niveau, ontstaan uit observaties door clinici, gedeeld met collega’s door middel van case reports (gedetailleerd verslag over een patiëntcasus), eeuwenoude kruiden methoden, trial-and-error- en epidemiologische studies.
Sommige effecten van behandeling zijn zo effectief dat testen niet meer nodig is en klinische ervaring voldoende is (bijvoorbeeld bij antibiotica). Echter, vele ziekten hebben niet zulke adequate behandelingen, waardoor het belangrijk is deze te valideren. Vele factoren kunnen namelijk de ware relatie tussen de behandeling en het effect veranderen. Het testen in een laboratorium is geen goede test om te voorspellen wat de effecten zullen zijn in mensen, omdat deze studies heel erg gesimplificeerd zijn en er in de echte wereld veel meer invloeden bestaan. Ook klinische ervaring en traditie moeten soms wetenschappelijk gevalideerd worden.
Behandelingen
Een interventie kan in alle stappen van ziekte worden toegepast, van preventie tot palliatieve zorg. Een behandeling is een interventie die de ziekte probeert te verminderen of te genezen. Behandelingen kunnen met verschillende soorten studies worden getest. Er zijn met name twee groepen: observationeel en experimenteel. In een observationele studie observeren de onderzoekers wat er gebeurt met patiënten die om verschillende redenen wel of niet worden blootgesteld aan de interventie. Deze studies zijn makkelijk uitvoerbaar, maar er kan snel bias optreden. In een experimentele studie worden de condities van de studie door een onderzoeker goed vastgesteld om bias te voorkomen: een klinische trial. Deze zijn goed gecontroleerd. Er kan door deze controle een unieke factor worden bestudeerd door alle andere factoren zoveel mogelijk constant te houden. Een randomized controlled trial (RCT) is dan ook de gouden standaard voor wetenschappelijk onderzoek.
RCT: randomized controlled trial
Bij een RCT wordt een patiënt ‘at random’ (op basis van loting) toegewezen aan de controle- of de behandelingsgroep. De exposure is de behandeling, de uitkomst is één van de vijf D’s (zie hoofdstuk prognose). Het meten van het effect is de mate van verbetering. Patiënten worden geselecteerd uit een populatie en ‘at random’ verdeeld over de experimentele- of de controlegroep. De experimentele groep krijgt de interventie, de controle groep (ook wel vergelijkingsgroep) niet, waarbij het beter is als de patiënt zelf niet weet in welke groep hij/zij zit. Het enige verschil tussen de twee groepen is het wel of niet krijgen van de interventie. De patiënten in de controlegroep kunnen een placebo krijgen, usual care (de huidige standaardbehandeling voor die ziekte) of de beste behandeling op dat moment. Het verloop van de ziekte wordt in beide groepen gedocumenteerd en de verschillen worden geanalyseerd. Deze structuur voorkomt bias bij het vergelijken van de effecten en zorgt voor een verhoogde interne validiteit. Het feit dat de patiënt niet weet in welke groep hij/zij zit, noemt men ook wel ‘blind’. Als een RCT ‘dubbelblind’ geschiedt, weet ook de behandelaar niet welke patiënten in welke groep zitten. Aangezien een onderzoeker toch ook vaak een verwachting en hoop heeft over de uitkomst van een studie, is dubbelblind onderzoek de beste optie. Hiermee wordt evtuele bias voorkomen.
Steekproef
De patiënten in de steekproef moeten voldoen aan inclusiecriteria en mogen niet meedoen als ze voldoen aan exclusiecriteria. Deze criteria vergroten de homogeniteit en vergroten zo de interne validiteit. Het voornaamste inclusiecriterium is dat de patiënt de ziekte heeft, en dus moet voldoen aan bepaalde diagnostische criteria. Er zijn vele exclusiecriteria: comorbiditeit, niet lang genoeg kunnen leven tot het einde van de studie, contra-indicaties, niet willen meedoen (hoewel dit ook een bias kan geven als systematisch een bepaalde categorie patiënten niet mee wil doen) en non-compliance. Door al deze exclusiecriteria zijn de patiënten in de studie heel homogeen geworden, wat de interne validiteit verhoogd, maar de generaliseerbaarheid (externe validiteit) vermindert. Dit kan voorkomen worden door grote, simpele trials uit te voeren waar er nauwelijks exclusiecriteria zijn. Er is wel randomisatie, maar weinig extra testen en qua follow-up is er een simpele, maar belangrijke uitkomstmaat gekozen (bijv. overlijden). Dit verbetert de generaliseerbaarheid, het vinden van patiënten en het verminderen van kosten.
De interventie
De interventie kan worden beschreven in termen van generaliseerbaarheid, complexiteit en power. Generaliseerbaarheid: is de interventie goed in de kliniek te gebruiken? Complexiteit: werkt de interventie in de complexe echte wereld? Hele specifieke interventies zijn wetenschappelijk goed, maar kunnen zwakke effecten hebben in de werkelijkheid, waar interventies die op meerdere punten aangrijpen juist effectiever zijn. Power: geeft de nieuwe interventie significant betere resultaten dan de huidige behandeling?
Vergelijken van de twee groepen
De experimentele groep en de controle groep worden met elkaar vergeleken, maar wat is het juiste punt van vergelijking? In de controlegroep kan er geen behandeling worden gegeven, waardoor het totale effect van de zorg wordt gemeten. Er kan ook observatie worden toegepast vanwege het Hawthorne effect: vanwege de vele aandacht zijn de patiënten “eager to please”, d.w.z. dat ze graag hun onderzoeker succesvol willen laten voelen. In een experimentele groep wordt er vaak veel aandacht besteed aan de patiënt, dus het is belangrijk om ook veel aandacht te besteden aan de controlegroep. Behandeling met placebo is ook een optie, vanwege het placebo effect: een derde van de patiënten voelt zich beter na het innemen van de placebo terwijl er geen werkzame stoffen in zitten. Clinici en onderzoekers gaan anders om met placebo: onderzoekers willen het experimentele effect afzetten tegen het placebo effect (baseline), terwijl clinici het placebo effect willen maximaliseren zodat de patiënt zich beter voelt. Usual care is het geven van de standaardbehandeling als deze al bewezen effectief is; het is onethisch om dit niet te geven en het is goed om te kijken of de interventie beter werkt dan de standaardbehandeling.
Randomisatie
Randomisatie is het toewijzen van een patiënt aan een groep op basis van het lot. Alleen op deze manier kunnen er groepen worden gevormd die vergelijkbaar zijn. De groepen zullen echter ook met randomisatie niet hetzelfde zijn door toeval, met name als de groepen klein zijn. In het artikel wordt vaak een tabel gegeven met de frequenties van karakteristieken per groep: de baseline characteristics. Als de groepen substantieel verschillen, is er iets misgegaan tijdens de randomisatie. Als er kleine verschillen zijn, kunnen deze gecontroleerd worden tijdens de data analyse. Gestratificeerd randomiseren is groepen scheiden op basis van karakteristieken, zoals het scheiden van mannen en vrouwen. Dit wordt gedaan om zeker te weten dat karakteristieken die geassocieerd zijn met de uitkomstmaat in zowel de experimentele- als de controlegroep even verdeeld zijn. Binnen het stratum worden de patiënten dan gerandomiseerd in controle groep en experimentele groep.
Ook na het randomiseren kunnen er verschillen tussen de groepen ontstaan. Patiënten stoppen bijv. met de studie, waardoor de vergelijkbaarheid tussen de groepen verandert ten opzichte van de vergelijkbaarheid na de randomisatie. Dit kan komen doordat achteraf blijkt dat patiënten de ziekte niet hebben, patiënten non-compliance (compliantie heet ook wel adherence) laten zien (het medische advies niet compleet opvolgen) en patiënten ook andere interventies moeten ondergaan behalve de onderzochte interventie, waarbij ook mogelijk bias kan ontstaan als het systematisch is. Non-compliance wordt gevonden in de run-in period: de periode voordat er daadwerkelijk met het onderzoek wordt gestart, krijgen de patiënten hun behandeling en wordt gekeken of ze compliant zijn. Zo niet, dan worden ze niet meegenomen in het onderzoek. Pas na de run-in period wordt het onderzoek gestart.
Blindering
Bij blindering wordt ervoor gezorgd dat mensen (patiënten, onderzoekers, analisten, etc.) niet weten wie de behandeling en wie de placebo krijgt (ook wel maskering). Dit is om te voorkomen dat deze mensen niet hun gedrag op een systematische manier veranderen die ervoor zorgt dat de uitkomst is zoals zij willen en zo de interne validiteit beschadigen.
Blindering kan op vier niveau’s plaatsvinden: tijdens de randomisatie, of de patiënt weet wat hij/zij krijgt, de arts weet niet welke behandeling de patiënt krijgt en de onderzoeker die de data analyseert weet niet welke patiënt welke behandeling krijgt. Single-blind is dat alleen de patiënten niet weten wat voor interventie ze krijgen, dubbel-blind is dat ook de onderzoekers het niet weten. Het is echter beter om te beschrijven wat er gedaan is dan om deze termen te gebruiken, vanwege de verschillende interpretaties. Een open label trial is een onderzoek waarbij er geen blindering is toegepast. Soms wordt er wel geblindeerd, maar kan er door de effecten van het medicijn worden geraden of de patiënt placebo of medicijn krijgt.
Uitkomsten beoordelen
De uitkomsten worden beoordeeld op basis van een aantal formules
De absolute risicoreductie wordt berekend aan de hand van de volgende formule:
event rate in de controlegroep – event rate in de experimentele groep.
De relatieve risico reductie wordt berekend aan de hand van de volgende formule:
absolute risicoreductie / event rate in de controle groep
De number needed to treat: aantal te behandelen patiënten om één event te voorkomen:
1 / absolute risico reductie
In tabel 8.3 staat de standaard voor RCTs. Deze standaard heet CONSORT en is opgesteld door vele specialisten om ervoor te zorgen dat de complete informatie over het onderzoek bekend wordt gemaakt.
Manieren van analyseren
De uitkomsten van een RCT kunnen op twee manieren geanalyseerd worden: intention to treat en explanatory. De manier van analyse is afhankelijk van de vraag waarop je een antwoord zoekt. Als de vraag is welke behandeling het beste kan worden gegeven aan een patiënt wanneer de keuze gemaakt moet worden, moet de intention to treat analyse worden uitgevoerd. Hierbij worden de patiënten geanalyseerd op basis van hun randomisatie en niemand wordt weggelaten. Dit is voordelig omdat dit ook de manier is waarop de clinicus zijn vraag gesteld krijgt en moet beantwoorden. Ook worden de groepen vergeleken zoals ze zijn gerandomiseerd, waardoor de vergelijking voldoende power heeft. Het nadeel is dat de patiënt misschien niet de behandeling ontvangt waar hij toe was gerandomiseerd. Als dit bij veel patiënten gebeurd kan het voorkomen dat er nauwelijks een effect wordt gevonden.
Als de vraag is welke behandeling beter is, dan moet de explanatory analyse worden gedaan. Hierbij wordt gekeken naar de patiënten die de behandeling hebben gehad, ongeacht waar ze voor waren gerandomiseerd. Hiermee wordt er puur gekeken naar het effect van de interventie, maar er kan bias optreden.
Efficacy en effectiveness
Efficacy en effectiveness zijn twee termen die de resultaten van een interventie beschrijven in respectievelijk ideale omstandigheden en omstandigheden in de werkelijkheid. Efficacy trials worden uitgevoerd om te kijken of de behandeling werkt onder ideale omstandigheden. Effectiveness trials worden uitgevoerd om te kijken of de behandeling ook werkt in de werkelijkheid. Efficacy trials worden alleen uitgevoerd op compliante patiënten, dus de manier van analyse maakt niet veel uit. Effectiveness trials worden alleen geanalyseerd door intention to treat.
De betekenis van resultaten voor jou patiënt
Een trial omvat vele patiënten die niet gelijk zijn qua karakteristieken, dus hoe weet je nu of de resultaten toepasbaar zijn voor jouw patiënt? In het onderzoek kunnen subgroepen worden geanalyseerd of er kunnen trials worden gedaan met steeds individuele patiënten. Analyse van subgroepen is wanneer subgroepen worden gevormd met ieder een specifieke combinatie van karakteristieken die invloed kunnen hebben op de uitkomstmaat. De subgroepen moeten worden gemaakt voor de randomisatie. Om dit goed te kunnen doen, moeten er wel voldoende patiënten in de subgroepen zitten. Als er een subgroepanalyse is gedaan, kun je kijken of jouw patiënt past in één van de subgroepen.
Trials met één patiënt (N=1 trials) zijn onderzoeken waarbij een patiënt een behandeling krijgt, waarbij hij of zij in de eerste tijdsduur de interventie krijgt en in de tweede tijdsduur de placebohandeling krijgt, of andersom. De uitkomst is op basis van wanneer de patiënt zich beter voelde. Dit is een goed onderzoek als de ziekte erg onvoorspelbaar is en het effect prompt optreedt en verdwijnt bij het stoppen van de behandeling. Dit is een goed type onderzoek om klinische keuzes richting te geven. Je kunt je ook voorstellen dat je hierbij de intervariabele factoren uitschakelt, omdat er maar één patiënt behandeld wordt.
Nadelen RCT’s en alternatieven
RCTs zijn de gouden standaard, echter ze geven ook niet altijd goed antwoord op een vraag. Daarnaast zijn er praktische tegenslagen, zoals te weinig patiënten.
Met multicenter trials (hetzelfde onderzoek op meerdere locaties) kunnen er meer patiënten worden gerekruteerd. Daarnaast zijn RCTs duur en soms kunnen er pas resultaten gevonden worden na jaren. Soms is het nut van een behandeling al vastgesteld voor er een RCT is gedaan, en dan is het niet meer uitvoerbaar om nog een RCT uit te voeren.
Alternatieve onderzoeken zijn de ‘vergelijkingen over tijd en locatie’ en de ongecontroleerde trials. In sommige onderzoeken worden vergelijkingen gemaakt tussen experimentele en controle patiënten die in verschillende tijden en op verschillende locaties onderzocht werden. Het probleem is hier echter dat er gemakkelijk bias kan optreden, omdat de prognose erg afhankelijk is van tijd en locatie. Historical controls zijn de patiënten die in het verleden in de controle groep zaten. Deze patiënten kunnen echter aan verouderde diagnostische criteria voldoen of een slechtere prognose hebben gehad vanwege slechtere behandeling of preventie. Hoe korter de periode tussen de historical control en de experimentele groep, en hoe minder aspecten van de zorg veranderd zijn, hoe beter de groepen vergeleken kunnen worden.
Ongecontroleerde trials heten ook wel before-after studies. Een groep patiënten wordt onderzocht voor en na een interventie. Het verschil hoeft echter niet alleen te liggen aan de interventie. Als het verloop van de ziekte erg variabel is voor één patiënt, maar ook tussen patiënten, kan het zijn dat de interventie helemaal geen effect heeft en dan is de studie niet betrouwbaar. In uncontrolled trials kunnen placebo en Hawthorne effecten niet gedifferentieerd worden van het effect van de interventie. Als er patiënten worden gekozen die extreem afwijken van het gemiddelde, zullen deze patiënten met en zonder interventie ook richting het gemiddelde schuiven. Er wordt dan verbetering van de conditie gezien, ook als de interventie geen effect heeft.
Observationeel onderzoek
Observationeel onderzoek kan een cohortstudie of een case-control studie zijn. Als er snel antwoord op een vraag gevonden moet worden, onafhankelijk van de kwaliteit van het bewijs, kan er observationeel onderzoek worden uitgevoerd. Verscheidene behandelingen worden gegeven aan de verschillende patiënten en er wordt geobserveerd wat het effect hiervan is. Er wordt in principe dus geen interventie uitgevoerd en er wordt niet gerandomiseerd. Als dit goed wordt geanalyseerd kan het een richtlijn geven voor therapeutische keuzes. Observationeel onderzoek kan echter snel bias bevatten, omdat patiënten die de verschillende behandelingen krijgen ook systematisch van elkaar verschillen. Nog erger is confounding by indication. Dit is wanneer een arts een medicament voorschrijft (indicatie)en dat niet het medicament zorgt voor de geobserveerde uitkomst, maar het voorschrijven door de arts de geobserveerde uitkomst geeft. Ondanks al deze nadelen geeft een observationeel onderzoek vaak wel een goed antwoord op de onderzoeksvraag.
De verschillende fasen van onderzoek naar medicamenten
Er zijn drie fasen in onderzoek naar medicamenten.
Fase 1: in deze fase wordt de getolereerde en veilige dosis onderzocht in een hele kleine groep patiënten.
Fase 2: in deze fase wordt gekeken of het medicament werkt en wordt de relatie tussen de dosis en de werkzaamheid onderzocht. Er zijn een klein aantal patiënten.
Fase 3: in deze fase worden er RCTs uitgevoerd om de werkzaamheid te bewijzen en veel voorkomende bijwerkingen te onderzoeken. Er zijn heel veel patiënten.
Als het medicament op de markt komt wordt er postmarketing surveillance toegepast: bij de follow-up van een hele grote groep patiënten kunnen zeldzame bijwerkingen worden opgespoord.
Epidemiologie: preventie - Chapter 9
Preventieve zorg is het identificeren en modificeren van risicofactoren om het ontstaan van een ziekte te voorkomen (primaire preventie), of de ziekte in een vroeg stadium op te sporen om erger te voorkomen (secundaire preventie). Zowel individuele preventie als preventie op populatie niveau kan effectief zijn.
Er zijn vier typen van klinische preventie:
Immunisatie. Dit wordt bij zowel kinderen als volwassenen toegepast.
Screenen. Dit is het identificeren van asymptomatische vormen van ziekte of risicofactoren. Dit begint in de prenatale periode en gaat de rest van leven door.
Gedragsverandering en leefstijl interventies.
Chemopreventie. Dit is het gebruik van medicijnen om ziekte te voorkomen. Dit wordt vooral bij volwassenen gebruikt.
Afhankelijk van wanneer in het ziekteproces de interventie plaatsvindt, zijn er drie levels van interventie: primair, secundair en tertiair. Primaire preventie voorkomt dat de ziekte ontstaat. Een voorbeeld hiervan is foliumzuur bij zwangeren om neurale buisdefecten te voorkomen. Het wordt vaak gegeven buiten de zorg. Secundaire preventie spoort ziekten op in een vroeg asymptomatisch stadium als de ziekte nog te behandelen is. Een voorbeeld is het screenen op borstkanker door het maken van een mammogram. Dit wordt meestal gedaan in klinische settings. Tertiaire preventie voorkomt verslechtering of reduceert complicaties van een ziekte. De grens tussen deze vorm van preventie en langdurige zorg is niet duidelijk. Dit gebeurt ook meestal in klinische settings. Het is vooral belangrijk bij mensen met een terminale ziekte. Het doel is dan ook niet het genezen van een patiënt, maar het verhogen van de kwaliteit van leven.
Bij preventie moet de arts weten wat hij wil voorkomen. Er zijn drie criteria voor ziekten van belang om preventieve zorg uit te voeren:
1. De belasting van de ziekte
2. De kwaliteit van de screeningtest
3. Hoe goed is de behandeling wanneer de ziekte gevonden is?
De belasting van het lijden
Alleen ziekten die een gevaar zijn voor de gezondheid en het leven moeten opgenomen worden in de preventieve zorg. Ook moet er gelet worden op de frequentie van de ziekte. Als de gevolgen van de ziekte ernstig zijn, maar het komt heel weinig voor heeft het weinig zin om te screenen. Bijvoorbeeld borstkanker onder de 50 jaar komt heel weinig voor, dus daarom wordt pas vanaf die leeftijd gescreend. Het is niet alleen zo dat er weinig mensen profiteren van de preventie, maar de kans op vals positieve testuitslagen wordt ook hoger.
De kwaliteit van de screeningtest
Screeningtests zijn gelijk aan diagnostische tests. Alleen zijn een aantal karakteristieken belangrijker bij screenen: de prevalentie- en incidentie screenings en drie soorten bias die optreden tijdens studies over screenen.
Prevalentie en incidentie screenings
Het rendement van screenen wordt lager naarmate de screeningtest vaker gedaan wordt bij dezelfde groep. De eerste meting is een prevalentiescreening. Bij de tweede screening worden gevallen gedetecteerd die tussen de eerste en tweede screening zijn ontstaan: incidentiescreening. De positief voorspellende waarde van een prevalentiescreening is hoger dan die van de incidentiescreening, omdat het aantal zieke mensen na de prevalentiescreening meteen afneemt.
Screening bias
De eerste vorm van bias die kan optreden bij studies naar de effectiviteit van screenen is de lead-time bias. Lead-time is de periode tussen het diagnosticeren door screening en het moment dat de ziekte zonder screening gediagnosticeerd zou worden. De lengte hangt af van de vooruitgang van de ziekte en hoe vroeg een bepaalde test een ziekte kan ontdekken. Door screenen wordt een ziekte eerder ontdekt waardoor de patiënt langer met de diagnose moet leven. In een dergelijke situatie lijkt het alsof screenen het leven van de patiënt verlengt, terwijl de diagnose slechts eerder ontdekt is. Dit wordt de lead-time bias genoemd. De patiënten leven niet langer, ze leven alleen langer met de ziekte.
De tweede vorm van bias is de length-time bias. Deze treedt op omdat bij screening meer langzaam ontstane gevallen van ziekte ontdekt worden dan in de medische zorg. Dit komt omdat snel groeiende ziekten eerder symptomen geven en dus in de medische zorg gediagnosticeerd worden. Met screenen vind je dus meer ziekten met een betere prognose waardoor het lijkt alsof screenen effectiever is dan de medische zorg. Dit kan voorkomen worden door de gescreende en niet-gescreende groep vergelijkbaar te maken.
De laatste vorm van bias is de compliantie bias. Therapietrouwe mensen hebben over het algemeen een betere prognose. Als het resultaat van een groep vrijwilligers voor een screenprogramma vergeleken wordt met een groep die niet (vrijwillig) gescreend is, kan dit ook komen doordat de vrijwilligers een hogere compliantie hebben. Dit kan ook voorkomen worden door de gescreende en niet-gescreende groep vergelijkbaar te maken.
De beste manier om de effectiviteit van een screening te testen is een RCT. Als dit niet mogelijk is, kan een cohort studie worden uitgevoerd (heeft na een RCT de hoogste betrouwbaarheid).
Criteria voor een goede test
Meestal is de prevalentie van de ziekte waarop gescreend wordt heel laag. Daarom moet de test een hoge sensitiviteit en specificiteit hebben, ook voor de vroege fase van de ziekte. Zo kan zo vroeg mogelijk de ziekte opgespoord worden en zo weinig mogelijk mensen behandeld worden die dat niet nodig hebben. Bij diagnostische testen wordt de sensitiviteit en de specificiteit bepaald door de resultaten te vergelijken met de gouden standaard. Bij screeningtesten worden de resultaten vergeleken met de gouden standaard en de resultaten uit de follow-up. Er moet een goede tijdsduur van follow-up gekozen worden.
Meten van de sensitiviteit
Er zijn twee methoden om de sensitiviteit te meten. Bij de detectie methode worden ziektegevallen die tijdens de screening gemeten worden gezien als terecht positief en die ontdekt worden in de follow-up tijd (interval rate) als vals negatief. Bij de incidentie methode wordt de sensitiviteit berekend door de incidentie bij een populatie die niet gescreend is en de interval rate bij de populatie die wel gescreend is, te gebruiken.
De sensitiviteit is dan 1-de ratio tussen deze twee. Deze methode kan de sensitiviteit onderschatten. De echte sensitiviteit licht tussen de resultaten van de twee methoden.
Omdat de ziekten waarnaar gescreend wordt meestal niet veel voorkomt, is de positief voorspellende waarde laag. Dit kan verhoogd worden door screening toe te passen op groepen met een hoger risico.
De ideale test
Een ideale test kost weinig tijd en is niet duur. De kosten van een test bestaan uit meer dan alleen de kosten van het doen van de test, want ook de evaluatie, aantal herhalingen en de arts kosten geld. Het is goedkoper om een screeningtest te doen als dat de patiënt voor een andere reden naar de arts gaat.
Voor een test voor mensen die ziek zijn, is het redelijk en ethisch om een bepaald risico te aanvaarden. Dit is niet het geval voor gezonde mensen. De test moet door zowel de arts als door de patiënt aanvaard worden.
Het ‘labeling effect’ is het psychologische effect dat testresultaten op patiënten hebben. Een goede screeningtest heeft geen labeling effect of een positief labeling effect. Wanneer het testresultaat de patiënt negatief beïnvloedt, is er sprake van een negatief labeling effect.
Mogelijk nadelige effecten van screening
Voorbeelden van nadelige effecten zijn ongemakken tijdens de test, lange termijn effecten van straling, vals positieve testresultaten en overdiagnose.
Een vals positief testresultaat is een abnormaal resultaat bij iemand zonder de ziekte. Bij testen met een lage voorspellende waarde, door een lage prevalentie of een lage specificiteit, is de frequentie vals positieve testen hoger. Dit kan leiden tot negatieve labeling effecten, ongemak voor de patiënt en onnodige kosten bij follow-up procedures. Hoe meer testen er gedaan worden bij de patiënt, hoe groter de kans is om abnormaliteiten te vinden. Ook wanneer dezelfde test wordt herhaald, is de kans op een fout positieve uitslag groter.
In sommige gevallen (zoals bij borst- en prostaatkanker) zorgt screenen voor een verhoogde incidentie. Dit komt doordat ook de vormen van kanker die later geen effect zouden hebben op de gezondheid ook gediagnosticeerd worden. Deze vormen van ziekten worden pseudoziekten genoemd. Het ontdekken van pseudoziekte heet overdiagnosticering, omdat het vinden van deze gevallen de patiënt niet helpt. Dit is een voorbeeld van een length-time bias. Het is niet goed te voorkomen, want je weet niet of deze pseudoziekte zich nog gaat ontwikkelen naar een symptomatische ziekte.
Effectiviteit van behandeling
Behandeling in primaire preventie zijn immunisaties, medicijnen en leefstijladvies. Deze behandeling moet doeltreffend (werkzaam in ideale situatie) en effectief (werkzaam in werkelijke situatie) zijn. Ze moeten ook veilig zijn, omdat ze op veel (gezonde) mensen worden toegepast. Ook met de doelmatigheid (efficiëntie) wordt rekening gehouden bij het invoeren van screening en behandelingen. Voor medicijnen wordt er veel strenger gelet op de doeltreffendheid en effectiviteit. Dit gebeurt minder bij leefstijladvies terwijl dit wel nodig is.
Om secundaire screening effectief te laten zijn, moet de behandeling vroeg in de ziekte een betere uitkomst geven dan behandeling op het moment dat de patiënt zelf naar de dokter zou gaan. Ook tijdens screening moet er sprake zijn van shared decision making.
Epidemiologie: toevalsstatistiek - Chapter 10
Toeval en bias zijn 2 factoren die het leren door klinische ervaring (via onderzoek of in de praktijk) belemmeren. Bias is een systemische fout, dit kan ontstaan door ieder proces dat geobserveerde gegevens systemisch doet verschillen van de ware waarden. In klinisch onderzoek wordt bias zoveel mogelijk vermeden, maar een willekeurige fout door toeval komt in elke observatie voor en is niet te vermijden. Met statistische analyses kun je schatten in welke mate de observaties de ware situatie benaderen. Doordat onderzoek wordt verricht op een steekproef en niet algehele populatie met een bepaalde aandoening, is er altijd een kans dat een bepaalde steekproef niet representatief is voor de totale populatie, al is er zonder bias geselecteerd. Om te kijken in hoeverre toeval een rol speelt bij klinische observaties zijn er 2 algemene benaderingswijzen: hypothese toetsen en schatting.
Hypothese
Bij het toetsen van de hypothese worden er statistische toetsen uitgevoerd om de nul hypothese, de hypothese dat er geen verschil is, te onderzoeken. Dit is de traditionele manier om het effect van kans te onderzoeken en is gerelateerd aan het gebruik van p-waarden. Resultaten zijn óf statisch significant, dus het is onwaarschijnlijk dat ze alleen op kans berusten, óf niet significant. Er zijn 4 mogelijkheden voor de relatie tussen de resultaten van een statistische toets en het werkelijke verschil tussen 2 groepen:
Het is statistisch significant en er is daadwerkelijk ook een verschil
Het is statistisch niet significant en er is werkelijk ook geen verschil
Het is statistisch significant en er is werkelijk geen verschil: een type 1 (α) fout
Het is statistisch niet significant en er is werkelijk wel een verschil: een type 2 (β) fout
Met ‘geen verschil’ wordt bedoeld dat het werkelijke verschil waarschijnlijk niet groter is dan een bepaalde waarde en dat die waarde te klein is om gevolgen voor de praktijk te hebben. De type I of α fout is de kans dat er wordt geconcludeerd dat er een verschil is in bijv. behandelingseffect terwijl dat niet zo is. Een type II of β fout is de kans dat er wordt geconcludeerd dat er geen verschil is in behandelingseffect, terwijl die er wel is. De onzekerheid van een statistische conclusie wordt bepaald door willekeurige variatie, als bias geen rol speelt. De kans op een fout door willekeurige variatie is te schatten m.b.v. inferentiële statistiek, hiermee kan er berekend worden wat de kans is dat de onderzoeksresultaten alleen op toeval berusten. Statistische toetsen zijn middelen om het effect van willekeurige variatie te schatten
Vaak wordt de kans op een type I fout in medische literatuur genoemd, dit wordt met de P waarde uitgedrukt, dit is een kwantitatieve schatting van de kans dat verschillen in bijv. de effecten van 2 behandelingen alleen op toeval berusten. Hierbij wordt er aangenomen dat er geen verschil is tussen de groepen. De P-waarde beantwoordt de vraag: als er geen verschil qua behandelingen zijn en het onderzoek wordt vaak herhaald, welk deel van deze onderzoeken zou concluderen dat het verschil tussen de 2 behandelingen minstens zo groot is als gevonden in dit onderzoek? De Pα waarde (van de type 1 (α) fout ) is van toepassing wanneer men concludeert dat een bepaalde behandeling effectiever is dan de ander. Als de Pα waarde een bepaalde limiet overschrijdt en er geen statistisch verschil tussen behandelingen bestaat, dan is de Pα niet relevant, de Pβ waarde (type II fout) is in dit geval van toepassing. Een p-waarde in de literatuur betreft meestal de Pα.
P-waarden onder de 0,05 worden significant genoemd. In het algemeen is men het namelijk eens dat een kans lager dan 1/20 een acceptabel klein risico is om fout te zitten. Het is ook zo laag dat het onwaarschijnlijk is dat het alleen op kans berust. Het is alleen arbitraire grens, hogere of lagere grenswaarden kunnen geaccepteerd worden afhankelijk van de gevolgen van een vals positieve conclusie. Bij de vergelijking van een effectieve bestaande behandeling en een nieuwe gevaarlijke behandeling bijv. wordt een vals positieve statistische conclusie minder snel geaccepteerd (eenzelfde redenering als bij vals positieve en vals negatieve diagnostische testen). Zodat men hun eigen conclusie kan trekken, worden p-waarden vaak exact aangegeven, alleen bij p-waarden >1/5 wordt er vaak alleen p>0,20 aangegeven, hetzelfde geldt voor p-waarden
Statistische significantie betekent niet dat het verschil ook klinisch relevant is. Onbelangrijke verschillen kunnen erg statistisch significant zijn als er maar genoeg patiënten geobserveerd zijn, terwijl er niet significante p-waarden gevonden worden bij studies met sterke effecten van behandeling, als er maar weinig patiënten geïncludeerd zijn.
De kans op een type I fout kan met statistische toetsen geschat worden. De nul hypothese wordt getoetst. Uiteindelijk wordt de nulhypothese verworpen, er is dus een verschil of het wordt aangenomen, er is niet genoeg bewijs om te concluderen dat er een verschil is. Geen statistische significante vinden betekent niet dat er geen verschil bestaat, een statistische toets kan niet verzekeren dat er helemaal geen verschil is. De validiteit van een statistische test hangt af van aannames over de onderzoeksgegevens, bijv. dat de data normaal verdeeld is. Is dit niet het geval dan kan de p-waarde misleidend zijn.
Voorbeelden van statistische toetsen:
Toetsen van de statistische significantie van een verschil | Toepassing |
Mann-Whitney U | Tussen 2 medianen |
Fisher’s exacte toets | Tussen 2 verhoudingen (bij een klein aantal observaties) |
Student t | Tussen 2 gemiddelden |
F toets | Tussen ≥2 gemiddelden |
Chikwadraattoets (x2) | Tussen ≥2 verhoudingen (bij vele observaties) |
De omvang van het verband | |
Pearson’s R | Tussen 2 variabelen |
Regressiecoëfficiënt | Tussen een onafhankelijke variabele en een afhankelijke variabele |
Modellen van de effecten van multipele variabelen | |
Cox proportionele hazards | Bij een tijd tot gebeurtenis uitkomst |
Logistische regressie | Bij een dichotome uitkomst |
Bij sommige studies kan er niet geconcludeerd worden dat een behandeling beter is dan de ander. Het risico op een vals negatief resultaat is met name groot bij studies met relatief weinig patiënten. De belangrijkste vraag is dan: hoe waarschijnlijk is een vals negatief resultaat, een type II fout? De type II fout krijgt minder aandacht dan de type I fout, doordat ze o.a. moeilijk te berekenen zijn en onderzoekers minder snel negatieve studies aan journals indienen. De statistische power van een studie is de kans dat een onderzoek een statistisch significant verschil vindt, als er ook werkelijk een verschil bestaat. Statistische power= 1-Pβ.
Schatting
Met schatting wordt er een reikwijdte van waarden geschat waar de werkelijke waarde waarschijnlijk in zit. De puntschatting van een effect is de grootte van het effect dat in een bepaalde studie gevonden wordt, het is de beste schatting van de werkelijke effectgrootte. Het wordt het vaakst benadrukt in onderzoekrapportages. De werkelijke effectgrootte kan alleen bijna niet datgene zijn wat in een studie gevonden is, door willekeurige variatie wordt er waarschijnlijk een waarde hoger of lager dan de werkelijke gevonden waarde gevonden. De statistische accuraatheid van de puntschatting wordt uitgedrukt met het betrouwbaarheidsinterval, de reikwijdte van de waarden waar de werkelijke effectmaat waarschijnlijk tussen zit. Vaak wordt er een 95% interval genomen, dit betekent dat er 95% kans is dat de ware effectgrootte binnen het interval valt, als de studie geen bias bevat. Hoe kleiner het interval, hoe zekerder men kan zijn over de grootte van het werkelijke effect. Bij een hogere statistische power van de studie is de statistische accuraatheid ook hoger. Statische significantie bevat dezelfde informatie als betrouwbaarheidsintervallen,
Als de waarde overeen komt met geen effect dan valt het buiten de 95% betrouwbaarheidsintervallen en is het resultaat statistisch significant bij het 0,05 niveau. Als het betrouwbaarheidsinterval dit punt bevat dan zijn de resultaten niet statistisch significant. Betrouwbaarheidsintervallen hebben een aantal voordelen boven p-waarden: ze benadrukken de effectgrootte (waar het om draait), de lezer kan ermee bepalen of ze de effectgrootte klinisch relevant vinden en ze geven informatie over de statistische power.
Steekproefgrootte
Voor een adequate vergelijking tussen het effect van bijv. 2 behandelingen, dient de steekproefgrootte hiervoor groot genoeg te zijn. De vraag is of de steekproefgrootte dermate groot is dat toeval een onwaarschijnlijke oorzaak is van het gevonden resultaat. Een steekproefgrootte is afhankelijk van 3 kenmerken van een studie: de Pα en Pβ, de aard van de data en de grootte van het verschil in uitkomsten tussen groepen. Bij het plannen van een onderzoek worden deze factoren meegewogen.
Wil je het risico op een type I fout zo klein mogelijk houden, dan is een groter aantal patiënten nodig. Is men bereid om de gevolgen van een grotere kans op een valse conclusie te accepteren, dan zijn er relatief weinig patiënten nodig. Vaak wordt Pα op 0,05 of 0,01 gezet. De grootte van de type II fout is ook bepalend voor de steekproefgrootte, Pβ wordt vaak op 0,20 gezet. De aard van de data: als een uitkomst door telling of verhoudingen van gebeurtenissen wordt uitgedrukt, dan is de statistische power afhankelijk van de frequentie van de gebeurtenissen. Hoe groter het aantal gebeurtenissen, hoe groter de statistische power voor een bepaald aantal mensen at risk. Een studie van 100 mensen, waarbij 50 mensen sterven is dus ongeveer even sensitief als een studie met 1000 patiënten waarvan 50 sterven. Bij continue uitkomstvariabelen wordt de power beïnvloedt door de mate waarin patiënten onderling van elkaar verschillen, hoe groter de variatie tussen patiënten, hoe kleiner de statistische power. De steekproefgrootte is ten slotte afhankelijk van de grootte van het verschil dat gevonden gaat worden, er zijn meer patiënten nodig voor kleinere verschillen en minder patiënten voor grotere verschillen. Als je op zoek gaat naar de kleine verschillen is het het beste om je alleen af te vragen hoeveel patiënten genoeg zijn om de kleinste verschillen te kunnen vinden die klinisch relevant zijn.
In het algemeen geldt dat er uitwisseling tussen type I en type II fouten zijn. Als je de ene fout meer accepteert dan de ander, dan hoeft de ander niet zo groot te zijn (als al het andere gelijk is). De ene soort fout is niet slechter dan de ander. De context en de klinische situatie bepalen of de gevolgen van een verkeerde conclusie acceptabel zijn. Denk weer aan bestaande goede behandeling vs. een gevaarlijke nieuwe of een gebrek aan behandeling van een gevaarlijke ziekte vs. een ongevaarlijke nieuwe behandeling. In het eerste geval neem je een grote type II fout voor lief, maar wil je een kleine type I, in het laatste geval neem je eerder een grote type I fout voor lief, voor een kleine type II fout (het risico om een goede behandeling te missen). Beiden fouten zijn te verminderen door een hogere frequentie uitkomst gebeurtenissen, een grotere behandelingseffect te zoeken, de variatie te verminderen en het aantal patiënten te vermeerderen.
Studies met minder dan 100 patiënten hebben een kleine kans om zelfs bij grote behandelingseffecten, statistisch significante verschillen te ontdekken. Statistische power wordt in de praktijk geschat met tabellen, formules etc. Bij het plannen van een studie voor bijv. de frequentie van een complicatie kan iemand bedenken dat ze een betrouwbaarheidsinterval van een bepaalde grootte willen. Hiermee kan men dan het aantal patiënten dat men nodig zal hebben voor die grootte berekenen op basis van aannames over hoe hoog de frequentie van de complicaties zal zijn. Vóór een studie wordt uitgevoerd, wordt de statistische power uitgerekend, om er zeker van te zijn dat er genoeg patiënten geïncludeerd worden, na de studie is dit niet zo relevant. Dan ligt de focus op de betrouwbaarheidsintervallen en de puntschattingen.
Equivalentie en zeldzame gebeurtenissen
Er zijn onderzoeken met het doel om vergelijkbare effecten te vinden, denk aan 2 behandelingen die eenzelfde effect hebben, maar de een is gevaarlijker dan de ander. In geen enkel onderzoek kan er bepaald worden dat de effecten van 2 behandelingen hetzelfde is, maar er kan wel bepaald worden dat de verschillen in effect niet groter zijn dan een bepaalde waarde, waaronder het verschil niet klinisch belangrijk is. Er is sprake van equivalentie, als de betrouwbaarheidsintervallen voor het behandelingsverschil een klinisch belangrijk effect uitsluit. Hiervoor is een grote populatie nodig, om een relatief klein effect al te vinden. Het kan van belang zijn om te weten hoe waarschijnlijk het is dat een onderzoek een relatief zeldzame gebeurtenis zal detecteren (met name als het een ernstige aandoening betreft; aritmie bijv). Veel meer mensen zijn hiervoor nodig dan voor het vinden van de hoofdeffecten, om een goede kans te maken op het vinden van 1/n gebeurtenis dan moeten er 3n mensen geobserveerd worden (dus bij frequentie 1/300, zijn 900 mensen nodig).
Meer vergelijkingen
De sterkte van statistische toetsen zijn afhankelijk van het aantal onderzoeksvragen gesteld in een onderzoek en wanneer die gesteld zijn. Bij vele vergelijkingen tussen variabelen zal de p-waarde van elk een onderschatting zijn van hoe vaak die vergelijking tussen de ander op toeval berust. De interpretatie van een P-waarde van een enkele toets is afhankelijk van de context waarin de toets plaatsvindt. Bij 20 vergelijkingen zal er gemiddeld 1 gevonden worden die significant is (1/20), bij 100 vergelijkingen zullen er waarschijnlijk 5 significant zijn. Hoe meer vergelijkingen, hoe groter de kans dat er een statistisch significante wordt gevonden door willekeurige variatie. Dit is het meerdere vergelijkingen probleem. Uit een studie blijkt niet altijd hoeveel vergelijkingen er gemaakt zijn, soms worden er interessante resultaten geselecteerd uit vele oninteressante, leidend tot een verkeerd beeld. Het is goed om voorzichtig om te gaan met het accepteren van positieve conclusies van studies met meerdere vergelijkingen (met name bij ontdekkingen die niet vooraf als onderzoeksvraag gesteld waren).
Subgroepen en secundaire analyses
Twee gevaren bij het analyseren van subgroepen is de verhoogde kans om effecten te vinden in een bepaalde subgroep die niet aanwezig is in de werkelijkheid (dit komt door meerdere vergelijkingen), vals positieve conclusies en vals negatieve conclusies. Dit laatste komt doordat de data kleiner zijn en er daarom vaak geen sterke conclusies getrokken kunnen worden. Secundaire analyses zijn die niet tot de hoofdoorzaak van de studie behoren of niet gepland waren, dit kunnen bijv. verscheidene uitkomstanalyses zijn of subgroepanalyses. Richtlijnen voor het bepalen of verschillen in subgroepen werkelijk zijn, zijn:
hoe waarschijnlijk is het dat een effect door toeval komt, rekening houdend met de p-waarde en het aantal subgroepen,
is de grootte van het geobserveerde effect klinisch van belang,
was de hypothese dat er een effect zou zijn van te voren bedacht
was het 1 hypothese uit een klein aantal hypothesen?
Is het effect in andere studies naar voren gekomen?
Is er indirect bewijs dat het bestaan van het effect ondersteunt?
Bestond er een vermoeden op een verschil door vergelijkingen binnen studies of tussen studies?
Correlatie
De hoogte van het verband tussen variabelen kan o.a. met de Spearman’s rank correlation bij ordinale data of met de Pearson’s product moment correlation bij interval data. Deze drukken kwantitatief uit in hoeverre de waarde van de ene variabele geassocieerd is met de ander, bij elk past een statistische toets die kijkt of het verband groter is dan op toeval mogelijk is.
Multivariabelen
Vele aandoeningen zijn multifactorieel, om de interactie van vele variabelen in een studie te bekijken is het wijs om ze eerst met simpele methoden als stratificatie te onderzoeken, maar dit kun je niet voor vele variabelen doen, omdat er te weinig patiënten per combinatie van kenmerken zal zijn. Er is daarom multivariabelen modellering nodig. Dit bekijkt het effect van meerdere variabelen tegelijk. Bij klinisch onderzoek worden wiskundige modellen op 2 manieren gebruikt: om een klinische gebeurtenis te voorspellen door het gecombineerde effect van meerdere variabelen samen te berekenen en om het onafhankelijke effect van 1 variabele op de uitkomst te onderzoeken, terwijl er rekening gehouden wordt met het effect van andere variabelen die invloed kunnen hebben. De basis van een multivariabel model = constante +β1 x variabele1 + β2 x variabele2..etc. β= coëfficiënt bepaald door de data en variabele =de voorspellende variabelen die een verband kunnen hebben met de uitkomst. Modellering bestaat uit:
het identificeren en meten van variabelen die een verband kunnen hebben met de uitkomst waarin men geïnteresseerd is,
het verlagen van het aantal variabelen dat in het model meegenomen wordt tot een acceptabel getal, (dit kan door variabelen te selecteren die een hoger verband met de uitkomst hebben, dit kan statistisch met cut-offs. Het biologisch belang wordt ook meegewogen)
sommige variabelen zijn sterk gerelateerd aan elkaar, en kunnen geëxcludeerd worden (omdat ze ongeveer dezelfde informatie bevatten),
de overgebleven variabelen worden in het model meegenomen, met de volgorde waarin ze geanalyseerd worden afhankelijk van de onderzoeksvraag
Multivariabele modellen bieden een manier om meerdere variabelen in een keer mee te nemen of hiervoor te corrigeren, dit kan op geen andere manier. Hun validiteit hangt af van aannames over data die wellicht niet kloppen, ze detecteren verschillende effecten in verschillende subgroepen niet zo goed, een variabele kan een sterk verband hebben met de uitkomst, maar niet in het model voorkomen, omdat het weinig voorkomt en het model wordt snel beïnvloedt door kleine afwijkingen in de data door willekeurige variatie van patiëntkenmerken van steekproef tot steekproef. Ter bescherming tegen dit laatste bestaat er een vuistregel dat er voor elke voorspellende variabele minstens 10 uitkomstvariabelen moeten bestaan. Het model moet apart gevalideerd worden, vanwege deze problemen. Vaak wordt dit gedaan door te kijken of het model voorspelt wat er in een andere steekproef van patiënten gevonden wordt, dit wordt vergeleken met de resultaten van het eerste model. Het is onwaarschijnlijk dat dezelfde effecten gevonden worden, als met name willekeurige variatie verantwoordelijk was voor de resultaten in het eerste model. Aanwijzingen voor een valide model zijn verder consistentie bij andere simpelere analyses en de biologische waarschijnlijkheid.
Bayes
Een bepaald denkbeeld over het antwoord op een onderzoeksvraag is het begin van Bayesiaanse statistiek, daarna wordt er gevraagd in hoeverre de resultaten van een nieuwe studie dit denkbeeld veranderen. Deze manier van denken is interessant, omdat studies niet los van anderen bestaan, dus het beginnen met een nul hypothese is eigenlijk absurd, omdat er altijd wel iets bekend is over de onderzoeksvraag vóór dat de studie plaatsvond. De richting en grootte van de resultaten van een studie bepalen in hoeverre van een denkbeeld afgeweken wordt (bijv. zijn alle voorgaande studies negatief en dan komt er een positieve, dan blijft een effect onwaarschijnlijk, het denkbeeld verandert niet). Met Bayesiaanse statistiek is het ook niet van belang of er hypothesen van te voren zijn bepaald en meerdere vergelijkingen zijn ook geen probleem. Een eerder denkbeeld hangt af van de waarschijnlijkheid van een overtuiging, dan of de overtuiging vóór of na de studie bedacht was. Behalve bij diagnostische toetsing is Bayesiaanse statistiek moeilijk toepasbaar gebleken, doordat er moeilijk getallen aan ‘eerder denkbeeld’ gehangen kunnen worden. Het is wel de basis van kwantitatieve samenvattingen van klinisch onderzoek en het kwalitatief denken over oorzaak.
Epidemiologie: de oorzaak van de ziekte - Chapter 11
Een oorzaak is iets dat een effect of resultaat veroorzaakt. Oorzaken geven houvast voor preventie, diagnose en behandeling. Er zijn enkele en meervoudige oorzaken. Een enkele oorzaak kan een micro-organisme zijn. Echter, vele ziekten ontstaan door meervoudige oorzaken: een ‘web of causation’.
Biomedici zoeken naar pathogenetische mechanismen voor ziekte, maar een heleboel oorzaken voor ziekte (risicofactoren) zijn afhankelijk van omgevingsfactoren en menselijk gedrag. Soms zijn deze factoren zelfs nog belangrijker, dus in de klinische praktijk is het erg belangrijk om deze factoren mee te nemen in preventie, diagnose en behandeling, zelfs als de pathologie erachter nog onbekend is.
Het ontstaan van ziekte is dus een samenspel van omgeving, gedrag en biologie. De oorzaken kunnen samen ook interacteren: wanneer meerdere oorzaken tegelijk aanwezig zijn, gaan ze de interactie met elkaar aan. Synergisme is wanneer het effect van twee risicofactoren samen groter is dan de twee risicofactoren los van elkaar. Antagonisme is wanneer het effect van twee risicofactoren samen kleiner is dan de twee risicofactoren los van elkaar. Additie is wanneer twee risicofactoren bij elkaar opgeteld precies hetzelfde effect geven als de som van de afzonderlijke risicofactoren. Het is moeilijker de oorzaak van ziekte te verwijderen als er meerdere risicofactoren zijn. Maar de ernst van de ziekte kan ook minder gemaakt worden door één risicofactor te verwijderen. Een effectmodificator is een andere variabele die de kracht van het verband tussen twee variabelen verandert. Een voorbeeld van een effectmodificator is geslacht: bij mannen kan het effect van een variabele op een uitkomst anders zijn dan bij vrouwen.
Oorzaak vaststellen
Het is nooit met honderd procent zekerheid vast te stellen dat een oorzaak ook echt de oorzaak van het effect is. Het is echter wel heel aannemelijk te maken door empirisch bewijs. Er moeten dan vele onderzoeken gedaan worden. Niet alle associaties zijn namelijk causaal: er zijn verschillende redenen voor associaties en die moeten worden uitgesloten. Je moet jezelf eerst afvragen of de associatie echt is, of door bias of toeval is ontstaan. Als er geen bias of toeval is, dan is de associatie echt. Daarna moet je nagaan of de associatie ook causaal is en dat er geen confounder aanwezig is. Als er ook geen confounder is, dan is de causale relatie aangetoond.
De kracht van het type onderzoek draagt ook bij aan het aantonen van een causale relatie, maar de manier waarop het onderzoek is uitgevoerd ook. Het beste onderzoek om een causale relatie aan te tonen, is een randomized controlled trial met veel patiënten, blindering van iedereen, zeer weinig loss to follow-up en gestandaardiseerde manieren van meten en analyseren. Randomized controlled trials beschermen tegen bias en confounding. Ze zijn echter niet geschikt om risicofactoren te onderzoeken vanwege ethische factoren. Voor risicofactoren zijn observationele studies geschikt.
Ecologische studies
Aggregate risk studies (ecologische studies) zijn studies waarin de blootstelling aan een risicofactor wordt gekarakteriseerd door de gemiddelde exposure in een groep waar het individu tot behoort. Ecologische studies worden gebruikt om het gezondheidszorgsysteem te evalueren of om grote populaties te onderzoeken. Het grote probleem is een mogelijke bias genaamd de ecological fallacy. De zieke individuen in de groep hoeven niet perse blootgesteld te zijn aan de risicofactor. Daarnaast kunnen er confounders zijn. Deze studies zijn goed voor het vormen van hypothesen maar moeten verder onderzocht worden door randomized controlled trials.
Time-series studies zijn onderzoeken waarbij het effect wordt gemeten op verschillende punten in de tijd en op verschillende plaatsen. Dit wordt gedaan voor en nadat de oorzaak is geïmplementeerd. Er kan dan worden gekeken of het effect verandert en er kan onderscheid gemaakt worden tussen veranderingen over een periode door de effecten van de interventie. Multipele time-series studies worden gedaan met meerdere groepen, waarbij de groepen op een verschillend punt in de tijd de interventie krijgen. Er wordt vervolgens gekeken of er effect optreedt en hoelang het duurt voor effect optreedt. Als het goed is, moet het effect in de verschillende groepen na dezelfde tijdsduur ontstaan.
Bewijs
Verschillende kenmerken maken dat een causale relatie meer of minder aannemelijk is (tabel 11.1).
Een oorzaak moet voorafgaan aan een effect. Soms is het moeilijk de twee te onderscheiden. Wanneer dit niet zo is, is dit een sterk argument tegen causaliteit. Wanneer dit wel zo is, is dit een zwak argument voor causaliteit, omdat er verschillende zaken vooraf kunnen gaan die niets met ziekte te maken hebben.
Een sterke associatie is een sterker bewijs voor causaliteit: groter relatief risico of absoluut risico. Ook is de kans op bias groter bij zwakkere associaties.
Wanneer het effect groter wordt als de dosis van de risicofactor groter wordt, is dit ook een argument voor causaliteit. Geen dosis-effect relatie is echter geen argument tegen causaliteit. Het bestaan van een dosis-effect relatie is ook geen uitsluitsel voor een confounder.
Wanneer de risicofactor verwijderd wordt, neemt het effect ook af. Dit is ook bewijs voor causaliteit, maar niet onfeilbaar bijvoorbeeld door confounding.
Wanneer verschillende studies, en ook verschillende soorten studies, met verschillende settings en verschillende patiënten steeds dezelfde conclusies trekken is dit bewijs voor causaliteit. Gebrek aan consistentie is geen bewijs tegen causaliteit.
Wanneer het biologische mechanisme achter een associatie nog onbekend is, wordt er sceptisch tegen een associatie aangekeken. Soms is dit goed, soms ook niet, omdat soms de medische kennis nog ontoereikend is. Soms stimuleren nieuwe associaties het onderzoek voor biologische mechanismen. Als er wel al biologische kennis is, vergroot dit het bewijs voor associatie.
Specificiteit (één oorzaak, één gevolg), zoals bij acute infecties en genetische aandoeningen, is een sterk bewijs voor causaliteit. Afwezigheid van specificiteit is echter een zwak bewijs tegen causaliteit.
Wanneer er al bekend is dat er bij een bepaalde risicofactor causaliteit is, geeft dit een zwak bewijs voor causaliteit van een analoge risicofactor.
Het is belangrijk het gevonden bewijs van allerlei verschillende studies te beoordelen. In eerste instantie moeten de studies op zichzelf beoordeeld worden. Daarna kunnen er systematische reviews worden gedaan van de verschillende studies om de kracht van het bewijs voor causaliteit te bepalen. Systematische reviews zijn studies die verschillende RCT’s op één onderwerp combineren en de gemeenschappelijke bewijskracht onderzoeken. Uiteindelijk is de systematische review de studie met de meeste bewijskracht.
Epidemiologie: (systemische) reviews - Chapter 12
Het maken van keuzes in de kliniek is gebaseerd op het bewijs dat er van een vraag is. Vaak is men afhankelijk van de stapeling van bewijs van vele studies met elk niet zo definitieve conclusies. Een review is een samenvatting van al het bewijs dat al bekend is, een krachtigere aanpak is de systematische review. Het probleem van traditionele reviews is dat er weinig structuur is: studies worden geciteerd zonder dat er duidelijk is gemaakt hoe ze gevonden zijn, persoonlijke ervaring wordt er vaak aan toegevoegd, de originele studies worden wellicht niet kritisch bekeken, het kan zijn dat er geen verklaring wordt gegeven voor waarom de ene onderzoeksbevinding wordt gekozen over de ander.
Systematische reviews
Bij systematische reviews wordt het oorspronkelijk onderzoek samengevat op basis van een specifieke klinische vraag aan de hand van een wetenschappelijk plan dat van te voren is opgesteld en bij elke stap duidelijk gemaakt wordt. Zo kunnen lezers zelf de validiteit van de review bepalen. Bij een systemische review worden de volgende stappen doorlopen:
de klinische vraag wordt bepaald
alle complete studies over de vraag worden opgezet, gepubliceerd en ongepubliceerd
de studies die hoge standaarden van wetenschappelijke validiteit hebben, worden geselecteerd
in de geselecteerde studies wordt er gezocht op bias
de wetenschappelijke kwaliteit van de studies wordt beschreven
men vraagt zich af of de kwaliteit systematisch verband houdt met de resultaten van de studies
de studies worden met een figuur beschreven (een
er wordt besloten of de studies dermate op elkaar lijken dat ze gecombineerd kunnen worden
als ze dermate op elkaar lijken dat ze gecombineerd kunnen worden, dan wordt een samenvattende effectmaat en betrouwbaarheidsinterval berekend
Voor het zoeken naar relevante studies zijn er meerdere zoekmethoden, geen daarvan is voldoende om alle relevante studies te vinden.
Een studie moet aan een drempel qua wetenschappelijke kracht voldoen wil het in een systematische review terecht komen, alleen relatief sterke studies dienen meegerekend te worden. Hier zijn verschillende criteria voor opgesteld, zoals de STARD voor diagnostische testen en de CONSORT voor RCT’s. Van alle studies die gevonden worden, komen er maar weinig in de systematische review terecht, maar weinig behandelen de klinische vraag zelf, zijn klinisch relevant en zitten wetenschappelijk goed in elkaar.
Bias
Elke wetenschappelijk sterke studie die de klinische vraag behandelt, dient opgenomen te worden in de systematische review. De neiging van gepubliceerde studies om systematisch te verschillen van alle afgeronde studies die een vraag behandelen heet publicatie bias. Sommige afgeronde studies worden nooit gepubliceerd, in het algemeen kun je stellen dat gepubliceerde studies waarschijnlijker positieve conclusies hebben (er wordt een effect gevonden), er is namelijk een voorkeur voor dit soort resultaten. Onderzoek dat negatieve resultaten geeft wordt minder vaak afgerond en minder vaak ingediend bij journals. Journals kunnen ook minder geneigd zijn om negatieve studies te zoeken en ze te publiceren. Om dit te vermijden zoeken in een review wordt er ook naar onafgerond en ongepubliceerde studies gezocht, dit kan m.b.v. registers.
Sponsoring van onderzoek door bedrijven kan ook tot een verkeerd beeld van het beschikbare bewijs leiden, bijna 2/3 van het klinisch onderzoek in de VS wordt gesponsord door bedrijven. Deze studies zijn eerder geneigd om conclusies te trekken die in het voordeel zijn van het product van de sponsor, dit kan komen doordat bijv. het bedrijf als voorwaarde voor sponsoring stelt dat het onderzoek eerst door hun goedgekeurd moet worden. Andere vormen van bias is dat grote studies die vaker gepubliceerd worden, eerder ontdekt worden dan kleine en dat men bekend is met onderzoek in hun eigen taal, maar niet die in andere talen (Europeanen citeren eerder Europeanen bijv.).
Een funnel plot (trechter plot) kan gebruikt worden om selectiebias bij systematische reviews te ontdekken. In de y-as staat de grootte van de studie, als aantal personen (steekproefgrootte) en op de x-as de effectgrootte (bijv. odds ratio). In de figuur worden de studies als punten neergezet afhankelijk van de grootte van de studie en de effectgrootte. Als bias ontbreekt dan liggen de kleinere studies laag in de figuur en meer wijd verspreidt en de grotere studies hoog in de figuur en meer rond de werkelijke effectgrootte. Je krijgt zo een omgekeerde trechter vorm. Is er bias, dan krijg je deze vorm niet, maar een asymmetrische funnel plot. De kleinere studies zijn meer verspreid, omdat ze door hun grootte minder statistisch accuraat zijn. Voor de grotere studies geldt het omgekeerde.
Het is belangrijk om te kijken hoe goed de beste geselecteerde studies die de klinische vraag beantwoorden, zijn, om te bepalen hoe serieus de conclusies genomen moeten worden. Simpele criteria die gebruikt kunnen worden voor een RCT zijn bijv.: is de studie dubbelblind, is er beschreven wie er afgevallen zijn en zich uit de studie teruggetrokken hebben, is het gerandomiseerd? Je scoort 1 punt voor elke ja en 0 voor elke nee.
Een aanname van klinische epidemiologie is dat de resultaten van wetenschappelijke sterke studies dichter bij de werkelijke waarden dan zwakkere studies komen, maar is hier empirisch bewijs voor? Onderzoek naar het verband tussen de algehele onderzoekskwaliteit en de resultaten bij studies geselecteerd voor systematische reviews, laat geen duidelijke relatie zien. Dit kan komen doordat deze studies dermate geselecteerd zijn dat ze qua kwaliteit niet veel van elkaar verschillen. Het kan ook komen doordat de middelen die gebruikt worden om op kwaliteit te checken vaak kijken naar het wel/niet bestaan van bepaalde onderdelen, terwijl er geen reden is om te denken dat ieder onderdeel eenzelfde gewicht aan de kwaliteit van de studie levert. Kortom, kwaliteit scores en check lists hebben een plek maar vervangen het kritisch bekijken van individuele studies in een systemische review rekening houdend met in welke mate enige onvolmaaktheden die er in een studie bestaan de resultaten beïnvloed kunnen hebben.
Een samenvatting van de resultaten van een systematische review worden gegeven in een forest plot. Hierin worden de puntschattingen en de betrouwbaarheidsintervallen voor elke studie weergegeven. Met name de volgende 6 punten die erin worden samengevat, zijn informatief:
Aantal studies die aan de kwaliteitscriteria voldoen
Referenties van de studies, zodat het jaartal en waar ze gevonden zijn te zien is
Het aantal studies dat statistisch significant is
Het patroon van de effectgroottes: ligt het meer in de in de richting van de placebo of behandeling kant? Zijn ze onderling consistent?
De volgorde waarin studies beschreven worden (vaak chronologisch) laat zien hoe de resultaten over tijd veranderd zijn en wanneer de grote studies zijn uitgevoerd
De verhouding van de resultaten van grote statistisch accurate studies in vergelijking met kleinere studies (meestal laten de grote studies ook effect boven toeval zien en de kleinere niet, door grote betrouwbaarheidsintervallen).
Diagnostische testen en observationele studies kunnen ook met systematische reviews samengevat worden met respectievelijk ROC curves en forest plots.
Meta-analyse
In een meta-analyse worden de resultaten van aparte studies gecombineerd. Een voorwaarde hiervoor is dat de studies zo op elkaar lijken dat ze gecombineerd kunnen worden. Om dit te bepalen, bestaan er 2 algemene methoden: de statistische test voor homogeniteit en een geïnformeerd oordeel vellen over of de interventies, follow-up, uitkomsten en patiënten gelijk zijn. Met de statistische test wordt bepaald of de verschillen in resultaten op meer dan toeval berusten, wanneer de nulhypothese (geen verschil) niet verworpen kan worden, dan lijkt dat goed. Het probleem is alleen dat de meeste meta-analyses relatief weinig studies bevatten en zo voor weinig statistische power kunnen zorgen. Er is hoog risico op een vals negatieve uitkomst (studies zijn homogeen, terwijl dat niet zo is). De power wordt verder beïnvloedt door het aantal patiënten per studie en hun verdeling over de studies. Meta-analyses combineren meestal studies, maar een sterkere aanpak is data van elke patiënt in alle studies te combineren. Zo kun je subgroepen als ouderen analyseren, die normaliter een te kleine groep vormen in de aparte studies. Omdat het moeilijk is om al die data van onderzoekers te verkrijgen wordt dit relatief weinig gedaan.
Studies die grotere hoeveelheden informatie bieden worden zwaarder gewogen, dan informatie uit studies die een kleinere inbreng hebben, dus elke studie bepaalt een deel van de gecombineerde effectmaat afhankelijk van zijn grootte. Er zijn 2 wiskundige modellen die gebruikt worden om de studies in een meta-analyse bij elkaar samen te vatten: het random-effect model en het fixed-effect model. Het verschil tussen deze 2 ligt in hoe streng ze zijn in het schatten van algehele betrouwbaarheidsintervallen en wat er samengevat wordt.
Bij het random-effect model worden de studies gezien als een random steekproef van alle studies die op de vraag betrekking hebben. Er wordt in dit model aangenomen dat studies ietwat andere vragen beantwoorden en dat ze een dicht studie netwerk van eenzelfde vraag vormen. Zelfs als de homogeniteit test faalt, kan het redelijk zijn om studies te combineren met dit model, mits ze gelijk genoeg zijn op basis van een waarde oordeel. Dit model levert bredere betrouwbaarheidsintervallen dan de fixed-effect modellen. Daarom ziet men dit model als realistischer, de kans is kleiner dat ze precisie overschatten en ze houden rekening met heterogeniteit, daarom worden ze nu het vaakst gebruikt. Het is alleen niet zeker of de studies echt een random steekproef zijn en of hoe de familie van op elkaar lijkende studies bepaald wordt. Het fixed-effect model wordt het fixed effect genoemd, omdat de aanname is dat er maar 1 achterliggende effectgrootte is: elke studie behandeld precies dezelfde vraag en de verschillen per aparte studie komen door toeval. Het belangrijkste probleem hierbij is dat studies zelden zo gelijk zijn qua patiënten, uitkomsten, follow-up en patiënten. De breedte van de betrouwbaarheidsintervallen die met dit model berekend wordt, overschatten de precisie. Het combineren van niet gelijke studies zorgt verder voor het verlies van belangrijke informatie dat had kunnen resulteren uit het vergelijken.
De algehele effectgrootte wordt meestal uitgedrukt in puntschatting en betrouwbaarheidsinterval aan het eind van een forest plot van de studies die gecombineerd zijn. Het is een preciezere presentatie van wat er uit het patroon van de forest plot geconcludeerd kan worden. Bij een cumulatieve meta-analyse worden er in een forest plot i.p.v. op chronologische volgorde aparte studies neergezet, de samenvattende effectgrootte iedere keer opnieuw berekend wanneer er een nieuwe studie bijkomt. Zo krijg je een lopende samenvatting van alle studies op elk moment in de tijd. In de kolommen naast de forest plot staat het cumulatieve aantal patiënten in de tijd en in de rijen staan de jaren waarin de studies werden gedaan.
Voordelen en nadelen
De voordelen van het combineren van studies is dat de statistische power groter wordt, de werkelijke effectgrootte wordt preciezer geschat. Dit zorgt ervoor dat een beslissing kan worden gemaakt of een effect groot genoeg is om wel of niet klinisch relevant te zijn. Een ander voordeel is dat er klinische relevante effecten in subgroepen gevonden kunnen worden en zeldzame gebeurtenissen (bijv. zeldzame bijwerkingen) worden eerder ontdekt. Het belangrijkste nadeel van een meta-analyse is dat de indruk gewekt kan worden dat de resultaten erg precies zijn, terwijl er vele aannames aan de grondslag liggen. Het bij elkaar gooien van data neemt de aandacht weg van belangrijke klinische verschillen in effecten
Een ander nadeel is dat meta-analyses de samengevatte effecten als geschatte relatieve risico’s/odds ratio’s gerapporteerd worden en geen frequenties van behandelde patiënten en controls. Afhankelijk van het niveau van het basisrisico kan de effectiviteit verschillen. Artsen hebben ook informatie over de onderliggende frequenties van de uitkomstvariabelen nodig (het risicoverschil).
Grote trials en meta-analyse
Meta-analyses en grote randomized trials komen meestal overeen. De grote trials krijgen immers het meeste gewicht in meta-analyses. Het is wel voorgekomen dat meta-analyses van kleine trials niet overeenkwamen met dezelfde grote trials. Als een meta-analyse niet goed wordt uitgevoerd kan het misleidend zijn, er zijn criteria opgesteld voor meta-analyses van diagnostische tests en RCT’s (QUOROM). De MOOSE (meta-analysis of observationel studies in epidemiology group) heeft een plan voorgelegd om meta-analyses van observationele studies te rapporteren. Zowel grote trials en meta-analyses bieden informatie, ze concurreren niet met elkaar, wanneer ze niet met elkaar overeenkomen dan is het hoofdprobleem waarom ze niet overeenkomen. Het antwoord op deze vraag dient bij de onderzoeken zelf onderzocht te worden en niet in de methoden.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Contributions: posts
Spotlight: topics
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
1763 |
Add new contribution