Samenvatting bij de verplichte stof Leeronderzoek - Geneeskunde - B1 - VU
- 1093 reads
Deze samenvatting is gebaseerd op het studiejaar 2013-2014.
De toegepaste statistiek (analyse) wordt gebruikt om de wetenschappelijke vraag te beantwoorden. Het antwoord wordt verfijnd door middel van het kwantificeren van de onbetrouwbaarheid van het gevonden resultaat, in de vertaalslag naar de populatie waarvoor het onderzoek bedoeld is. De volgende stap is de klinische relevantie bepalen, hierin speelt statistiek geen rol.
Onderzoeksvormen
Bij verschillende onderzoeksvormen worden verschillende effectmaten en statistische analyses uitgevoerd. Er is observationeel en experimenteel onderzoek.
Observationeel
Case control onderzoek: retrospectief. Een groep patiënten met een aandoening wordt vergeleken met een vergelijkbare maar gezonde controlegroep.
Cohort onderzoek: retrospectief, transversaal of cross sectioneel (op het moment) en prospectief (volgen over de tijd). Van een groep mensen verzamelt men informatie.
Experimenteel
Experimenteel onderzoek is altijd een prospectief cohort onderzoek, waarbij er een interventie en een controle groep wordt gecreëerd.
Variabelen
Voor statistische analyse zijn het onderzoeksdesign en de eigenschappen van de uitkomst variabele belangrijk.
De uitkomstvariabele (afhankelijke variabele) is de variabele waarover je een uitspraak wilt doen.
De onafhankelijke variabelen zijn de determinanten, ook wel: verklarende variabele, voorspellers, predictoren, covariates.
Een continue variabele kan alle mogelijke waarden aannemen.
Een dichotome variabele kan maar twee waarden aannemen: wel of niet.
Een categoriale variabele bevat meerdere groepen van waarden. Deze groepen kunnen ordinaal (een logische volgorde in de groepen) of nominaal (geen logische volgorde in de groepen) zijn.
Soorten statistiek
Er zijn twee soorten statistiek: beschrijvende statistiek en verklarende statistiek.
Beschrijvende (descriptieve) statistiek: overzichtelijk samenvatten van de onderzoeksgegevens, zonder te kijken naar mogelijke verbanden of relaties tussen de variabelen.
Verklarende (inferentiële) statistiek: schatten van effecten en relaties, de betrouwbaarheid van deze effecten en relaties, en het berekenen van p-waarden.
Het doel van beschrijvende statistiek is het samenvatten van onderzoeksgegevens op een overzichtelijke manier. Dit kan grafisch of numeriek, afhankelijk van het doel van de samenvatting. Het voordeel van numeriek is dat de informatie compacter en preciezer kan worden weergegeven.
Grafisch
Continue variabelen: histogram, stem and leaf-plot.
Dichotome en categoriale variabelen: staafdiagram, taartdiagram.
Figuur 1.1 Histogram (continue), zie bijlage.
Stem and leaf-plot (continu)
Voorbeeld: leeftijd van een groep
Frequency | Stem and leaf |
|
2,00 | 1. 88 | 2 personen van 18 jaar |
9,00 | 2. 111233444 | 9 personen, 3 van 21 jaar, 1 van 22 jaar, 2 van 23 jaar, 3 van 24 jaar |
6,00 | 3. 145667 | 6 personen, 1 van 31 jaar, 1 van 34 jaar, 1 van 35 jaar, 2 van 36 jaar, 1 van 37 jaar |
In de eerste kolom staan de frequenties per rij. In de tweede kolom staat voor de punt het tiental (stem) en achter de punt de eenheden (leaf).
Figuur 1.2 Staafdiagram (dichotoom/categoriaal), zie bijlage.
Figuur 1.3 Taartdiagram (dichotoom/categoriaal), zie bijlage
Elk vlak in het taartdiagram staat voor een categorie. De grootte van de taartpunt staat voor het aandeel van de categorie (in percentages). In SPSS geef je weer elke categorie een code.
Numeriek
Dichotome en categoriale variabelen: frequentietabel
Continue variabelen: samenvattingsmaten (gemiddelde, standaarddeviatie, aantallen, percentielpunten)
Frequentietabel (dichotoom/categoriaal)
In een frequentietabel worden de aantal in de groepen en de percentages hiervan laten zien.
| Frequency | Percent | Valid percent | Cumulative percent |
Vrouw | 53 | 53 | 53 | 53 |
Man | 47 | 47 | 47 | 100 |
Total | 100 | 100 | 100 |
|
Frequency = aantal binnen een groep.
Percent = aandeel van de groep over het totaal.
Valid percent = de missende waarden worden niet meegenomen.
Cumulative percent = de opgetelde percentages.
Samenvattingsmaten (continu)
Formule 1.1 Gemiddelde (mean), zie bijlage.
x met het dakje is het gemiddelde. n is het aantal personen in de onderzoekspopulatie. Xi is de waarde van variabele x voor persoon i.
Standaarddeviatie (sd of s).
De standaarddeviatie zegt iets over de spreiding van de waarden. De spreiding is belangrijk bij statistische analyses. De standaarddeviatie is het gemiddelde verschil tussen de observaties en het gemiddelde. Sommige waarden zijn kleiner dan het gemiddelde, anderen groter. Het gemiddelde verschil tussen de afzonderlijke waardes en het gemiddelde is daarom altijd nul. Om een getal te krijgen voor de standaarddeviatie moet je een omweg nemen. Eerst kwadrateer je de verschillen ten opzichte van het gemiddelde. Dit noem je de variantie: s2. Vervolgens neem je van de variantie de wortel, dit is de standaarddeviatie.
Formule 1.2 variantie, zie bijlage.
s2 is de variantie. Het ingewikkelde boven de streep komt neer op: de som van de individuele verschillen ten opzichte van het gemiddelde, in het kwadraat.
Rekenvoorbeeld: 5 personen met de leeftijden 40, 41, 42, 43 en 44 jaar.
Gemiddelde: (40+41+42+43+44)/5= 42 jaar.
De som van de individuele verschillen ten opzichte van het gemiddelde: { (40-42)2 + (41-42)2 + (42-42)2 + (43-42)2 + (44-42)2 } = 10
De hele formule: 10/(n-1) = 10/(5-1) = 10/4 = 2,5 = s2.
Formule 1.3 standaarddeviatie, zie bijlage:
Rekenvoorbeeld: √(s2) = √(2,5) = 1,58.
Samenvattingsmaten in een SPSS tabel:
| N | Minimum | Maximum | Mean | Std. Deviation |
Variabele | 100 | 19 | 82 | 41,67 | 14,620 |
Valid N | 100 |
|
|
|
|
In de praktijk worden alleen het gemiddelde en de standaarddeviatie gemeld.
Percentielpunten
Percentielpunten zijn het punt waarvan een bepaald percentage van de waarden boven en onder dit punt ligt. De mediaan is het 50ste percentielpunt: 50% van de waarden ligt boven en 50% ligt onder deze waarde (als de waarden van laag naar hoog zijn geordend). In hoeverre de mediaan dezelfde waarde heeft als het gemiddelde, heeft te maken met de symmetrie van de verdeling.
Daarnaast worden het 25ste en 75ste percentielpunt gebruikt. Bij het 25ste percentielpunt ligt 25% van de waarden onder en 75% boven dit punt. Bij het 75ste percentielpunt is dit andersom. Ook dit kan in een tabel worden samengevat.
Figuur 1.4 Box-plot, zie bijlage.
Een box-plot is een combinatie van numeriek (waarden) en grafisch (figuur). Een box-plot bestaat uit twee delen: de box en de whiskers. De box heeft grenzen van het 25ste (onderste) en 75ste (bovenste) percentielpunten. De streep in de box is de mediaan. De whiskers zijn de twee strepen onder en boven de box. In SPSS geven deze respectievelijk de minimale en maximale waarde aan. De uitbijters worden niet meegenomen: waarden die meer dan anderhalf maal de boxhoogte afwijken van de boven- en of ondergrens van de box. Met een box-plot kan de symmetrie van de verdeling meteen gezien worden aan de hand van de lengten van de whiskers en de box-verdelingen.
Normaal verdeling
Alle statistische technieken voor de analyse van continue waarden, gaan ervan uit dat de waarden ongeveer normaal verdeeld zijn. Een van de eerste stappen is dus bepalen of de waarden normaal verdeeld zijn.
Figuur 1.5 Normaalverdeling, zie bijlage.
De observaties zijn symmetrisch verdeeld rond het gemiddelde. De mediaan is dan gelijk aan het gemiddelde (median = mean). 95% van de observaties ligt tussen het gemiddelde en +/- 2 standaarddeviaties. Deze eigenschap kan alleen gebruikt worden als de variabele alleen positieve waarden heeft. Een continue variabele met alleen positieve waarden en een standaarddeviatie die ongeveer even groot is als het gemiddelde, kan nooit normaal verdeeld zijn. het gemiddelde en de standaarddeviatie worden alleen gegeven bij een normale verdeling.
Hoe bepaal je of een verdeling normaal is?
Observeren histogram
Vergelijken gemiddelde en mediaan
Vergelijken gemiddelde en standaarddeviatie (bij alleen positieve waarden)
Scheve verdelingen kunnen naar rechts (skewed tot the right of positively skewed) of naar links (skewed to the left of negatively skewed) zijn.
Scheef naar rechts
Figuur 1.6 Scheef naar rechts, zie bijlage.
Scheef naar rechts komt veel vaker voor naar links. Het merendeel van de populatie heeft normale waarden, maar een deel hele hoge waarden. Hierdoor is het gemiddelde groter dan de mediaan (gemiddelde rechts ten opzichte van de mediaan). Je geeft dan ook de mediaan en de 25ste en 75ste percentielpunten.
Scheef naar links
Figuur 1.7 Scheef naar links, zie bijlage.
Dit ontstaat vaak bij een bepaalde tijdsduur. Er zijn hele lage waarden, dus het gemiddelde zal kleiner zijn dan de mediaan (links). Wederom geef je dan alleen de mediaan en de 25ste en 75ste percentielpunten.
Bij een gerandomiseerde steekproef van pijn bij patiënten voor en na toediening van een pijnstiller, kun je zonder ingewikkelde statistiek de resultaten voor en na de medicatie en de standaarddeviatie invullen. Dit mag natuurlijk, maar je moet je daarna wel afvragen of de resultaten wel gelden voor de doelgroep van het onderzoek (is de steekproef wel representatief?). Om de generaliseerbaarheid te meten, moet verdere statistiek worden gebruikt.
Bij de verklarende statistiek spelen schatten (in hoeverre zijn de resultaten representatief voor de doelpopulatie en de toekomstige doelpopulatie?) en toetsen (kansberekening) een grote rol. De onzekerheid van de generalisatie staat bij beide voorop. Als eerste geldt hier: groter de steekproef, hoe beter de generaliseerbaarheid. Ten tweede geldt; hoe groter de heterogeniteit (weergegeven in de standaarddeviatie), hoe slechter het te generaliseren is. Deze twee dingen komen samen in de standard error of the mean (sem), in de formule: sem= (sd)/wortel (n), waarbij n=grootte van de onderzoekspopulatie.
Kansen en -verdelingen
Kans bereken je door 1 gedeeld door het aantal mogelijkheden te doen. Als je de kans wilt weten van het krijgen van het één OF het ander, tel je de kansen bij elkaar op.
Een kansverdeling is de theoretische kans op verschillende uitkomsten in een situatie. Als er maar twee mogelijke uitkomsten zijn, zoals bij een munt, dan heet het een binomiale kansverdeling. Ook als er meerdere uitkomsten zijn, maar je bent maar benieuwd naar één, is er een binomiale verdeling. Denk aan de kans om 6 te gooien met de dobbelsteen: Er is een kans op 6, en een kans op niet-6.
De algemene formule voor kansverdeling is: P(r)= (n!)/(r!(n-r)!) x p^r(1-p)^(n-r), met P= kans, r=aantal van de mogelijkheid die we willen weten, n=keren dat het experiment wordt herhaald en p=de kans op de mogelijkheid die we willen weten. Zo kun je gemakkelijk ook met situaties met meer dan twee mogelijkheden rekenen.
Tegelijk kan je ook een verwachtingswaarde voor een bepaalde kans uitrekenen. Dit doe je door de kans op een bepaalde uitkomst te vermenigvuldigen met de hoeveelheid keren dat de situatie zich voordoet. Als je een dobbelsteen 100 keer gooit, vermenigvuldig je de kans op zes gooien met 100, en verwacht je dus 16,7 keer 6 te gooien. Het is een soort gemiddelde van de kansverdeling, en daarom is er ook een sd bij een binomiale kansverdeling: sd= wortel (n x p x(1-p))
Een normale kansverdeling is een kansverdeling met continue variabelen, bijvoorbeeld de verdeling van het BMI bij mannen. De kans op een continue variabele is altijd 0, want er zijn dan oneindig variabelen (kans=1/mogelijkheden à 1/oneindig=0). We rekenen dan met kansdichtheden: de kans dat iets groter, of kleiner is dan de waarde die je zoekt. Dit kun je uitzetten in de normale kansverdeling. De eigenschappen hiervan zijn: hij is symmetrisch, heeft 1 top, de x-as is oneindig, de y-as geeft de kansdichtheid¸ de totale oppervlakte is 1 (100%), en de parameters zijn de verwachtingswaarde (het gemiddelde) en de sd.
Een kansdichtheid berekent dus de kans dat iets groter/kleiner of gelijk is aan het getal dat je zoekt. Dit doe je in twee stappen: 1. Trek het gemiddelde af van de waarde waarnaar je zoekt en 2. Deel dit door de standaarddeviatie. Je krijgt dan een standaardnormale kansverdeling ofwel Z-verdeling. Z= (X-x)/sd, met X=het getal dat je zoekt, x=het gemiddelde. De kans horend bij de Z-waarde kun je dan aflezen uit een tabel. Je hebt dan de kansdichtheid, ofwel de kans dat een waarde groter of gelijk is aan de waarde die je zoekt.
Toetsen en schatten van gemiddelden
Belangrijker dan kans op het vinden van een bepaalde waarde, is in het wetenschappelijk onderzoek de generaliseerbaarheid. Je kan dan het beste met de nulhypothese werken, je berekent dan de kans op bijvoorbeeld pijnvermindering (voorbeeld van begin van hoofdstuk) als de medicatie geen effect zou hebben. We zijn niet meer op zoek naar de kans op een bepaalde waarde, maar op een bepaald gemiddelde. Je moet hier weer rekenen met een Z-waarde, want pijn is een continue waarde, en met een SEM, want het gaat om gemiddelden. De formule is dan Z=(O-E)/(sd/wortel(n)), met O=geobserveerd gemiddelde, E=verwacht gemiddelde. Deze Z-waarde koppel je via de tabel weer aan een kans. Dit is de kans dat de nul-hypothese waar is, en wordt ook wel de p-waarde genoemd. Bij een p
Als iets statistisch niet significant is, betekent het niet dat het middel ook geen effect had! Het kan bijvoorbeeld dat er een te grote spreiding was of de onderzoekspopulatie te klein was, maar dat betekent niet dat het effect er ook niet is. Alleen de vertaalslag naar de doelpopulatie is onbetrouwbaar.
Naast statistische significantie is ook ‘power’ belangrijk, dit heeft ook te maken met het verwerpen van de nulhypothese. De p-waarde 0,05 betekent dat er nog 5% kans is dat de nulhypothese wél klopt, maar deze fout wordt voor lief genomen. Dit is een alfa-fout. Het kan ook dat p>0,05 is, maar dat de nulhypothese alsnog niet klopt, dit is een beta-fout. De power van een onderzoek= 1-beta.
Twee- en eenzijdig toetsen
Er is veel discussie over of je iets eenzijdig of tweezijdig toetst. Als je een nulhypothese hebt zoals ‘er is geen effect’ dan suggereer je dat er bij verwerping een ofwel negatief, ofwel positief effect van het middel is. Je toetst dan tweezijdig. Als je een nulhypothese hebt zoals ‘er is geen positief effect’ suggereer je dat bij verwerping alleen ‘er is een positief effect’ kan krijgen. Dit toets je eenzijdig. Voordeel is dat de p-waarde bij een eenzijdige toetsing twee keer zo klein is als bij tweezijdig toetsen. Een tweezijdige p =0,08 is dus een eenzijdige p=0,04. Eenzijdig is hij significant. Dit is een trucje. In dit boek gaat het altijd om tweezijdige toetsing, omdat het gaat om ‘frequentistische statistiek’, wat betekent dat er geen voorkennis is over de effecten van medicijnen, wat betekent dat de effecten positief of negatief kunnen zijn. Tegenhanger is de Bayesiaanse statistiek.
Schattingen
Generaliseerbaarheid toetsen kan ook door schatten. Je neemt dan het onderzoeksresultaat als uitgangspunt en bouwt daaromheen een kansverdeling, waarmee je een betrouwbaarheidsinterval maakt. Dit is het 95%-betrouwbaarheidsinterval (95%-BI). Het effect van het medicijn zal dan met 95% zekerheid tussen de twee uitgekomen getallen liggen. Je rekent met een tweezijdige Z-verdeling uit tussen welk getal het betrouwbaarheidsinterval zit. Dit is meestal -1,96 en 1,96, overeenkomend met p=0,05. Het 95%-BI wordt berekend met 95%-BI= x + of – 1,96 x (SEM), waarbij x,= het gemiddelde.
Centrale limietstelling
We hebben gezien dat bij een continue variabele vaak een normale kansverdeling is. Het is alleen zo dat je bij een binomiale kansverdeling ook een normaalverdeling benadert als je de steekproef maar groot genoeg maakt. Dit heet centrale limietstelling, en komt erop neer dat het gemiddelde bij een grote steekproef een normale kansverdeling volgt, ongeacht de oorspronkelijke verdelingssoort van de variabele. De grootte van de steekproef die nodig is, is moeilijk te beantwoorden, omdat het een glijdende schaal is, en omdat het afhankelijk is van de oorspronkelijke soort verdeling.
Belangrijk is je te realiseren dat het gemiddelde bij een normaalverdeling niet altijd makkelijk te interpreteren is. Het is namelijk niet altijd het midden van de normaalverdeling, want als je een verdeling hebt die scheef naar rechts is, gaat het gemiddelde ook mee naar rechts. In dit soort situaties moet je andere procedures volgen, zie hoofdstuk 4.
Toetsen met behulp van het betrouwbaarheidsinterval
Zoals eerder gezegd impliceert het 95%-BI dat een waarde met 95% zekerheid tussen de twee gevonden waarden valt. Als de nulhypothese buiten deze waarden valt, is er nog maat 5% kans dat deze toch waar is. Andersom geldt dat als de nulhypothese in het interval valt, de resultaten niet significant zijn.
Notatie van letters
Binnen de statistiek worden voor de onderzoekspopulatie gewone letters gebruikt en voor de doelpopulatie Griekse letters. (Voor de standaarddeviatie gelden dan respectievelijk s e sigma). Verder worden een hoop subscripten gebruikt die je moet kennen. Bij een z met als subscript (1-alfa/2) wordt een Z-score bedoeld waar (1-alfa/2) ervoor ligt. Als alfa dan 5% is, is Z 1,96.
De t-verdeling in de statistiek
De t-verdeling, oftewel de Student-verdeling, is een alternatief voor de standaardnormale kansverdeling voor als de sd niet bekend is. In de doelpopulatie gaat het namelijk niet alleen om de patiënten van nu, maar ook om alle toekomstige patiënten, en dus is er geen sd van bekend. Ook bij kleine populaties bij dichotome verdelingen, wanneer de centrale limietstelling nog niet van toepassing is, mag de t-toets gebruikt worden.
De t-verdeling verschilt van de standaardnormale kansverdeling, omdat hij breder is, de grootte van het verschil is afhankelijk van de grootte van de steekproef. Afhankelijk van het aantal vrijheidsgraden, is er een grote hoeveelheid t-verdelingen. Een vrijheidsgraad is de steekproef-1. Bij een t-toets gaat het namelijk om gemiddelden. Als je het gemiddelde weet, kan je op 1 getal na alle getallen willekeurig invullen, en ligt het laatste getal vast om dat gemiddelde te maken. Alle willekeurige getallen zijn vrijheidsgetallen, en de hoeveelheid is dus steekproef-1.
Bij een t-verdeling wordt het getal 1,96 van de Z-score vervangen door een ander getal dat je uit een tabel kunt oplezen. Omdat t-verdelingen altijd breder zijn, zijn de getallen ook altijd hoger dan 1,96. Hoe groter de steekproef, hoe dichter het getal bij de 1,96 komt. Afgesproken is dat bij continue variabelen altijd een t-toets wordt gebruikt om p-waardes en 95%-BI uit te rekenen.
Twee aspecten van het onderzoek spelen een rol bij het kwantificeren van onzekerheid, namelijk de grootte van de steekproef en de spreiding van de individuele onderzoeksresultaten (zie hoofdstuk 3). Deze komen samen in de standard error of the mean, waarmee het 95%-BI kan worden uitgerekend. Hiervoor moet je dus eerst de individuele spreiding weten! Bij bijvoorbeeld cholesterol gaat het om een continue variabele, dus moet je een t-toets gebruiken, en moeten we op zoek gaan naar de waarde die hoort bij het 95%-BI. Deze is afhankelijk van de vrijheidsgraden en de grootte van de steekproef. Het getal dat hieruit komt kun je gebruiken in de formule om de 95%-BI uit te rekenen.
95%-BI= dx + of – t x SEM, met dx=gemiddelde verandering, t=het getal dat uit de t-verdeling komt. De twee getallen die hier uitkomen vormen het 95%-BI. Het is dan 95% zeker dat de werkelijke verandering tussen deze waarde ligt. Je kunt dit natuurlijk ook voor de nulhypothese toetsen. De geobserveerde waarde wordt dan vergelijken met de verwachte waarde van de nulhypothese, gedeeld door de SEM: t=(dx-O)/SEM.
De statistische techniek die zowel het 95%-BI, als de toets uitvoert, heet de gepaarde t-toets.
Vergelijken van het gemiddelde met de standaardwaarden
Stel dat je nu niet het verschil van bijvoorbeeld gemiddelde cholesterolwaarde voor en na een interventie wilt weten, maar het verschil van de gemiddelde waarde met de algemeen aangenomen standaardwaarde? Je kunt dan heel makkelijk een 95%-BI opstellen, als je in de formule voor dx het gemiddelde verschil van de standaardwaarde neemt. Verder kun je weer met een t-toets (de toetsingsgrootheid) de p-waarde uitrekenen, waarbij je dus bekijkt hoe groot de kans is dat de nulhypothese (het gemiddelde verschil is gelijk aan de standaardwaarde) waar is.
Vergelijkingen van twee verschillende groepen
Als je twee groepen wilt vergelijken, is het het handigst om met de gemiddelden van beide groepen te werken. Je ziet dan direct dat daar een verschil zit of niet, maar je moet natuurlijk weten of dit naar de populatie te vertalen is. Hiervoor heb je de SEM nodig, waarmee je dan weer het 95%-BI kunt uitrekenen. Hiervoor hebben we weer een t-verdeling nodig.
De twee groepen zullen vaak een andere standaarddeviatie hebben. Om ermee te kunnen rekenen zul je dus eerst een soort gemiddelde sd moeten hebben, ook wel de populatiestandaarddeviatie (sp).
Formule 4.1 Populatiestandaarddeviatie (sp), zie bijlage.
Sp=populatiesd, s1=sd van groep 1, s2= sd van groep 2, n1= populatiegrootte groep 1 en n2=populatiegrootte groep2. Deze formule is niets meer dan een gemiddelde van twee varianties van groepen.
De formule om hiermee het 95%-BI uit te rekenen, verandert dan ook. Zie hiervoor formule 4.4. De interpretatie van het 95%-BI dat eruit komt, is dat we met 95% zekerheid mogen zeggen dat het echte verschil tussen de twee groepen tussen die waardes ligt.
Ook kun je een t-toets op doen om de nulhypothese te toetsen.
Formule 4.2 t-toets, zie bijlage.
Blijf je indenken dat de grens van p=0,05 (kans van 5%) arbitrair is, maar ook dat de grootte van de p-waarde niets zegt over de grootte van het verschil tussen de twee groepen! Voor dit laatste heb je namelijk het effect en het 95%-BI nodig.
Daarnaast kan je pas een t-toets uitvoeren, niet alleen als er sprake is van een normaalverdeling, maar ook als beide normaalverdeling bij benadering dezelfde vorm hebben, oftewel, als beide varianties gelijk zijn. Als dit niet zo is, moet er voordat de t-toets worden uitgevoerd, een F-toets (Levene’s test for the equality of variances) worden gedaan. Dit gebeurt in SPSS automatisch. SPSS zorgt voor een soort aangepaste t-toets: de aanpassing van Welch.
Als uit de F-toets een p>0,05 komt is de nulhypothese (beide varianties zijn gelijk) niet verworpen en mag er dus een normale t-toets uitgevoerd worden. Mochten de varianties wel verschillen, dan worden de vrijheidsgraden en de standard error difference aangepast, waardoor de verdeling breder wordt en p-waarde hoger.
Vergelijken van twee scheef verdeelde uitkomstvariabelen
Voor een t-toets tussen twee groepen, moeten de uitkomsten enigszins normaal verdeeld zijn. Ze moeten dus niet scheef verdeeld zijn, van je vergelijkt twee gemiddelden met elkaar, en die gemiddelden worden heel erg beïnvloed, en dus veranderd, door de hogere waarden bij een scheve verdeling. De meest voorkomende scheve verdeling, is de verdeling naar rechts. Hoe kunnen we ondanks de scheve verdeling nou toch twee groepen vergelijken? Je moet dan eerst de gegevens transformeren naar een normaalverdeling, daarna het 95%-BI uitrekenen, en deze data dan weer terugtransformeren naar de oorspronkelijke data.
Als het gemiddelde groter is dan de mediaan en de sd behoorlijk groot is, dan spreek je van een scheve verdeling,. Je zou denken dat je bij twee grote steekproeven door middel van centrale limietstelling de twee groepen gewoon mag vergelijken, maar bedenk dat je werkt met gemiddelden, en die zijn dus niet goed te vergelijken bij een scheve verdeling.
Je kunt de gegevens van een scheve verdeling naar rechts transformeren middels een logaritmische transformatie. Je gebruikt dan meestal een natuurlogaritme (ln). Hierop kun je dan een t-toets uitvoeren. De gegevens die daaruit komen moet je dan weer terugtransformeren met de klassieke rekenregel voor logaritmen: het verschil tussen twee logaritmen met hetzelfde grondtal is gelijk aan de logaritme van het quotiënt van de twee getallen. De formule wordt dan ln(groep1)-ln(groep2)=ln(groep1/groep2). Van de uitkomst moet je dan de EXP nemen.
Dit is het verschil van de geometrische gemiddelden van de groep, wat niet het gewone gemiddelde is, maar een getransformeerd gemiddelde dat meer op de mediaan lijkt. Bij het transformeren van het betrouwbaarheidsinterval doe je gewoon de EXP van deze twee getallen. Hierna kan een normale t-toets worden gedaan.
Bij het vergelijken van een dichotome uitkomstvariabele tussen twee groepen is de eenvoudigste manier om de resultaten te presenteren in een 2x2 tabel. In een 2x2tabel kan het verschil tussen percentages gebruikt worden om het effect van de interventie te kwantificeren. Een mogelijkheid is om het verschil tussen beide percentages te berekenen. Dit wordt het risicoverschil (RV) genoemd. Een andere mogelijkheid is om verhouding van twee percentages te berekenen. Deze verhouding wordt het relatief risico (RR) genoemd.
Bij wetenschappelijk onderzoek gaat het erom dat het onderzoeksresultaat vertaald kan worden naar de populatie. De onzekerheid van het gevonden resultaat hangt af van de grootte van de onderzoekspopulatie en de spreiding in de uitkomstvariabele.
Het 95% betrouwbaarheidsinterval rond het risicoverschil en het relatief risico
Bij een dichotome variabele gaat het om percentages, en de standaard deviatie van een percentage wordt als volgt gedefinieerd:
Sd (p) = √(p(1-p))
Waarbij sd (p) = standaarddeviatie van het percentage; p = het percentage
De standaardfout van het gevonden percentage is dan (net als bij continue uitkomstvariabelen) de standaarddeviatie gedeeld door de wortel uit het aantal observaties)
Se (p) = √((p(1-p)) / n)
Waarbij se (p) = standaardfout van het percentage; p = percentage; n = aantal proefpersonen
De standaardfout van het verschil in percentages is te berekenen als volgt:
Se (p1 - p2) = √(( p1 (1-p1) / n1) +(p2 (1-p2) / n2))
Waarbij p1 en p2 = percentages met de bepaalde uitkomst in beide groepen. N1 en n2 = het aantal proefpersonen in beide populaties.
Het betrouwbaarheidsinterval is vervolgens te construeren met behulp van een normale benadering.
Formule 5.1 betrouwbaarheidsinterval, zie bijlage.
Op basis van een gevonden betrouwbaarheidsinterval kan een uitspraak worden gedaan of het risicoverschil significant is. Er moet worden gekeken of de waarde van de 0hypothese binnen of buiten de grenzen van het interval ligt. Als de waarde van de nulhypothese 0 is (er is geen verschil in percentage tussen interventie en controlegroep), en dat getal ligt buiten het 95% betrouwbaarheidsinterval is er dus sprake van een significant verschil tussen beide percentages.
Bij de normale verdeling gebruikt men 1,96 keer de standaardfout als maat voor de onzekerheid. Deze benadering gaat beter naarmate de aantallen groter zijn en ook naarmate de geobserveerde percentages dichter bij 50% liggen. De normale benadering gaat steeds beter naarmate de onderzoekspopulatie groter wordt en de geobserveerde percentages dichter bij 50% liggen.
Ook voor het relatief risico kan een 95% betrouwbaarheidsinterval worden geconstrueerd. Voor de berekening daarvan is het belangrijk te beseffen dat het relatief risico onder de nulhypothese een scheef naar rechtse verdeling heeft. De waarde van de nulhypothese is 1, de minimale waarde is gelijk aan 0 en de maximale waarde gelijk aan oneindig. Om een betrouwbaarheidsinterval te berekenen moet eerst een logtransformatie worden uitgevoerd en vervolgens moet de standaardfout van de loggetransformeerde waarde van het relatieve risico worden berekend.
Formule 5.2 Standaardfout van de natuurlijke logaritme van het relatief risico, zie bijalge.
Waarbij se[ln (RR)] = standaardfout van de natuurlijke logaritme van het relatief risico; a,b,c en d = aantal personen in de cellen van de 2x2 tabel.
Aan de hand van de 2x2tabel kan de standaardfout van de natuurlijke logaritme van het relatief risico worden berekend.
Vervolgens kan rond de natuurlijke logaritme van het relatief risico op de gebruikelijke manier een 95%-betrouwbaarheidsinterval worden berekend.
Formule 5.3 Natuurlijk logaritme van het relatief risico, zie bijlage.
Waarbij ln (RR) = natuurlijke logaritme van het relatief risico; z(1-α/2) = waarde van de standaardnormale verdeling waarvoor geldt dat (1-α/2)% van de verdeling voor de betreffende waarde ligt; se[ln(RR)] = standaardfout van de natuurlijke logaritme van het relatief risico.
Het betrouwbaarheidsinterval moet weer teruggetransformeerd worden om een 95%-betrouwbaarheidsinterval te krijgen rond het relatief risico. Dit kan gedaan worden door de e-macht te nemen van beide grenzen.
Wat op valt is dat het betrouwbaarheidsinterval niet symmetrisch is rond het geobserveerde relatieve risico. De bovengrens ligt verder weg van het gevonden relatieve risico dan de ondergrens als het betrouwbaarheidsinterval groter is dan 1. Als het relatieve risico kleiner is dan 1 is dit net andersom. Dit komt omdat het relatief risico gemeten is op een logaritmische schaal.
Toetsen van RV (risicoverschil) en RR (relatief risico)
Aan de hand van het 95% betrouwbaarheidsinterval rond het risicoverschil kun je concluderen dat er sprake is van een significant risicoverschil. Om een echte p-waarde te krijgen moet men de kans berekenen dat de 2x2tabel deze waarden zal bevatten (of nog verder weg van de nulhypothese) als de nulhypothese waar is.
Om dit te berekenen kan onder andere een toetsingsgrootheid worden gegenereerd
Formule 5.4 Waarde van de standaardnormale verdeling, zie bijlage.
Waarbij Z = waarde van de standaardnormale verdeling; (p1-p2) = geobserveerd verschil van twee percentages; se(p1-p2)H0 = standaardfout van het verschil van twee percentages onder de nulhypothese
De standaardfout van het verschil in percentages is niet de zelfde als in deze formule:
Se (p1 - p2) = √(( p1 (1-p1) / n1) +(p2 (1-p2) / n2))
Om het betrouwbaarheidsinterval te construeren gebruikt men de standaardfout van het geobserveerde verschil in percentages, bij het toetsen gebruikt men de standaardfout van het verschil in percentages onder de nulhypothese.
Bij een betrouwbaarheidsinterval rond de geobserveerde waarde ligt de standaardfout ook rond de geobserveerde waarde.
Bij toetsen van de nulphypothese gaat het om onzekerheid rond de nulhypothese en kan het best worden geschat aan de hand van de standaardfout van percentages verwacht onder de nulhypothese.
Formule 5.5 nulhypothese, zie bijlage.
^p = het verwachte percentage onder de nulhypothese; n1, n2 = aantal personen in beide groepen; r1, r2 = aantal personen met de onderzochte uitkomst in de beide groepen
De standaardfout van de percentages onder de nulhypothese verschilt van de standaardfout van de geobserveerde percentages. Met de standaardfout kan de toetsingsgrootheid worden berekend en de bijbehorende p-waarde worden bepaald.
Omat de toets en het betrouwbaarheidsinterval gebruik maken van verschillende standaardfout kan de toets met betrekking tot significantie een andere conclusie vormen dan het betrouwbaarheidsinterval. Dit zal alleen gebeuren als de p-waarden heel dicht bij de 5% grens liggen.
Een andere manier om de p-waarde te berekenen bij het vergelijken van twee groepen is de chikwadraattoets. Eerst moet worden berekend hoeveel mensen in verschillende cellen worden verwacht als de nulhypothese waar is.
In een 2x2 tabel moet de kans dat iemand in een bepaalde kolom zit vermenigvuldigd worden met de kans dat iemand in een bepaalde rij zit. Om de kans te berekenen op een 2x2tabel als de nulhypothese waar is moet per cel het geobserveerde aantal personen vergeleken worden met het verwachte aantal personen. Hoe groter het verschil hoe lager de p-waarde zal zijn. De X2 kan op die manier worden berekend:
Formule 5.6 X2, zie bijlage.
Voor elke cel wordt het verschil tussen het geobserveerde personen en het verwachte aantal personen gekwadrateerd en vervolgens gedeeld door het verwachte aantal. In totaal levert dit dus de X2.
Er volgt dus een chi-kwadraatverdeling met 1 vrijheidsgraad.
De manier om de p-waarde te berekenen is een benadering van de werkelijkheid. Dit gaat beter naarmate de verwachte aantallen in verschillende cellen groter zijn.
De grens is arbitrair: de chikwadraattoets gaat goed als de verwachte aantalen in 80% van de cellen groter of gelijk is aan 5 en in alle cellen groter dan 1
De p-waarde behorend bij de 2x2tabel is te berekenen met de exacte toets van Fisher
Formule 5.7 Exacte toets van Fisher, zie bijlage.
De volgende stap in de berekening is het zoeken van de kans op de in het onderzoek gevonden combinatie en de kans op de combinaties die nog verder weg liggen van de 0hypothesen. De kansen verder van de 0hypothese moeten erbij worden opgeteld en verdubbeld aangezien de verdeling tweezijdig en symmetrisch is.
De chikwadraattoets geeft altijd een lagere p-waarde dan via de exacte manier toets van fisher. Alleen als de chikwadraattest niet kan worden gedaan door de regel van 5, wordt de methode van fisher toegepast. Ok kan de continuïteitscorrectie worden gedaan (ook wel Yates correctie). In alle gevallen zal de p-waarde berekend met behulp van de continuiteitscorrectie iets hoger zijn dan de exacte p-waarde.
De chikwadraatverdeling met 1 vrijheidsgraad is identiek aan de standaardnormale verdeling in het kwadraat.
Het vergelijken van een proportie met een standaardwaarde
Om te onderzoeken of het resultaat ook in de doelpopulatie voorkomt moet de onbetrouwbaarheid van het gevonden resultaat gekwantificeerd worden. Dit gebeuren door het 95% betrouwbaarheidsinterval te construeren rond het gevonden herstelpercentage.
Formule 5.8 Vergelijken van een proportie met een standaardwaarde, zie bijlage.
Het vergelijken van twee metingen bij dezelfde persoon
Bij een continue uitkomstvariabele kunnen de verschillen tussen twee metingen bij dezelfde persoon geanalyseerd worden met de gepaarde t-toets. Bij dichotome uitkomstvariabelen wordt dit gedaan door middel van cross-over-trial. Het is een experimenteel onderzoek waarin de proefpersonen gebruikt worden als hun eigen controlepersoon. De ene helft van de proefpersonen krijgt dan eerst de interventieconditie en daarna de controleconditie. De andere krijgt eerst de controle en vervolgens de interventieconditie. Het is alleen effectief bij een kortdurend effect. Het wordt vaak gebruikt voor onderzoeken zoals pijnstillers, bloedverdunners en dergelijk.
Het risicoverschil oftewel het verschil tussen de twee percentages verbetering, en de daarbij horende standaardfout zijn nu te berekenen met behulp van:
P1-p2 = (a+b)/n – (a+c)/n = (b-c)/n
Se(p1 – p2) = 1/n√(b+c – ((b-c)2/n)
Waarbij p1-p2 = risicoverschil; a,b,c,d= aantallen in de cellen van de 2xe tabel. N = grootte van de onderzoekspopulatie; se(p1-p2) = standaardfout van het risicoverschil.
Met behulp van de standaardfout kan het 95% betrouwbaarheidsinterval rond het risicoverschil worden berekend p1-p2 +/- z(1-α/2) x se (p1-p2)
McNemar-toets is een chikwadraattoets voor gepaarde waarnemingen. Hiervoor moet eerst de waarde van de standaardfout van het verwachte risicoverschil (als de nulhypothese waar is) worden berekend
Se (p1 –p2) = 1/n √((b+c)/2 + (b+c)/2 – 0)
Se(p1 – p2) = 1/n √(b+c)
P1-p2 = risicoverschil; a,b,c,s = aantallen in de cellen van de 2x2tabel; n = grootte van de onderzoekspopulatie; se (p1-p2 = standaardfout van het risicoverschil.
De toetsingsgrootheid van McNemar-toets is te berekenen met behulp van formule
Z = (b-c)/n = b-c
√(b+c)/n √(b+c)
Omdat de McNemartoets uitgaat van een chikqadraatverdeling met een vrijheidsgraad, is de toetsingsgrootheid van deze toets het kwadraat van de Z-waarde. Zie:
X2 = (b-c)2
B+c
Bij spss krijg je een andere waarde omdat spss een standaard continuïteitscorrectie toepast.
Dit kan ook worden toegevoegd aan de formule
Zcorr = b-c-1
√(b-c)
De oddsratio
Relatieve risico en risicoverschil kunnen alleen gebruikt worden als er sprake is van prospectief cohortonderzoek. In alle andere kansen kun je geen absolute kansen bereken. In case-control onderzoek en retrospectief onderzoek en cross-sectioneelcohortonderzoek gebruik je de oddsratio. Het gaat hierbij op relatieve kansen op de uitkomstvariabele. De odds op een bepaalde uitkomst is gedefinieerd als de kans op de uitkomst gedeeld door 1 min die kans
odds = P(Y = 1)
1- P (Y =1)
P(Y=1) is de kans op de uitkomstvariabele.
De oddsratio luidt als volgt:
OR = (a/a+b)/(b/a+b)
(c/c+d)/(d/c+d)
Of anders berekend: (a x d)/(b x c)
Een odds wordt vaak geïnterpreteerd als het relatieve risico, maar een odds is altijd een overschatting van het relatief risico.
Het betrouwbaarheidsinterval is erg van belang bij het oddsratio. Eerst moet het gelogtransformeerd worden. Als de 0hypothese waar is, dan is de oddsratio een scheef naar rechtse verdeling. Als de nulhypothese waar is, is de oddsratio gelijk aan 1. De minimale waarde is dan nul en de maximale waarde oneindig.
De standaardfout van de natuurlijke logaritme van de oddsratio:
Se [ ln(OR)] √(1/a + 1/b + 1/c + 1/d)
SE [ ln(OR)] = standaardfout van de natuurlijke logaritme van de odssratio.
Het 95%betrouwbaarheidsinterval:
Ln(OR) +/- z(1-α/2) x se[ln(OR)]
Vervolgens moet de e-macht genomen worden.
Het betrouwbaarheidsinterval rond de oddsratio is niet symmetrisch, net zoals bij het relatieve risico. Ook ligt de bovengrens verder weg dan de ondergrens. Om voor de odds-ratio de werkelijke p-waarde te krijgen moet de chikwadraattoets worden gedaan.
Hoe groot de overschatting van het oddsratio van het relatieve risico is, hangt af van de prevalentie van de uitkomstvariabele. Als de prevalentie van de uitkomstvariabele erg klein is, kleiner dan 5% wordt het een betere schatter. De p-waarde van de odds-ratio is het zelfde als die van het relatief risico. Dit impliceert dat het 95%betrouwaarheidsinterval rond het oddsratio breder is dan het 95% betrouwbaarheidsinterval rond het relatief risico. De oddsratio kan worden berekend met logistische regressieanalyse.
Confounding en effectmodificatie
Effectmodificatie betekent dat het effect (of de relatie) dat gevonden is een bepaalde analyse verandert bij verschillende waarden van de mogelijke effectmodificator. Het effect kan bijvoorbeeld anders zijn voor mannen dan voor vrouwen, jong of oud.
Confounding wil zeggen dat het effect dat gevonden wordt geheel of gedeeltelijk te maken heeft met een andere factor.
5.8.2
Het is het eenvoudigst om zo’n effect te meten door het gestratificeerd analyseren van een 2x2tabel.
Als je een effectmodificator vind is het moeilijk om te bepalen of het apart vermeld moet worden of niet. Een oddsratio wordt gemeten op een logaritmische schaal dus lijkt het verschil groter dan het werkelijk is. Verder kun je twee betrouwbaarheidsintervallen vergelijken. Ook kun je bepalen of de oddsratios significant van elkaar verschillen.
Het is ook mogelijk om een toets uit te voeren die de twee gevonden oddsratio’s met elkaar vergelijkt. Deze toets wordt de toets voor homogeniteit genoemd. de 0hypothese (er is geen verschil) kan verworpen worden als de p-waarde te groot is.
Als er wel een verschil is, door bijvoorbeeld geslacht, moet dit gerapporteerd worden. Dan speelt confounding voor geslacht geen rol meer.
Of er een confounder is, kan bepaald worden met gestratificeerde 2x2tabellen. Het gewogen gemiddelde van de twee gevonden oddsratio’s is een indicatie van het effect van de interventie
Het gewogen gemiddelde van de twee oddsratios’s staat bekend als de Mantel Haenszels gepoolde oddsratio
Formule 5.9 Mantel haenszel gepoolde oddsratio, zie bijlage.
ORmh = mantel haenszel gepoolde oddsratio. I = aantal strata; ai, bi, ci, di = aantal personen in cellen a,b,c en d van de 2x2tabel. Ti = totaal aantal personen in de betreffende 2x2 tabel
Bij een RTC ligt het relatief risico het meest voor de hand.
Procedure om effectmodificatie en confounding te onderzoeken met behulp van gestratificeerde 2x2 tabellen:
Bereken de ruwe effectmaat (bijvoorbeeld de oddsratio)
Stratificeer voor een mogelijke confouncer/effectmodificator en bereken de stratumspecifieke effectmaten
Vergelijk de stratumspeficieke effectmaten
Indien er grote verschillen zijn: effectmodificatie; rapporteer de stratum specifieke effectmaten (analyse afgelopen)
Als er geen grote verschillen zijn: geen effectmodificatie
Bereken de gepoolde effectmaat en vergelijk de ruwe effectmaat met de gepoolde effectmaat
Als er grote verschillen zijn: confounding, rapporteer de gepoolde effectmaat
Als er geen grote verschillen zijn: geen confounding; rapporteer de ruwe effectmaat
De methode is vooral geschikt voor dichotome confounders en effectmodificatoren, minder voor categoriale en continue confounders en effectmodificatoren.
Er is sprake van relevante confounding als de regressiecoefficiënt met meer dan 10% verandert.
Met behulp van logistische regressieanalyse kun je ook een effectmodificatieonderzoeken. Er moet eerst een interactieterm worden aangemaakt die bestaat uit een vermenigvuldiging van de interventievariabele en de mogelijke effectmodificator. Vervolgens wordt er een logistische regressieanalyse uitgevoerd met drie variabelen: interventievariabele en de interactie en nog een derde.
Dit kan worden ingevuld in de formule ln ( p(herstel) )
1 – P(herstel)
De oddsratio van de interventie voor vrouwen is vaak direct uit output af te lezen. Bij mannen moeten er twee regressie-coëfficiënten bij elkaar opgeteld.
Dit kan ook als volgt worden berekend:
ORmanne = ORvrouwen x ORinteractie
Een categoriale uitkomstvariabele bestaat uit meer dan 2 groepen. Hierbij kun je een onderscheid maken tussen ordinale en nominale uitkomstvariabelen: ordinale variabelen hebben ordening, nominale variabelen niet. De analyse zal uitgelegd worden met een observationeel cross-sectioneel cohortonderzoek, de groep bestaat uit 100 personen. Hierbij is de ervaren gezondheid gemeten, de categoriale ordinale variabelen zijn: slecht, niet goed/niet slecht, goed. De overige variabelen en uitkomsten staan hier onder.
Variabelen | Aantal |
Ervaren gezondheid in het algemeen |
|
| 33 |
| 38 |
| 29 |
Geslacht (man: vrouw) | 53/47 |
Sociaaleconomische status |
|
| 42 |
| 31 |
| 27 |
Rookgedrag (niet/wel) | 62/38 |
Leeftijd in jaren | gemiddeld 47,4 (SD=15,5) |
Eerst werd er gekeken of er een verschil was in de ervaren gezondheid tussen de geslachten, de relatie geslacht/ervaren gezondheid kan in een 3x2 kruistabel afgebeeld worden met de variabelen voor ervaren gezondheid in 3 kolommen (goed, slecht etc.) en geslacht op 2 rijen. Dan zie je dat de meeste vrouwen (28) in het algemeen als niet goed/niet slecht ervaren en de meeste mannen (26) hun gezondheid in het algemeen als slecht zien. In percentages blijken 60% van de vrouwen (28/47) hun gezondheid als niet goed/niet slecht aan te geven en 50% van de mannen als slecht (26/53). Er zijn ook iets meer mannen dan vrouwen die hun gezondheid als goed zien (17 vs 12 personen), dit verschil is alleen kleiner dan het eerder genoemde. In welke mate vrouwen en mannen hun gezondheid anders zien kan niet met 1 effectmaat beantwoord worden, de relatie tussen geslacht en ervaren gezondheid kan wel getoetst worden met de chi-kwadraattoets. Eerst worden het verwachte aantal personen berekend als de nulhypothese (er is geen verband tussen geslacht en ervaren gezondheid, ze zijn onafhankelijk) waar is (zie output 9.3). Daarna worden de verwachte aantallen met de geobserveerde aantallen vergeleken. Hiermee wordt de chikwadraatwaarde berekend: X2 (chikwadraatwaarde) =∑ [(O-E)2/E ], O is het aantal geobserveerde personen in een bepaald vak(in de tabel), E is het aantal verwachte personen in een bepaald vak. In dit geval is X2 gelijk aan 20,040, dit volgt uit een chi-kwadraatverdeling met 2 vrijheidsgraden ([aantal rijen-1] x [aantal kolommen -1]=2-1 x 3-1, 1x2=2) en een p-waarde
Bij de output van de chikwadraattoets komen ook de Linear bij Linear Association te staan, dit is de toets voor de trend, een analyse voor de mate waarin de verhouding man: vrouw gelijkmatig stijgt of afneemt in de verschillende categorieën van de uitkomstvariabele. De p-waarde hiervan is nu 0,081, dus het lineaire verband is niet significant, eerder kwamen we dit ook al tegen, de grootste verschillen zaten namelijk in de categorieën ervaren gezondheid is niet goed/niet slecht en is slecht (met name mannen). De trendtoets kan alleen bij een ordinale categoriale uitkomstvariabele worden geïnterpreteerd (niet bij nominale) en heeft altijd 1 vrijheidsgraad (los van het aantal groepen van de uitkomstvariabele). Bij de uitslag van de chi-kwadraattoets staat ook een voetnoot met: 0 cellen hebben een verwachte telling lager dan 5, het minieme verwachte aantal is 13,63. De regel van 5 houdt in dat een chikwadraattoets alleen gebruikt mag worden als in 80% van de vakken in de tabel het verwachte aantal personen ≥ 5 en als iedere vak het verwachte aantal personen >1. In dit geval is het minimum 13,63, dus wordt er ruim aan voldaan. De regel van 5 is een vuistregel (en niet meer dan dat), als de verwachte aantallen in de verscheidene vakken groot zijn, dan zal de chikwadraattoets een p-waarde geven die bijna gelijk is aan de werkelijke p-waarde, als de verwachte aantallen kleiner worden dan zullen de beide p-waarden meer en meer verschillen van elkaar. De exacte toets van Fisher en de continuïteitscorrectie kunnen wel voor kruistabellen berekend worden die groter zijn, maar ze worden met name gebruikt voor 2x2 tabellen en bij grotere kruistabellen zelden.
Uit de tabel (zie output 9.5) met het rookgedrag wel/niet in 2 rijen en de categorieën ervaren gezondheid in het algemeen blijkt dat de wanneer de gezondheid slechter ervaren wordt, het percentage rokers stijgt. De toets voor trend is hierdoor significant (p=0,027). De relatie tussen ervaren gezondheid en rookgedrag is niet significant (p=0,084). Dit verschil in significantie komt doordat er voor het algehele verband een chikwadraattoets met 2 vrijheidsgraden nodig is en voor de toetstrend een chi-kwadraattoets met maar 1 vrijheidsgraad.
Nu wordt een categoriale uitkomstvariabele vergeleken met meer dan 2 groepen. Het verband tussen ervaren gezondheid en sociaaleconomische status wordt bekeken. Bij het maken van een 3x3 tabel lijken mensen met een lage sociale-economische status met name een slecht gezondheid te beleven en mensen met een hoge sociaaleconomische status met name een goede gezondheid. Bij vergelijking van percentages lijkt het, dat hoe hoger de status, hoe beter de beleving van de gezondheid. Weer kan het verband tussen de variabelen niet met 1 effectmaat weer worden gegeven. Toetsing is wel mogelijk met de chikwadraattoets, hieruit blijkt een p=0,007, de p-waarde voor de trendtoets is 0,001. Aan de regel van 5 wordt voldaan, want het minimale verwachte aantal in elke van de vakken in de tabel bij een ware nulhypothese is 7,83. Bij het vermelden van de p-waarde (0,007), behoort de interpretatie op basis van de percentages in de 3x3 tabel vermeldt te worden, zonder interpretatie zegt de p-waarde weinig.
Een patiënt heeft vaak veel vragen. Ook een arts heeft vragen aan de patiënt en moet de verkregen informatie koppelen aan zijn/haar kennis van medische zaken. De informatie hiervoor haalt de arts uit zijn eigen expertise, uit advies van collega’s, uit biomedisch redeneren en uit klinisch onderzoek. De wetenschappelijke basis voor geneeskunde ligt in verschillende wetenschappelijke disciplines:
Biologische wetenschappen: de volgorde van biologische gebeurtenissen die leiden tot ziekte: anatomie, fysiologie, biochemie en moleculaire genetica. Kennis van biologie is echter niet genoeg om ziekte te voorspellen, omdat dit van veel meer factoren afhangt: vaak zijn ziektemechanismes nog onvoldoende begrepen. Zo worden genetische afwijkingen beïnvloed door genetische, fysieke en sociale omgeving. Biologische kennis genereert hypothesen die in mensen onderzocht moeten worden.
Klinische wetenschappen: onder andere de klinische epidemiologie geeft informatie die gebruikt wordt in de zorg voor de individuele patiënt.
Populatie wetenschappen: onder andere de epidemiologie onderzoekt grote groepen mensen. Epidemiologie is de studie van het vóórkomen van ziekte in populaties. Dit wordt gedaan door gezondheids‘events’ te tellen bij mensen, in relatie tot het natuurlijk voorkomen van deze events in de populatie. De resultaten zijn toepasbaar voor de zorg van de individuele patiënt, maar ook voor de volksgezondheid.
Onderzoek naar gezondheidszorgsysteem: non-biologische factoren als het gezondheidszorgsysteem hebben ook effect op gezondheid en deze kunnen bestudeerd worden.
Kwantitatieve keuzes maken: kosteneffectiviteitsanalyses om zo goed mogelijke zorg te bieden tegen de laagste kosten, en decision analyses om keuzen te rationaliseren en de consequenties van keuzen te begrijpen.
Sociale wetenschappen: deze tak van wetenschap bestudeert hoe het sociale milieu gezondheid, gedrag en het gezondheidszorgsysteem beïnvloedt.
Klinische epidemiologie
De klinische epidemiologie doet voorspellingen over individuele patiënten. Dit wordt gedaan door klinische events te tellen in een groep vergelijkbare patiënten. Er wordt gebruik gemaakt van wetenschappelijke methoden voor accuratesse. Het doel is het ontwikkelen en toepassen van klinische observatie wat zal leiden tot valide conclusies en geen systematische fouten of toevalsfouten. Het is klinisch omdat het antwoorden zoekt op klinische vragen en keuzes. Er is sprake van epidemiologie omdat er epidemiologische methoden worden gebruikt en de individuele patiënt in de context van een populatie wordt gezien.
Evidence based medicine is de toepassing van klinische epidemiologie in de patiëntenzorg en is dus van toepassing op individuele patiënten. Evidence based medicine bestaat uit:
Het formuleren van een klinische vraag voor een individuele patiënt
De beste wetenschappelijke bewijzen vinden
De bewijzen op waarde beoordelen
De bewijzen toepassen in de zorg voor de patiënt
Klinische bewijzen goed op waarde kunnen beoordelen is belangrijk, omdat er tegenwoordig heel veel informatie is en therapeutische interventies potentieel geweldig, maar ook gevaarlijk kunnen zijn.
Basisprincipes in de klinische epidemiologie
Een aantal principes zijn erg belangrijk voor klinische epidemiologie, waaronder: klinische vraag, variabelen, uitkomstmaat, getallen en waarschijnlijkheid, populatie en steekproef, bias, toeval en validiteit.
Klinische vragen gaan over onderwerpen die zowel arts als patiënt bezighouden en zijn dus vaak onderdeel van één van de volgende categorieën: diagnose, prognose, behandeling, oorzaak en preventie.
Variabelen zijn zaken die kunnen verschillen en gemeten kunnen worden. De onafhankelijke variabele is de vermeende oorzaak of voorspeller. De afhankelijke variabele is het mogelijke effect. Extraneous (vreemde) variabelen kunnen ook een effect hebben op de relatie tussen de afhankelijke en onafhankelijke variabele.
De uitkomstmaat heeft altijd met gezondheid te maken, de 5 D’s:
Death: overlijden van de patiënt
Disease: symptomen (of ook wel illness: patiënt perceptie van ziekte)
Discomfort: symptomen die de patiënt ongemak bezorgen
Disability: niet meer dingen kunnen doen die voorheen wel konden
Dissatisfaction: emotioneel ongenoegen met de situatie
(eventueel ook destitution: financiële kosten voor de patiënt en/of gemeenschap)
Deze uitkomstmaten kunnen alleen bij mensen worden onderzocht en dit zijn de zaken die in de patiëntenzorg kunnen worden verbeterd.
Getallen en waarschijnlijkheid: kwantitatieve metingen vormen een solide basis van informatie die zorgen voor betere bevestiging, communicatie en schatting van error (toeval). De klinische uitkomstmaten kunnen in cijfers worden uitgedrukt. Dit kan het beste worden geschat op basis van grotere groepen patiënten.
Een populatie is een groep mensen op een bepaalde locatie of met een bepaald karakteristiek. Een klinische populatie is een groep patiënten met eenzelfde klinische karakteristiek. Een steekproef (sample) is een aantal mensen uit de populatie.
Men wil de karakteristieken van een populatie bepalen aan de hand van de steekproef. ‘Inference’ is trekken van een conclusie op basis van de onderzoeksresultaten in de steekproef die geldig is voor de populatie. Het is belangrijk dat de steekproef op de populatie lijkt, omdat de onderzoeksresultaten (die gevonden worden op basis van de steekproef) ook geldig moeten zijn voor de gehele populatie. In hoeverre de steekproef op de populatie lijkt is afhankelijk van de selectieprocedure. Als elke persoon in de populatie evenveel kans maakt om gekozen te worden, lijkt de steekproef heel erg op de populatie.
Bias is een proces tijdens de inference waarin de resultaten systematisch afwijken van de waarheid (systematische fout), en waarbij de onderzoeksresultaten niet volledig toepasbaar zijn op de gehele populatie. Met name observaties kunnen bias geven, vanwege uitval van patiënten of bevooroordeelde onderzoekers.
Selectiebias: wanneer er behalve de interventie andere systematische verschillen tussen groepen zijn. Als er getest wordt of een interventie beter werkt dan een andere interventie, moeten de groepen het liefst exact gelijk zijn, behalve de variabele (het type interventie). Bij selectiebias is er toch een verschil in beide groepen (die is ontstaan op basis van selectie).
Informatie (measurement) bias: de meetmethode verschilt tussen de twee interventiegroepen.
Confounding-bias: een derde factor is geassocieerd met een variabele en verandert de uitkomst. Hierbij is er nog een variabele (naast de variabele die je wilt onderzoeken) die invloed heeft op de afhankelijke variabele en de onafhankelijke variabele. Dit kan de resultaatvorming verstoren.
Selectiebias treedt op in de selectie van groepen, terwijl confounding-bias tijdens de analyse van de data optreedt. De twee kunnen naast elkaar in één studie voorkomen. Om bias te voorkómen, moet je weten hoe je het kunt opsporen en tegengaan, bepalen hoe groot het effect is van de bias en of het invloed heeft op de klinische uitkomst.
Toeval kan voorkomen in zelfs de beste steekproeven, waardoor de steekproef niet een afspiegeling is van de populatie maar wel heel dicht bij de ware waarde komt. Als er van vele steekproeven het gemiddelde wordt genomen komen de resultaten heel dicht bij de ware waarde. Random variatie is de afwijking van de ware waarde door toeval. Toeval kan voorkomen in elke stap van klinische observatie: kiezen van steekproeven, indelen van de groepen en uitkomsten van metingen. Met behulp van statistiek kan de mate van toeval worden bepaald in de resultaten en worden verminderd, maar nooit volledig worden geëlimineerd.
De effecten van bias en toeval kunnen samen voorkomen. Een instrument kan verkeerd gekalibreerd zijn en systematisch verkeerde resultaten laten zien (bias). Daarnaast kan er random variatie zijn in de waarde die je wilt meten (random variatie). De belangrijkste reden om onderscheid te maken tussen bias en toeval is de manier waarop ermee wordt omgegaan. Bias kan voorkómen worden of worden gecorrigeerd tijdens de analyse. Daarnaast kan bias worden opgemerkt door een oplettende lezer. Toeval kan niet voorkómen worden, maar het kan wel worden verminderd en er kan tijdens de data-analyse rekening mee worden gehouden.
Interne validiteit is de mate waarin de resultaten van een studie correct zijn voor de bestudeerde patiënten, dus of het onderzoek goed is uitgevoerd. Confounding-bias en selectiebias zijn voorbeelden van bedreigingen voor de interne validiteit van een studie. De externe validiteit is de mate waarin de resultaten van een studie correct zijn voor de gehele populatie, dus dit wordt ook wel de generaliseerbaarheid genoemd.
De generaliseerbaarheid is echter afhankelijk van beoordeling door de lezer. Als de interne validiteit goed is, is het aan de lezer om te bepalen of de uitkomsten van de studie toepasbaar zijn voor zijn of haar patiënt.
Informatie en keuzes maken
Goede keuzes zijn gebaseerd op goede informatie, maar ook op basis van beoordelingen, risico’s en voordelen. Medical decision making is een discipline op zichzelf, waarbij er kwalitatieve onderzoeken zijn gedaan naar de wijze waarop clinici keuzen maken. Er wordt ook gebruik gemaakt van kwantitatieve methodes als decision analysis, cost-benefit analysis en cost-effectiveness analysis. Met deze methodes kan het keuzeproces expliciet gemaakt worden en onderzocht worden.
Shared decision making is het proces waarbij patiënt en arts samen de keuze maken. Patiënt is de expert op het gebied van zijn eigen hoop op uitkomst van zorg, en de arts is de expert op het gebied van wat nodig is om de doelen van de patiënt te bereiken. Om dit te kunnen doen, is de arts afhankelijk van wetenschappelijk bewijs, maar ook van zijn ervaring over zorg waar patiënten niets van weten (bijvoorbeeld hoe het is om geïntubeerd te worden). Dit noemt men ook wel de empirische basis van handelen.
De basis waarop een keuze wordt gemaakt tussen behandelingsalternatieven is dus de voorkeur van de patiënt, gecombineerd met het meest recente wetenschappelijke bewijs.
Clinici verminderen data van een test naar een simpelere vorm om de data bruikbaar te maken in de praktijk. Bij hartgeruis maakt het kleine verschil niet uit, maar gaat het om het verschil tussen verwaarloosbaar geruis en ernstig geruis dat behandeld dient te worden. De vereenvoudiging van testresultaten wordt dus door artsen gedaan als het gaat om het vaststellen van diagnose en behandeling.
Na een testuitslag gekregen te hebben, kan er nooit met zekerheid een diagnose gesteld worden. De waarschijnlijkheid van de diagnose is alleen groter geworden.
Een eenvoudige manier om naar de relatie te kijken tussen een testresultaat en de echte diagnose is weergeven in de figuur hieronder:
Figuur 3.1 De relatie tussen testresultaat en diagnose, zie bijlage.
Een test heeft een correct resultaat gegeven als hij een positief resultaat geeft bij de aanwezigheid van de ziekte. De test is dan terecht positief. Als de test een negatief resultaat geeft bij afwezigheid van de ziekte is de test terecht negatief. Maar als de test een positief resultaat geeft bij afwezigheid van de ziekte is de test fout-positief. Als het testresultaat negatief is, terwijl de ziekte aanwezig is, is de test fout-negatief.
De gouden standaard
De nauwkeurigheid van een test laat zien of de ziekte echt aanwezig is of niet. De ‘perfecte’ test die een diagnose met 100% zekerheid kan bevestigen, wordt de ‘gouden standaard’ genoemd. Soms is de gouden standaard goedkoop en simpel, denk aan een keeluitstrijkje voor een groep A streptokokken. Maar biopsie, radiologie en autopsie zijn vele malen duurder. Bij sommige ziekten geldt het screenen en follow-up als gouden standaard. Dit is het geval bij kankers. Vaak zijn er duurdere en gevaarlijkere, maar wel betere manieren om achter een diagnose te komen, maar verkiezen arts en patiënt voor de makkelijkere en veiligere manier. De patiënt verkiest een sputumkweek boven longbiopsie bij verdenking op een pneumonie.
De grootste waarde van een diagnostische test is verkregen door de kliniek, en niet door onderzoek. Ook is het zo dat het aantal fout positieven beter naar voren komt dan het aantal fout negatieven, omdat deze vaak niet meer onderzocht worden naderhand, of pas bij klachten. Dan is de uitslag van een volgende test terecht positief geworden. Een andere misleidende factor is dat testen alleen gedaan worden bij mensen met klachten. Mensen zonder klachten zouden eigenlijk ook een keer getest moeten worden om de accuraatheid van een test te kunnen meten.
Bij sommige aandoeningen mist er een objectieve standaard voor ziekte. Zo is het bij angina pectoris moeilijk vast te stellen wanneer iemand het wel heeft, en wanneer niet. Ook bij ander ziekten is de diagnose moeilijk te stellen, omdat er geen echte diagnose gesteld kan worden. Denk aan opvliegers, autisme, prikkelbare darmsyndroom (oftewel IBS, irritable bowel syndrome). Bij deze ziekten worden standaardgroepen gemaakt en lijsten met symptomen en testuitslagen (de zogeheten ziektecriteria) om tot een diagnose te komen.
Het is soms moeilijk om informatie te vinden over de overeenkomst tussen de test die gebruikt wordt en de standaard. Dit kan ervoor zorgen dat er imperfecte testen vergeleken worden. Hierbij wordt een test verkozen boven een andere, omdat deze test meer is gebruikt als gevolg van consensus door experts. Hierdoor ontstaat de volgende paradox: als een nieuwe test wordt vergeleken met een oude, imperfecte standaardtest, dan kan de nieuwe test slechter lijken terwijl de accuraatheid van de test juist beter is. Bijvoorbeeld: als een nieuwe test meer sensitief is dan de standaardtest, dan zouden de nieuwe patiënten fout-positief lijken in vergelijking tot de oude test. Ook zijn nieuwe testen vaak meer negatief dan oude testen, en dan zouden deze patiënten fout-negatief lijken, terwijl ze terecht negatief zijn.
Sensitieve testen worden gebruikt om geen personen te missen. Bijvoorbeeld bij een gevaarlijke, maar behandelbare conditie als tuberculose, syfilis of Hodgkin. Ook zijn sensitieve testen goed te gebruiken bij vroegdiagnostiek.
Een hoog sensitieve test is dus het meest bruikbaar voor de clinicus als het resultaat negatief is, om de ziekte uit te sluiten. Denk aan het ezelsbruggetje ‘SNOUT’: when a sensitive (SN) test is negative (N), it rules out (OUT) the disease.
Specifieke tests zijn erg bruikbaar om een ziekte te bevestigen (to rule in) die hoog in de differentiaal diagnose stond na anamnese en lichamelijk onderzoek. Een hoog specifieke test is zelden positief in de afwezigheid van ziekte. Het geeft dus maar weinig fout negatieve resultaten. Hoog specifieke tests zijn vooral erg belangrijk als een fout positief resultaat een patiënt fysiek, emotioneel of financieel kan beschadigen. Denk aan het ezelsbruggetje ‘SPIN’: when a specific (SP) test is positive (P), it rules in (IN) the disease.
Het is bijna niet mogelijk om een test zo te maken dat hij en heel specifiek en heel sensitief is. Bij een test waar de grens op verschillende waarden gelegd kan worden, is er vaak en cut-off punt. Dit punt ligt in een continuüm tussen normaal en abnormaal, en is een arbitraire beslissing. Als consequentie van dit cut-off punt kan de sensitiviteit van de test verhoogd worden ten koste van de specificiteit.
De ROC curve wordt gebruikt om een relatie tussen sensitiviteit en specificiteit aan te geven. ROC staat voor ‘receiver operator characteristic’ curve. Deze is geplot door de terecht-positieven (sensitiviteit) tegen de fout positieven (1-specificiteit) te plotten.
Testen die goed discrimineren liggen in de linkerbovenhoek. Testen die minder goed discrimineren liggen meer richting de diagonaal. De diagonaal laat de relatie zien tussen terecht positieven en fout positieven. De ROC curve laat zien hoe de trade-off tussen sensitiviteit en specificiteit is voor een test en deze kan gebruikt worden om te beslissen waar het beste cut-off punt is.
De accuraatheid van een test kan beschreven worden als de oppervlakte onder de grafiek (‘area under the curve’). Hoe groter dit gebied, hoe beter de test is.
Moeilijkheden kunnen ontstaan als de patiënten die gebruikt worden om de test te beschrijven verschillend zijn dan de patiënten voor wie de test gebruikt zal worden in praktijk. Verder verschillen patiënten met de ziekte vaak in ernst, stagering of duur van de ziekten. De testsensitiviteit neigt hoger te zijn in ernstigere aangedane patiënten.
In theorie zijn sensitiviteit en specificiteit van een test onafhankelijk van de prevalentie van een ziek individu en ze worden tot de testeigenschappen van een test gerekend.
Screenen is het gebruiken van een test in een asymptomatische populatie waarin de prevalentie van de ziekte laag is. Vaak is zijn de gevallen die gevonden worden niet ernstig.
Waarden van sensitiviteit en specificiteit zijn meestal geschat van observaties op relatief kleine groepen proefpersonen met en zonder ziekte. Omdat de kans (random variatie) in elke groep, zeker als deze klein is, verschilt, kan deze fout geïnterpreteerd worden, zelfs als er geen studie is. De geobserveerde waarden zijn verenigbaar met een range van echte waarden die gekarakteriseerd worden als 95% ‘confidence intervals’ (95%-betrouwbaarheidsinterval). Binnen de wijdte van deze range van waarden wordt de geschatte sensitiviteit en specificiteit gedefinieerd. De precisie van een schatting van sensitiviteit stijgt als de groep geteste mensen stijgt.
De voorspellende waarde
Sensitiviteit en specificiteit zijn waarden van een test die worden gebruikt om te bekijken of een test wel of niet gebruikt dient te worden. Op het moment dat de resultaten van een test beschikbaar zijn, dan zijn de begrippen sensitiviteit en specificiteit niet meer relevant, omdat de waarden zijn verkregen in personen die de ziekte wel of niet hebben.
De mogelijkheid van ziekte, gegeven als een resultaat van de test, wordt ook wel de voorspellende waarde van een test genoemd. Een positief voorspellende waarde is de mogelijkheid van een ziekte bij een patiënt met een positief testresultaat.
De negatief voorspellende waarde is de mogelijkheid van het niet hebben van de ziekte waarbij het testresultaat normaal is, dus negatief.
De vraag is dus: als een patiënt een positief testresultaat krijgt, wat zijn dan de kansen dat de patiënt de ziekte ook daadwerkelijk heeft? En andersom, als een patiënt een negatief testresultaat heeft, wat is dan de kans dat deze persoon de ziekte niet heeft?
De voorspellende waarden wordt soms posterior (of posttest) voorspelbaarheid genoemd, oftewel de kans op ziekte nadat het testresultaat bekend is.
Accuraatheid wordt soms gebruikt om de waarde van een test te sommeren. De accuraatheid is de proportie van alle testresultaten, negatief en positief, die uiteindelijk waar blijken te zijn.
De voorspellende waarde van een test is niet alleen een eigenschap van de test alleen. Het is vastgesteld door de sensitiviteit en specificiteit van de test en de prevalentie van een ziekte in de geteste populatie.
Prevalentie wordt ook wel prior of pretest waarschijnlijkheid genoemd. Dus de waarschijnlijkheid van een ziekte voordat het testresultaat bekend is. Je kunt je voorstellen dat in een populatie waarin de ziekte vaak voorkomt, de kans op ziekte voor het inzetten van een test al groot is.
Voor de positief voorspellende waarde wordt ook wel de volgende formule gebruikt:
Sensitiviteit x prevalentie
(sensitiviteit x prevalentie) + (1-specificiteit) x (1- prevalentie)
Hoe sensitiever een test is, hoe beter de negatief voorspellende waarde zal zijn.
Hoe specifieker een test is, hoe beter de positief voorspellende waarde.
Omdat de voorspellende waarde ook beïnvloed wordt door de prevalentie van een ziekte is het niet afhankelijk van de setting waarin de test wordt gebruikt.
Positieve resultaten bij patiënten met een lage likelihood zullen veelal foutpositief zijn. Negatieve resultaten bij een sensitieve test en een hoge likelihood zijn veelal fout negatief.
De prevalentie is belangrijker dan de sensitiviteit en specificiteit in het vaststellen van de voorspellende waarde. De prevalentie kan over een veel grotere range verschillen dan de sensitiviteit en specificiteit. Prevalentie van een ziekte kan variëren van een fractie van een procent tot wel 100 procent in klinische settings die afhangen van leeftijd, geslacht, risicofactoren en klinische bevindingen.
Vaak wordt de prevalentie geschat door een arts alvorens een test aan te vragen. Deze geschatte prevalentie van ziekte is vaak niet nauwkeurig. Er wordt aangeraden om te kijken in MEDLINE om de prevalentie te weten te komen.
De prevalentie kan verhoogd worden voordat er getest wordt. Zo kunnen de geteste groepen in ziekenhuizen zijn, waardoor de kans op ziekte al groter is. Dit wordt referral process genoemd. Ook kan er sprake zijn van verschillende demografische groepen. Zo heeft iemand die 65 is en pijn op de borst heeft, 15 keer meer kans op hart- en vaatziekten dan iemand van 30.
De specifieke klinische situatie is de grootste beïnvloedende factor van de beslissing om tests te bestellen of niet. Een mevrouw met pijn op borst heeft veel meer kans op hart- en vaatziekten als ze rookt en typische anginaklachten heeft.
Een diagnostische test is het meest bruikbaar in een gemiddelde situatie waarin de prevalentie niet erg hoog is, maar ook niet erg laag. Bijvoorbeeld, een 60 jaar oude man met atypische pijn op de borst heeft 67% kans op de diagnose coronaire hartziekten alvorens een stress-test te ondergaan. Na de test, met een langer dan 2,5mm ST-segment depressie op het ECG heeft hij 99% kans op coronaire harziekten. Je ziet dus dat de stress-test de waarschijnlijkheid op de ziekte vergroot en in dit geval zelfs bijna 100% maakt. Testen dienen daarmee dus om de waarschijnlijkheid op ziekte te vergroten of te verkleinen.
Likelihood ratio’s
Likelihood ratio’s zijn een alternatieve manier van het beschrijven van de uitvoering van een diagnostische test. De ratio’s vatten dezelfde informatie samen als bij de sensitiviteit en specificiteit, en kunnen gebruikt worden om de waarschijnlijkheid van een ziekte te berekenen na het verkrijgen van een positieve of negatieve test. Het voordeel van de likelihoodratio’s is dat ze gebruikt kunnen worden op multipele niveaus van testresultaten.
Probability (waarschijnlijkheid) wordt gebruikt om sensitiviteit, specificiteit en de voorspellende waarde uit te drukken. De probability is de proportie van mensen waarin de geteste karakteristieken aanwezig zijn.
Odds is de ratio van twee probabilities.
Odds = probability of event : (1 – probability of event)
Probability = Odds : (1 – Odds)
De likelihood ratio van een waarde van een diagnostische test wordt gedefinieerd als de probability van dat testresultaat in mensen met de ziekte gedeeld door de probability van het resultaat in mensen zonder de ziekte. Likelihood ratio’s drukken uit hoeveel keer meer of minder waarschijnlijk het is om een testresultaat te vinden in een ziek persoon tegenover een gezond person. In een dichotoom resultaat bij een positieve likelihood ratio is de ratio van de proportie van zieke mensen met een positief testresultaat (sensitiviteit) tegen de proportie niet zieke mensen met een positief testresultaat (1 – specificiteit). De negatieve likelihood wordt berekend als het testresultaat negatief is. De proportie van zieke mensen met een negatief testresultaat (1-sensitiviteit) worden gedeeld door de proportie niet zieke mensen met een negatief testresultaat (specificiteit).
Likelihood wordt gebruikt met odds, niet met probability. Daarom is de eerste stap om probability om te zetten naar pretest odds door middel van: Odds = probability of event : (1 – probability of event). De likelihood ratio’s kunnen dan gebruikt worden om de pretest odds om te zetten naar posttest odds door de volgende formule:
Pretest odds x Likelihood ratio = posttest odds.
Posttest odds kunnen ook weer omgezet worden naar probability door de volgende formule:
Probability = odds : (1 + Odds).
In deze relaties hebben pretest odds dezelfde informatie als pretest probability (prevalentie). Likelihood ratio’s hebben dezelfde ratio’s als sensitiviteit/specificiteit en posterior odds hebben dezelfde als de positief voorspellende waarde (posttest probability).
Het grote voordeel van likelihood ratio’s is dat het mogelijk maken verder te gaan dan de simpele classificaties van een testresultaat. Je krijgt dus een betere uitslag dan ‘normaal’ of abnormaal door een cutoff punt.
Voorwaarden in de marginale range kunnen likelihood ratio’s een betere beschrijving geven met allerlei soorten waarden die eruit komen. Likelihood geeft dus meer informatie dan alleen afwezig of aanwezig. De likelihood kan dus op elk niveau van testresultaat informatie geven.
Multipele diagnostische tests kunnen op twee manieren geldig zijn. Ze kunnen gebruikt worden in parallelle testen (tegelijkertijd), en een positief testresultaat van een test wordt gezien als bewijs voor de ziekte. Of ze worden in serie gedaan (consecutief testen) met het de besluit om de volgorde van testen af te laten hangen van vorige testresultaten.
Oorzaak
Een oorzaak is iets dat een effect of resultaat veroorzaakt. Oorzaken geven houvast voor preventie, diagnose en behandeling. Er zijn enkele en meervoudige oorzaken. Een enkele oorzaak kan zijn een micro-organisme. Echter, vele ziekten ontstaan door meervoudige oorzaken: een ‘web of causation’.
Biomedici zoeken naar pathogenetische mechanismen voor ziekte, maar een heleboel oorzaken voor ziekte (risicofactoren) zijn afhankelijk van omgevingsfactoren en menselijk gedrag. Soms zijn deze factoren zelfs nog belangrijker, dus in de klinische praktijk is het erg belangrijk om deze factoren mee te nemen in preventie, diagnose en behandeling, zelfs als de pathologie erachter nog onbekend is.
Het ontstaan van ziekte is dus een samenspel van omgeving, gedrag en biologie. De oorzaken kunnen samen ook interacteren: wanneer meerdere oorzaken tegelijk aanwezig zijn, gaan ze de interactie met elkaar aan. Synergisme is wanneer het effect van twee risicofactoren samen groter is dan de twee risicofactoren los van elkaar. Antagonisme is wanneer het effect van twee risicofactoren samen kleiner is dan de twee risicofactoren los van elkaar. Additie is wanneer twee risicofactoren bij elkaar opgeteld precies hetzelfde effect geven als de som van de afzonderlijke risicofactoren. Het is moeilijker de oorzaak van ziekte te verwijderen als er meerdere risicofactoren zijn. Maar de ernst van de ziekte kan ook minder gemaakt worden door één risicofactor te verwijderen. Een effectmodificator is een andere variabele die de kracht van het verband tussen twee variabelen verandert. Een voorbeeld van een effectmodificator is geslacht: bij mannen kan het effect van een variabele op een uitkomst anders zijn dan in vrouwen.
Oorzaak vaststellen
Het is nooit met honderd procent zekerheid vast te stellen dat een oorzaak ook echt de oorzaak van het effect is. Het is echter wel heel aannemelijk te maken door empirisch bewijs. Er moeten dan vele onderzoeken gedaan worden. Niet alle associaties zijn namelijk causaal: er zijn verschillende redenen voor associaties en die moeten worden uitgesloten. Je moet jezelf eerst afvragen of de associatie echt is, of door bias of toeval is ontstaan. Als er geen bias of toeval is, dan is de associatie echt. Daarna moet je nagaan of de associatie ook causaal is en dat er geen confounder aanwezig is. Als er ook geen confounder is, dan is de causale relatie aangetoond.
De kracht van het type onderzoek draagt ook bij aan het aantonen van een causale relatie, maar de manier waarop het onderzoek is uitgevoerd ook. Het beste onderzoek om een causale relatie aan te tonen is een randomized controlled trial met veel patiënten, blindering van iedereen, zeer weinig loss to follow-up en gestandaardiseerde manieren van meten en analyseren. Randomized controlled trials beschermen tegen bias en confounding. Ze zijn echter niet geschikt om risicofactoren te onderzoeken vanwege ethische factoren. Voor risicofactoren zijn observationele studies geschikt.
Ecologische studies
Aggregate risk studies (ecologische studies) zijn studies waarin de blootstelling aan een risicofactor wordt gekarakteriseerd door de gemiddelde exposure in een groep waar het individu tot behoort. Ecologische studies worden gebruikt om het gezondheidszorgsysteem te evalueren of om grote populaties te onderzoeken. Het grote probleem is een mogelijke bias genaamd de ecological fallacy. De zieke individuen in de groep hoeven niet per se blootgesteld te zijn aan de risicofactor. Daarnaast kunnen er confounders zijn. Deze studies zijn goed voor het vormen van hypothesen maar moeten verder onderzocht worden door randomized controlled trials.
Time-series studies zijn onderzoeken waarbij het effect wordt gemeten op verschillende punten in de tijd en op verschillende plaatsen. Dit wordt gedaan voor en nadat de oorzaak is geïmplementeerd. Er kan dan worden gekeken of het effect verandert en er kan onderscheid gemaakt worden tussen veranderingen over een periode door de effecten van de interventie. Multipele time-series studies worden gedaan met meerdere groepen, waarbij de groepen op een verschillend punt in de tijd de interventie krijgen. Er wordt vervolgens gekeken of er effect optreedt en hoelang het duurt voor effect optreedt. Als het goed is, moet het effect in de verschillende groepen na dezelfde tijdsduur ontstaan.
Bewijs
Verschillende kenmerken maken dat een causale relatie meer of minder aannemelijk is (tabel 11.1).
Een oorzaak moet voorafgaan aan een effect. Soms is het moeilijk de twee te onderscheiden. Wanneer dit niet zo is, is dit een sterk argument tegen causaliteit. Wanneer dit wel zo is, is dit een zwak argument voor causaliteit, omdat er verschillende zaken vooraf kunnen gaan die niets met ziekte te maken hebben.
Een sterke associatie is een sterker bewijs voor causaliteit: groter relatief risico of absoluut risico. Ook is de kans op bias groter bij zwakkere associaties.
Wanneer het effect groter wordt als de dosis van de risicofactor groter wordt, is dit ook een argument voor causaliteit. Geen dosis-effect relatie is echter geen argument tegen causaliteit. Het bestaan van een dosis-effect relatie is ook geen uitsluitsel voor een confounder.
Wanneer de risicofactor verwijderd wordt, neemt het effect ook af. Dit is ook bewijs voor causaliteit, maar niet onfeilbaar bijvoorbeeld door confounding.
Wanneer verschillende studies, en ook verschillende soorten studies, met verschillende settings en verschillende patiënten steeds dezelfde conclusies trekken is dit bewijs voor causaliteit. Gebrek aan consistentie is geen bewijs tegen causaliteit.
Wanneer het biologische mechanisme achter een associatie nog onbekend is, wordt er sceptisch tegen een associatie aan gekeken. Soms is dit goed, soms ook niet, omdat soms de medische kennis nog ontoereikend is. Soms stimuleren nieuwe associaties het onderzoek voor biologische mechanismen. Als er wel al biologische kennis is, vergroot dit het bewijs voor associatie.
Specificiteit (één oorzaak, één gevolg), zoals bij acute infecties en genetische aandoeningen, is een sterk bewijs voor causaliteit. Afwezigheid van specificiteit is echter een zwak bewijs tegen causaliteit.
Wanneer er al bekend is dat er bij een bepaalde risicofactor causaliteit is, geeft dit een zwak bewijs voor causaliteit van een analoge risicofactor.
Het is belangrijk het gevonden bewijs van allerlei verschillende studies te beoordelen. In eerste instantie moeten de studies op zichzelf beoordeeld worden. Daarna kunnen er systematische reviews worden gedaan van de verschillende studies om de kracht van het bewijs voor causaliteit te bepalen. Systematische reviews zijn studies die verschillende RCT’s op één onderwerp combineren en de gemeenschappelijke bewijskracht onderzoeken. Uiteindelijk is de systematische review de studie met de meeste bewijskracht.
Medisch onderzoek gaat vaak over het bestuderen en kwantificeren van (patho)fysiologische of (patho)biologische relaties bij proefpersonen. Dit kan zowel experimenteel als observationeel worden uitgevoerd.
De basisstructuur van medisch-wetenschappelijk onderzoek is gelijk. Het bestaat uit de volgende stappen:
Beschrijven motief
Relevante literatuur bestuderen
Definitieve vraagstelling formuleren
Passende onderzoeksvorm selecteren
Globale onderzoeksontwerp beschrijven
Onderzoeksvariabelen definiëren
Operationalisering
Draaiboek schrijven
Dataverzameling
Data-analyse
Interpretatie resultaten
Rapportage en publicatie
Motief beschrijven
Een onderzoek moet een motief hebben om een bepaald onderzoek uit te voeren. Er zijn veel verschillende soorten motieven om onderzoek te doen, bijvoorbeeld nieuwsgierigheid, voorgaande onderzoeksbevindingen (vervolgonderzoek) of klinisch of maatschappelijk probleem.
Een onderzoek kan verschillende vormen relevantie hebben: wetenschappelijke relevantie, maatschappelijke/klinische relevantie en praktische relevantie. Van wetenschappelijke relevantie is sprake als er bijvoorbeeld al een onderzoek gedaan is naar een bepaald onderwerp en er vervolgonderzoek nodig is. Van maatschappelijke/klinische relevantie is sprake wanneer er een klinisch/maatschappelijk probleem is waar onderzoek naar gedaan kan worden om een oplossing te vinden. Praktische relevantie heeft een onderzoek als het onderzoek leidt tot oplossingen voor praktische problemen.
Het is belangrijk om te bedenken wij er belang bij heeft dat de vraagstelling wordt beantwoord. Deze partijen worden stakeholders (belanghebbenden) genoemd. Er bestaan verschillende categorieën: patiënten, artsen/andere professionals, overheidsinstanties, bedrijven die producten verkopen voor de medische markt, verzekeraars en onderzoekers zelf.
Onderzoeksgelden (subsidies) bepalen voor een belangrijk deel welke onderzoeken wel en welke niet uitgevoerd gaan worden. Deze subsidiegevers bepalen daardoor voor een groot deel naar welke vraagstukken onderzoek gedaan wordt. Om achter een relevant vraagstuk te komen dienen onderzoekers te praten met stakeholders omdat zij te maken hebben met het probleem. Door goed het vraagstuk in beeld te brengen zal er een beter antwoord op de vraagstelling uit het onderzoek komen omdat de onderzoeker juiste keuzes kan maken tijdens onderzoek waardoor het werkelijke vraagstuk onderzocht wordt.
Als de onderzoeker helemaal op de hoogte is van de motieven en belangen kan het onderzoeksprobleem beschreven worden: de voorlopige vraagstelling.
Relevante literatuur bestuderen
Dit is nodig om erachter te komen welke informatie al beschikbaar is over een bepaald probleem. Door het bestuderen van oriënterende literatuur (overzichtsartikelen, inleidende boeken en gesprekken met experts) kan het doen van onnodig onderzoek en het maken van onnodige fouten worden voorkomen. Door het doen van literatuuronderzoek kan de daarvoor gemaakt voorlopige vraagstelling bijgesteld worden. Er vindt trechtering van de vraagstelling plaats: de vraagstelling wordt steeds meer ingeperkt.
Na het bestuderen van oriënterende literatuur kan worden overgegaan op het bestuderen van literatuur die antwoord geeft op specifieke vragen. Het is belangrijk om tijdens het bestuderen van literatuur een kritische instelling te hebben.
Het is belangrijk een literatuuroverzicht te maken. Door dit te doen verbetert het inzicht in de wijze waarop het onderzoek uitgevoerd moet gaan worden. Uit dit literatuuronderzoek volgt de definitieve vraagstelling.
Definitieve vraagstelling formuleren
Dit is de vraag waar het onderzoek antwoord op moet gaan geven. Deze moet eenduidig te interpreteren zijn. Er wordt vaak gebruik gemaakt van de PICO-methode. Dit staat voor: patiënt, intervention, comparison en outcome. Al deze zaken moeten in de definitieve vraagstelling worden opgenomen.
De vraagstelling moet onderzoekbaar zijn. Ook moet uit de vraagstelling blijken naar welke informatie de onderzoeker op zoek is. Dit zijn de criteria voor een wetenschappelijk vraagstelling: onderzoekbaar, volledig, eenduidig, enkelvoudig, relevant, eenvoudig en correct geformuleerd.
Bij inventariserend/beschrijvend/explorerend onderzoek wordt gedaan om meer inzicht te krijgen in een bepaalde natuurlijk situatie of natuurlijke ontwikkeling. Bij toetsend onderzoek wordt een bepaald effect of een bepaalde samenhang getoetst.
Uit de definitieve vraagstelling moet duidelijk zijn wat bij wie, waar en wanneer wordt onderzocht.
Onderzoeksvorm selecteren
Meestal is er niet veel keuze in welke onderzoeksvorm bij de vraagstelling past. Echter, soms zijn er wel meerdere opties en moet de onderzoeker bepalen welke vorm het meest geschikt is (zie H3 voor de verschillende onderzoeksvormen).
Onderzoeksontwerp beschrijven
In deze fase wordt in grove lijnen opgeschreven hoe het onderzoek zal gaan verlopen. Een beschrijving van het onderzoeksontwerp bevat de volgende zaken: onderzoekspopulatie, plaats en tijd van het onderzoek, aard van de metingen en de wijze waarop de gegevens verzameld en geanalyseerd gaan worden.
Onderzoeksvariabelen definiëren
Er zijn verschillende categorieën variabelen:
Afhankelijke variabelen: dit zijn meestal de ziekte- of gezondheidsvariabelen. Deze variabele is het resultaat van een of meer andere factoren.
Onafhankelijke variabelen (ook wel determinant): deze variabele moet bijdragen aan de verandering van de afhankelijke variabelen. Dit zijn de vermoede oorzaken in de causale relatie tussen de variabelen. Deze variabelen hebben dus effect op de afhankelijke variabele.
Verstorende variabelen (ook wel confounder): dit zijn onafhankelijke variabelen die geassocieerd zijn met de determinant. Hierin is de onderzoeker niet geïnteresseerd maar ze dienen toch betrokken te worden bij het onderzoek om het zuivere effect van de determinant op de afhankelijke variabele te bepalen.
Effect modificerende variabelen: deze modificeren de sterkte van het effect van de determinant op de afhankelijke variabele. De sterkte van het effect is anders voor verschillende waarden van de effect modificerende variabelen (het effect van zout op bloeddruk is bijvoorbeeld sterker bij mannen dan bij vrouwen).
Achtergrondvariabelen: deze beschrijven de onderzoekspopulatie (mensen, dieren, weefsels).
Intermediaire variabelen: deze maken deel uit van de causale relatie tussen determinant en afhankelijke variabele.
Wanneer de relevantie variabelen uitgekozen zijn is het belangrijk om deze nauwkeurig theoretisch te definiëren.
Operationaliseren
Nu worden de variabelen die betrokken zijn bij het onderzoek meetbaar gemaakt. Er moet ook een geschikt meetinstrument gekozen worden om de meetbare variabele daadwerkelijk te kunnen meten. Er moeten criteria opgesteld worden waaraan de variabelen moeten voldoen.
Bij deze fase is het belangrijk de validiteit van het meetinstrument en daarmee het onderzoek te bewaken. Dit betekent dat er op gelet moet worden of er nog wel gemeten wordt wat men beoogt te meten. Ook moet de reproduceerbaarheid van de meting goed zijn. Dit houdt in dat bij het herhalen van dezelfde meting het meetinstrument dezelfde waarde aangeeft.
Draaiboek schrijven
In deze fase wordt het onderzoeksprotocol geschreven. Hierin staat in detail wat er stap voor stap gedaan gaat worden in het onderzoek. De volgende punten moeten in ieder geval aan de orde komen: motief, vraagstelling, samenvatting van de onderzochte literatuur, globale onderzoeksontwerp, variabelen, meetmethoden, onderzoekspopulatie (ook de grootte), onderzoeksorganisatie (ook het tijdschema), kosten, registratie, beveiliging van gegevens, analyseschema en rapportage.
Het is belangrijk onderscheid te maken tussen de doelpopulatie (de groep mensen waarover je uiteindelijk een uitspraak wilt kunnen doen) en de onderzoekspopulatie (waaruit de steekproef getrokken is) en de steekproef.
Er zijn verscheidene methoden om een steekproef te trekken: aselect en systematisch. Bij aselecte steekproeven hebben alle personen uit de onderzoekspopulatie een even grote kans om in de steekproef terecht te komen. Een systematische steekproef hebben de personen uit de onderzoekspopulatie ongelijke kansen om in de steekproef terecht te komen. Dit kan soms het geval zijn bij proefdieronderzoek waarbij een aantal gefokte dieren aangeleverd worden. Meestal geeft dit geen problemen omdat de groepen dieren zeer homogeen zijn. In het protocol moet duidelijk beschreven staan wat de precieze onderzoekspopulatie is en hoe de steekproef getrokken is.
De minimaal benodigde grootte van de steekproef kan middels statistische tests geschat worden. Hierbij wordt rekening gehouden met de nauwkeurigheid waarmee de onderzoeker het vraagstuk wil beantwoorden. Bij het bepalen van de grootte van de steekproef wordt ook rekening gehouden met de verwachtte uitval en non-respons. Bij onderzoek met enquêtes is er vaak veel non-respons (40%). Hierbij moet je dan nagaan of de non-responders systematisch verschillen van de responders.
Ook is de logistiek een belangrijk onderdeel wat in het onderzoeksprotocol beschreven moet worden. Er moet een tijdschema gemaakt worden waar met veel factoren rekening gehouden moet worden (o.a. vakantiedagen, tijd nodig voor vooronderzoek, etc.).
Wanneer het onderzoek gefinancierd wordt door een subsidiegever is het ook belangrijk om een kostenplaatje in het onderzoeksprotocol te verwerken. Er zijn veel kostenbronnen bij het doen van medisch-wetenschappelijk onderzoek. Het grootste deel gaat naar de onderzoekers en ondersteunend personeel. Echter, ook moeten eventuele proefdieren, medicatie, reiskosten, huisvestingkosten, etc. betaald worden.
Het is belangrijk om op een efficiënte manier data te registreren. Elke handeling moet vastgelegd worden. Ook zijn het vertrouwelijke gegevens waar soms mee gewerkt wordt. Er moet dus aandacht besteed worden aan de beveiliging hiervan.
Ook moet in deze fase alvast nagedacht worden over de rapportage en publicatie. Wie publiceert mee en in welke volgorde. Dit voorkomen onenigheid achteraf.
Dataverzameling
Eerst moet alles gereed gemaakt worden om de daadwerkelijke data te kunnen verzamelen. Denk hierbij aan het trekken van de steekproef, het bestellen van medicatie, het protocol aan de medisch-ethische commissie voorleggen, etc.
Nu kan de echte dataverzameling beginnen. Dit zou foutloos moeten kunnen verlopen omdat het onderzoek eigenlijk op papier al is uitgevoerd bij het maken van het onderzoeksprotocol. Echter, vaak ontstaan er onverwachte situaties. Tijdens deze fase dient nauwkeurig een logboek bijgehouden te worden.
Data-analyse
Het is onmogelijk om alle data die verzameld is te analyseren. Deze moet daarom eerst worden omgezet tot handzame parameters.
Interpretatie van de resultaten
In deze fase moet de onderzoeker goed onderbouwen hoe hij/zij gekomen is tot zijn/haar interpretatie van bepaalde resultaten. In deze fase wordt eigenlijk antwoord gegeven op de vraagstelling. Hier dient ook de generaliseerbaarheid en de bijdrage die het onderzoek heeft geleverd beschreven te worden.
Rapportage en publicatie
De resultaten moeten gerapporteerd worden zodat belangstellenden er kennis van kunnen nemen en er een kritisch oordeel over kunnen vormen. Een geschikte manier om dit te bewerkstelligen is een wetenschappelijk tijdschrift, maar ook een boek, proefschrift of een congresbijdrage kan dit bewerkstelligen. Er wordt vaak al begonnen met schrijven van het artikel voordat de data geanalyseerd wordt.
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Field of study
Add new contribution