VU - Geneeskunde - blok 3.2.4. - Professionele Ontwikkeling en Wetenschap - Verplichte stof - Deel 2

Deze samenvatting is gebaseerd op het studiejaar 2013-2014.

Inleiding in de toegepaste biostatistiek - Multipele regressieanalyse (predictie- en associatiemodellen) (H7)

Het type regressieanalyse hangt af van de vorm van de uitkomstvariabele:

  1. Continue uitkomstvariabele: lineaire regressieanalyse

  2. Dichotome uitkomstvariabale: logistieke regressieanalyse

  3. Overlevingsdata (combinatie van een dichotome uitkomst en de tijd tot die uitkomst): Cox-regressieanalyse

Om confounding en effect-modificatie te onderzoeken moet je meer dan één variabele tegelijkertijd in een regressiemodel analyseren. Er wordt dan gesproken van een multipele regressieanalyse. Bij een multivariatie regressieanalyse worden er meer afhankelijke variabelen gebruikt en bij een multipele regressieanalyse worden er meer onafhankelijke variabelen gebruikt.

Een multipele regressienalayse wordt gebruikt om statische modellen te bouwen. Hierbij kan onderscheid gemaakt worden tussen associatiemodellen (zo goed mogelijk schatten schatten van het verband tussen een uitkomstvariabele en een centrale determinant) en predictiemodellen (zo goed mogelijk voorspellen van een uitkomstvariabele aan de hand van een set mogelijke determinanten).

Associatiemodellen

Een associatiemodel kan wordt geïllustreerd aan de hand van het volgende voorbeeld. Er is een cross-sectioneel onderzoek gedaan naar de relatie tussen cholesterol en BMI. Hierbij is geprobeerd deze relatie te schatten. Er werden tweehonderd mensen geïncludeerd waarvan zowel de cholesterol en BMI als ook de sekse, leeftijd en een aantal leefstijlvariabelen (roken (wel/niet), alcohol (niet, matig, zwaar), beweging (inactief, matig actief, heel actief)) werden vastgesteld.

In dit voorbeeld is de centrale determinant de BMI en de uitkomstvariabele cholesterol. Om achter de relatie tussen BMI en cholesterol te komen, moet gecorrigeerd worden voor confounders, en de effectmodificatie (tussen BMI en enkele effectmodificatoren) moet onderzocht worden.

Er zullen twee mogelijkheden om een associatiemodel te maken worden besproken. Ten eerste moet er altijd een ruwe analyse gemaakt worden waarbij de relatie tussen BMI en cholesterol wordt bekeken. Aangezien de uitkomstvariabele continue is kan het resultaat worden geanalyseerd met de lineaire regressieanalyse. Hieronder het resultaat van de analyse.

 

Unstandardized Coefficients

t

Sig.

95,0% Confindence Interval for B

B

Std. Error

Lower bound

Upper bound

 

(constant)

BMI

3,865

,086

,519

,018

7,448

4,685

,000

,000

2,842

,050

4,889

,122

Output 1 – uit Twisk – Inleiding in de toegepaste biostatistiek. Blz 231

De regressiecoefficient is 0,086 mmol/L cholesterol. De p-waarde hiervoor is <0,001. Het betrouwbaarheidsinterval rond de regressiecoëfficient loop van 0,050 tot 0,122.

Uitgebreide procedure

Ten eerste kan er een uitgebreide methode worden gedaan, deze wordt echter niet veel toegepast in de praktijk. Ten eerste onderzoek je eventuele effectmodificatie. In dit voorbeeld zijn het alle variabelen die zijn opgenomen in het onderzoek. Er worden afzonderlijke analyses gedaan om de effectmodificatie met BMI te onderzoeken. Zie voor een voorbeeld blz. 232 uit Twisk-Inleiding in de toegepaste biostatistiek.

Uit het voorbeeld blijkt dat roken een interactie geeft. De p-waarde van deze interactie is namelijk gelijk aan 0,004. Om deze reden moet de relatie tussen cholesterol en BMI apart gerapporteerd worden voor rokers en niet-rokers. Hieruit kan bijvoorbeeld blijken dat voor rokers er wel een verband is tussen cholesterol en BMI en bij de niet-rokers niet.

Nu er een effect-modificator gevonden is, moet je eigenlijk vanaf de eerste stap alle analyses uitvoeren voor rokers en niet-rokers apart.

Het blijkt dan dat er sprake is van effectmodificatie voor beweging en alcoholgebruik. Voor alcoholgebruik is er een significante interactie bij zowel de rokers als de niet-rokers tussen BMI en dummy 1 (vergelijkt matige drinkers met niet-drinkers). Voor beweging wordt bij de niet rokers een significante interactie gevonden tussen BMI en dummy 2 (vergelijkt heel actieve groep met inactieve groep).

Nu moet je kiezen welke factor je kiest als effect-modificator. Dit is arbitrair maar hangt meestal af van de grootte van de subgroepen. Als je gaat onderverdelen ontstaan er zes subgroepen. Als er bijvoorbeeld heel weinig zware drinkers zijn, is dit onhandig. In dit voorbeeld is gebleken dan de personen redelijk gelijk over de verschillende categorieën beweging zijn verdeeld (inactief+roken, matig actief+roken en heel actief+roken, inactief+niet-roken, matig actief+niet-roken en heel actief+niet-roken).

Nu wordt voor deze zes subgroepen een nieuwe ruwe analyse gedaan naar de relatie tussen cholesterol en BMI. Dit opsplitsen kan eenvoudig bij dichotome variabelen. Bij een continue variabele wordt de groep meestal in tweeën gesplitst op basis van de mediaan.

Nadat je mogelijke effect-modificatoren op het spoor gekomen bent is de volgende stap het corrigeren van mogelijke confounders. Je moet dus voor alle subgroepen onderzoeken of de relatie tussen cholesterol en BMI nog preciezer geschat kan worden. Het kan namelijk zo zijn dat de confounder ervoor zorgt dat je de relatie tussen cholesterol en BMI over-/onderschat. Hoe je dit doet wordt uitgelegd aan de hand van de subgroep niet-actieve/bewegende rokers. Dit is de output van de regressienalyse en toont de relatie tussen cholesterol en BMI bij niet-actieve rokers.

 

Unstandardized Coefficients

t

Sig.

95,0% Confindence Interval for B

B

Std. Error

Lower bound

Upper bound

 

(constant)

BMI

-,837

,267

1,435

,054

-,584

4,909

,563

,000

-3,750

,157

2,075

,378

Output 5 – uit Twisk – Inleiding in de toegepaste biostatistiek. Blz 237

Vervolgens corrigeer je voor de volgende variabelen (potentiele confounders): sekse, leeftijd en alcoholgebruik.

Bij confounding gaat het erom dat de regressiecoëfficiënt verandert tussen een model zonder de potentiële confounder en met de potentiële confounder. De ‘’ruwe’’ regressiecoëfficiënt voor BMI was 0,267. Wanneer je corrigeert voor leeftijd daalt deze naar 0,184. Dit is een daling van 31%. De andere variabelen bleken een minder sterke daling/stijging te geven. Om deze reden neem je leeftijd op in het multipele regressiemodel. De stap die hierna uitgevoerd wordt is het onderzoeken van confounding door alcoholgebruik en geslacht in het model met zowel BMI als leeftijd (bij de niet-actieve rokers).

Het blijkt dat als je deze analyse uitvoert en corrigeert voor alcoholgebruik de regressiecoëfficiënt daalt van 0,184 naar 0,158. Dit is een daling van 14% (hoger dan wanneer je corrigeert voor geslacht). Omdat dit meer dan 10% is (arbitraire grens) kan er gesproken worden van confounding. Er is dus in de subgroep van niet-actieve rokers sprake van confounding door leeftijd en in mindere mate alcoholgebruik.

Als laatste moet je nu nog onderzoeken of er sprake is van confounding door geslacht. Om dit te onderzoeken moet je geslacht toevoegen aan het model met BMI, leeftijd en alcoholgebruik. In dit voorbeeld stijgt de regressiecoëfficiënt van 0,158 naar 0,161. Dit is een stijging van 2% en er is dus geen sprake van confounding door geslacht.

Voor de subgroep niet-actieve rokers is de regressiecoëfficient gecorrigeerd voor leeftijd en alcoholgebruik 0,158. Dit moet voor alle subgroepen apart worden gedaan om confounding te onderzoeken. In de praktijk is deze manier heel erg omslachtig. Hij is echter wel heel zuiver. Een andere methode om dit te onderzoeken is de eenvoudige procedure.

Eenvoudige procedure

Bij een eenvoudige procedure worden in eerste instantie de ruwe resultaten gerapporteerd) en vervolgens een resultaat waarin gecorrigeerd is voor alle potentiële confounders (leeftijd, geslacht, roken, lichamelijke activiteit en alcoholgebruik). De uiteindelijke tabel in het voorgaande voorbeeld zou er dan zo uitzien:

 

Regressiecoëfficient

95%-BI

p-waarde

Ruwe analyse

0,09

0,05

<0,001

Gecorrigeerde analyse

0,17

-,13-0,21

<0,001

Output 7 – uit Twisk – Inleiding in de toegepaste biostatistiek. Blz 241

Bij deze eenvoudige procedure wordt geen rekening gehouden met zowel mogelijke effectmodificatie als het feit dat een bepaalde variabele geen relevante confounder hoeft te zijn. Wanneer er heel veel potentiële confounders zijn of weinig mensen in de studiepopulatie zitten is het haast onmogelijk om voor alle confounders in één keer te corrigeren. Wanneer dit het geval is, moet dus stap voor stap gecorrigeerd worden voor elke potentiële confounder apart.

Dit wordt dus gedaan door iedere potentiële confounder apart te analyseren in het regressiemodel. Er wordt gekeken welke variabele de meeste verandering in de regressiecoëfficiënt geeft. De procedure wordt dan telkens herhaald voor de resterende potentiële confounders. Dit houdt op wanneer er geen enkele potentiële confounder nog voor een verandering in de regressiecoëfficiënt van meer dan 10% zorgt (relevante verandering).

Over de hoeveelheid variabelen waarvoor gecorrigeerd kan worden bestaat de volgende vuistregel: het aantal personen in de analyse moet 10x zo hoog zijn als het aantal variabelen in het multipele regressiemodel.

Predictiemodellen

Het doel van een predictiemodel is het voorspellen van een bepaalde uitkomstvariabele, gegeven een set aan mogelijke determinanten. Bij het voorgaande voorbeeld zou de vraag dan zijn bij welke variabelen cholesterolconcentratie het best voorspeld kan worden. De beste voorspelling kan natuurlijk gedaan worden met alle variabelen. Echter, het is de bedoeling om een zo goed mogelijke voorspelling te maken met zo een eenvoudig mogelijk model. Om te bepalen of een bepaalde variabele hier wel of niet bij moet, wordt de p-waarde gebruikt. Het afkappunt is wederom 5%, maar soms wordt ook 10% gebruikt.

Ook bij predictiemodellen zijn er verschillende mogelijke procedures die hieronder apart besproken zullen worden.

Backward selectieprocedure

Dit is de eenvoudigste procedure. Je begint hierbij met een zo groot mogelijk model. Vervolgens verwijder je één voor één irrelevante variabelen uit het model zodat je uiteindelijk alleen nog maar relevante variabelen in het model overhoudt. In het volgende voorbeeld wordt als afkappunt van de p-waarde 10% gebruikt.

Eerst wordt er een ruwe lineaire regressieanalyse gedaan voor de relatie tussen cholesterol en BMI, leeftijd, roken, sekse, alcoholgebruik en lichamelijke activiteit. Je krijgt dan een output met verschillende p-waarden achter iedere variabele. Bij dit voorbeeld zijn de p-waarden voor de twee dummyvariabelen voor lichamelijke activiteit het hoogst. Lichamelijke activiteit draagt dus het minste bij aan de voorspelling van het cholesterol. Je verwijdert dus vervolgens deze variabele uit het model.

Echter, het is wel belangrijk dat de regressiecoëfficiënten van deze twee dummyvariabelen beide negatief ofwel positief zijn. Ook is het van belang te onthouden dat dummyvariabelen in een predictiemodel altijd bij elkaar horen. Je moet ze dus allebei verwijderen.

Vervolgens doe je opnieuw een lineaire regressieanalyse met de overgebleven variabelen. Wanneer er dan geen p-waarden meer zijn boven de 10% ben je klaar. Deze grens van 10% hangt eigenlijk af van de grootte van de onderzoeksgroep. Hoe groter deze is hoe lager de grens meestal wordt gelegd.

Forward selectieprocedure

Hierbij bepaal je van iedere variabele afzonderlijk wat de relatie is met de uitkomstvariabele (in dit geval dus cholesterol). Nadat dit is gedaan kies je de beste voorspeller aan de hand van de laagste p-waarde. Wanneer meerdere p-waarden <0,0001 kijk je naar de t-waarde. De kleinste p-waarde heeft dan de grootste t-waarde. Het model met die variabele bij de uitkomstvariabele vormt het nieuwe basismodel. Vervolgens doe je weer een analyse van alle variabelen apart en kijk je naar de laagste p-waarde. Deze variabele wordt weer aan het model toegevoegd. Enzovoorts. Je gaat door totdat er geen variabelen meer zijn met een p-waarde lager dan 10%.

Beide procedures kunnen automatisch door het programma SPSS uitgevoerd worden. Echter, door het handmatig te doen krijg je meer inzicht in het selectieproces. De automatische analyse zorgt er namelijk ook niet voor dat dummyvariabelen niet apart van elkaar geïnterpreteerd mogen worden.

Predictiemodellen: interacties

Ook bij het maken van een predictiemodel wordt er geen rekening gehouden met effectmodificatie. Een mogelijkheid om hier wel rekening mee te houden is het a priori stratificeren van de onderzoeksgroep. Vaak wordt er bijvoorbeeld gestratificeerd op geslacht. Hierbij worden dus apart predictiemodellen gemaakt voor beide geslachten.

Voorselecteren

Bij de backward selectieprocedure kan het basismodel niet al te groot zijn. Om te voorkomen dat er te veel variabelen in het basismodel zitten moet men een voorselectie maken. Hierbij bepaal je voor alle potentieel voorspellende variabelen apart de relatie met de uitkomstvariabele. Nu wordt de backward selectieprocedure gedaan met de variabelen die in die analyse een p-waarde lager dan de afkapwaarde hadden. Hiervoor neemt men meestal een wat ruimere afkapwaarde. Het gevaar van dit voorselecteren is dat belangrijke variabelen niet door die eerste selectie komen. Hoe hoger de afkapwaarde, hoe kleiner de kans dat dit gebeurt.

Kwaliteit

Bij een predictiemodel is het belangrijk om te vermelden in welke mate het model de uitkomstvariabele voorspelt. Bij een lineair regressiemodel wordt hiervoor gebruik gemaakt van de verklaarde variantie (R Square). Wanneer deze waarde bijvoorbeeld 0,398 is wil die zeggen dat de verklaarde variantie van de variabelen opgenomen in het model ongeveer 40% is. Ongeveer 40% van de variantie in de uitkomstvariabele (cholesterol) kan verklaard worden door die variabelen in het predictiemodel. Het is niet goed te zeggen welke waarden van de verklaarde variantie hoog of laag zijn.

Wat te doen bij een dichotome uitkomstvariabele?

Het maken van predictie en associatiemodellen gaat dan in principe op dezelfde manier. Er wordt echter bij dichotome uitkomstvariabele geen multipele lineaire regressieanalyse toegepast maar een multipele logistische regressieanalyse. Vooral predictiemodellen worden gebruikt bij dichotome variabelen. Er wordt bijvoorbeeld onderzocht welke variabelen kunnen voorspellen of iemand ziek/niet ziek wordt.

Het principe van predictiemodellen bij een dichotome uitkomstvariabele kan worden uitgelegd aan de hand van het volgende voorbeeld:

Er wordt een experimenteel onderzoek zonder controlegroep gedaan bij patiënten met lage rugklachten. Er worden 120 patiënten geïncludeerd. De uitkomstvariabele is herstel binnen zes maanden. Als determinanten worden de volgende variabelen gebruikt: sociaal-economische status, klachten in de voorafgaande 12 maanden, opleiding, sekse, pijn op baseline, totaalscore op een functietest en duur van de klachten voorafgaande aan de interventie.

De vraag was of het mogelijk was om aan de hand van de determinanten te voorspellen of de patiënt binnen die zes maanden zou herstellen of niet. Sommige determinanten zijn dichotoom en anderen zijn continue. Voor de continue variabelen wordt uitgegaan van een lineaire relatie met de uitkomstmaat (herstel ja/nee).

Er wordt nu een predictiemodel gemaakt aan de hand van de backward selectieprocedure. Je begint hierbij met het grootst mogelijke model en houdt mogelijke effect modificatie buiten beschouwing. Omdat de populatie klein is, wordt gekozen voor een afkappunt van de p-waarde van 0,10.

Je krijgt een output in SPSS voor de logistische regressieanalyse. Hierin zoek je naar de variabele met de hoogste p-waarde en deze verwijder je uit het model. Dit is in dit geval opleiding. Vervolgens wordt opnieuw een logistische regressieanalyse gedaan.

Het kan zijn dat op basis van de Wald (de p-waarde die hierbij hoort) een variabele verwijderd mag worden maar dat het model daarna nog slechter wordt. Dit kan het geval zijn wanneer de mogelijke voorspeller op zichzelf niet een direct voorspeller is maar invloed heeft op andere voorspellers. Om dit te controleren kan de likelihood-ratiotoets gebruikt worden. Om dit te doen vergelijk je de -2-log-likelihoods van beide modellen.

De -2-log-likelihood van het model met opleiding is 135,933 en de -2-log-likelihoods van het model zonder opleiding is 136,038. Je ziet dat het model iets slechter is geworden maar dit verschil is verwaarloosbaas klein. De p-waarde die hierbij hoort (chi-kwadraatverdeling met één vrijheidsgraad) is 0,75. Dit verschil is dus niet significant. Geconcludeerd kan worden dat de variabele opleiding terecht uit het model is verwijderd.

Deze procedure (het verwijderen van de variabele en vervolgens testen met behulp van de -2-log-likelihoods van beide modellen of het model slechter is geworden) doe je totdat er geen variabelen meer in het model zitten die een p-waarde hoger dan 0,10 hebben.

Als blijkt dat er wel een significant verschil is tussen de twee -2-log-likelihoods dan mag je die variabele dus niet verwijderen.

Wanneer je een logistische regressie analyse doet is de uitkomstvariabele het natuurlijke logaritme van de odds op herstel. Bij dit voorbeeld wordt dit het uiteindelijke predictiemodel: zie formule 7.1 in de bijlage

Met deze formule kun je nu voor iedere afzonderlijke patiënt de kans op herstel berekenen: zie formule 7.2 in de bijlage

Als je dit invult voor een patiënt zonder voorafgaande klachten, met een pijnscore van 3, vier weken lang klachten en is een vrouw, krijg je dit: zie formule 7.3 in de bijlage

Een goede indicator voor de kwaliteit van het predictiemodel (zoals de verklaarde variantie bij de lineaire regressie analyse) bestaat niet bij een logistische regressieanalyse. Soms wordt het procentuele verschil tussen de -2-log-likelihood van het uiteindelijke model en de -2-log-likelihood van het model zonder determinanten gebruikt.

Om de verklaarde variantie (R2) te schatten kan de volgende formule gebruik worden: zie formule 7.4 in de bijlage

De verklaarde variantie van een multipel logistisch regressiemodel is moeilijk te interpreteren. Om deze reden worden vaak andere indicatoren gebruikt om de kwaliteit van het predictiemodel te bepalen. Dit zijn de drie meest gebruikte methoden: classificatietabel, de Hosmer-Lemeshow-toets en de ‘oppervlakte onder de ROC-curve’. Bij al deze methoden wordt de voorspelde kan vergeleken met het al dan niet optreden van de onderzochte uitkomst.

Bij een classificatiemodel neem je één afkappunt en ga je er van uit dat de uitkomst niet zal optreden bij elke proefpersoon met een voorspelde kans boven het afkappunt. Dit afkappunt moet wel goed gekozen worden. Bijvoorbeeld bij een patiënt-controleonderzoek met een a-priori kans op de uitkomst van 50% (50% is case) is 50% een goed afkappunt.

Hieronder staat een classificatiemodel waarbij het afkappunt op de voorspelde kans 50% is:

Observed

Predicted

Herstel?

Percentage correct

 

Ja

Nee

 

Herstel?

Ja

Nee

61

21

12

26

83,6

55,3

72,5

Output 8 – uit Twisk – Inleiding in de toegepaste biostatistiek. Blz 265

Het totale percentage correct voorspelden is hier 72,5%. Dit is eigenlijk een overschatting omdat voor de meeste proefpersonen een kans lager dan 50% wordt voorspeld. Om een betere indicatie te krijgen kun je de afkapwaarde gelijk maken aan het percentage herstelde patiënten in de dataset.

Een nauwkeurigere schatting geeft de Hosmer-Lemeshow-test. Hierbij wordt de groep in 10 groepen van gelijke grootte verdeeld. De eerste groep bestaat uit de 10% laagst voorspelde kansen op de uitkomst en zo verder. Dit is eenvoudig uit te leggen aan te hand van het volgende voorbeeld:

Stel je hebt tien patiënten die wel of niet overlijden. Je verdeelt de groep in twee groepen, de eerste groep heeft de personen met de laagste kans om te overlijden en de tweede groep heeft de personen met de hoogste kans om te overlijden.

Voor beide groepen wordt nu de gemiddelde kans berekend. Stel dat deze gemiddelde kans van groep 1 0,40 is en van groep 2 0,60. Nu wordt het verwachte aantal patiënten die wel en niet overlijden in de twee groepen vergeleken met de geobserveerde aantallen patiënten die wel en niet overlijden.

Een derde indicator om de kwaliteit van het predictiemodel weer te geven maakt gebruik van de sensitiviteit en de specificiteit van het model. De sensitiviteit is het percentage personen van wie terecht wordt voorspeld dat diegene de uitkomst krijgt. De specificiteit geeft het percentage personen weer van wie terecht wordt voorspeld dat diegene de uitkomst niet zal krijgen.

Deze twee begrippen (sensitiviteit en specificiteit) worden vaak weergegeven met een ROC-curve. Om daar vanuit de kwaliteit van het predictiemodel te bepalen is de area under the curve van belang.

Inleiding in de toegepaste biostatistiek - Berekening van de sample-size (H8)

Medisch-ethische commissies geven alleen toestemming voor studies wanneer de onderzoeker duidelijk aan de hand van een berekening kan laten zien waarom hij/zij voor een bepaalde grootte van de steekproef heeft gekozen. Het CONSORT-statement is een document dat aangeeft aan welke voorwaarden de rapportage van een wetenschappelijk tijdschrift moet voldoen. Hierin staat ook dat er altijd een sample-size berekening moet in zijn opgenomen.

Door middel van een sample-size berekening kan worden bepaald hoe groot de controle- en interventiegroep dienen te zijn om een vooraf vastgesteld verschil tussen de beide groepen statistische significant te laten zijn. De manier waarop dit berekend kan worden is anders wanneer er ofwel een continue ofwel een dichotome uitkomstvariabele gebruikt wordt.

Sample-sizeberekening met een continue uitkomstvariabele

Deformule waarmee je de sample-size grootte kunt berekenen wanneer er een continue uitkomstvariabele wordt geanalyseerd, is weergegeven als formule 8.1, zie bijlage

Voordat je de sample-size kunt berekenen moet je aantal aannames maken en schattingen doen. Stel je doet een experimenteel onderzoek naar de werkzaamheid van een medicijn op de verlaging van de cholesterolwaarden. Ten eerste moet je bepalen vanaf welke daling er sprake is van een relevant effect. Daarna moet je de spreiding schatten die je zult vinden in individuele cholesteroldalingen. Als laatste moet er een keuze gemaakt worden voor α (significantie) en β (power). α is bijna altijd 5%. 1-β varieert meestal tussen de 80% en 95%. Het mag in ieder geval niet lager zijn dan 80%.

Wanneer er gekozen wordt voor een α van 5% en een (1-β) van 90% ziet de formule er als volgt uit: zie formule 8.2 in de bijlage

De getallen 1,96 en 1,28 komen uit de volgende tabel:

Z

P

0,00

1,0

0,67

0,50

0,84

0,40

1,28

0,20

1,64

0,10

1,96

0,05

2,33

0,02

2,58

0,01

3,29

0,001

 

80% power

Z0,80 = 0,84

90% power

Z0,90 = 1,28

Deze tabel toont de kansen die horen bij de verschillende waarden van de standaardnormale kansverdeling.

Verder doen we de volgende aannames: een verschil van 3 mmol/L cholesterolverlaging is een relevant effect en de standaarddeviatie van het individuele cholesterolgehalte is 8 mmol/L (de keuze hiervoor is meestal arbitrair, soms is dit gebaseerd op voorgaand onderzoek). Je krijgt dan de volgende formule: zie formule 8.3 in de bijlage

De betekenis van deze uitkomst is: om een verschil van 3 mmol/L tussen de interventie- en controlegroep significant te laten zijn met een power van 80% en een standaarddeviatie van 8 mmol/L moeten de interventie- en controlegroep beide 150 personen bevatten.

Het aantal benodigde proefpersonen wordt lager in de volgende gevallen:

  • Bij een lagere power

  • Bij een kleinere geschatte standaarddeviatie

  • Bij een grotere waarde van de uitkomstvariabele vanaf wanneer er van een relevant effect gesproken mag worden

In het hiervoor genoemde voorbeeld wordt ervan uitgegaan dat de interventie- en controlegroep even groot zijn. Dit hoeft echter niet altijd het geval te zijn. Als de verhouding tussen de twee groepen niet gelijk is ziet de formule er als volgt uit: zie formule 8.4 in de bijlage

Wanneer je de formule invult om het aantal van de interventiegroep te berekenen geldt voor r: controlegroep : interventiegroep. In het volgende voorbeeld doen we de volgende aannames:

  • Standaarddeviatie = 6 mmol/L

  • Relevant verschil = 3 mmol/L

  • Significantie van 5%

  • Power 80%

  • Twee keer zoveel patiënten in de interventiegroep als in de controlegroep

Nu kun je het aantal proefpersonen in de interventiegroep berekenen. De formule ziet er dan als volgt uit: zie formule 8.5 in de bijlage

Om het aantal proefpersonen in de controlegroep te berekenen kan 94 gedeeld worden door twee. Ook kan de formule voor de controlegroep ingevuld worden: zie formule 8.6 in de bijlage

In totaal zijn er dus 94 + 47 = 141 patiënten nodig. Wanneer beide groepen even groot zouden zijn, zouden er 126 patiënten nodig zijn. Twee gelijke groepen is dus efficiënter.

Sample-sizeberekening met een dichotome uitkomstvariabele

Voor het berekenen van de sample-size voor een studie waarbij een dichotome uitkomstvariabele wordt gebruikt wordt de volgende formule gebruikt: zie formule 8.7 in de bijlage

Stel je onderzoekt een nieuwe behandelmethode voor patiënten met lage rugklachten ten opzichte van de klassieke behandeling. Uit eerder onderzoek is gekomen dat er met de klassieke behandeling 30% herstelt. Stel we nemen aan dat een relevant verschil in herstelpercentage 10% is. Als je ervan uitgaat dat de power 90% is en de α 5% kun je de formule als volgt invullen: zie formule 8.7 in de bijlage

Voor beide groepen zijn dus 478 personen nodig. Dit zijn er heel veel. Meestal is het niet mogelijk om zoveel patiënten te includeren. Er wordt dan vaak geschoven met het relevante effect. Als je er hier bijvoorbeeld vanuit gaat dat de interventiegroep een herstelpercentage van 50% zal hebben zijn er nog maar 94 patiënten nodig.

Er is weer uitgegaan van twee gelijke groepen (interventie- en controlegroep). Ook bij gebruik van een dichotome uitkomstvariabele kan de sample-size berekend worden met ongelijke groepen: zie formule 8.9 in de bijlage

Het gemiddelde percentage herstel () is nu wel een gewogen gemiddelde van het verwachte percentage in de interventiegroepen en die in de controlegroep: zie formule 8.10 in de bijlage

Wanneer er uitgegaan wordt van een herstelpercentage van 50% in de interventiegroep en er worden twee keer zoveel patiënten in de interventiegroep geïncludeerd als in de controlegroep zijn er zoveel proefpersonen nodig in de interventiegroep: zie formules bij 8.11 in de bijlage

Bij deze studie zouden dus 144,1 + 72,1 = 216 patiënten nodig zijn. Dit is dus weer meer dan twee gelijke groepen (2 x 94 = 188).

De variabelen van de sample-size berekening worden in de praktijk meestal aangepast aan de mogelijkheden. Het grote kritiekpunt op de sample-size berekening is dan ook dat er veel aannames gedaan moeten worden waarbij een kleine verandering in deze variabele al kan leiden tot grote verschillen en groepsgrootte.

Omdat er van vele individuele studies meta-analyses gedaan worden is de groepsgrootte op basis van significantie eigenlijk van ondergeschikt belang. De grootte van de sample-size moet dus eigenlijk afhangen van logistieke, financiële en ethische aspecten.

Gezondheidsrecht - Wetten bij onderzoek in de wetenschap (H9)

Tijdens de Tweede Wereldoorlog zijn er experimenten uitgevoerd met gevangenen, waarbij deze gevangenen geen toestemming hebben gegeven. De artsen die dit deden zijn vervolgd. In het vonnis van het Tribunaal van Neurenberg zijn regels opgesteld waaraan medisch-wetenschappelijk onderzoek moet voldoen. Een deel hiervan staat bekend als de Code van Neurenberg. Hierin staat o.a. dat informed consent vereist is en dat het risico voor de proefpersoon afgewogen moet worden tegenover het voorspelde voordeel. Alleen na toestemming kan het onderzoek verricht worden.

De code van Neurenberg is verwerkt in praktische regels in de Verklaring van Helsinki in 1964 door de World Medical Assocation. Deze verklaring is nog steeds van kracht en wordt met regelmaat vernieuwd. In Nederland worden door medisch-ethische toetsingscommissies al jaren onderzoeken getoetst, maar er bestonden o.a. verschillen in criteria en de manier waarop ze werkten. Om proefpersonen verder te beschermen is de praktijk van medisch-ethische toetsing in een wet vastgezet: de wet medisch-wetenschappelijke onderzoek met mensen (WMO) (1 december 1999). Het doel van deze wet is bescherming van proefpersonen die meedoen aan medisch-wetenschappelijk onderzoek. WMO is van toepassing op ‘medisch wetenschappelijk onderzoek waarbij het onderwerpen van personen aan handelingen of het opleggen aan personen van een bepaalde gedragswijze deel uitmaakt’.

Het onderscheid tussen medisch-wetenschappelijk onderzoek en medisch behandelen is dat bij het eerste, het voornaamste doel van het onderzoek meer wetenschappelijke kennis verkrijgen is, terwijl bij het tweede, het belang van de patiënt voorop staat. Een experimentele behandeling uitvoeren als laatste optie (ultimum refugium-behandeling) bij een patiënt valt niet onder medisch-wetenschappelijk onderzoek. Het voornaamste doel is immers het verbeteren van de patiënt zijn gezondheid.

Een erkende medische-ethische toetsingscommissie (METC) dient een wetenschappelijk onderzoek goed te keuren voordat het verricht mag worden. De METC toetst het onderzoeksprotocol. Meestal gaat het om een lokale METC, soms de Centrale Commissie Mensgebonden Onderzoek (CCMO). De toetsing wordt gedaan aan de hand van normen genoemd in artikel 3 van de WMO. De normen zijn:

  • het moet redelijk aan te nemen zijn dat het onderzoek zal leiden tot het vaststellen van nieuwe inzichten op het gebied van de medische wetenschap.

  • het moet redelijk aan te nemen zijn dat het onderzoek niet op een minder ingrijpende manier verricht kan worden om op dezelfde resultaten en nieuwe inzichten te komen.

  • het moet redelijk aan te nemen zijn dat het met het onderzoek te dienen belang van de proefpersonen en andere huidige of toekomstige patiënten evenredig is met de bezwaren en het risico voor de proefpersoon.

  • het onderzoek moet methodologisch accuraat zijn opgesteld.

  • het onderzoek wordt verricht in daarvoor geschikte instellingen en de onderzoeken moeten deskundig zijn op het gebied van wetenschappelijk onderzoek en op het gebied van de verrichtingen die bij de proefpersonen zullen worden gedaan.

  • de vergoeding aan de proefpersoon mag niet onevenredig hoog zijn, oftewel de hoogte van de vergoeding mag de beslissing om wel/niet aan het onderzoek deel te nemen niet beïnvloeden.

  • de vergoeding aan de onderzoeker en de instelling mag niet onevenredig hoog zijn, dus de hoogte van de vergoeding staat in verhouding tot de aard, de omvang en het doel van het onderzoek.

  • in het protocol moet duidelijk aangegeven zijn in welke mate het onderzoek aan de betrokken proefpersoon ten goede kan komen.

  • in het protocol moeten de criteria voor de werving van de proefpersonen zijn opgenomen.

  • het onderzoek moet verder aan de overige redelijke eisen voldoen.

In artikel 6 van de WMO komt het informed consent aan bod en het feit dat de proefpersoon in alle vrijheid informed consent kan geven. De onderzoeker dient volgens de WMO de proefpersoon schriftelijk én mondeling voor te lichten. De duur, doel, aard, belasting en risico’s van het onderzoek bij deelname door de proefpersoon dienen hierbij besproken te worden.

Na de inlichting, dient er na gegaan te worden dat de proefpersoon de informatie begrepen heeft en zich bewust is van het verloop en de bedoeling van het onderzoek. Als laatste moet de proefpersoon na een redelijke bedenktijd een schriftelijke verklaring van toestemming tekenen. Onderzoeken die alleen uitgevoerd kunnen worden in noodsituaties, mogen desondanks zonder eerst toestemming te vragen , worden uitgevoerd (bijv. reanimaties), maar meedoen aan het onderzoek dient ten goede te komen aan de proefpersoon (in de noodsituatie). Ook dient er zo snel mogelijk toestemming worden gevraagd.

Bijzondere groepen

Het verrichten van wetenschappelijk onderzoek met wilsonbekwame mensen of minderjarigen is eigenlijk verboden, behalve

  • als het onderzoek alleen bij deze categorie verricht kan worden, de bezwaren miniem zijn en de risico’s te verwaarlozen

  • of als het onderzoek goed is voor de proefpersonen zelf.

Bij mensen die qua juridische of feitelijke verhoudingen verminderd of niet in staat zijn in vrijheid te kunnen beslissen over deelname (denk aan mensen die qua hiërarchie onder de onderzoeker staan en gevangenen) zijn er ook aanvullende voorwaarden vereist voordat ze met medisch-wetenschappelijk onderzoek mee mogen doen.

Er is sprake van wilsonbekwaamheid als de proefpersoon geen redelijke waardering van zijn belangen ter zake kan maken, dit dient per geval bepaald te worden door de arts-onderzoeker. Een onderzoek dient meteen gestopt te worden, als een minderjarige of wilsonbekwame proefpersoon zich verzet tegen onderzoek verrichtingen. Er zijn 3 gedragscodes betreffende de handelswijze bij verzet van een wilsonbekwame patiënt opgesteld. Hierin is vastgesteld hoe vervangend toestemming gekregen moet worden en wanneer er gesproken kan worden van verzet.

Wanneer de proefpersoon wilsbekwaam, minderjarig, maar 12 jaar of ouder is, is toestemming van de ouders én de proefpersoon nodig. Als de proefpersoon minderjarig, jonger dan 12 jaar of wilsonbekwaam is, dan dienen de ouders/voogd toestemming te geven. Bij een meerderjarig wilsonbekwaam persoon hoort eerst toestemming van de wettelijke vertegenwoordiger, iemand die hiervoor door de proefpersoon schriftelijk gemachtigd is of de partner van de proefpersoon verkregen te worden. Ontbreken deze personen, dan is toestemming van de ouders van de proefpersonen nodig, anders van de redelijkerwijs bereikbare meerderjarige kinderen van de proefpersoon of van de meerderjarige zussen en broers.

Artikel 7

Een verzekering moet afgesloten worden om door het onderzoek veroorzaakte schade bij de proefpersoon door letsel of dood te dekken, volgens art. 7 van de WMO. De proefpersoon dient aan te tonen dat er een causaal verband is tussen de schade en deelname aan het onderzoek. In het besluit verplichte verzekering bij medisch-wetenschappelijk onderzoek met mensen staan:

  • de vastgestelde bedragen die door de verzekering moet worden gegarandeerd

  • welke soorten schade niet onder de dekking van de verzekering vallen (denk aan schade bij het nageslacht)

Algemene aansprakelijkheidsregels blijven gelden, ook wanneer het letsel niet door de bedoelde verzekering wordt gedekt.

Er moet een arts zijn, naast de onderzoeker, die direct bij het onderzoek betrokken is, naar wie de proefpersoon toe kan komen voor advies en informatie. Dit is de onafhankelijke arts.

Onderzoek naar medicijnen

De EU richtlijn Good Clinical Practice is sinds 1 maart 2006 in de WMO toegepast, dit heeft vooral invloed op onderzoek naar geneesmiddelen. Geneesmiddelenonderzoek is wetenschappelijk onderzoek met de bedoeling om de farmacologische, klinische of andere farmacodynamische effecten van ≥1 geneesmiddelen voor onderzoek te bekrachtigen of vast te stellen of eventuele bijwerkingen van ≥1 geneesmiddelen voor onderzoek te signaleren of de resorptie, distributie, metabolisme en uitscheiding van ≥1 geneesmiddelen voor onderzoek te bekijken om de werkzaamheid of veiligheid van deze geneesmiddelen vast te stellen.’

Voor onderzoek naar geneesmiddelen is ook een verklaring van geen bezwaar nodig, van een bevoegde instantie, in Nederland de CCMO. Voor dit onderzoek geldt ook dat er meer informatie bij de METC moet worden ingeleverd, namelijk de Investigational Medicinal Product Dossier (IMPD), hierin staat o.a. informatie over bereiding, kwaliteit, pre-klinische farmacologie, toxicologie, chemische samenstelling en een risk benefit analyse. Alle bijwerkingen van het medicijn dat tijdens het onderzoek naar voren komt, moet geregistreerd worden in een Europese database.

Onderzoek in meerdere centra

Dit heet multicenteronderzoek. Het hoofdoordeel van zo’n onderzoek wordt door de lokale METC van één van de centra of de CCMO gegeven. Hiernaast moeten de directies of raden van bestuur van de andere centra advies geven over in hoeverre het onderzoek lokaal uitgevoerd kan worden..

De CCMO erkent o.a. de METC’s en bewaakt het werk van de METC’s. Hiervoor kunnen ze richtlijnen stellen. Er zijn bepaalde typen onderzoeken die niet door een lokale METC mogen worden getoetst en alleen door de CCMO, bijvoorbeeld gentherapie- en vaccinonderzoek, celtherapie, embryo-onderzoek en ook niet-therapeutisch interventieonderzoek met wilsonbekwamen of minderjarigen.

Evaluatie WMO

In de praktijk is de reikwijdte genoemd in art.1 over wat valt onder medisch-wetenschappelijk onderzoek niet altijd duidelijk. Over de informatie voor proefpersonen is gebleken dat de informatie in de praktijk niet altijd voldoet. Hiervoor is een werkgroep proefpersoneninformatie in het leven geroepen. De extra voorwaarden bij wilsonbekwame personen biedt genoeg bescherming, maar het aantal personen waaraan eerst toestemming gevraagd bleek te klein te zijn, dit is uitgebreid naar een regeling te vergelijken met de WGBO.

Onderzoek met menselijk lichaamsmateriaal

Denk aan onderzoek naar infectieziekten, stamcelonderzoek, genetisch onderzoek en immunologie. Er zijn 2 manieren van afname van lichaamsmateriaal: speciaal voor wetenschappelijk onderzoek of door het overblijven van lichaamsmateriaal bij de normale patiëntenzorg (bijv. placenta). Het WMO is van toepassing bij lichaamsmateriaal dat alleen met het doel van wetenschappelijk onderzoek wordt uitgevoerd.

De WGBO is van toepassing op het later gebruik van restmateriaal, in art. 467 van het WGBO staat dat anoniem restmateriaal voor medisch-wetenschappelijk onderzoek kan worden gebruikt, als de patiënt van wie het materiaal is, geen bezwaar maakt tegen het gebruik. Er is een Code Goed Gebruik in het leven geroepen met voorwaarden voor het gebruik van restmateriaal. Er wordt onderscheid gemaakt tussen herleidbaar, indirect herlaadbaar (code systeem) en onherleidbaar materiaal.

Bij indirect herleidbaar of onherleidbaar materiaal is er sprake van het geen bezwaar systeem, de patiënt wordt ingelicht met het feit dat zijn materiaal later mogelijk kan worden gebruikt voor wetenschappelijk onderzoek. Hier tegen kan bezwaar worden gemaakt. Bij herleidbaar materiaal is expliciete toestemming van de patiënt nodig.

Onderzoek met medische gegevens

Wanneer er gegevens over personen worden verzameld voor medisch-wetenschappelijk onderzoek, wordt er onderscheid gemaakt tussen gegeven die worden verzameld voor onderzoek dat onder de WMO valt en ander onderzoek waarbij gegevens worden gebruikt. In art.458 van het WGBO staat dat van het beroepsgeheim mag worden afgeweken en zonder toestemming medische gegevens aan anderen worden gegeven in een aantal gevallen. Het 1e geval is als de mogelijkheid op het vragen van toestemming in redelijkheid niet te doen is. Het 2e geval is als het vragen van toestemming vanwege het doel en aard van het onderzoek in redelijkheid niet kan worden verlangd en de onderzoeker de gegevens op een redelijke wijze niet naar het individu kan terugleiden.

Er bestaat een Gedragscode Gezondheidsonderzoek als uitwerking van deze bepaling en van wat er in de Wet bescherming persoonsgegevens staat, hiermee zijn er regels gesteld voor het verrichten van onderzoek met gegevens waar geheimhoudingsplicht op geldt. Er worden in deze code 4 soorten gegevens aan de hand van privacygevoeligheid onderscheiden, namelijk: geheel anonieme gegevens, indirect identificeerbare gegevens, indirect identificeerbare en gecodeerde gegevens en direct identificeerbare gegevens. De definitie van indirect identificeerbare gegevens zijn gegevens die niet direct terug te leiden zijn naar een patiënt, maar die door de onderzoeker met die middelen die hij heeft de identiteit van de patiënt terug kan leiden. De indirecte identificeerbare en gecodeerde gegevens zijn gegevens die indirect identificeerbaar zijn en waar een code aan is toegevoegd die alleen door een andere persoon dan de onderzoeker naar de identiteit van diegene kunnen worden teruggeleid (de houder van de sleutel van de code).

Bij geheel anonieme gegevens is er geen toestemming van de patiënt en geen geen bezwaarsysteem nodig. Bij indirect identificeerbare en gecodeerde gegevens geldt het geen bezwaarsysteem wel. Bij indirect identificeerbare gegevens en direct identificeerbare gegevens is de toestemming van de patiënt vereist. Alleen geheel anoniem onderzoek hoeft niet aan het METC te worden voorgeleidt. Onderzoeken waarbij de uitkomsten gevolgen kunnen hebben voor een bepaalde identificeerbare groep en alle andere onderzoeken met andere soorten gegevens kunnen pas verricht worden, na een positieve beoordeling van een METC.

Onderzoek met dieren

De Wet op de Dierproeven gaat over het verminderen van het aantal dierproeven en verantwoord proefdierengebruik. Er is een vergunning nodig om dierproeven te doen en om proefdieren te fokken en af te leveren. Er is ook een ethisch toetsingssysteem ingevoerd: dierexperimentencommissies (DEC’s) Pas na een positieve beoordeling door een DEC mag een dierproef verricht worden, evaluatie vindt plaats aan de hand van een voorgelegd onderzoeksplan. Uit het plan moet blijken dat aan de drie V’s is voldaan: Vervanging, Vermindering en Verfijning. Ook moet blijken dat het belang van het doel van de proef tegen het lijden van de proefdieren opweegt. Sinds de invoering van de wet is het aantal dierproeven verminderd en het aantal proefdieren dat hiervoor nodig was ook.

Clinical Epidemiology - Toevalsstatistiek (H10)

Toeval en bias zijn 2 factoren die het leren door klinische ervaring (via onderzoek of in de praktijk) belemmeren. Bias is een systemische fout, dit kan ontstaan door ieder proces dat geobserveerde gegevens systemisch doet verschillen van de ware waarden. In klinisch onderzoek wordt bias zoveel mogelijk vermeden, maar een willekeurige fout door toeval komt in elke observatie voor en is niet te vermijden. Met statistische analyses kun je schatten in welke mate de observaties de ware situatie benaderen. Doordat onderzoek wordt verricht op een steekproef en niet algehele populatie met een bepaalde aandoening, is er altijd een kans dat een bepaalde steekproef niet representatief is voor de totale populatie, al is er zonder bias geselecteerd. Om te kijken in hoeverre toeval een rol speelt bij klinische observaties zijn er 2 algemene benaderingswijzen: hypothese toetsen en schatting.

Hypothese

Bij het toetsen van de hypothese worden er statistische toetsen uitgevoerd om de nul hypothese, de hypothese dat er geen verschil is, te onderzoeken. Dit is de traditionele manier om het effect van kans te onderzoeken en is gerelateerd aan het gebruik van p-waarden. Resultaten zijn óf statisch significant, dus het is onwaarschijnlijk dat ze alleen op kans berusten, óf niet significant. Er zijn 4 mogelijkheden voor de relatie tussen de resultaten van een statistische toets en het werkelijke verschil tussen 2 groepen:

  • Het is statistisch significant en er is daadwerkelijk ook een verschil

  • Het is statistisch niet significant en er is werkelijk ook geen verschil

  • Het is statistisch significant en er is werkelijk geen verschil: een type 1 (α) fout

  • Het is statistisch niet significant en er is werkelijk wel een verschil: een type 2 (β) fout

Met ‘geen verschil’ wordt bedoeld dat het werkelijke verschil waarschijnlijk niet groter is dan een bepaalde waarde en dat die waarde te klein is om gevolgen voor de praktijk te hebben. De type I of α fout is de kans dat er wordt geconcludeerd dat er een verschil is in bijv. behandelingseffect terwijl dat niet zo is. Een type II of β fout is de kans dat er wordt geconcludeerd dat er geen verschil is in behandelingseffect, terwijl die er wel is. De onzekerheid van een statistische conclusie wordt bepaald door willekeurige variatie, als bias geen rol speelt. De kans op een fout door willekeurige variatie is te schatten m.b.v. inferentiële statistiek, hiermee kan er berekend worden wat de kans is dat de onderzoeksresultaten alleen op toeval berusten. Statistische toetsen zijn middelen om het effect van willekeurige variatie te schatten

Vaak wordt de kans op een type I fout in medische literatuur genoemd, dit wordt met de P waarde uitgedrukt, dit is een kwantitatieve schatting van de kans dat verschillen in bijv. de effecten van 2 behandelingen alleen op toeval berusten. Hierbij wordt er aangenomen dat er geen verschil is tussen de groepen. De P-waarde beantwoordt de vraag: als er geen verschil qua behandelingen zijn en het onderzoek wordt vaak herhaald, welk deel van deze onderzoeken zou concluderen dat het verschil tussen de 2 behandelingen minstens zo groot is als gevonden in dit onderzoek? De Pα waarde (van de type 1 (α) fout ) is van toepassing wanneer men concludeert dat een bepaalde behandeling effectiever is dan de ander. Als de Pα waarde een bepaalde limiet overschrijdt en er geen statistisch verschil tussen behandelingen bestaat, dan is de Pα niet relevant, de Pβ waarde (type II fout) is in dit geval van toepassing. Een p-waarde in de literatuur betreft meestal de Pα.

P-waarden onder de 0,05 worden significant genoemd. In het algemeen is men het namelijk eens dat een kans lager dan 1/20 een acceptabel klein risico is om fout te zitten. Het is ook zo laag dat het onwaarschijnlijk is dat het alleen op kans berust. Het is alleen arbitraire grens, hogere of lagere grenswaarden kunnen geaccepteerd worden afhankelijk van de gevolgen van een vals positieve conclusie. Bij de vergelijking van een effectieve bestaande behandeling en een nieuwe gevaarlijke behandeling bijv. wordt een vals positieve statistische conclusie minder snel geaccepteerd (eenzelfde redenering als bij vals positieve en vals negatieve diagnostische testen). Zodat men hun eigen conclusie kan trekken, worden p-waarden vaak exact aangegeven, alleen bij p-waarden >1/5 wordt er vaak alleen p>0,20 aangegeven, hetzelfde geldt voor p-waarden <0,001, aangezien exacte vermelding hierbij niet veel toegevoegde waarde heeft.

Statistische significantie betekent niet dat het verschil ook klinisch relevant is. Onbelangrijke verschillen kunnen erg statistisch significant zijn als er maar genoeg patiënten geobserveerd zijn, terwijl er niet significante p-waarden gevonden worden bij studies met sterke effecten van behandeling, als er maar weinig patiënten geïncludeerd zijn.

De kans op een type I fout kan met statistische toetsen geschat worden. De nul hypothese wordt getoetst. Uiteindelijk wordt de nulhypothese verworpen, er is dus een verschil of het wordt aangenomen, er is niet genoeg bewijs om te concluderen dat er een verschil is. Geen statistische significante vinden betekent niet dat er geen verschil bestaat, een statistische toets kan niet verzekeren dat er helemaal geen verschil is. De validiteit van een statistische test hangt af van aannames over de onderzoeksgegevens, bijv. dat de data normaal verdeeld is. Is dit niet het geval dan kan de p-waarde misleidend zijn.

Voorbeelden van statistische toetsen:

Toetsen van de statistische significantie van een verschil

Toepassing

Mann-Whitney U

Tussen 2 medianen

Fisher’s exacte toets

Tussen 2 verhoudingen (bij een klein aantal observaties)

Student t

Tussen 2 gemiddelden

F toets

Tussen ≥2 gemiddelden

Chikwadraattoets (x2)

Tussen ≥2 verhoudingen (bij vele observaties)

De omvang van het verband

 

Pearson’s R

Tussen 2 variabelen

Regressiecoëfficiënt

Tussen een onafhankelijke variabele en een afhankelijke variabele

Modellen van de effecten van multipele variabelen

 

Cox proportionele hazards

Bij een tijd tot gebeurtenis uitkomst

Logistische regressie

Bij een dichotome uitkomst

Bij sommige studies kan er niet geconcludeerd worden dat een behandeling beter is dan de ander. Het risico op een vals negatief resultaat is met name groot bij studies met relatief weinig patiënten. De belangrijkste vraag is dan: hoe waarschijnlijk is een vals negatief resultaat, een type II fout? De type II fout krijgt minder aandacht dan de type I fout, doordat ze o.a. moeilijk te berekenen zijn en onderzoekers minder snel negatieve studies aan journals indienen. De statistische power van een studie is de kans dat een onderzoek een statistisch significant verschil vindt, als er ook werkelijk een verschil bestaat. Statistische power= 1-Pβ.

Schatting

Met schatting wordt er een reikwijdte van waarden geschat waar de werkelijke waarde waarschijnlijk in zit. De puntschatting van een effect is de grootte van het effect dat in een bepaalde studie gevonden wordt, het is de beste schatting van de werkelijke effectgrootte. Het wordt het vaakst benadrukt in onderzoekrapportages. De werkelijke effectgrootte kan alleen bijna niet datgene zijn wat in een studie gevonden is, door willekeurige variatie wordt er waarschijnlijk een waarde hoger of lager dan de werkelijke gevonden waarde gevonden. De statistische accuraatheid van de puntschatting wordt uitgedrukt met het betrouwbaarheidsinterval, de reikwijdte van de waarden waar de werkelijke effectmaat waarschijnlijk tussen zit. Vaak wordt er een 95% interval genomen, dit betekent dat er 95% kans is dat de ware effectgrootte binnen het interval valt, als de studie geen bias bevat. Hoe kleiner het interval, hoe zekerder men kan zijn over de grootte van het werkelijke effect. Bij een hogere statistische power van de studie is de statistische accuraatheid ook hoger. Statische significantie bevat dezelfde informatie als betrouwbaarheidsintervallen,

Als de waarde overeen komt met geen effect dan valt het buiten de 95% betrouwbaarheidsintervallen en is het resultaat statistisch significant bij het 0,05 niveau. Als het betrouwbaarheidsinterval dit punt bevat dan zijn de resultaten niet statistisch significant. Betrouwbaarheidsintervallen hebben een aantal voordelen boven p-waarden: ze benadrukken de effectgrootte (waar het om draait), de lezer kan ermee bepalen of ze de effectgrootte klinisch relevant vinden en ze geven informatie over de statistische power.

Steekproefgrootte

Voor een adequate vergelijking tussen het effect van bijv. 2 behandelingen, dient de steekproefgrootte hiervoor groot genoeg te zijn. De vraag is of de steekproefgrootte dermate groot is dat toeval een onwaarschijnlijke oorzaak is van het gevonden resultaat. Een steekproefgrootte is afhankelijk van 3 kenmerken van een studie: de Pα en Pβ, de aard van de data en de grootte van het verschil in uitkomsten tussen groepen. Bij het plannen van een onderzoek worden deze factoren meegewogen.

Wil je het risico op een type I fout zo klein mogelijk houden, dan is een groter aantal patiënten nodig. Is men bereid om de gevolgen van een grotere kans op een valse conclusie te accepteren, dan zijn er relatief weinig patiënten nodig. Vaak wordt Pα op 0,05 of 0,01 gezet. De grootte van de type II fout is ook bepalend voor de steekproefgrootte, Pβ wordt vaak op 0,20 gezet. De aard van de data: als een uitkomst door telling of verhoudingen van gebeurtenissen wordt uitgedrukt, dan is de statistische power afhankelijk van de frequentie van de gebeurtenissen. Hoe groter het aantal gebeurtenissen, hoe groter de statistische power voor een bepaald aantal mensen at risk. Een studie van 100 mensen, waarbij 50 mensen sterven is dus ongeveer even sensitief als een studie met 1000 patiënten waarvan 50 sterven. Bij continue uitkomstvariabelen wordt de power beïnvloedt door de mate waarin patiënten onderling van elkaar verschillen, hoe groter de variatie tussen patiënten, hoe kleiner de statistische power. De steekproefgrootte is ten slotte afhankelijk van de grootte van het verschil dat gevonden gaat worden, er zijn meer patiënten nodig voor kleinere verschillen en minder patiënten voor grotere verschillen. Als je op zoek gaat naar de kleine verschillen is het het beste om je alleen af te vragen hoeveel patiënten genoeg zijn om de kleinste verschillen te kunnen vinden die klinisch relevant zijn.

In het algemeen geldt dat er uitwisseling tussen type I en type II fouten zijn. Als je de ene fout meer accepteert dan de ander, dan hoeft de ander niet zo groot te zijn (als al het andere gelijk is). De ene soort fout is niet slechter dan de ander. De context en de klinische situatie bepalen of de gevolgen van een verkeerde conclusie acceptabel zijn. Denk weer aan bestaande goede behandeling vs. een gevaarlijke nieuwe of een gebrek aan behandeling van een gevaarlijke ziekte vs. een ongevaarlijke nieuwe behandeling. In het eerste geval neem je een grote type II fout voor lief, maar wil je een kleine type I, in het laatste geval neem je eerder een grote type I fout voor lief, voor een kleine type II fout (het risico om een goede behandeling te missen). Beiden fouten zijn te verminderen door een hogere frequentie uitkomst gebeurtenissen, een grotere behandelingseffect te zoeken, de variatie te verminderen en het aantal patiënten te vermeerderen.

Studies met minder dan 100 patiënten hebben een kleine kans om zelfs bij grote behandelingseffecten, statistisch significante verschillen te ontdekken. Statistische power wordt in de praktijk geschat met tabellen, formules etc. Bij het plannen van een studie voor bijv. de frequentie van een complicatie kan iemand bedenken dat ze een betrouwbaarheidsinterval van een bepaalde grootte willen. Hiermee kan men dan het aantal patiënten dat men nodig zal hebben voor die grootte berekenen op basis van aannames over hoe hoog de frequentie van de complicaties zal zijn. Vóór een studie wordt uitgevoerd, wordt de statistische power uitgerekend, om er zeker van te zijn dat er genoeg patiënten geïncludeerd worden, na de studie is dit niet zo relevant. Dan ligt de focus op de betrouwbaarheidsintervallen en de puntschattingen.

Equivalentie en zeldzame gebeurtenissen

Er zijn onderzoeken met het doel om vergelijkbare effecten te vinden, denk aan 2 behandelingen die eenzelfde effect hebben, maar de een is gevaarlijker dan de ander. In geen enkel onderzoek kan er bepaald worden dat de effecten van 2 behandelingen hetzelfde is, maar er kan wel bepaald worden dat de verschillen in effect niet groter zijn dan een bepaalde waarde, waaronder het verschil niet klinisch belangrijk is. Er is sprake van equivalentie, als de betrouwbaarheidsintervallen voor het behandelingsverschil een klinisch belangrijk effect uitsluit. Hiervoor is een grote populatie nodig, om een relatief klein effect al te vinden. Het kan van belang zijn om te weten hoe waarschijnlijk het is dat een onderzoek een relatief zeldzame gebeurtenis zal detecteren (met name als het een ernstige aandoening betreft; aritmie bijv). Veel meer mensen zijn hiervoor nodig dan voor het vinden van de hoofdeffecten, om een goede kans te maken op het vinden van 1/n gebeurtenis dan moeten er 3n mensen geobserveerd worden (dus bij frequentie 1/300, zijn 900 mensen nodig).

Meer vergelijkingen

De sterkte van statistische toetsen zijn afhankelijk van het aantal onderzoeksvragen gesteld in een onderzoek en wanneer die gesteld zijn. Bij vele vergelijkingen tussen variabelen zal de p-waarde van elk een onderschatting zijn van hoe vaak die vergelijking tussen de ander op toeval berust. De interpretatie van een P-waarde van een enkele toets is afhankelijk van de context waarin de toets plaatsvindt. Bij 20 vergelijkingen zal er gemiddeld 1 gevonden worden die significant is (1/20), bij 100 vergelijkingen zullen er waarschijnlijk 5 significant zijn. Hoe meer vergelijkingen, hoe groter de kans dat er een statistisch significante wordt gevonden door willekeurige variatie. Dit is het meerdere vergelijkingen probleem. Uit een studie blijkt niet altijd hoeveel vergelijkingen er gemaakt zijn, soms worden er interessante resultaten geselecteerd uit vele oninteressante, leidend tot een verkeerd beeld. Het is goed om voorzichtig om te gaan met het accepteren van positieve conclusies van studies met meerdere vergelijkingen (met name bij ontdekkingen die niet vooraf als onderzoeksvraag gesteld waren).

Subgroepen en secundaire analyses

Twee gevaren bij het analyseren van subgroepen is de verhoogde kans om effecten te vinden in een bepaalde subgroep die niet aanwezig is in de werkelijkheid (dit komt door meerdere vergelijkingen), vals positieve conclusies en vals negatieve conclusies. Dit laatste komt doordat de data kleiner zijn en er daarom vaak geen sterke conclusies getrokken kunnen worden. Secundaire analyses zijn die niet tot de hoofdoorzaak van de studie behoren of niet gepland waren, dit kunnen bijv. verscheidene uitkomstanalyses zijn of subgroepanalyses. Richtlijnen voor het bepalen of verschillen in subgroepen werkelijk zijn, zijn:

  • hoe waarschijnlijk is het dat een effect door toeval komt, rekening houdend met de p-waarde en het aantal subgroepen,

  • is de grootte van het geobserveerde effect klinisch van belang,

  • was de hypothese dat er een effect zou zijn van te voren bedacht

  • was het 1 hypothese uit een klein aantal hypothesen?

  • Is het effect in andere studies naar voren gekomen?

  • Is er indirect bewijs dat het bestaan van het effect ondersteunt?

  • Bestond er een vermoeden op een verschil door vergelijkingen binnen studies of tussen studies?

Correlatie

De hoogte van het verband tussen variabelen kan o.a. met de Spearman’s rank correlation bij ordinale data of met de Pearson’s product moment correlation bij interval data. Deze drukken kwantitatief uit in hoeverre de waarde van de ene variabele geassocieerd is met de ander, bij elk past een statistische toets die kijkt of het verband groter is dan op toeval mogelijk is.

Multivariabelen

Vele aandoeningen zijn multifactorieel, om de interactie van vele variabelen in een studie te bekijken is het wijs om ze eerst met simpele methoden als stratificatie te onderzoeken, maar dit kun je niet voor vele variabelen doen, omdat er te weinig patiënten per combinatie van kenmerken zal zijn. Er is daarom multivariabelen modellering nodig. Dit bekijkt het effect van meerdere variabelen tegelijk. Bij klinisch onderzoek worden wiskundige modellen op 2 manieren gebruikt: om een klinische gebeurtenis te voorspellen door het gecombineerde effect van meerdere variabelen samen te berekenen en om het onafhankelijke effect van 1 variabele op de uitkomst te onderzoeken, terwijl er rekening gehouden wordt met het effect van andere variabelen die invloed kunnen hebben. De basis van een multivariabel model = constante +β1 x variabele1 + β2 x variabele2..etc. β= coëfficiënt bepaald door de data en variabele =de voorspellende variabelen die een verband kunnen hebben met de uitkomst. Modellering bestaat uit:

  • het identificeren en meten van variabelen die een verband kunnen hebben met de uitkomst waarin men geïnteresseerd is,

  • het verlagen van het aantal variabelen dat in het model meegenomen wordt tot een acceptabel getal, (dit kan door variabelen te selecteren die een hoger verband met de uitkomst hebben, dit kan statistisch met cut-offs. Het biologisch belang wordt ook meegewogen)

  • sommige variabelen zijn sterk gerelateerd aan elkaar, en kunnen geëxcludeerd worden (omdat ze ongeveer dezelfde informatie bevatten),

  • de overgebleven variabelen worden in het model meegenomen, met de volgorde waarin ze geanalyseerd worden afhankelijk van de onderzoeksvraag

Multivariabele modellen bieden een manier om meerdere variabelen in een keer mee te nemen of hiervoor te corrigeren, dit kan op geen andere manier. Hun validiteit hangt af van aannames over data die wellicht niet kloppen, ze detecteren verschillende effecten in verschillende subgroepen niet zo goed, een variabele kan een sterk verband hebben met de uitkomst, maar niet in het model voorkomen, omdat het weinig voorkomt en het model wordt snel beïnvloedt door kleine afwijkingen in de data door willekeurige variatie van patiëntkenmerken van steekproef tot steekproef. Ter bescherming tegen dit laatste bestaat er een vuistregel dat er voor elke voorspellende variabele minstens 10 uitkomstvariabelen moeten bestaan. Het model moet apart gevalideerd worden, vanwege deze problemen. Vaak wordt dit gedaan door te kijken of het model voorspelt wat er in een andere steekproef van patiënten gevonden wordt, dit wordt vergeleken met de resultaten van het eerste model. Het is onwaarschijnlijk dat dezelfde effecten gevonden worden, als met name willekeurige variatie verantwoordelijk was voor de resultaten in het eerste model. Aanwijzingen voor een valide model zijn verder consistentie bij andere simpelere analyses en de biologische waarschijnlijkheid.

Bayes

Een bepaald denkbeeld over het antwoord op een onderzoeksvraag is het begin van Bayesiaanse statistiek, daarna wordt er gevraagd in hoeverre de resultaten van een nieuwe studie dit denkbeeld veranderen. Deze manier van denken is interessant, omdat studies niet los van anderen bestaan, dus het beginnen met een nul hypothese is eigenlijk absurd, omdat er altijd wel iets bekend is over de onderzoeksvraag vóór dat de studie plaatsvond. De richting en grootte van de resultaten van een studie bepalen in hoeverre van een denkbeeld afgeweken wordt (bijv. zijn alle voorgaande studies negatief en dan komt er een positieve, dan blijft een effect onwaarschijnlijk, het denkbeeld verandert niet). Met Bayesiaanse statistiek is het ook niet van belang of er hypothesen van te voren zijn bepaald en meerdere vergelijkingen zijn ook geen probleem. Een eerder denkbeeld hangt af van de waarschijnlijkheid van een overtuiging, dan of de overtuiging vóór of na de studie bedacht was. Behalve bij diagnostische toetsing is Bayesiaanse statistiek moeilijk toepasbaar gebleken, doordat er moeilijk getallen aan ‘eerder denkbeeld’ gehangen kunnen worden. Het is wel de basis van kwantitatieve samenvattingen van klinisch onderzoek en het kwalitatief denken over oorzaak.

Clinical Epidemiology - Reviews en Systemische reviews (H12)

Het maken van keuzes in de kliniek is gebaseerd op het bewijs dat er van een vraag is. Vaak is men afhankelijk van de stapeling van bewijs van vele studies met elk niet zo definitieve conclusies. Een review is een samenvatting van al het bewijs dat al bekend is, een krachtigere aanpak is de systematische review. Het probleem van traditionele reviews is dat er weinig structuur is: studies worden geciteerd zonder dat er duidelijk is gemaakt hoe ze gevonden zijn, persoonlijke ervaring wordt er vaak aan toegevoegd, de originele studies worden wellicht niet kritisch bekeken, het kan zijn dat er geen verklaring wordt gegeven voor waarom de ene onderzoeksbevinding wordt gekozen over de ander.

Systematische reviews

Bij systematische reviews wordt het oorspronkelijk onderzoek samengevat op basis van een specifieke klinische vraag aan de hand van een wetenschappelijk plan dat van te voren is opgesteld en bij elke stap duidelijk gemaakt wordt. Zo kunnen lezers zelf de validiteit van de review bepalen. Bij een systemische review worden de volgende stappen doorlopen:

  • de klinische vraag wordt bepaald

  • alle complete studies over de vraag worden opgezet, gepubliceerd en ongepubliceerd

  • de studies die hoge standaarden van wetenschappelijke validiteit hebben, worden geselecteerd

  • in de geselecteerde studies wordt er gezocht op bias

  • de wetenschappelijke kwaliteit van de studies wordt beschreven

  • men vraagt zich af of de kwaliteit systematisch verband houdt met de resultaten van de studies

  • de studies worden met een figuur beschreven (een

  • er wordt besloten of de studies dermate op elkaar lijken dat ze gecombineerd kunnen worden

  • als ze dermate op elkaar lijken dat ze gecombineerd kunnen worden, dan wordt een samenvattende effectmaat en betrouwbaarheidsinterval berekend

Voor het zoeken naar relevante studies zijn er meerdere zoekmethoden, geen daarvan is voldoende om alle relevante studies te vinden.

Een studie moet aan een drempel qua wetenschappelijke kracht voldoen wil het in een systematische review terecht komen, alleen relatief sterke studies dienen meegerekend te worden. Hier zijn verschillende criteria voor opgesteld, zoals de STARD voor diagnostische testen en de CONSORT voor RCT’s. Van alle studies die gevonden worden, komen er maar weinig in de systematische review terecht, maar weinig behandelen de klinische vraag zelf, zijn klinisch relevant en zitten wetenschappelijk goed in elkaar.

Bias

Elke wetenschappelijk sterke studie die de klinische vraag behandelt, dient opgenomen te worden in de systematische review. De neiging van gepubliceerde studies om systematisch te verschillen van alle afgeronde studies die een vraag behandelen heet publicatie bias. Sommige afgeronde studies worden nooit gepubliceerd, in het algemeen kun je stellen dat gepubliceerde studies waarschijnlijker positieve conclusies hebben (er wordt een effect gevonden), er is namelijk een voorkeur voor dit soort resultaten. Onderzoek dat negatieve resultaten geeft wordt minder vaak afgerond en minder vaak ingediend bij journals. Journals kunnen ook minder geneigd zijn om negatieve studies te zoeken en ze te publiceren. Om dit te vermijden zoeken in een review wordt er ook naar onafgerond en ongepubliceerde studies gezocht, dit kan m.b.v. registers.

Sponsoring van onderzoek door bedrijven kan ook tot een verkeerd beeld van het beschikbare bewijs leiden, bijna 2/3 van het klinisch onderzoek in de VS wordt gesponsord door bedrijven. Deze studies zijn eerder geneigd om conclusies te trekken die in het voordeel zijn van het product van de sponsor, dit kan komen doordat bijv. het bedrijf als voorwaarde voor sponsoring stelt dat het onderzoek eerst door hun goedgekeurd moet worden. Andere vormen van bias is dat grote studies die vaker gepubliceerd worden, eerder ontdekt worden dan kleine en dat men bekend is met onderzoek in hun eigen taal, maar niet die in andere talen (Europeanen citeren eerder Europeanen bijv.).

Een funnel plot (trechter plot) kan gebruikt worden om selectiebias bij systematische reviews te ontdekken. In de y-as staat de grootte van de studie, als aantal personen (steekproefgrootte) en op de x-as de effectgrootte (bijv. odds ratio). In de figuur worden de studies als punten neergezet afhankelijk van de grootte van de studie en de effectgrootte. Als bias ontbreekt dan liggen de kleinere studies laag in de figuur en meer wijd verspreidt en de grotere studies hoog in de figuur en meer rond de werkelijke effectgrootte. Je krijgt zo een omgekeerde trechter vorm. Is er bias, dan krijg je deze vorm niet, maar een asymmetrische funnel plot. De kleinere studies zijn meer verspreid, omdat ze door hun grootte minder statistisch accuraat zijn. Voor de grotere studies geldt het omgekeerde.

Het is belangrijk om te kijken hoe goed de beste geselecteerde studies die de klinische vraag beantwoorden, zijn, om te bepalen hoe serieus de conclusies genomen moeten worden. Simpele criteria die gebruikt kunnen worden voor een RCT zijn bijv.: is de studie dubbelblind, is er beschreven wie er afgevallen zijn en zich uit de studie teruggetrokken hebben, is het gerandomiseerd? Je scoort 1 punt voor elke ja en 0 voor elke nee.

Een aanname van klinische epidemiologie is dat de resultaten van wetenschappelijke sterke studies dichter bij de werkelijke waarden dan zwakkere studies komen, maar is hier empirisch bewijs voor? Onderzoek naar het verband tussen de algehele onderzoekskwaliteit en de resultaten bij studies geselecteerd voor systematische reviews, laat geen duidelijke relatie zien. Dit kan komen doordat deze studies dermate geselecteerd zijn dat ze qua kwaliteit niet veel van elkaar verschillen. Het kan ook komen doordat de middelen die gebruikt worden om op kwaliteit te checken vaak kijken naar het wel/niet bestaan van bepaalde onderdelen, terwijl er geen reden is om te denken dat ieder onderdeel eenzelfde gewicht aan de kwaliteit van de studie levert. Kortom, kwaliteit scores en check lists hebben een plek maar vervangen het kritisch bekijken van individuele studies in een systemische review rekening houdend met in welke mate enige onvolmaaktheden die er in een studie bestaan de resultaten beïnvloed kunnen hebben.

Een samenvatting van de resultaten van een systematische review worden gegeven in een forest plot. Hierin worden de puntschattingen en de betrouwbaarheidsintervallen voor elke studie weergegeven. Met name de volgende 6 punten die erin worden samengevat, zijn informatief:

  • Aantal studies die aan de kwaliteitscriteria voldoen

  • Referenties van de studies, zodat het jaartal en waar ze gevonden zijn te zien is

  • Het aantal studies dat statistisch significant is

  • Het patroon van de effectgroottes: ligt het meer in de in de richting van de placebo of behandeling kant? Zijn ze onderling consistent?

  • De volgorde waarin studies beschreven worden (vaak chronologisch) laat zien hoe de resultaten over tijd veranderd zijn en wanneer de grote studies zijn uitgevoerd

  • De verhouding van de resultaten van grote statistisch accurate studies in vergelijking met kleinere studies (meestal laten de grote studies ook effect boven toeval zien en de kleinere niet, door grote betrouwbaarheidsintervallen).

Diagnostische testen en observationele studies kunnen ook met systematische reviews samengevat worden met respectievelijk ROC curves en forest plots.

Meta-analyse

In een meta-analyse worden de resultaten van aparte studies gecombineerd. Een voorwaarde hiervoor is dat de studies zo op elkaar lijken dat ze gecombineerd kunnen worden. Om dit te bepalen, bestaan er 2 algemene methoden: de statistische test voor homogeniteit en een geïnformeerd oordeel vellen over of de interventies, follow-up, uitkomsten en patiënten gelijk zijn. Met de statistische test wordt bepaald of de verschillen in resultaten op meer dan toeval berusten, wanneer de nulhypothese (geen verschil) niet verworpen kan worden, dan lijkt dat goed. Het probleem is alleen dat de meeste meta-analyses relatief weinig studies bevatten en zo voor weinig statistische power kunnen zorgen. Er is hoog risico op een vals negatieve uitkomst (studies zijn homogeen, terwijl dat niet zo is). De power wordt verder beïnvloedt door het aantal patiënten per studie en hun verdeling over de studies. Meta-analyses combineren meestal studies, maar een sterkere aanpak is data van elke patiënt in alle studies te combineren. Zo kun je subgroepen als ouderen analyseren, die normaliter een te kleine groep vormen in de aparte studies. Omdat het moeilijk is om al die data van onderzoekers te verkrijgen wordt dit relatief weinig gedaan.

Studies die grotere hoeveelheden informatie bieden worden zwaarder gewogen, dan informatie uit studies die een kleinere inbreng hebben, dus elke studie bepaalt een deel van de gecombineerde effectmaat afhankelijk van zijn grootte. Er zijn 2 wiskundige modellen die gebruikt worden om de studies in een meta-analyse bij elkaar samen te vatten: het random-effect model en het fixed-effect model. Het verschil tussen deze 2 ligt in hoe streng ze zijn in het schatten van algehele betrouwbaarheidsintervallen en wat er samengevat wordt.

Bij het random-effect model worden de studies gezien als een random steekproef van alle studies die op de vraag betrekking hebben. Er wordt in dit model aangenomen dat studies ietwat andere vragen beantwoorden en dat ze een dicht studie netwerk van eenzelfde vraag vormen. Zelfs als de homogeniteit test faalt, kan het redelijk zijn om studies te combineren met dit model, mits ze gelijk genoeg zijn op basis van een waarde oordeel. Dit model levert bredere betrouwbaarheidsintervallen dan de fixed-effect modellen. Daarom ziet men dit model als realistischer, de kans is kleiner dat ze precisie overschatten en ze houden rekening met heterogeniteit, daarom worden ze nu het vaakst gebruikt. Het is alleen niet zeker of de studies echt een random steekproef zijn en of hoe de familie van op elkaar lijkende studies bepaald wordt. Het fixed-effect model wordt het fixed effect genoemd, omdat de aanname is dat er maar 1 achterliggende effectgrootte is: elke studie behandeld precies dezelfde vraag en de verschillen per aparte studie komen door toeval. Het belangrijkste probleem hierbij is dat studies zelden zo gelijk zijn qua patiënten, uitkomsten, follow-up en patiënten. De breedte van de betrouwbaarheidsintervallen die met dit model berekend wordt, overschatten de precisie. Het combineren van niet gelijke studies zorgt verder voor het verlies van belangrijke informatie dat had kunnen resulteren uit het vergelijken.

De algehele effectgrootte wordt meestal uitgedrukt in puntschatting en betrouwbaarheidsinterval aan het eind van een forest plot van de studies die gecombineerd zijn. Het is een preciezere presentatie van wat er uit het patroon van de forest plot geconcludeerd kan worden. Bij een cumulatieve meta-analyse worden er in een forest plot i.p.v. op chronologische volgorde aparte studies neergezet, de samenvattende effectgrootte iedere keer opnieuw berekend wanneer er een nieuwe studie bijkomt. Zo krijg je een lopende samenvatting van alle studies op elk moment in de tijd. In de kolommen naast de forest plot staat het cumulatieve aantal patiënten in de tijd en in de rijen staan de jaren waarin de studies werden gedaan.

Voordelen en nadelen

De voordelen van het combineren van studies is dat de statistische power groter wordt, de werkelijke effectgrootte wordt preciezer geschat. Dit zorgt ervoor dat een beslissing kan worden gemaakt of een effect groot genoeg is om wel of niet klinisch relevant te zijn. Een ander voordeel is dat er klinische relevante effecten in subgroepen gevonden kunnen worden en zeldzame gebeurtenissen (bijv. zeldzame bijwerkingen) worden eerder ontdekt. Het belangrijkste nadeel van een meta-analyse is dat de indruk gewekt kan worden dat de resultaten erg precies zijn, terwijl er vele aannames aan de grondslag liggen. Het bij elkaar gooien van data neemt de aandacht weg van belangrijke klinische verschillen in effecten

Een ander nadeel is dat meta-analyses de samengevatte effecten als geschatte relatieve risico’s/odds ratio’s gerapporteerd worden en geen frequenties van behandelde patiënten en controls. Afhankelijk van het niveau van het basisrisico kan de effectiviteit verschillen. Artsen hebben ook informatie over de onderliggende frequenties van de uitkomstvariabelen nodig (het risicoverschil).

Grote trials en meta-analyse

Meta-analyses en grote randomized trials komen meestal overeen. De grote trials krijgen immers het meeste gewicht in meta-analyses. Het is wel voorgekomen dat meta-analyses van kleine trials niet overeenkwamen met dezelfde grote trials. Als een meta-analyse niet goed wordt uitgevoerd kan het misleidend zijn, er zijn criteria opgesteld voor meta-analyses van diagnostische tests en RCT’s (QUOROM). De MOOSE (meta-analysis of observationel studies in epidemiology group) heeft een plan voorgelegd om meta-analyses van observationele studies te rapporteren. Zowel grote trials en meta-analyses bieden informatie, ze concurreren niet met elkaar, wanneer ze niet met elkaar overeenkomen dan is het hoofdprobleem waarom ze niet overeenkomen. Het antwoord op deze vraag dient bij de onderzoeken zelf onderzocht te worden en niet in de methoden.

Medische Ethiek - Ethiek rondom wetenschap (H10)

Volgens wetenschappers is wetenschap waarden-vrij en pas bij de toepassing mogen ethische criteria aan de orde komen.

De klinische praktijk is lang buiten het bestek van de wetenschap gebleven. Uiteindelijk zijn er steeds meer onderzoeken gedaan op dit gebied. Voorbeelden van wetenschappers zijn Louis Pasteur, Robert Koch en Christiaan Eijkman. Deze wetenschappers deden onderzoek op mensen. Dit was soms riskant voor de proefpersoon. Sommigen vinden het onethisch om mensen bloot te stellen aan schadelijke factoren voor de wetenschap. Anderen zien het als essentieel voor de mensheid om experimenten op mensen uit te voeren. Een tijdelijk nadeel voor één proefpersoon woog op tegen het later te verkrijgen algemeen belang.

Er kwamen protesten tegen deze opvatting en werd er gepraat over toestemming van proefpersonen in de wetenschap. Hierbij werd onderscheid gemaakt tussen therapeutisch en niet-therapeutisch onderzoek (onderzoek waarvan de proefpersoon geen voordeel kon ondervinden).

Tijdens de Tweede Wereldoorlog zijn gruwelijke experimenten gedaan met gevangenen en mensen in concentratiekampen. Na de oorlog is groot protest tegen deze onderzoeken begonnen en naar aanleiding hiervan is in 1947 de Code van Neurenberg opgesteld. Hierdoor konden mensen worden veroordeeld die experimenten hadden uitgevoerd die in strijd waren met de rechten van de mens. In 1964 wordt de Code van Neurenberg omgezet in de Verklaring van Helsinki.

Na de tweede wereldoorlog ontwikkelt de medische wetenschap zich snel. Er komen allerlei nieuwe medicijnen op de markt, waaronder antibiotica en tranquillizers. Ook wordt de levende cel steeds beter in beeld gebracht.

Er wordt op een gegeven moment gesproken van een medisch-technologische imperatief. Alles wat mogelijk is op wetenschappelijk en technologisch gebied moet ook worden ontwikkeld en toegepast.

Later blijkt dat deze toepassing van alles wat mogelijk is niet zonder enig risico is. Er komen steeds meer gevallen aan het licht waarin geneesmiddelen hebben gezorgd voor nadelige effecten. Het is dus noodzakelijk om de negatieve bijwerkingen in acht te nemen bij de toepassing van geneesmiddelen.

Er wordt steeds meer mogelijk. We kunnen zelfs lichaamsfuncties beïnvloeden, zoals met hormonale anticonceptiemiddelen. Dit roept enige bezwaren op vanuit verschillende levensbeschouwende opvattingen.

Er komen steeds meer technieken om processen te beïnvloeden. Een voorbeeld hiervan is het genetisch modificeren van organismen. Hiertegen komen veel morele bezwaren vanuit verschillende tradities en opvattingen.

Bij al deze ontwikkelingen zijn de waardigheid en het respect voor het leven van de mens in het geding.

De ethiek in de wetenschap beoordeelt of een bepaald onderzoek wel of niet toelaatbaar is. Op verschillende niveaus vindt ethische evaluatie van biomedisch wetenschappelijk onderzoek plaats.

De verklaring van Helsinki is een universeel aangenomen code waarmee ieder persoon die betrokken is bij medisch wetenschappelijk onderzoek mee te maken heeft. De belangrijkste elementen van deze code zijn de volgende:

  • Ethische toetsing van het onderzoeksprotocol voordat het onderzoek uitgevoerd kan worden

  • Het beschermen van de patiënt

  • Respect voor menselijke waardigheid

  • Kwalificatie van de onderzoeker

  • Respect voor bijzonder kwetsbare groepen

Er is regelgeving nodig om biomedisch onderzoek goed te reguleren. Binnen de Europese Unie zijn wetten ontwikkeld voor biomedisch onderzoek. De regels binnen de EU gelden alleen voor lidstaten die het hebben ondertekend. Lang niet iedereen heeft dit gedaan. Elk land heeft het recht om eigen criteria op te stellen.

WMO (Wet medisch-wetenschappelijk onderzoek met mensen)

Er wordt steeds meer onderzoek gedaan op levend menselijk weefsel of lichaamsmateriaal. Hier wordt onderzoek gedaan naar principes die eerst op dieren of planten werkzaam zijn gebleken. Het kan zijn dat met dit soort onderzoek bijwerkingen optreden zoals het ontwikkelen van nieuwe ziekten. Er is in Nederland de WMO van kracht om onzekerheid over voorwaarden omtrent biomedische wetenschappelijk onderzoek weg te werken.

In de WMO staan de voorwaarden die bij onderzoek met mensen en levend menselijk weefsel van toepassing zijn.

Het onderzoeksvoorstel krijgt alleen een positief oordeel wanneer de volgende aspecten van toepassing zijn:

  • Het onderzoek moet tot nieuwe inzichten op het gebied van de geneeskunde leiden

  • Het is niet mogelijk om op een andere (minder ingrijpende) manier tot zo een inzicht te komen

  • Het belang van de resultaten staat in redelijke verhouding met de bezwaren en risico’s

De toetsing wordt uitgevoerd door een medisch ethische commissie. Deze kan zowel lokaal als regionaal zijn. Het doel van deze toetsing is het beschermen van de proefpersoon die aan biomedisch wetenschappelijk onderzoek meedoet.

WMO onderscheidt de volgende soorten onderzoek: observationeel onderzoek, non-invasief onderzoek, invasief onderzoek (het lichaam wordt binnengedrongen) en interventieonderzoek (ofwel naar het werkingsmechanisme ofwel naar het therapeutisch effect van de interventie). De zwaarte van de toetsing hangt af om wat voor soort onderzoek het gaat.

Ook maakt de WMO onderscheid tussen therapeutisch en niet-therapeutisch onderzoek. Alleen bij therapeutisch onderzoek kan het voor de proefpersoon een positief effect hebben.

In sommige gevallen is het moeilijk om onderscheid te maken tussen invasief en niet-invasief onderzoek. De toetsingscommissie moet dat vaststellen in welke mate het onderzoek invasief is. Dit doen ze aan de hand van de mogelijk schade die de proefpersoon kan ondervinden.

Bij biomedisch onderzoek wordt vaak gerandomiseerd en geblindeerd. Ook wordt er vaak gebruik gemaakt van een placebo (niet-werkzaam middel). Onderzoeken die gebruik maken van dit soort technieken wordt RCTs genoemd (randomized controlled trials). Hierbij worden ook inclusie- en exclusiecriteria gebruikt. Dit kan voor een verminderde generaliseerbaarheid zorgen, wat weer belangrijk is voor de ethische evaluatie.

Er wordt telkens de generaliseerbaarheid afgewogen tegen de belasting voor de proefpersoon.

Onderzoek naar nieuwe geneesmiddelen is opgesplitst in vier verschillende fasen:

  • Fase I: onderzoek naar het werkingsmechanisme en maximaal tolereerbare dosis. Dit is een niet-therapeutisch onderzoek.

  • Fase II: mogelijk genezende werking te bepalen. Dit wordt meestal gedaan door het middel te vergelijken met een placebo-interventie. Alleen voor mensen die dan het middel krijgen is er sprake van therapeutisch onderzoek.

  • Fase III: Hierbij wordt het nieuwe middel vergeleken met een al bestaand middel. Er is sprake van therapeutisch onderzoek.

  • Fase IV: Hier wordt onderzocht welke werking het middel heeft op groepsniveau. Er is sprak van therapeutisch onderzoek.

Bij een RCT zijn een aantal aspecten die ethische evaluatie behoeven. Ten eerste kan de groep die placebo krijgt een effectieve behandeling worden onthouden. Hiervoor moet ethische rechtvaardiging bestaan. Ten tweede kunnen de middelen die aan de proefpersonen worden gegeven bijwerkingen geven. Ook kan de duur van zo’n RCT erg lang zijn waardoor het ethisch gerechtvaardigd moet zijn om mensen zo lang met een experimenteel middel te behandelen. Ook zijn er vaak veel proefpersonen nodig om het gevonden resultaat significant te laten zijn. Er moet op een gegeven moment gekeken worden of de beide behandelingen klinisch gelijkwaardig zijn (equipoise). Als laatste moet er gedacht worden aan mogelijke kosten die de proefpersoon moet maken om aan het onderzoek mee te doen. Hiervoor moet compensatie geregeld worden.

Om het beloop en de mogelijke negatieve gevolgen van het onderzoek te monitoren is het soms nodig om tijdens het onderzoek een interim-analyse uit te voeren. Dit is een tussentijdse statistische analyse. Ook kan het onderzoek aan de hand van stoppingrules vroegtijdig gestopt worden.

Het gebruik van placebo wekt in de ethiek een grote discussie op. Bij sommige patiënten is het bewezen dat een bepaalde behandeling beter is dan niets doen. Is het dan ethisch om diegene in de placebo groep onder te brengen?

Bij niet-therapeutisch onderzoek zijn de ethische vragen nog ingewikkelder. De patiënt ondervindt namelijk in geen enkel geval voordeel aan het onderzoek. Meestal lijkt het op individueel niveau, gekeken naar de principes weldoen en niet schaden, een eenvoudige kwestie. Echter is het voor de totale groep nog niet zo eenvoudig. Voor dit soort onderzoek is dus ook schriftelijke toestemming van de proefpersoon nodig.

De WMO onderscheidt drie gevallen. Ten eerste de mensen die zelf toestemming kunnen geven. Ten tweede de mensen die geen toestemming kunnen geven en als laatste de mensen die tijdelijk geen toestemming kunnen geven. Alleen de mensen uit de eerste groep mogen volgens de WMO deelnemen aan biomedisch wetenschappelijk onderzoek. Ook moeten zij ouder zijn dan 18 jaar.

De proefpersoon moet voorafgaand aan het geven van schriftelijke toestemming zijn ingelicht over het doel, de risico’s en de belasting van het onderzoek.

Het is niet zo dat onderzoek bij de andere groepen niet mogelijk is. Er zijn dan echter wel zeer strenge eisen gesteld aan het onderzoek. Dit is ter bescherming van deze mensen. Het is ook mogelijk om onderzoek te doen bij wilsonbekwamen die voor het individu niet direct voordeel opleveren maar wel voor de groep.

Een persoon die toestemming geeft kan dit alleen doen wanneer dit geheel vrij en op basis van volledige informatie gebeurt. Er mag dus geen verhouding bestaan tot de onderzoeker die de vrijheid kan inperken. De informatie die gegeven wordt aan de patiënt roept ook discussie op. Het is namelijk niet altijd nodig om de meest zeldzame bijwerkingen te vermelden. Dit kan de persoon onnodig ongerust maken. Echter moet de persoon wel een reëel beeld krijgen van de risico’s die het onderzoek met zich mee kan brengen.

Vervolgens moet de proefpersoon een toestemmingsformulier krijgen. Hierop staan de rechten van de persoon. Ook staat hier vermeld dat de persoon ten alle tijden (ook zonder reden) het onderzoek kan verlaten. Er zijn situaties waarin het niet mogelijk is dat de patiënt het formulier onderteken (bijv. spoedsituaties). In sommige gevallen is het dan mogelijk om dit achteraf te regelen.

bijlage_formules_en_figuren_bij_inleiding_in_de_toegepaste_biostatistiek.pdf

 

Image

Access: 
Public

Image

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Institutions, jobs and organizations:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: Medicine Supporter
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
3115
Search a summary, study help or student organization