Samenvatting bij Experimental and Quasi-Experimental Designs for Generalized Causal Inference van Cook, Campbell & Shadish (2nd edition, 2001)
- Hoofdstuk 1: Experimenten en gestandaardiseerde causale gevolgtrekking
- Hoofdstuk 2: Validiteit van de statistische gevolgtrekking en interne validiteit
- Hoofdstuk 3: Begripsvaliditeit en externe validiteit
- Hoofdstuk 4: Quasi-experimentele designs zonder controlegroep of zonder pretest-resultaten
- Hoofdstuk 5: Quasi-experimentele designs met zowel controlegroep als pretest
- Hoofdstuk 6: Quasi-experimenten: ‘Interrupted Time-Series Designs’
- Hoofdstuk 7: Onderbroken regressie designs
- Hoofdstuk 8: Gerandomiseerde experimenten
Hoofdstuk 1: Experimenten en gestandaardiseerde causale gevolgtrekking
De wetenschappelijke revolutie in de 17e eeuw had drie gevolgen voor het gebruik van observatie in onderzoek:
Observatie werd steeds meer gebruikt om fouten in theorie te corrigeren. Voorheen werd observatie ingezet om een theorie te bewijzen.
Experimenteren hield in dat een doelbewuste actie werd ondernomen waarna via een systematische observatie werd bekeken wat er na die actie gebeurde. Het observeren van de effecten van manipulatie kwam centraal te staan. Voorheen werden bestaande systemen geobserveerd, wat in vergelijking met voorgaande een passieve observatie is.
Onderzoekers trachtten factoren onder controle te houden die goede observaties in de weg stonden. Te denken valt aan het hoger op een heuvel plaatsen van een microscoop, omdat de lucht daar helderder is. Een gevolg van deze ontwikkeling is het ontstaan van aselecte toewijzing en het toevoegen van een controlegroep.
1.1 Experimenten en gevolgen
Om in de wetenschap iets over experimenten te kunnen zeggen, is het van belang dat er een goede definitie is van oorzaak en gevolg. Ook de manier waarop deze twee factoren samenhangen is van belang. Zo kan de oorzaak het gevolg uiteraard veroorzaken, maar er kan ook sprake zijn van een wederkerige (‘reciprocal’) relatie waarbij de twee factoren elkaar veroorzaken.
1.1.1 Oorzaak
Een geaccepteerde definitie van oorzaak is: een variabele die een gevolg of resultaat produceert. In werkelijkheid is het echter niet zo eenvoudig om een oorzaak aan te wijzen. Vaak zijn er verschillende (deel)oorzaken, en is het lastig te duiden welke oorzaken nou rechtstreeks verantwoordelijk zijn voor het opgetreden effect. Mackie bedacht hiervoor de INUS-voorwaarde: “an Insufficient but Nonredundant part of an Unnecessary but Sufficient condition.”
Vertaald houdt dit in: een onvoldoende maar niet overbodig deel van een niet noodzakelijke maar wel voldoende voorwaarde. Als voorbeeld kan gedacht worden aan een bosbrand. Bosbranden kunnen ontstaan door een brandende/smeulende lucifer, een blikseminslag of bijvoorbeeld door een smeulend kampvuur. Je kunt niet zeggen dat de lucifer dé oorzaak van de bosbrand is; hij moet lang genoeg heet blijven en in contact komen met licht ontvlambaar materiaal. Ook moet er bijvoorbeeld genoeg zuurstof aanwezig zijn.
De lucifer is dan de INUS-voorwaarde: Het is onvoldoende, want de lucifer alleen kan niet zorgen voor de bosbrand. Het is niet overbodig, als het duidelijk verschilt van de andere aanwezige factoren (zoals licht ontvlambare droge bladeren, en zuurstof). Het is onderdeel van een voldoende voorwaarde, omdat de lucifer de brand kan veroorzaken. De lucifer is echter niet noodzakelijk, omdat er tal van andere factoren zijn die de bosbrand kunnen veroorzaken.
1.1.2 Gevolg
Gevolgen zijn beter te begrijpen door gebruik te maken van een ‘counterfactual model’ (tegenovergesteld feitelijk model). In een experiment ondergaan mensen in de interventiegroep een experimentele behandeling. In het counterfactual model wordt gekeken wat er met dezelfde mensen zou zijn gebeurd als ze deze behandeling niet zouden hebben gekregen. Het verschil tussen deze twee uitkomsten is dan het gevolg. Het is echter lastig om dit te observeren, omdat je dezelfde mensen natuurlijk niet tegelijkertijd in twee groepen (interventie en non-interventie groep) kunt indelen. Het is daarom van belang om een kwalitatief hoogstaande bron van counterfactual gevolgtrekking te creëren, en te onderzoeken hoe deze bron verschilt van de experimentele groep.
1.1.3 Causaliteit
Volgens J.S. Mill bestaat een causaal verband uit drie aspecten:
De oorzaak ging vooraf aan het gevolg;
De oorzaak is verbonden met het gevolg;
Er zijn geen andere verklaringen te geven voor het gevolg anders dan de oorzaak.
In experimenten is deze driedeling terug te vinden in de gebruikte methode:
We manipuleren de veronderstelde oorzaak en observeren het gevolg achteraf;
We kijken of variatie in oorzaak veranderingen in het gevolg teweegbrengt;
We gebruiken verschillende methoden gedurende het experiment om andere verklaringen uit te sluiten.
Het is ook van belang te begrijpen dat correlatie en causaliteit per definitie van elkaar verschillen. Als er correlatie is tussen bepaalde factoren, dan is daarmee nog niet duidelijk welke factoren oorzaak zijn. Soms kan de relatie tussen factoren ook veroorzaakt worden door een derde variabele, ook wel ‘confound’ variabele genaamd. Verder is het ook van belang er rekening mee te houden dat alleen manipuleerbare factoren onderwerp van een experiment kunnen zijn. Het is dan ook veel moeilijker om de effecten van niet-manipuleerbare factoren te onderzoeken. Een oplossing kan zijn het gebruiken van analoge experimenten. Dat is een experiment dat een oorzaak manipuleert die gelijkwaardig is aan de te onderzoeken oorzaak, om zo meer te weten te komen over die te onderzoeken oorzaak.
Naast het onderscheiden van correlatie en causaliteit, het in overweging nemen van een confound variabele en de mate van manipuleerbaarheid bepalen, is het ook van belang om onderscheid te maken tussen een causale beschrijving en een causale verklaring. Een beschrijving is tamelijk oppervlakkig (bijvoorbeeld: als ik het lichtknopje gebruik, dan gaat het licht aan), waar een verklaring dieper op de stof in gaat (bijvoorbeeld: als ik het lichtknopje gebruik, dan sluit ik de elektrische cyclus zodat de stroom rond kan gaan, enz.). Dit is van belang voor de generalisatie van causale beschrijvingen, omdat je zo te weten kunt komen wat noodzakelijke onderdelen van de oorzaak zijn. Het onderscheid tussen causale beschrijving en causale verklaring is nauw verbonden met het onderscheid tussen molaire en moleculaire causatie. Bij molaire (‘molar’) causatie kijk je naar het gehele verband tussen een complex van interveniërende factoren en het effect daarvan. Beide kunnen uit afzonderlijke delen bestaan. Moleculaire causatie richt zich op de vraag welke delen van een interventie verantwoordelijk zijn voor het effect.
1.2. Moderne beschrijvingen van experimenten
Er zijn door de jaren heen verschillende soorten experimenten bedacht. We noemen er hier vier:
1.2.1 Gerandomiseerd experiment
Bij dit experiment worden twee groepen gecreëerd (een experimentele groep en een controlegroep), en zijn de groepen aselect samengesteld.
1.2.2 Quasi-experiment
Het doel van een quasi-experiment en een gerandomiseerd experiment is hetzelfde: het testen van beschrijvende causale hypotheses over manipuleerbare oorzaken. Het verschil is echter, dat een quasi-experiment niet gerandomiseerd is. Een gevolg hiervan is, dat de experimentele groep en de controlegroep op meer punten van elkaar verschillen dan alleen de aanwezigheid van de interventie. Het is dan niet met zekerheid te zeggen waardoor de gevonden verschillen veroorzaakt zijn.
Ook is het rijpingsproces in een gerandomiseerd experiment in beide groepen gelijk, maar in een quasi-experiment niet.
1.2.3 Natuurlijk experiment
Een natuurlijk experiment onderzoekt de effecten van een natuurlijk optredende gebeurtenis. Dit wordt gedaan voor grote niet-manipuleerbare gebeurtenissen (zoals aardbevingen), maar ook voor meer algemene gebeurtenissen.
1.2.4 Non-experimentele designs
Bij non-experimentele designs worden variabelen geobserveerd en niet gemanipuleerd. Er is geen randomisatie en geen pretests of controlegroepen. Over het algemeen vindt men dit design niet echt geschikt om causale verbanden mee te ondersteunen.
1.3 Experimenten en de generalisatie van causale verbindingen
De sterke kant van experimenten is de eigenschap om causale verbanden bloot te leggen. De zwakke kant is de vraag in hoeverre deze causale verbanden te generaliseren zijn. Mocht een experiment niet goed te generaliseren zijn, dan wil dit nog niet zeggen dat het daarom een slecht experiment is.
Cronbach beschreef experimenten in termen van units (die de interventie ontvangen), de treatment (de behandeling), de observaties van de units en de setting (omgeving) waarbinnen het experiment plaatsvindt. In samenhang daarmee formuleerde hij twee typen generalisatie:
Generalisatie naar het domein waarover de onderzoeksvraag is gesteld (UTOS: Units, Treatment, Observations, Settings);
Generalisatie naar de UTOS die niet direct geobserveerd worden (= *UTOS).
Hier wordt Cronbach deels gevolgd, en worden behandeling, omgeving, personen (i.p.v. units), en outcomes (i.p.v. observaties) onderscheiden. Een ander verschil met Cronbach ligt in de twee vormen van generalisatie. Generalisatie wordt geformuleerd met betrekking tot begripsvaliditeit en met betrekking tot externe validiteit.
1.3.1 Begripsvaliditeit
Begripsvaliditeit gaat over de vraag hoe je van de afzonderlijke personen, interventies, outcomes en settings komt tot de hogere begrippen die je met behulp hiervan wilt meten. Anders gezegd: meet je wat je wilt meten?
1.3.2 Externe validiteit
Externe validiteit vraagt zich af of een causaal verband stand blijft houden als er gevarieerd wordt in personen, interventies, outcomes en settings. Belangrijk is hierbij, dat generalisatie in dit verband geen bredere inzetbaarheid inhoudt. Het gaat alleen over variatie in de eerder genoemde factoren. Een causaal verband tussen een interventie en leesprestaties uitgevoerd in Spanje kan bijvoorbeeld ook gezien worden in Zuid-Afrika. Het wil dan niet zeggen dat Zuid-Afrika ‘breder’ is dan Spanje; het zegt alleen dat er gevarieerd is in setting en personen.
1.3.3 Wat heeft een experiment nodig om tot begripsvaliditeit en externe validiteit te komen?
De belangrijkste factor is aselecte toewijzing. Toch maken wetenschappers zelden causale generalisaties in hun onderzoek, en als ze het al doen dan gebruiken ze bijna nooit aselecte toewijzing. Om dit voortaan wel te doen worden vijf principes genoemd waarmee wetenschappers causale generalisaties kunnen maken:
Oppervlakkige gelijkheid (‘surface similarity’) vaststellen van de studieobjecten en de doelgroep (waarnaar gegeneraliseerd moet worden);
Irrelevante aspecten uitsluiten: onderzoekers identificeren die dingen die een generalisatie niet zullen veranderen;
Discriminerende factoren vaststellen die de generalisatie te beperken;
‘Interpolation’ en ‘extrapolation’. Bij interpolation creëer je extra datapunten (bijv. punten in een grafiek) binnen de dataset. In het diagram hieronder is dat te zien: de punten in de cirkel zijn de bestaande datapunten, de lijnen die de punten verbinden noemen we interpolation. Bij extrapolation doe je hetzelfde, maar dan buiten de dataset. Dat is te zien in de rechter grafiek, waar je probeert een waarde voor x=7 te vinden terwijl de grafiek maar tot x=5 gaat;
Causale verklaringen. Onderzoekers ontwikkelen verklarende theorieën over de effecten, oorzaken en mediërende processen die van belang zijn voor een causaal verband.
Zie bijlage
Fig. 1: Interpolation Fig. 2: Extrapolation
(Bron: Wikipedia)
1.4 Experimenten en meta-science
In de loop der jaren is er veel gesproken over wetenschap ‘an sich’. Wetenschappers hebben kritiek geleverd op de wetenschap, en deze kritiek heeft gevolgen voor experimenten. Zo wordt de ‘equivocality’ (voor meerdere interpretaties vatbaar) van alle wetenschappelijke kennis tegenwoordig meer gewaardeerd. Experimenten zijn geen regelrechte afspiegeling van de werkelijkheid. Een gevolg hiervan is, dat uitkomsten van experimenten kunnen veranderen als er nieuwe inzichten op een bepaald gebied naar voren komen. Een tweede gevolg is dat het experiment een menselijke inspanning is, dat beïnvloed wordt door menselijke tekortkomingen, maar dat wel (deels) de beperkingen kan controleren.
Hoofdstuk 2: Validiteit van de statistische gevolgtrekking en interne validiteit
2.1 Validiteit
Hoewel validiteit vaak in absolute term gebruikt wordt (is deze gevolgtrekking waar?), kan vaak niet gezegd worden of alle gevolgtrekkingen al dan niet gefalsificeerd kunnen worden. Validiteit is dus een relatief begrip. Ook is het van belang te bedenken dat validiteit betrekking heeft op de gevolgtrekking en niet op een gebruikte methode van/in onderzoek. Toch heeft validiteit een sterke band met ‘waarheid’. In de wetenschapsgeschiedenis zijn er drie theorieën te onderscheiden die ook over waarheid spreken:
‘Correspondance theory’
Stelt dat een standpunt waar is als het aansluit op de realiteit. Bijvoorbeeld: ‘Het regent’ is waar als we buiten zien dat het regent;‘Coherence theory’
Stelt dat een standpunt waar is als het behoort tot een samenhangend geheel van standpunten. Bijvoorbeeld: ‘Roken veroorzaakt kanker’ is waar als het aansluit bij alles wat we al weten over roken en kanker;‘Pragmatism’
Stelt dat een standpunt waar is als het nuttig is om dat standpunt te geloven. Bijvoorbeeld: ‘elektronen bestaan’ is waar als het ons helpt om bepaalde observaties te begrijpen.
Omdat wetenschappers onderling niet hebben kunnen uitmaken welke theorie het beste is, is er een theorie die uit bovenstaande theorieën is samengesteld. Deze benoemt vier vormen van validiteit:
Validiteit van de statistische gevolgtrekking;
Verwijst naar het goed gebruiken van statistiek om te bepalen hoe de onafhankelijke en afhankelijke variabele met elkaar samenhangen.Interne validiteit;
Verwijst naar of deze samenhang het gevolg is van een causaal verband.Begripsvaliditeit;
Verwijst naar generalisaties naar begrippen.Externe validiteit.
Verwijst naar generalisaties naar variërende personen, omgevingen, enz.
2.2 Validiteit van de statistische gevolgtrekking
Validiteit van de statistische gevolgtrekking stelt twee vragen: covariëren oorzaak en gevolg, en hoe sterk is die covariantie? Hierbij zijn twee fouten te maken. We kunnen onterecht concluderen dat oorzaak en gevolg samenhangen (Type 1-fout), of we kunnen ontrecht concluderen dat ze niet samenhangen (Type 2-fout).
2.2.1 Beschrijving van covariantie-statistiek
De meest voorkomende manier om te bepalen of oorzaak en gevolg samenhangen, is door middel van het stellen van een nulhypothese. Deze luidt dat beide variabelen niet samenhangen. Het is lastig om de uitkomst van het testen van deze hypothese goed te interpreteren. De uitkomst is meestal een p-waarde, maar deze vertelt ons niks over de effectgrootte. Ook vatten onderzoekers deze p-waarde vaak op als de kans dat H0 waar is. De opinie is dan ook dat de nulhypothese een minder grote rol in experimenteel onderzoek zou moeten spelen dat tegenwoordig het geval is. De effectgrootte en het betrouwbaarheidsinterval bevatten dezelfde informatie als de nulhypothesetest, maar leggen de nadruk op de grootte van covariantie en een preciezere formulering van de effectgrootte.
2.2.2 Bedreigers van validiteit van de statistische gevolgtrekking
2.2.2.1 Lage statistische power
Als er te weinig power in een experiment is, dan kan ten onrechte geconcludeerd worden dat de relatie tussen interventie en controlegroep niet significant is. De power kan verhoogd worden op vele manieren, zoals het vergroten van de steekproeven.
2.2.2.2 Schendende assumpties van statistische tests
Als de assumpties van de statistische tests niet kloppen, dan kan dat leiden tot overschatting of onderschatting van de effecten van de interventies.
2.2.2.3 Vissen en het ‘error-rate’ probleem
Als er te vaak getest wordt op significantie, dan kan dat (mits niet gecorrigeerd voor het aantal tests) de significantie kunstmatig opdrijven.
2.2.2.4 Onbetrouwbaarheid van metingen
Meetfouten maken de relatie tussen twee variabelen onbetrouwbaarder, en verslechtert of verbetert de relatie tussen drie of meer variabelen. Deze bedreiger kan onder controle worden gehouden door bijvoorbeeld het aantal metingen te verhogen of de kwaliteit van metingen te verhogen.
2.2.2.5 Beperkte reikwijdte
Als de variabele niet genoeg reikwijdte heeft, dan verzwakt dat de relatie tussen deze en een andere variabele. Bodemeffecten en plafondeffecten zijn hiervan voorbeelden.
2.2.2.6 Onbetrouwbaarheid van de implementatie van de interventie
Als een interventie niet geheel is geïmplementeerd, dan kan dat het effect van de volledige interventie onderschatten.
2.2.2.7 Externe variatie in de experimentele setting
Sommige omstandigheden tijdens de implementatie van de interventie kunnen ertoe leiden dat een effect moeilijker is op te sporen. Een voorbeeld hiervan is een verstorend geluid.
2.2.2.8 Heterogeniteit van units (respondenten)
Als de variatie op de outcome-variabele groter is, dan zal de error-variantie ook groter worden. Hierdoor is het moeilijker om een verband op te sporen.
2.2.2.9 Niet accurate schatting van de effectgrootte
Sommige metingen overschatten of onderschatten effectgrootte systematisch.
2.2.3 Problemen bij het accepteren van de nulhypothese
Er kunnen verschillende omstandigheden zijn waarin het lastig is om een goede beslissing t.a.v. de nulhypothese te maken. Een voorbeeld hiervan is dat de H0 en Ha dichtbij elkaar liggen. Om situaties zoals deze te voorkomen, kun je als onderzoeker vier dingen doen:
Vergroot de power;
Besteed aandacht aan het afbakenen van de effectgrootte: Wat is een aanvaardbare grootte en wat is het minimum?;
Maak gebruik van andere meetmethoden om te onderzoeken of twee behandelingen samenhangen;
Maak gebruik van quasi-experimenten om te zien of er grotere effecten optreden onder bepalende condities.
2.3 Interne validiteit
Interne validiteit is door Campbell veranderd in ‘local molar causal validity’, wat inhoudt dat deze validiteit causale verbanden behelst (causal), dat deze verbanden gerelateerd zijn aan plaatselijke (local) interventies, outcomes, times, settings en persons en dat het om een pakket van maatregelen binnen de interventie gaat (molar).
Er zijn negen bedreigers voor interne validiteit:
2.3.1 Onduidelijke tijdsvolgorde
Als het niet duidelijk is welke variabele eerst optrad, dan is het moeilijk om oorzaak en gevolg vast te stellen.
2.3.2 Selectie
Als de eigenschappen van deelnemers verschillen bij belangrijke condities, dan kan dat het geobserveerde effect veroorzaken.
2.3.3 Geschiedenis
Als er tijdens de interventie een belangrijke gebeurtenis plaatsvindt, dan kan dat ook het effect veroorzaakt hebben.
2.3.4 Rijping
Natuurlijk optredende veranderingen kunnen verward worden met het effect van de interventie.
2.3.5 Regressie
Als units worden geselecteerd op basis van hun hoge scores, zullen ze bij een volgende meting minder extreem scoren.
2.3.6 Uitval
Als deelnemers uitvallen en die uitval heeft te maken met de ontvangen interventie, dan is het effect troebel.
2.3.7 Testing
Als deelnemers zijn blootgesteld aan een test, dan kan dat het resultaat van een volgende test beïnvloeden.
2.3.8 Instrumentatie
Het meetinstrument kan veranderen waardoor de uitkomst ook verandert. Deze verandering kan als effect van de interventie worden aangezien.
2.3.9 Gecombineerde en toegevoegde effecten van bedreigers van interne validiteit
Bovengenoemde bedreigers kunnen ook samen optreden en zo extra bedreigend zijn.
Interne validiteit is in verschillende mate aan de orde als het gaatRead more
Add new contribution