Samenvatting Research design in clinical psychology

Deze samenvatting is gebaseerd op het studiejaar 2013-2014.

Hoofdstuk 1 Inleiding

De doelen van wetenschappelijk onderzoek zijn het blootleggen van relaties tussen variabelen die anders niet onmiddellijk herkenbaar zijn en het verifiëren van veronderstelde (gehypothetiseerde) relaties. Zonder onderzoek kan een potentiële relatie tussen variabelen alleen in de complexe natuur geobserveerd worden. Onderzoeksdesigns en statistische evaluaties helpen de situatie te versimpelen, zodat de invloed van meerdere, vaak tegelijkertijd optredende, variabelen gescheiden kan worden van de variabelen waarin de onderzoeker geïnteresseerd is. Zonder die versimpeling en isolatie van variabelen zouden meerdere, zoniet oneindig veel, interpretaties een bepaald verschijnsel kunnen verklaren. De toegevoegde waarde van onderzoek is dat het helpt bij het uitsluiten of onwaarschijnlijk maken van andere mogelijke verklaringen. Een experiment sluit niet perse alle mogelijke verklaringen uit. De mate waarin een experiment succesvol is in het uitsluiten van alternatieve verklaringen is een kwestie van gradatie. Vanuit een methodologisch standpunt geldt, hoe beter het ontwerp van een studie, hoe meer succesvol in het onwaarschijnlijk maken van concurrerende verklaringen van de resultaten

In dit boek worden de struikelblokken beschreven die de weg naar kennis bemoeilijken en de beschikbare methodes en strategieën om die struikelblokken weg te nemen of te verkleinen.

Methodologie en onderzoeksdesign

Overzicht
Methodologie is de algemene term voor diverse principes, procedures en werkwijzen die bepalend zijn bij wetenschappelijk onderzoek. Methodologie verwijst naar een manier van denken die zich bezighoudt met de vraag hoe iets onderzocht en geïnterpreteerd gaat worden. Methodologie doet onderzoekers nadenken over de relaties tussen variabelen, over oorzaak en gevolg en over conclusies die getrokken kunnen worden op basis van theorie, onderzoek en ervaring.

Binnen het domein van de methodologie valt het ontwerpen van een studie. De term onderzoeksdesign refereert aan het te gebruiken plan of indeling bij het onderzoeken van de vraag. Het ontwerp en de uitvoering van een onderzoek bepaalt hoe de bevindingen geïnterpreteerd kunnen worden. Methodologie gaat meer over, hoe een vraag gesteld moet worden en tegelijkertijd over welke zaken nodig zijn om duidelijke antwoorden te kunnen krijgen.

Taken van onderzoek
Vaak wordt er bij onderzoek een vergelijking gemaakt tussen groepen. Het kan zo zijn dat er een manipulatie (bijv. toedienen van een medicijn) plaatsvindt bij de ene groep (experimentele groep) en niet bij de andere (controlegroep). Het kan ook zijn dat er een vergelijking wordt gemaakt tussen groepen die op basis van hun karakteristieken geselecteerd zijn (het wel of niet hebben van een bepaalde medische of psychiatrische aandoening).

Een andere taak van onderzoek doen is het testen van hypotheses. Vaak worden deze hypotheses in “als-dan” termen geformuleerd. “Als” refereert meestal naar de onafhankelijke variabele die gemanipuleerd of gevarieerd wordt, terwijl de “dan” refereert aan de afhankelijke variabele, oftewel de resulterende data.

Wat ook mogelijk is, is dat er gekeken wordt naar een relatie tussen variabelen zonder dat er van tevoren een specifieke hypothese opgesteld is. Dit is explorerend onderzoek.

Het is bij onderzoek doen belangrijk om van te voren rekening te houden met externe factoren die de uitkomstvariable kunnen beïnvloeden. Voor veel variabelen geldt dat ze vooraf herkend kunnen worden en dat ervoor gecontroleerd kan worden bij de analyses, maar dat gaat niet voor alle variabelen op.

Kernconcepten onderliggend aan de methodologie

Spaarzaamheid (Parsimony)

Spaarzaamheid is een geaccepteerd principe of heuristiek binnen de wetenschap, dat de onderzoeker leidt bij het interpreteren van data omtrent het te bestuderen fenomeen. Spaarzaamheid stuurt de onderzoeker in het selecteren van de meest simpele verklaring van de beschikbare alternatieven. Dit wordt niet gedaan om zaken onnodig te versimpelen, maar is bedoeld om van de meest voor de hand liggende versie uit te gaan, totdat blijkt dat een meer complexe interpretatie gepast is. Spaarzaamheid draait om de vraag of de data uitgelegd kan worden met behulp van al bekende concepten en fenomenen of dat het nodig is om nieuwe concepten te introduceren. Wanneer dit nodig blijkt stuurt “spaarzaamheid” de onderzoeker in het introduceren van zo min mogelijk en van de meest voor de hand liggende concepten.

Synoniemen van spaarzaamheid zijn: economisch principe, principe van onnodige pluraliteit, soberheidsprincipe en Occam’s scheermes (naar William of Ockham ca. 1285-1349).

Plausibele rivaliserende hypotheses
Bij onderzoek moet er altijd rekening gehouden worden met de mogelijkheid dat de uitkomst van het experiment bepaald is door andere invloeden dan de interventie of experimentele manipulatie. Met het uitvoeren van een enkele test is de hypothese niet bewezen, maar heeft die hypothese meer steun verworven. Voorwaardes voor het verwerven van steun zijn dat de test resultaten oplevert die consistent zijn met de hypothese en dat de verklaring voor de resultaten plausibel is. De vraag die na het einde van een studie gesteld moet worden, is of er andere interpretaties mogelijk zijn die op plausibele wijze de resultaten kunnen verklaren. Heeft iets anders kunnen leiden tot deze uitkomst of komt het echt door de uitgevoerde manipulatie?

Het principe van plausibele rivaliserende hypotheses is gerelateerd aan spaarzaamheid, maar is niet hetzelfde. Spaarzaamheid refereert aan het zuinig zijn met begrippen. Het gaan voor de meest voor de hand liggende verklaring. Een plausibele rivaliserende hypothese refereert aan een ander concept dan de gekozen variabele die evengoed de resultaten kan verklaren.

Methodologische overwegingen zijn bedoeld om vooraf aan een studie andere plausibele verklaringen uit te sluiten. Een onderzoeker probeert een studie zo te ontwerpen dat er geen ruimte is voor andere verklaringen of voor een overdaad aan complexiteit. In de volgende hoofdstukken wordt uitgelegd hoe dat bereikt kan worden.

Bevindingen versus conclusies

Bevindingen zijn de resultaten die behaald zijn. Bevindingen zijn beschrijvend van aard. Een bevinding is dat de ene groep het beter deed dan de andere. Dit is nog geen conclusie. Een conclusie geeft een verklaring voor een bevinding. Bij het trekken van conclusies moet er rekening gehouden worden met plausibele rivaliserende verklaringen en spaarzaamheid.

Wetenschapsfilosofie, onderzoeksmethodologie en statistische gevolgtrekking

Wetenschappelijk onderzoek omvat drie intergerelateerde domeinen, namelijk wetenschapsfilosofie, onderzoeksmethodologie en statistische gevolgtrekking. Wetenschapsfilosofie houdt zich bezig met de logische en epistemologische fundamenten van de onderzoeksmethode in het algemeen. In vroeger tijden was experimenteren verbonden aan het filosofisch denken. Gedacht kan worden aan onderwerpen als de basis van kennis, de organisatie en beperkingen van perceptie, de aard en perceptie van causale verbanden, methode en beperkingen van inductief redeneren, de benodigde voorwaarden voor het testen en bevestigen van voorspellingen en sowieso het formuleren van het begrip hypothese.

Bij het dagelijks werk van de onderzoeker komt de methodologie om de hoek kijken. Het draait hier om het plannen en uitvoeren van een studie en het interpreteren van de resultaten.

Statistische gevolgtrekking is gerelateerd aan het experimenteren, omdat er sterk geleund wordt op statistische tests om conclusies te kunnen trekken. Statistische evaluatie verschaft afgesproken basisregels, zodat er sprake is van enige uniformiteit in de criteria bij het trekken van conclusies. Het ironische is dat de gemaakte afspraken over statistische gevolgtrekking zelf nogal arbitrair gekozen zijn. De afspraken zijn eerder gebaseerd op traditie dan dat ze statistisch of logisch gerechtvaardigd zijn. Statistiek draagt op belangrijke wijze bij aan de interpreteerbaarheid van de studie.

Dit boek focust op de methodologie. Alleen wanneer het relevant is zullen filosofie en statistiek besproken worden.

 

Karakteristieken van onderzoek in de klinische psychologie

Onderzoek binnen de klinische psychologie is gevarieerd. Er zijn veel verschillende onderwerpen, populaties en settings. Daardoor zijn er ook veel verschillende methodes. Bij het opzetten van een onderzoek en bij het trekken van valide conclusies komt veel probleem-oplossend vermogen kijken, alsmede creativiteit.

 

De “psychologie” van onderzoeksmethodologie

In het voorafgaande is methodologie als iets onpersoonlijks beschreven. Het is belangrijk om te benadrukken dat wetenschap uiteindelijk mensenwerk is. De natuurlijke menselijke eigenschappen spelen een centrale rol bij het doen van onderzoek. Door het hele boek heen zal er aandacht besteed worden aan de invloed van verschillende facetten van het menszijn op wetenschappelijke bevindingen en interpretaties.

 

Boekoverzicht

Onderzoeksmethodologie kan gezien worden als een beslissingsproces. Tijdens alle fases van onderzoek worden er beslissingen genomen. Dit boek behandelt de vele ontwerpcomplexiteiten door de problemen te benadrukken die je bij het experimenteren tegenkomt en de technieken die ontworpen zijn om die problemen op te lossen of voor te controleren. In dit boek zullen de voordelen, beperkingen en andere overwegingen bij het gebruik van bepaalde designs worden besproken.

Het doel van onderzoek is het trekken van valide gevolgtrekkingen over de relatie tussen variabelen. De methodologie bestaat uit die praktijken die de omstandigheden zo helpen te arrangeren dat zo min mogelijk ambiguïteit bestaat bij het trekken van heldere conclusies. Factoren die interfereren bij het trekken van heldere conclusies zijn bijvoorbeeld bedreigingen voor de validiteit. Hier wordt in hoofdstuk 2 en 3 aandacht aan besteed.

Hoofdstuk 4 verkent de vele bronnen van artefacten (toevalsbevindingen) en onzuiverheden (biases), alsmede de methodes om hun invloed te minimaliseren, in te schatten of te elimineren.

Hoofdstuk 5 draait om het vertalen van een idee naar een specifieke onderzoeksvraag en het selecteren van een bepaalde variabelenset.

De verscheidene onderzoeksdesigns zullen besproken worden in hoofdstuk 6 en 7. Groepsdesigns die gebruikt worden bij experimenteel onderzoek, waarbij variabelen gemanipuleerd worden door de onderzoeker worden beschreven in hoofdstuk 6. Hoofdstuk 7 behandelt de verschillende typen van controle- en vergelijkingsgroepen en de overwegingen die hun gebruik voorschrijven.

Het evalueren van de manipulatie is een essentieel onderdeel bij het verbeteren van de interpreteerbaarheid van de resultaten. De procedures die gevolgd worden bij het inschatten van de implementatie van de manipulatie, de interpretatie van de resultaten van de technieken en de problemen die hierbij op kunnen treden worden in hoofdstuk 8 besproken.

Er wordt ook veel onderzoek gedaan naar variabelen die niet manipuleerbaar zijn (klinische aandoeningen, ervaringen, blootstelling aan gebeurtenissen). Hiervoor worden observationele ontwerpen gebruikt (case-control en cohort studies), waarbij individuen geselecteerd worden en tegelijkertijd en voor langere tijd gevolgd worden. Deze designs worden besproken in hoofdstuk 9.

In hoofdstuk 10 worden twee methodes beschreven om één individu te bestuderen. De anekdotische of ongecontroleerde case studie en de single-case experimental design.

Hoofdstuk 11 geeft alternatieven voor de twee hiervoor genoemde designs. De focus ligt op single-case studies die binnen de klinische praktijk uitvoerbaar zijn.

Naast kwantitatief onderzoek wordt er ook kwalitatief onderzoek uitgevoerd. In hoofdstuk 12 wordt een overzicht gegeven van kwalitatieve onderzoeken, de omstandigheden waarbij zulke designs gepast zijn en voorbeelden van studies die bijgedragen hebben aan kennisontwikkeling.

Hoofdstuk 13 gaat over de rol van meten en het selecteren van meetinstrumenten.

Een specifieke vorm van onderzoek doen, is het onderzoeken van behandelinterventies. De overwegingen omtrent deze vorm van onderzoek worden beschreven in hoofdstuk 14.

Hoofdstuk 15 zoomt in op de rationale achter en de voorwaardes voor statistische evaluaties, alsmede de controversies die hangen rond het begrip statistische significantie.

In hoofdstuk 16 wordt er gesproken over data-interpretatie en factoren die interpretatie vergemakkelijken en bemoeilijken.

Bij onderzoek binnen de psychologie worden vaak menselijke proefpersonen gebruikt. Ethische vraagstukken rond het doen van mensgebonden onderzoek worden in hoofdstuk 17 behandeld.

Hoofdstuk 18 gaat over het schrijven van een rapport na afloop van de studie. Het wetenschappelijk schrijven is onlosmakelijk verbonden met methodologische kwesties die in eerdere hoofdstukken aan bod zijn gekomen.

Het boek eindigt met afsluitend commentaar in hoofdstuk 19.

 

Kernconcepten en -termen

Methodologie Plausibele rivaliserende hypotheses

Spaarzaamheid Bevindingen versus conclusies

 

 

 

Hoofdstuk 2 Het trekken van valide conclusies I: interne en externe validiteit

 

Types van validiteit

Het doel van onderzoek doen is het bereiken van gefundeerde (=valide) conclusies. Er zijn vier types van validiteit, die ieder voor zich een andere kwestie belichten bij het uitvoeren van experimenten. Ieder type bekleedt een sleutelfunctie bij de overwegingen voorafgaand aan het ontwerpen van een studie.

Interne validiteit behelst de vraag in hoeverre de interventie, en niet een externe oorzaak, verantwoordelijk is voor de resultaten, veranderingen of groepsverschillen.

Externe validiteit draait om de generaliseerbaarheid van de conclusies. In hoeverre kunnen de resultaten gegeneraliseerd worden naar andere mensen, settings, maten en karakteristieken dan die gebruikt zijn bij het betreffende onderzoek?

Constructvaliditeit belicht het causale medium. Wanneer een interventie of indeling blijkt te werken, welk specifieke element was daarvoor verantwoordelijk? Wat is de conceptuele basis (het construct) onderliggend aan het effect.

Statistische conclusie validiteit bekijkt in hoeverre een relatie is aangetoond en hoe goed de meetmethode in staat is om effecten te detecteren als die er zijn.

Het is vrijwel onmogelijk om een studie te ontwerpen die met alle vormen van validiteit rekening houdt. Vandaar dat onderzoekers prioriteiten stellen bij het ontwerpen van een studie. Het is heel belangrijk om vanaf het begin te weten wat het doel van het onderzoek is en welke specifieke vragen beantwoord moeten worden. Aan de hand daarvan wordt bepaald welke vormen van validiteit het meest dringend zijn.

 

Interne validiteit

Wanneer de resultaten van een onderzoek zonder al teveel ambiguïteit toegeschreven kunnen worden aan het effect van de onafhankelijke variabele, wordt er gezegd dat het experiment intern valide is. Interne validiteit refereert aan de mate waarin een studie alternatieve verklaringen uitsluit of onwaarschijnlijk maakt. Factoren anders dan de onafhankelijke variabele, die de resultaten kunnen verklaren worden bedreigingen voor de interne validiteit genoemd.

 

Bedreigingen voor de interne validiteit

Geschiedenis

Deze bedreiging refereert aan iedere gebeurtenis of omstandigheid, anders dan de onafhankelijke variabele, die zich voordoet binnen of buiten de testsituatie die verantwoordelijk zou kunnen zijn voor de behaalde resultaten. Gedacht kan worden aan omstandigheden binnen het privé-leven van de proefpersoon, de lengte van het experiment, gebeurtenissen in het nieuws, weersomstandigheden. Meestal wordt er bij geschiedenis gerefereerd aan gebeurtenissen buiten de testsituatie, maar er kunnen ook onverwachte gebeurtenissen binnen de testsituatie voorvallen die invloed kunnen hebben. De stroom kan uitvallen of een medische noodsituatie kan zich voordoen.

Het is belangrijk om het verschil te kunnen zien tussen de effecten van gebeurtenissen van buitenaf en de effecten van het experiment op de afhankelijke variabele.

 

Rijping

Veranderingen in de tijd hangen niet alleen samen met specifieke gebeurtenissen (geschiedenis), maar ook met processen binnen proefpersonen. Rijping refereert aan processen die met de tijd veranderen, inclusief ouder, sterker en wijzer worden en vermoeid of verveeld raken. Geschiedenis en rijping gaan vaak samen. Wanneer het zo is dat er alternatieve verklaringen zijn voor de resultaten, is het nuttig om te bepalen welke van de twee het verschil maakte.

Bij het volgen van proefpersonen in de tijd is het van groot belang om te zorgen dat rijping geen invloed kan hebben op de onafhankelijke variabele. In veel gevallen kan dit gedaan worden door een controlegroep, bijvoorbeeld een no-treatment groep, toe te voegen.

 

Herhaald testen

Deze bedreiging refereert aan het effect dat het voor het eerst afnemen van een test voor gevolgen heeft op de uitvoering van daarop volgende tests. Bij veel designs wordt er gebruik gemaakt van een voor- en nameting. Het kan zijn dat de resultaten niet behaald zijn door de invloed van de manipulatie, maar door bekendheid met de test(situatie).

Een groep herhaaldelijk testen zonder de manipulatie laat alleen het effect van herhaald testen zien. Dus ook bij het opheffen van deze bedreiging is het includeren van een no-treatment controlegroep verstandig.

 

Instrumentatie

Instrumentatie refereert aan veranderingen in meetinstrumenten en -procedures over de tijd. Het kan zijn dat er daadwerkelijk iets aan het meetinstrument is veranderd (bijv. een vraag geherformuleerd), maar het kan ook zijn dat mensen anders gaan scoren met de loop van de tijd. Wanneer bij een turnwedstrijd een atleet een perfecte oefening uitvoert, wordt de volgende deelnemer dan volgens dezelfde criteria beoordeeld of zijn de standaarden verschoven?

Niet alleen een meetinstrument zelf kan gevoelig zijn voor instrumentatie, ook de testsituatie zelf. Wanneer een proefleider een terloopse opmerking maakt tegen de proefpersoon (“Je zult wel blij zijn dat het voorbij is, hè?”), kan dit invloed hebben. Het is dan ook belangrijk om met gestandaardiseerde meetinstrumenten en -procedures te werken.

Vermijd vragen die betrekking hebben op verschuivende normatieve waarden. Vragen als: “Brengt u veel tijd met uw ........... (geliefde, kinderen, collegae) door?” zijn bijvoorbeeld gevoelig voor veranderende sociale omstandigheden die samenhangen met leeftijdsklasse. Dit wordt responsverschuiving (response shift) genoemd. Er verandert niets aan het instrument of de procedure, maar binnen de persoon zelf is iets veranderd aan de perceptie, waardoor diegene anders op de vraag zal reageren dan voorheen.

 

Statistische regressie

Extreme scores hebben de neiging om bij een herhaalde meting meer naar het gemiddelde (=regressie) te bewegen. Wanneer proefpersonen geselecteerd worden op basis van extreme scores op een variabele, is het statistisch gezien voorspelbaar dat bij hertesten de scores lager zullen liggen. Het toevoegen van een controle groep in de vorm van een no-treatment groep of wachtlijstconditie kan het effect van regressie naar het gemiddelde zichtbaar maken.

 

Selectiekleuringen (Selection biases)

Selectiekleuring refereert aan systematische verschillen tussen groepen (geslacht, leeftijd, diagnose), die het gevolg zijn van de selectie of groepstoewijzing van de proefpersonen voordat er een experimentele manipulatie of interventie heeft plaatsgevonden.

Gerandomiseerde toewijzing aan groepen is de meest gangbare methode om de kans op selectiekleuring te minimaliseren. In de praktijk blijkt dit niet altijd haalbaar. Vaak zijn groepen al voorgevormd. Denk aan het vergelijken van kinderen in dezelfde groep van het basisonderwijs, maar op verschillende scholen. Het random toewijzen van een kind aan een school is logistiek ondoenlijk. Of hoe ethisch is het om patiënten met acute klachten in een wachtlijstconditie te plaatsen?

 

Uitval (Attrition)

Uitval of verlies van proefpersonen kan de interne validiteit van een studie aantasten. Het verlies van proefpersonen kan voorkomen bij een studie die meer dan één sessie beslaat. Onderzoek wijst uit dat het verlies van proefpersonen een directe functie van de tijd is. De meeste proefpersonen (40-60%) zeggen in een vroeg stadium van de studie hun deelname op. Het verlies van proefpersonen is een aanzienlijke bedreiging voor de validiteit. Het gevaar dreigt namelijk dat een selecte groep proefpersonen de studie heeft verlaten. Anders gezegd: dat het groepsgemiddelde van de uitvallers anders is dan het groepsgemiddelde van de rest van de deelnemers.

Een vorm van uitval is differentiële uitval. Hiervan is sprake wanneer de mate van uitval verschillend is tussen groepen of dat de mate van uitval hetzelfde is tussen groepen, maar dat vermoed wordt dat bepaalde karakteristieken van proefpersonen verschillen tussen de condities. Dit kan gebeuren bij studies met verschillende behandelcondities, waarbij de ene conditie aantrekkelijker is dan de andere. Mensen zijn meer geneigd om betrokken te blijven bij iets interessants, lucratiefs, effectiefs of zonder bijwerkingen dan bij hun tegenhangers.

 

Combinatie van selectie en andere bedreigingen

Tot nu toe is er gesproken over bedreigingen die voor alle groepen binnen een studie gelden. Waarbij alleen uitval een uitzondering was, omdat er differentiële uitval kan optreden. Het kan echter zo zijn dat de bedreigingen voor de interne validiteit verschillen tussen de groepen. Dit noemt men een combinatie van selectie en de andere bedreiging, oftewel de bedreiging interacteert met de groepen. Een voorbeeld is selectie x geschiedenis. Het kan zijn dat de ene groep buiten de testsituatie om is blootgesteld aan een gebeurtenis, die de andere groep niet heeft ervaren en die ervaring levert een plausibele verklaring voor de resultaten.

 

Diffusie of imitatie van behandeling

Deze bedreiging refereert aan het gevaar dat er ongewild een kruisbestuiving tussen de verschillende behandelcondities ontstaat of dat er toch interventies plaatsvinden binnen een no-treatment controlegroep. Het is voorgekomen dat bij het vergelijken van een gedragstherapeutische en een eclectische milieutherapeutische behandeling een behandelaar van de eclectische groep allerlei gedragstherapeutische cursussen had gevolgd, waardoor haar behandeling veel leek op de behandeling van de andere conditie. Een ander voorbeeld is dat proefpersonen uit een no-treatment groep zelf op zoek gaan naar informatie of hulp waardoor er ongewild een interventie plaatsvindt.

 

Speciale behandeling of reacties van controles

Ook al worden proefpersonen in een controlegroep niet blootgesteld aan een manipulatie of interventie, zij krijgen wel aandacht, geld of privileges, wat als een interventie gezien kan worden. Überhaupt het deelnemen aan een onderzoek kan de reactie van een controlepersoon beïnvloeden. De wetenschap dat men ingedeeld is in de controlegroep kan een gevoel van competitie oproepen, waardoor de controlepersonen extra hard hun best gaan doen. Het omgekeerde, een gevoel van demotivatie, omdat men niet in de experimentele conditie zit kan ook optreden.

Het meedoen aan een studie kan zowel de reacties van personen in de controlegroep als die van de experimentele groep beïnvloeden. Er treedt pas een probleem met de interne validiteit op, wanneer de beïnvloeding differentieel (niet gelijk over de groepen verdeeld) is, waardoor de effecten van de interventie versluierd raken.

 

Algemene opmerkingen

Om de bedreigingen voor de interne validiteit tegen te gaan wordt het meest kleinschalige experiment aangekleed met een groep waarmee iets gebeurt (experimentele groep) en een groep waarbij de gebeurtenis zich niet voordoet (controlegroep). Om het gevaar van interactie tussen de bedreigingen te voorkomen, bijvoorbeeld de gecombineerde dreiging van selectie x geschiedenis, kan een onderzoeker de proefpersonen random toewijzen aan de verschillende condities.

Vooraf aan een studie bedenkt de onderzoeker al welke mogelijke kritiekpunten er zijn en wat er gedaan kan worden om die kritiek te voorkomen. Niet alle bedreigingen kunnen echter van te voren ondervangen worden. Zaken die zich tijdens de uitvoering van het onderzoek voordoen kunnen achteraf bedreigingen voor de interne validiteit blijken te zijn.

 

Externe validiteit

Externe validiteit refereert aan de mate waarin de resultaten van een onderzoek gegeneraliseerd kunnen worden naar andere populaties, settings en omstandigheden. Karakteristieken van de studie die de generaliseerbaarheid van de resultaten beïnvloeden worden bedreigingen voor de externe validiteit genoemd.

 

Bedreigingen voor de externe validiteit

Wanneer een bepaalde relatie tussen interventie en uitkomst is aangetoond, rijst onmiddellijk de vraag op of die relatie er ook is bij andere groepen (ouderen, mensen in ambulante behandeling, diverse etnische groepen), binnen andere settings (klinieken, kinderdagverblijven) of in andere gebieden (platteland, buitenland). De getoonde relatie tussen de afhankelijke en onafhankelijke variabele heeft misschien betrekking op sommige mensen, maar niet op iedereen. De onafhankelijke variabele interacteert dan met de andere condities. Bijvoorbeeld wanneer de relatie er wel is bij mannen, maar niet bij vrouwen. Men kan ook zeggen dat de relatie gemodereerd wordt door geslacht. Om de grenzen van generaliseerbaarheid te kennen is vaak meer onderzoek nodig.

Onthou dat een bedreiging pas een bedreiging is wanneer het een plausibele alternatieve verklaring oplevert die de externe validiteit kan aantasten.

 

Steekproefkarakteristieken

De generaliseerbaarheid van bevindingen bij dieren naar mensen is een grote zorg. Iets wat schadelijk is voor laboratoriumratten hoeft niet schadelijk te zijn voor andere soorten die bijvoorbeeld een ander metabolisme hebben. Ook de dosis kan van invloed zijn. Laboratoriumratten krijgen de vermeend schadelijke stof wellicht in een hogere dosis toegediend dan een mens tot zich zou nemen.

Wat vaak wordt gedaan bij dierproeven is dat er een relatie onderzocht wordt die al bij mensen getoond is, maar waarvan bijvoorbeeld het pad nog niet bekend is. Wanneer men weet dat blootstelling aan loodverf samenhangt met hyperactiviteit bij kinderen, kan door toediening van lage doses lood bij apen en ratten in meer detail gekeken worden welke hersengebieden en -structuren beïnvloed worden.

Bij psychologisch onderzoek wordt als bedreiging vaak het extensief gebruik van studenten als proefpersonen genoemd. Dit hoeft geen probleem te zijn. Toch moet er rekening gehouden worden dat studenten een specifieke steekproef representeren in termen van demografische variabelen, sociaal-economische klasse, intelligentieniveau en andere kenmerken.

Een andere zorg bij generaliseerbaarheid is dat een aantal minderheidsgroepen niet vaak onderzocht zijn. Vrouwen en bepaalde etnische groepen zijn ondervertegenwoordigd als onderzoeksdeelnemers. Ook dit hoeft geen probleem te zijn. Men kan immers niet ieder volk op aarde onderzoeken. Vaak is generaliseerbaarheid van de bevindingen zelf niet het doel, maar is de onderzoeker veel meer geïnteresseerd in bijvoorbeeld het begrijpen van het proces.

Een onderzoeksgebied waarbij het wel van belang is om goed te kijken naar generaliseerbaarheid is medicijnstudies. Responsiviteit ten opzichte van psychotropische medicatie varieert als een functie van etniciteit. Er zijn etnische verschillen te zien in enzymconcentraties, die de metabolisatie van medicijnen beïnvloeden. Wat betekent dat een bepaalde dosis voor de ene groep gepast is, terwijl het een onder- of overdosis is voor een andere groep.

 

Stimuluskarakterisieken en settings

Hoewel de grootste zorg bij generaliseerbaarheid van de resultaten te maken heeft met steekproefkarakteristieken en in hoeverre de bevindingen generaliseerbaar zijn naar andere personen, is de mate waarin de resultaten verder generaliseerbaar zijn dan de stimuluskarakterisieken van de studie even relevant, maar minder vaak besproken. Stimuluskarakterisieken refereren aan kenmerken van de studie waarmee de interventie of conditie kunnen samenhangen, inclusief de setting, onderzoekers of andere factoren gerelateerd aan de experimentele opstelling. Elk van deze kenmerken kan de generaliseerbaarheid beïnvloeden.

Onderzoek naar de effectiviteit van psychotherapie binnen een laboratoriumsetting kan andere uitkomsten geven dan onderzoek uitgevoerd in de klinische praktijk. Een vaccin kan in een bepaald gebied goed werken, maar in een ander gebied waar blootstelling aan de bacterie vele malen hoger ligt, een aanzienlijk minder goede werkzaamheid laten zien.

 

Reactiviteit van experimentele opstellingen

De resultaten van een studie kunnen beïnvloed worden doordat de proefpersonen er zich van bewust zijn dat ze meedoen aan een onderzoek. De vraag die betrekking heeft op de externe validiteit is of de resultaten anders waren geweest wanneer de proefpersonen niet wisten dat ze onderzocht werden.

Reacties kunnen zijn dat de proefpersoon de onderzoeker een plezier wil doen of juist niet. Deze bedreiging is moeilijk te omzeilen, omdat een proefpersoon vaak geïnformeerde toestemming (informed consent) moet geven voor deelname. Bij dossieronderzoek is vaak geen informed consent nodig, behalve wanneer het consequenties voor een individu kan hebben.

 

Multi-behandeling interferentie

Bij sommige designs worden proefpersonen blootgesteld aan meer dan één experimentele conditie of wisselen tussen een behandeling en geen-behandeling conditie. De gevonden effecten kunnen ingegeven zijn door de context of door het seriële karakter van de interventie.

 

Nieuwigheidseffecten

Bij externe validiteit moet er rekening mee gehouden worden dat een innovatie of de nieuwigheid van een situatie verantwoordelijk kan zijn voor de behaalde resultaten. Zo bleek bijvoorbeeld uit onderzoek dat gele brandweerwagens minder vaak bij verkeersongelukken betrokken waren dan rode. De conclusie was dat het menselijk oog rood moeilijker kan onderscheiden bij de aanwezigheid van meerdere kleuren en geel makkelijker. Het zou echter ook zo kunnen zijn dat mensen alerter reageerden doordat ze niet gewend zijn aan gele brandweerwagens.

Het aanbieden van iets nieuws heeft effect op de verwachtingen van mensen. Het is moeilijk onderscheid maken tussen de werkzaamheid van een therapie en het effect van de nieuwigheid.

 

Beoordelingsreactiviteit

Bij veel psychologische experimenten is de proefpersonen er zich van bewust dat een bepaald deel van zijn/haar functioneren wordt beoordeeld. Wanneer proefpersonen zich hiervan bewust zijn, wordt er gesproken van een opdringerige (obtrusive) meting. In het geval dat dit bewustzijn leidt tot een verandering in het optreden van de proefpersonen ten opzichte van de normale reactie, is er sprake van een reactieve meting.

Het ligt voor de hand om te denken dat het gebruik van niet-opdringerige (unobtrusive) metingen de oplossing biedt. Hieraan kleven zowel ethische bezwaren (informed consent), als meettechnische (bv. zijn de niet-opdringerige meetinstrumenten even valide als de beter bestudeerde en gestandaardiseerde?).

 

Testsensibilisatie

Bij veel onderzoeken wordt er gebruik gemaakt van een voor- en nameting. Het kan zijn dat het afnemen van een test of vragenlijst vooraf aan het experiment proefpersonen gevoelig kan maken, zodat ze anders reageren op het experiment dan dat ze in het normale leven zouden doen. Dit noemt men voormeting sensibilisatie (pretest sensitization).

Nameting sensibilisatie (posttest sensitization) kan ook optreden. Het stellen van vragen na het experiment kan bij proefpersonen ook een andere reactie ontlokken dan normaal, doordat proefpersonen meer over processen nadenken, die anders onbewust of latent gebleven waren. Het effect van nameting sensibilisatie is moeilijker vast te stellen en voor te controleren dan voormeting sensibilisatie, omdat het het gebruik van niet opdringerige metingen vereist en een vergelijking van resultaten die verkregen zijn met meetmethoden die variëren in de mate van opdringerigheid.

 

Timing van de meting

Deze bedreiging doet zich voornamelijk voor bij het onderzoeken van behandeleffectiviteit. Een meting vlak na het beëindigen van de therapie kan andere uitkomsten laten zien dan een meting die langer na de beëindiging plaatsvindt. Het kan zijn dat het effect van een therapie pas later doorwerkt. Het kan ook zijn dat de effecten van een behandeling niet beklijven.

De vraag die relevant is voor de externe validiteit is of dezelfde resultaten behaald waren als de metingen op een ander moment hadden plaatsgevonden.

 

Algemene opmerkingen

Niet alle bedreigingen voor de externe validiteit kunnen vooraf aan een experiment gespecificeerd worden. Het kan zo zijn dat tijdens de loop van het onderzoek bepaalde karakteristieken van de onderzoeker, proefpersonen of testuitrusting later blijken samen te hangen met de resultaten. Als dit het geval blijkt, moet er rekening gehouden worden met de generaliseerbaarheid van de resultaten.

Het is niet genoeg om de plausibiliteit van een studie in twijfel te trekken door simpelweg op te merken dat er bijvoorbeeld gebruik werd gemaakt van een voormeting of dat proefpersonen zich er van bewust waren dat ze geobserveerd werden. Het is de verantwoordelijkheid van de onderzoeker om de omstandigheden waaronder de resultaten gegeneraliseerd kunnen worden duidelijk te maken. Het is tegelijkertijd de verantwoordelijkheid van de sceptici om specifiek te omschrijven hoe de werking van een bepaalde dreiging de externe validiteit beïnvloed heeft en daarmee een plausibele beperking voor de generaliseerbaarheid oplevert.

 

Perspectieven ten aanzien van interne en externe validiteit

Plausibiliteit en spaarzaamheid (parsimony)

Wanneer men bij behandeleffectstudies geen controlegroep en willekeurige toewijzing (random selection) toepast, zijn er diverse bedreigingen voor de interne validiteit die een plausibele alternatieve verklaring kunnen opleveren (geschiedenis, rijping, herhaaldelijk testen). In dit geval bieden de bedreigingen een meer spaarzame verklaring van de resultaten dan de interventie. Wanneer er wel gebruik gemaakt is van een controlegroep en random toewijzing aan de groepen dan kan er geen directe relatie zijn tussen geschiedenis, rijping herhaaldelijk testen en de resultaten. Er kan wel een interactie-effect hebben plaatsgevonden, maar deze verklaring is minder plausibel en spaarzaam dan de verklaring dat de interventie verantwoordelijk is voor de bevindingen.

 

Prioriteit van interne validiteit

Over het algemeen wordt interne validiteit belangrijker geacht dan externe validiteit. Anders gezegd, logischerwijs staat de interne validiteit in belangrijkheid boven de externe validiteit. Er moet eerst een ambigue bevinding zijn, voordat men over de generaliseerbaarheid begint. Bij het ontwerpen van een experiment wordt er dan ook gekeken naar omstandigheden die het aantonen van een relatie tussen de onafhankelijke en de afhankelijke variabele vergemakkelijken.

Met het voorafgaande wordt niet bedoeld dat externe validiteit niet belangrijk is. Zeker bij praktijkgericht onderzoek is de generaliseerbaarheid van groot belang. Het aantonen van een bepaalde relatie tussen variabelen, laat alleen zien dat iets mogelijk is. Het wil niet zeggen dat bij iedereen of in alle gevallen die samenhang er is.

Wanneer bij bijvoorbeeld het repliceren van een studie blijkt dat bevindingen niet generaliseerbaar zijn, levert dat mogelijkheden op om het bestudeerde fenomeen beter te begrijpen. Waarom werkt het bij de één wel en bij de ander niet? Het kan zijn dat er een derde variabele in het spel is of dat het een toevalsbevinding is.

 

Samenvatting en conclusies

Het doel van onderzoek doen is het helpen uitsluiten of onwaarschijnlijk maken van vele alternatieve variabelen die mogelijk de veranderingen van de afhankelijke variabele zouden kunnen verklaren. De mate waarin een experiment daarin slaagt wordt interne validiteit genoemd. Bedreigingen voor de interne validiteit zijn: geschiedenis, rijping, herhaaldelijk testen, instrumentatie, statistische regressie, steekproefkleuringen, uitval, selectie in combinatie met andere bedreigingen, diffusie van behandeling en speciale behandeling of reacties van controles.

Niet alleen is het belangrijk om te kijken of de conclusies van een studie houdbaar zijn, ook de generaliseerbaarheid is belangrijk. Gelden de bevindingen ook in andere populaties, settings, maten, onderzoekers etc. Een aantal factoren kunnen de generaliseerbaarheid van een studie op een negatieve manier beïnvloeden. Dit worden bedreigingen voor de externe validiteit genoemd. Mogelijke bedreigingen zijn: steekproefkarakteristieken, stimuluskarakterisieken en settings, reactiviteit van experimentele opstellingen, multi-behandeling interferentie, nieuwigheidseffecten, beoordelingsreactiviteit, testsensibilisatie en timing van de meting.

Het beoogde doel van de studie bepaalt het belang van de externe validiteit. Interne validiteit is altijd belangrijk bij het trekken van valide conclusies en het uitsluiten van alternatieve verklaringen. Generaliseerbaarheid behoeft geen grote rol wanneer men alleen geïnteresseerd is in de werking van een fenomeen. Wanneer het om onderzoek gaat waarbij het de bedoeling is dat een bepaalde methode of behandeling geïmplementeerd gaat worden in de praktijk, is externe validiteit van groot belang.

 

Kernconcepten en -termen

Externe validiteit Reactiviteit

Interne validiteit (De afzonderlijke) bedreigingen voor de validiteit

 

Hoofdstuk 3 Het trekken van valide conclusies II: construct- en statistische conclusie validiteit

 

Naast de interne en externe validiteit zijn er nog twee andere types van validiteit die aandacht behoren te krijgen, namelijk constructvaliditeit en statistische conclusie validiteit. Deze twee zijn niet minder belangrijk, maar wel minder vertrouwd voor onderzoekers en het publiek. Het betreft hier dan ook enigszins complexere begrippen, die complexere ontwerp overwegingen vereisen.

Constructvaliditeit refereert aan “subtieler dan normaal” vragen. Statistische conclusie validiteit refereert aan factoren die te maken hebben met de uitvoering van de studie, die verdergaan dan zuiver statistische aangelegenheden.

 

Constructvaliditeit

Constructvaliditeit draait om het interpreteren van de aangetoonde causale relatie tijdens het experiment. Het gaat hierbij niet om de vraag of de interventie verantwoordelijk is voor de groepsverschillen (=interne validiteit), maar om het waarom van de verschillen. Wat was het werkzame ingrediënt, welk onderliggend construct is verantwoordelijk voor de verschillen?

Verscheidene eigenschappen binnen een experiment kunnen interfereren met de interpretatie van de resultaten. Deze eigenschappen worden confounders genoemd (een mogelijke vertaling zou “in de war schoppers” kunnen zijn, maar de engelse term is gangbaar onder onderzoekers). Er wordt van confounding gesproken wanneer er mogelijk een specifieke factor varieerde (of co-varieerde) met de interventie. De confounder zou deels of totaal verantwoordelijk kunnen zijn voor de resultaten.

Neem bijvoorbeeld de bevinding dat het consumeren van één of twee glazen wijn bij het avondeten samenhangt met een betere gezondheid (nl. verminderde kans op een hartaanval). De ene groep dronk wijn bij het eten en de andere groep niet. De proefpersonen waren random toegewezen aan de groepen. De wijndrinkers bleken gezonder dan de niet-drinkers. Dit onderzoek is intern valide, maar hoe zit het met de constructvaliditeit? Is het construct “het wel of niet drinken van één of twee glazen wijn” voldoende beschreven om de resultaten volledig te verklaren? Wat nemen de niet-drinkers tot zich? Proppen zij zich vol met vette chips? Is het wel of niet drinken van wijn niet eerder een pakket aan gedragingen dat samenhangt met dieetpatronen?

Verder onderzoek heeft ook uitgewezen dat de relatie tussen het wel of niet drinken van wijn niet zo eenduidig is. Wijn zelf speelt wel degelijk een rol, maar het drinken van wijn hangt samen (confouds) met andere karakteristieken. Wijndrinkers blijken, vergeleken met bier- en sterke drank drinkers, een gezondere leefstijl te hebben en uit hogere sociaal economische klassen te komen. Verder blijken zij minder te roken, minder overgewicht te hebben en in het algemeen minder zware drinkers te zijn. Wanneer voor deze factoren gecontroleerd wordt, wordt de relatie tussen wijn en verlaagde sterftecijfers minder sterk, maar verdwijnt niet.

Het is belangrijk om de onafhankelijke variabele, de interventie, goed te isoleren of in kleinere componenten op te delen, zodat de invloed van confounders beperkt blijft. Het grofweg vergelijken van groepen (drinkers versus niet-drinkers) is een leuk uitgangspunt, maar pas een begin bij de poging om een fenomeen te begrijpen.

Kenmerken die samenhangen met de interventie, die interfereren met het trekken van conclusies ten aanzien van de aard van de verschillen tussen groepen worden bedreigingen voor de constructvaliditeit genoemd.

 

Bedreigingen voor de constructvaliditeit

Aandacht voor en contact met de cliënt

Wanneer bij een intern valide onderzoek groepsverschillen gevonden worden tussen de interventiegroep en de non-interventiegroep, hoeft dit nog niet te betekenen dat de verschillen toegewezen kunnen worden aan het effect van de interventie. Het feit dat de experimentele groep door een onderzoeker gezien werd en de controlegroep niet, kan ook al voldoende zijn geweest. Dit wordt het placebo-effect genoemd. Een placebo is een substantie zonder farmacologische eigenschappen die effect zouden kunnen hebben op het symptoom (bv. tabletten bestaande uit suiker of een injectie met zoutoplossing).

Placebo-effecten moeten niet onderschat worden. Uit onderzoek blijkt dat antidepressiva werkzaam zijn bij 50-60% van de patiënten, placebo’s bij 30-35%. Bij dit soort onderzoek is het van belang om een derde groep aan het ontwerp toe te voegen, namelijk een placebo groep die hetzelfde schema van toediening volgt als de experimentele.

Placebo-effecten treden niet alleen bij patiënten op. Ook de toedieners van de medicatie (artsen of verpleegkundigen) kunnen invloed uitoefenen op de reactie van een patiënt door hun verwachtingen en commentaren. Vandaar dat het van belang is dat niet alleen de patiënten onwetend (blind) zijn over in welke groep ze zitten, maar ook de artsen en verpleegkundigen. Dit heet een dubbelblinde studie, omdat beide partijen onwetend zijn over welk medicijn is toegediend. Ook de term dubbel gemaskeerd wordt wel gebezigd.

Bij onderzoek naar de effectiviteit van psychotherapie spelen dezelfde overwegingen als bij medicijnonderzoek. Het kan zijn dat alleen aandacht voor en contact met de client voldoende is om verschillen tussen groepen te tonen. Ook hier is het verstandig om een controlegroep toe te voegen die door een onderzoeker gezien wordt, maar geen werkzame behandeling krijgt.

 

Enkelvoudige handeling en nauwe stimulus steekproefneming

Het is niet handig om bij behandelinterventie studies gebruik te maken van een enkele therapeut binnen een conditie bij het vergelijken van verschillende therapievormen. Het kan zo zijn dat therapeut A beter in zijn/haar vak is dan therapeut B. Dezelfde therapeut beide interventies laten uitvoeren is ook geen goed idee, omdat hij/zij de ene methode beter zou kunnen beheersen dan de andere of enthousiaster is over één van de twee. In beide gevallen kan er een interactie plaatsvinden tussen behandelvorm en therapeut. Het is verstandiger om in alle behandelcondities meerdere therapeuten te gebruiken, zodat het interactie-effect niet kan optreden.

Het voorgaande is ook van toepassing bij het gebruik van een enkele stimulus (nauwe stimulus steekproefneming). Bij een onderzoek werd er gekeken of mensen iemand met een psychische aandoening anders beoordelen dan mensen zonder psychische aandoening. Er werd gebruik gemaakt van een enkele dia met de beschrijving van een man. Beroep, leeftijd, hobby’s etc. werden genoemd. In de experimentele conditie werd dezelfde beschrijving gebruikt, alleen waren er nu een aantal zinnen toegevoegd over een periode van psychische onrust die tot hospitalisatie leidde. Bij het toeschrijven van persoonskarakteristieken aan de man, bedeelden proefpersonen de versie zonder psychische problemen positievere eigenschappen toe dan de andere versie. Het kan echter zo zijn dat de operationalisatie van het hebben van een psychische stoornis, bijvoorbeeld de bewoording van de toegevoegde zinnen, verantwoordelijk was voor de groepsverschillen en niet perse het hebben van psychische problemen. Wanneer meerdere dia’s gebruikt waren met mensen van verschillende geslachten, leeftijden en interesses, waren de resultaten minder ambigue geweest.

Het gebruik van een nauwe spreiding van stimuli geeft niet alleen problemen met de construct-, maar ook met de externe validiteit. Als een fenomeen aan een nauwe spreiding van stimuli is blootgesteld, zijn de resultaten moeilijk generaliseerbaar. Zo kan hetzelfde probleem een bedreiging zijn voor meerdere vormen van validiteit. Sommige problemen, zoals bijvoorbeeld uitval, zijn bij alle vormen van validiteit een bedreiging.

 

Verwachtingen van de proefleider

Zowel bij laboratoriumstudies als bij klinisch onderzoek is het goed mogelijk dat de verwachtingen, overtuigingen en wensen van de proefleider aangaande de resultaten, de prestaties van een proefpersoon beïnvloeden. Aan deze beïnvloeding wordt ook wel gerefereerd als ‘ongewilde verwachtingseffecten’ om te benadrukken dat de testleider waarschijnlijk niet expres de respons van de proefpersoon heeft beïnvloed. Verwachtingen kunnen de toon van praten, lichaamshouding, gezichtsuitdrukking, de manier van uitleggen en het trouw blijven aan de voorgeschreven procedure veranderen en daarmee de reactie van een proefpersoon beïnvloeden.

Opnieuw dient benadrukt te worden dat verwachtingseffecten alleen een bedreiging vormen wanneer zij een plausibele rivaliserende interpretatie van de effecten oplevert, die anders toegeschreven zou worden aan de experimentele manipulatie.

Het aandragen van proefleiderverwachtingen als bedreiging voor de validiteit wordt om twee redenen maar weinig gedaan. Ten eerste omdat zowel het construct als de weg die gevolgd wordt naar de effecten onduidelijk is. Ten tweede omdat vaak meer spaarzame interpretaties dan verwachtingen aangevoerd kunnen worden.

 

Signalen (cues) van de experimentele situatie

Signalen van de experimentele situatie refereert aan die factoren die ervoor zorgen dat toekomstige proefpersonen ongewild al enige voorkennis over het experiment hebben. Deze factoren worden demand characteristics genoemd. Wanneer proefpersonen al iets hebben opgevangen over de instructies of procedures van het experiment kan dit hun respons beïnvloeden.

Algemene opmerkingen

De vraag die hoort bij de constructvaliditeit is tweeledig, namelijk: wat is de interventie en waarom leidde de interventie tot verandering? Bij de eerste vraag draait het erom dat de interventie kan (co)variëren (confounden) met de andere condities, waardoor de resultaten beïnvloed worden. De tweede vraag benadrukt het interpreteren van het werkzame bestanddeel van een interventie. Hierbij gaat het niet om confounders, maar om het begrijpen van het onderliggende mechanisme, proces of de onderliggende theorie.

 

Statistische conclusie validiteit

Statistische conclusie validiteit refereert aan die facetten van de kwantitatieve evaluatie, die de conclusies omtrent de experimentele conditie en diens effecten beïnvloeden. Statistische evaluatie wordt vaak vanuit twee standpunten bekeken. Het eerste houdt zich bezig met het begrijpen van de statistische test zelf en diens fundament. Dit facet benadrukt wat de test bereikt en de formules en afgeleiden van de test. Het tweede facet beslaat de rekenkundige aspecten van statistische tests. Hier wordt de toepassing van de test bij datasets, het gebruik van software en de interpretatie van de resultaten benadrukt.

Het rekening houden met de statistische conclusie validiteit kan zelfs nog naar een hoger plan getrokken worden door de rol van statistische evaluatie in relatie tot het onderzoeksdesign en andere bedreigingen voor de validiteit in ogenschouw te nemen.

 

Overzicht van essentiële concepten

Statistische tests en besluitvorming

Een groot deel van de onderzoeken binnen de psychologie draait om het toetsen van hypotheses en statistische evaluatie. De nulhypothese H0 stelt dat er geen verschil is tussen de groepen. Een statistische test wijst uit of de verschillen betrouwbaar zijn of meer dan wat men op basis van het toeval zou verwachten. De nulhypothese kan verworpen worden als er een statistisch significant verschil gevonden wordt. De nulhypothese wordt aangenomen als dat significante verschil er niet is. Het afwijzen of accepteren van de nulhypothese is een gewichtig proces. Het beslissingsproces draait om het selecteren van een waarschijnlijkheidsniveau dat de mate van het risico specificeert dat er een verkeerde conclusie wordt getrokken.

Vier situaties zijn mogelijk (voor de 2 x 2 matrix zie figuur 3.1 op blz. 68):

  1. Het experiment laat een duidelijk verschil zien, terwijl in werkelijkheid dat verschil er niet is. H0 wordt ten onrechte verworpen.

  2. Het experiment laat een duidelijk verschil zien en in werkelijkheid is dat verschil er ook. H0 wordt terecht verworpen.

  3. Het experiment laat geen duidelijk verschil zien en in werkelijkheid is dat verschil er ook niet. H0 wordt terecht aangenomen.

  4. Het experiment laat geen duidelijk verschil zien, terwijl in werkelijkheid dat verschil er wel is. H0 wordt ten onrechte aangenomen.

Een aantal andere termen die veel gebruikt worden bij het het beslissingsproces aangaande de statistische conclusie validiteit worden hieronder besproken.

Alpha (α): de waarschijnlijkheid dat de nulhypothese ten onrechte verworpen wordt (A). Dit wordt ook wel fout van de eerste soort genoemd.

Bèta (β): de waarschijnlijkheid dat de nulhypothese ten onrechte aangenomen wordt (D). Dit wordt ook wel fout van de tweede soort genoemd.

Power: de waarschijnlijkheid dat de nulhypothese terecht verworpen wordt (B). Als volgt genoteerd: 1 - β.

Effectgrootte: een manier om verschillen tussen groepen uit te leggen in gestandaardiseerde metrische termen. De effectgrootte wordt berekend door de gemiddelden van de twee groepen van elkaar af te trekken en te delen door de (gepoolde) standaard deviatie.

Standaarddeviatie: een maat voor de afwijking, variatie of variabiliteit van het gemiddelde. De standaarddeviatie is ook de wortel van de variantie (voor de wiskundige notering zie tabel 3.1 op blz. 69).

 

Effectgrootte

De effectgrootte (ES voor effect size) refereert aan de grootte van het verschil tussen de groepen en wordt uitgedrukt in standaarddeviatie eenheden. Bij twee groepen is de effectgrootte gelijk aan het verschil tussen de gemiddeldes van de groepen gedeeld door de standaarddeviatie. Van de effectgrootte wordt gezegd dat het de grootte van het verschil, zoals het in de werkelijkheid voorkomt, reflecteert.

De effectgrootte kan beïnvloed worden door de relatie tussen verschillende niveaus van de variabele en de uitkomsten te bekijken, waarbij de niveaus geselecteerd worden die waarschijnlijk het grootste verschil tussen de groepen zal laten zien.

Bij een gegeven of vaste effectgrootte binnen de werkelijkheid, kan er veel gedaan worden om te kijken of die ook binnen het experiment zichtbaar wordt. De variabiliteit binnen procedures kan verlaagd worden, zodat de standaard meetfout (standaarddeviatie) verlaagd wordt. Veel controleprocedures van experimenten zijn erop gericht om de variantie of variabiliteit binnen de formule voor effectgrootte te minimaliseren. Hoe meer variabiliteit (noemer), hoe kleiner de effectgrootte bij een constant verschil tussen de gemiddelden (teller).

 

Bedreigingen voor de statistische conclusie validiteit

Weinig statistische power

Statistische power refereert aan de mate waarin een experiment in staat is om verschillen aan te tonen, die er daadwerkelijk zijn. De meest voorkomende bedreiging voor statistische validiteit is dat een studie weinig power heeft. Anders gezegd, dat een studie een lage waarschijnlijkheid heeft van het ontdekken van bestaande verschillen.

Statistisch power is een functie van het criterium voor statistische significantie (alpha), de grootte van de steekproef (N) en het verschil dat bestaat tussen de groepen (effectgrootte). De meest rechttoe rechtaan methode om de power te vergroten is het vergroten van de steekproef.

 

Variabiliteit binnen procedures

Variabiliteit refereert aan de noemer van de formule voor effectgrootte. Variabiliteit kan optreden door individuele verschillen tussen proefpersonen, willekeurige fluctuaties in de prestaties bij de metingen, verschillen tussen testleiders of therapeuten in hoe zij de procedure volgen of aanbieden, etc.

Om variabiliteit tegen te gaan is het belangrijk om gestandaardiseerde meetinstrumenten en -procedures te gebruiken. Behandelingen worden geprotocolleerd en bij experimenten wordt gebruik gemaakt van scripts.

 

Heterogeniteit van proefpersonen

Proefpersonen kunnen op de meest uiteenlopende gebieden van elkaar verschillen, zoals geslacht, leeftijd, achtergrond, etniciteit en burgerlijke stand. In het algemeen geldt dat hoe groter de heterogeniteit of diversiteit van proefpersoonkarakteristieken, hoe kleiner de kans op het vinden van verschillen tussen de condities. De proefpersonen moeten natuurlijk wel heterogeen zijn op het kenmerk dat gerelateerd is aan de effecten van de onafhankelijke variabele.

Comorbiditeit is bij behandeleffectiviteitsonderzoek een belangrijk fenomeen om bij stil te staan. Comorbiditeit houdt het tegelijkertijd hebben van twee of meerdere stoornissen in. Het is goed mogelijk dat een behandelmethode voor depressiviteit minder goed aanslaat bij mensen die naast een depressie nog een andere stoornis hebben. Variaties tussen proefpersonen in relatie tot comorbiditeit worden in de noemer zichtbaar als variabiliteit binnen een groep. Daarmee wordt de kans om groepsverschillen waar te nemen verminderd.

Op verschillende manieren kan het gevaar van heterogeniteit tegengegaan worden. De eerste ligt voor de hand en draait om het selecteren van homogene steekproeven. Een tweede manier is om wel een heterogene steekproef te selecteren, maar ervoor te zorgen dat het effect van bepaalde kenmerken meetbaar is. Bij comorbiditeit bijvoorbeeld kunnen proefpersonen met een tweede stoornis geïncludeerd worden, mits er bij de analyses rekening mee gehouden wordt. De effecten van de behandeling op de stoornis kunnen apart geanalyseerd worden voor mensen met en zonder comorbiditeit. In de data-analyse wordt comorbiditeit een aparte factor, waardoor het niet langer meetelt als variantie binnen de groep en daarmee de noemer niet hinderlijk vergroot. Dit kan gedaan worden met een variantie-analyse of een regressie-analyse.

In principe kan het effect van ieder kenmerk van een proefpersoon op die manier bekeken worden. Dit is niet wenselijk wanneer er geen gegronde (op basis van theorie) reden is om een bepaalde variabele toe te voegen. Studies hebben vaak te weinig proefpersonen om dit eindeloos te doen en het vergroot de kans op toevalsbevindingen.

 

Onbetrouwbaarheid van de metingen

Betrouwbaarheid refereert aan de mate waarin de onafhankelijke variabele op een consistente manier gemeten wordt. Onbetrouwbare meetinstrumenten leiden tot variabiliteit in de respons van proefpersonen, omdat het niet duidelijk is wat er precies gemeten wordt.

Interne consistentie is belangrijk bij een meetinstrument. Dit houdt in dat de items met elkaar samenhangen zoals ze dat behoren te doen.

Vuistregel: een onbetrouwbare meting verhoogt de variabiliteit en kan de power verlagen.

 

Meerdere vergelijkingen en foutmarges

Niet alle dreigingen voor de statistische conclusie validiteit hebben betrekking op variabiliteit. Het gebruiken van meerdere statistische test bijvoorbeeld heeft betrekking op de kans op een fout van de eerste soort. Hoe meer instrumenten, hoe groter de kans op het toevallig vinden van een verschil tussen groepen, dat er in werkelijkheid niet is (fout van de eerste soort). De kans op deze fout is gespecificeerd door alpha. Het is zo dat deze alpha geldt voor een individuele test. Bij meerdere tests is alpha groter dan .05, afhankelijk van het aantal gebruikte metingen.

Deze dreiging wordt ook wel experiment-wise error rate genoemd.

 

Algemene opmerkingen

Bedreigingen voor de statistische conclusie validiteit refereren aan kenmerken van een studie die van invloed zijn op de kwantitatieve evaluatie van de resultaten. Genoemde bedreigingen zijn een lage power en een hoge variabiliteit binnen groepen.

Er is over variabiliteit en variantie gesproken alsof het vijanden zijn. Dit is maar tot op zekere hoogte waar. Het doel van onderzoek doen is niet het elimineren van variabiliteit, maar het begrijpen ervan. Wat betekent dat onderzoekers het volledige spectrum van factoren die affect, cognitie, gedrag en persoonlijkheid beïnvloeden tot in detail willen uitwerken.

 

Experimentele precisie

De vier vormen van validiteit zijn nu besproken. Bij het begin van een studie moet er rekening gehouden worden met alle vormen van validiteit. Niet alle problemen kunnen opgelost worden, maar veel wel.

Het is niet mogelijk om aan alle bedreigingen voor alle vormen van validiteit aandacht te besteden. De reden hiervoor is, is dat inzetten op de ene vorm van validiteit en andere vorm kan compromiteren. Dit is geen groot probleem. Er bestaat pas een probleem wanneer de onderzoeker veel aandacht besteedt aan een vorm van validiteit die een lagere prioriteit heeft.

 

Constant houden versus controleren van bronnen voor variantie

Bij het ontwerpen van een studie zijn de onderzoekers niet alleen geïnteresseerd in het uitsluiten van dreigingen voor de interne validiteit, zij zijn vooral ook geïnteresseerd in het verschaffen van de meest sensitieve test als mogelijk om de onafhankelijke variabele te meten.

Het vergroten van precisie wordt bereikt door de potentiële bronnen van beïnvloeding van de proefpersonen anders dan de onafhankelijke variabele constant te houden. Condities worden constant gehouden als zij identiek of vrijwel identiek zijn over de proefpersonen en experimentele condities heen. Dit kan nooit volledig bereikt worden, omdat ieder individu zijn eigen levenservaringen heeft, maar gestandaardiseerde afnamen, die hetzelfde zijn bij de verschillende experimentele groepen dragen veel bij.

Bij iedere vorm van menselijk contact kan er externe variatie het experiment binnensluipen. De ene testafname kan net iets verschillen van de andere. Deze kans wordt nog groter als er verschillende testleiders zijn met ieder een subtiel andere aanpak. Ook andere externe factoren kunnen als bron van variatie dienen: de tijd van de dag, het weer en hoe de onafhankelijke variabele geïmplementeerd is. Al deze factoren kunnen gecontroleerd worden door ze onsystematisch te laten variëren over de groepen. Dit wordt gedaan door proefpersonen random toe te wijzen aan een groep en door proefpersonen iedere experimentele conditie te laten doorlopen tijdens de duur van het experiment. Waarbij het belangrijk is dat het doorlopen van de verschillende condities niet systematisch verloopt. Dus niet eerst alle proefpersonen in de experimentele groep bij de eerste helft van het onderzoek en dan in de tweede helft iedereen in de controlegroep. Als er geen systematische bias is bij deze bronnen van variatie is het experiment gecontroleerd.

 

Wisselwerkingen

Als algemene regel geldt dat het sensitiever maken van een test van de on- en de afhankelijke variabele de generaliseerbaarheid van de bevindingen limiteert. Omgekeerd geldt dat kenmerken van een studie die de generaliseerbaarheid van de resultaten vergroten de neiging hebben variabiliteit te vermeerderen en de sensitiviteit van de test te verkleinen.

Wanneer een relatie eenmaal door middel van goed gecontroleerde en intern valide studies is vastgesteld, kan de aandacht verschuiven naar de externe validiteit. Externe validiteit kan geëvalueerd worden door het systematisch uitbreiden van de steekproef, settings, variaties op de behandeling en de meetmethode en constructen.

 

Samenvatting en conclusies

Constructvaliditeit heeft betrekking op de interpretatie van de grondslag voor de causale relatie tussen de on- en afhankelijke variabele. Bedreigingen voor de constructvaliditeit zijn aandacht voor en contact met de proefpersonen, enkelvoudige handeling en nauwe stimulus steekproefneming, verwachtingen van de proefleider en signalen (cues) van de experimentele situatie.

Statistische conclusie validiteit refereert aan die aspecten van de studie die van invloed zijn op de kwantitatieve evaluatie en kunnen leiden tot misleidende of foute conclusies aangaande de manipulatie of interventie. Verschillende concepten zijn besproken die een rol spelen bij statistische conclusie validiteit, zoals de kans op het accepteren of verwerpen van de nulhypothese, kans op het maken van een foute beslissing en effectgrootte. Veel factoren die een bedreiging voor de validiteit vormen werken door beïnvloeding van een of meer van de besproken concepten, inclusief weinig statistische power, variabiliteit in de procedures van het experiment, heterogeniteit van de proefpersonen, onbetrouwbaarheid van de metingen en meerder statistische vergelijkingen en hun foutmarges.

Het is niet mogelijk om alle vormen van validiteit te maximaliseren. Er zullen prioriteiten gesteld moeten worden. De volgorde is in veel gevallen dat er eerst geprobeerd wordt een relatie aan te tonen in een sterk gecontroleerde omgeving om vervolgens te kijken hoe de onafhankelijke variabele zich gedraagt binnen een minder gecontroleerde omgeving.

Verder hangen maatregelen om één vorm van validiteit te vergroten vaak samen met inlevering van een andere vorm van validiteit.

Het doel van dit hoofdstuk en het vorige was om de verschillende vormen van validiteit en de bijbehorende bedreigingen te beschrijven. In nog volgende hoofdstukken zal teruggegrepen worden naar deze onderwerpen en zullen strategieën besproken worden die deze bedreigingen tegengaan en de conclusies kunnen versterken.

 

Kernconcepten en -termen

Constructvaliditeit Power

Effectgrootte Statistische conclusie validiteit

Placebo-effect

 

Hoofdstuk 4: Bronnen van artefacten en bias

 

Tot nu toe heeft de focus gelegen op bedreigingen die alternatieve interpretaties van de resultaten opleveren. Artefacten en biases verschuiven de aandacht naar specifieke handelingen en procedures binnen een experiment die kunnen interfereren bij het trekken van valide conclusies.

Een artefact of externe invloed heeft betrekking op alle variabelen waarin de onderzoeker niet geïnteresseerd is. Het identificeren van artefacten verloopt in fases. De eerste fase is onwetendheid. De onderzoeker is zich er niet van bewust dat een externe variabele van kracht is die mogelijk verantwoordelijk is voor de resultaten. De volgende fase is kunnen omgaan met het artefact (coping). Het artefact is erkend en de onderzoekers implementeren controle procedures om de invloed van het artefact te ontdekken, schatten, verminderen of voorkomen. De laatste fase is het exploiteren van de bron van het artefact. Het artefact vormt een nieuw onderzoeksterrein om de bron van invloed en het pad dat het volgt te kunnen begrijpen.

Dit hoofdstuk beschrijft verschillende bronnen van artefacten. Conceptualisatie van deze invloeden is opgetreden en sommige invloeden hebben zich geëvolueerd tot een volwaardige onafhankelijke variabele. Verder zal besproken worden hoe biases het trekken van valide conclusies kunnen beïnvloeden.

 

Bronnen van bias

NB: er wordt een verschil gemaakt tussen degene die het onderzoek ontwerpt (onderzoeker) en degene die het experiment uitvoert (proef- of testleider).

 

Rationale, scripts en procedures

Aard van het probleem

Zowel de instructies aan deelnemers aan het onderzoek als de experimentele materialen en procedures vormen een potentiële bron voor bias. Vandaar dat er vaak met scripts wordt gewerkt waarin de achtergrond, instructies en te volgen handelingen exact beschreven staan. De kleinste afwijking van een script kan een bias (kleuring) opleveren. Het nalaten van een gespecificeerde beschrijving van de rationale, het script en de handelingen van de testleider wordt het ‘loose protocol effect’ genoemd.

Er treden twee problemen op bij het niet specificeren van het script. De eerste is de onmogelijkheid om een studie te repliceren, omdat een onderzoeker niet precies weet wat er tijdens het contact met de deelnemers heeft plaatsgevonden. Het tweede probleem is dat bij meerdere testleiders de werkwijze tussen hen systematisch kan verschillen.

Wanneer testleiders variëren in de testafname treedt er ‘ruis’ (noise) op. De variabiliteit binnen de groep (error variantie) vergroot, wat de effectgrootte en de power kan verlagen, waarmee de statistische conclusie validiteit aangetast wordt. Alleen al om deze reden is het verstandig om zoveel mogelijk met gestandaardiseerde testafnames te werken.

De onderzoeker is niet alleen verantwoordelijk voor het opstellen van het script, hij/zij is ook verantwoordelijk voor de naleving ervan. Proefleiders kunnen gaandeweg afwijken van het script of het naar hun eigen hand zetten. De onderzoeker moet erop letten dat een script nauwlettend wordt gevolgd.

 

Aanbevelingen

Er zijn een aantal zaken aan te bevelen als het gaat om het consistent volgen van de testprocedures.

Het gebruik van vooraf op tape of video opgenomen instructies aan de deelnemers vermindert de kans op afwijkingen. Niet in alle gevallen is het mogelijk of wenselijk om van deze middelen gebruik te maken.

In het geval dat er menselijk contact is tussen een testleider en een deelnemer is het verstandig om van tevoren te specificeren met welke vragen een testleider geconfronteerd kan worden (ben ik maar een proefkonijn?, zit ik in de controlegroep?) en de reactie van de testleider vast te leggen.

Een andere aanbeveling is om testleiders samen te trainen. Dit bevordert homogene gedragingen. Er kan zelfs gebruik gemaakt worden van bondgenoten. Dit zijn geen echte proefpersonen, maar mensen die ingehuurd zijn door de onderzoeker om te kijken of de testleiders zich aan het protocol houden. De onderzoeker kan het gebruik van bondgenoten aankondigen, zodat de testleiders alert blijven om zich aan het protocol te houden.

Proefpersonen kunnen na afloop geïnterviewd of via een vragenlijst bevraagd worden over de houding, gedrag etc. van de testleider.

Testleiders moeten gestimuleerd worden om afwijkingen van het script te rapporteren. Niemand is foutloos en het kan voorkomen dat een testleider tijdens een sessie afwijkt van het script.

 

De effecten van testleiderverwachtingen

Aard van het probleem

De invloed van testleiderverwachtingen wordt als ongewild beschouwd. Door de toon van de stem, houding, gezichtsuitdrukkingen en andere signalen kan de testleider de reactie van een proefpersoon beïnvloeden.

Het is ook mogelijk dat de onderzoeker zelf verwachtingen heeft, die hij/zij overdraagt aan de testleider. Het kan zijn dat een onderzoeker er baat bij heeft dat een bepaalde conditie het beter doet dan de andere. Die ambities kan de onderzoeker projecteren op de testleider.

Verwachtingen kunnen de constructvaliditeit aantasten. Kenmerken van de testleider die irrelevant zijn aan de manipulatie (verwachtingen, enthousiasme, suggesties om beter te presteren) kunnen systematisch variëren over de condities.

 

Aanbevelingen

Het is bekend dat verwachtingen de bevindingen kunnen beïnvloeden, maar hoe sterk die effecten doorwerken of via welk pad ze werken is onbekend. Het is belangrijk om te weten hoe de beïnvloeding plaatsvindt omdat dit gevolgen heeft voor de procedures die nodig zijn om de boel weer recht te trekken.

De meest conservatieve methode is om testleiders naïef of blind te houden met betrekking tot het doel van het experiment en door te evalueren in hoeverre dit geslaagd is. Het naïef houden van testleiders refereert meestal aan het niet verschaffen van informatie aangaande de hypothese van het experiment.

Uitvoerders van het onderzoek kunnen na verloop van tijd doorhebben welke conditie ze uitvoeren en daarmee kunnen de observaties gekleurd worden. Door bijvoorbeeld te denken dat de patiënten in de groep van de testleider in de controlegroep zitten, kunnen hun klachten overdreven genoteerd worden. Een manier om na te gaan of testleiders wisten aan welke conditie ze toegeschreven waren, kan een relatief simpele procedure geïntroduceerd worden. Aan de testleiders wordt gevraagd om aan te geven welke behandeling ze denken dat een bepaalde proefpersoon ontvangen heeft. Het aantal correcte antwoorden wordt gecalculeerd en er kan berekend worden of het aantal goede antwoorden ligt boven wat men op basis van toeval zou verwachten. Bij een grote proportie correcte identificaties kan aangenomen worden dat de testleider niet blind was.

 

Testleiderkarakteristieken

Aard van het probleem

Het is bekend dat bij zelfrapportage- en projectieve tests, intelligentietesten en verscheidene laboratoriumtaken karakteristieken van de testleider (leeftijd, geslacht, ras, angstniveau, vriendelijkheid en status) de respons van een proefpersoon kunnen beïnvloeden. De karakteristieken kunnen interacteren met de onafhankelijke variabele.

Vaak verlagen testleiderkarakteristieken de externe validiteit van de bevindingen. Het kan zijn dat de relatie tussen de on- en afhankelijke variabele alleen zichtbaar wordt bij bepaalde testleiderkarakteristieken. Dit is te ondervangen door gebruik te maken van meerdere testleiders.

Bepaalde karakteristieken kunnen de constructvaliditeit aantasten. Dit kan wanneer er één testleider voor de experimentele en één testleider voor de controle conditie is. Wanneer testleiders confounden met condities zijn eerder de karakteristieken van de testleider dan de onafhankelijke variabele verantwoordelijk voor de resultaten.

 

Aanbevelingen

De reikwijdte van testleidereigenschappen die de resultaten kunnen beïnvloeden en de mate waarin de beïnvloeding doorwerkt is niet bekend. Het zou handig zijn als onderzoekers specifieker de karakteristieken van hun testleiders zouden beschrijven in hun rapportages. Binnen een studie is de invloed van een eigenschap moeilijk te evalueren omdat het aantal testleiders daarvoor te klein is. Wanneer een groot aantal onderzoekers hun testleiders beschrijven kunnen er meta-analyses gedaan worden om de invloed van bepaalde karakteristieken beter te specificeren, begrijpen en reduceren.

 

Situationele en contextuele cues

Aard van het probleem

Demand characteristics refereren aan signalen binnen een experimentele situatie die de respons van proefpersonen kan beïnvloeden. De reikwijdte van het aantal cues is moeilijk in te schatten. Ieder facet van het gedrag van de proefleider, de setting, de testmaterialen en de context die conceptueel irrelevant zijn, maar wel een reactie bij de proefpersoon ontlokken kan bijdragen aan demand characteristics. Alleen die cues die plausibel gerelateerd zijn aan het patroon van de resultaten en confounden met de groepen, kunnen als demand characteristics aangemerkt worden.

 

Aanbevelingen

Er zijn drie manieren om de invloed van demand characteristics te evalueren. Iedere procedure bekijkt of signalen (cues) van de experimentele situatie alleen zou leiden tot respons in de richting die geassocieerd is met de onafhankelijke variabele. Wanneer de cues proefpersonen niet laat reageren op een manier die je zou verwachten bij de blootstelling aan de werkelijke manipulatie, dan wordt er geconcludeerd dat demand characteristics geen rol hebben gespeeld.

Bij postexperimenteel onderzoek worden proefpersonen bevraagd over hun perceptie aangaande het doel van het onderzoek, wat er verwacht werd en hoe zij zich ‘behoorden’ te gedragen. Wanneer proefpersonen responsen identificeren die consistent zijn met de verwachtte gedragingen, dan bestaat de mogelijkheid dat demand characteristics bijgedragen hebben aan de resultaten.

Een aantal nadelen kleven aan deze procedure. De bevraging zelf kan een eigen set aan demand characteristics oproepen, zodat de proefpersonen niet alles zullen prijsgeven. Het kan ook zijn dat de characteristics onbewust zijn gebleven, maar dat de proefpersoon er wel op gereageerd heeft.

Bij een vooronderzoek (pre-experimenteel) worden proefpersonen niet blootgesteld aan de manipulatie, maar krijgen wel uitleg over de te volgen procedure en de testmaterialen. Vervolgens wordt hen gevraagd de testmaterialen in te vullen. Wanneer de proefpersonen op een manier reageren die consistent is met de voorspelde reactie, dan bestaat de mogelijkheid dat demand characteristics bijgedragen hebben aan de resultaten.

Bij simulators wordt aan proefpersonen gevraagd of ze willen doen alsof ze blootgesteld zijn aan de manipulatie. De testleider weet niet wie een echte proefpersoon of een simulator is. Aan simulators wordt gevraagd om te raden wat echte proefpersonen, die wel aan de manipulatie zijn blootgesteld, zouden doen en om de testleider om de tuin te leiden. Als simulatoren in staat zijn om hetzelfde als de proefpersonen te reageren, dan bestaat de mogelijkheid dat demand characteristics bijgedragen hebben aan de resultaten.

De genoemde procedures zijn niet zaligmakend. Wanneer na een pre-, postexperimenteel of simulator onderzoek de data consistent zijn met een demand characteristic interpretatie dan wil dat nog niet zeggen dat de demand characteristics verantwoordelijk waren voor de behaalde resultaten. Zowel de demand characteristic als de effecten van de onafhankelijke variabele kunnen in dezelfde richting werkzaam zijn. De consistentie levert een probleem op voor de constructvaliditeit en de interpretatie van het onderliggende mechanisme van de bevindingen. Zelfs wanneer de data vanuit de genoemde procedures niet correspondeert met de reacties van de proefpersonen, kan de rol van demand characteristics niet geheel uitgesloten worden. Het is niet hetzelfde om je in te leven in en situatie en het echt ervaren van iets. Het kan zijn dat de echte ervaring andere demand characteristics oproept dan het doen alsof.

 

Proefpersoonrollen

Aard van het probleem

Proefpersonen kunnen verschillend reageren op de experimentele cues van de studie. Deze verschillende manieren worden proefpersoonrollen genoemd en reflecteren de intentie van de respons van de proefpersoon. Verschillende rollen zijn onderscheiden, zoals de goede, negativistische, trouwe en beduchte rol.

De goede proefpersoon zal proberen om de reacties te geven die de hypothese van de onderzoeker zal bevestigen. Om deze rol te kunnen aannemen, moet een proefpersoon de hypothese kunnen identificeren en vervolgens gedrag vertonen dat consistent is met die hypothese. Een reden hiervoor kan zijn dat een proefpersoon informatie wil verstrekken die een bijdrage aan de wetenschap zal leveren.

De negativistische proefpersoon zal proberen de hypothese van de onderzoeker te weerleggen door bewijs te leveren voor een alternatieve zelfs tegengestelde hypothese. Een reden hiervoor kan zijn dat de proefpersoon niet over wil komen als een volger, een voorspelbaar persoon of zich niet fijn voelt in een situatie waarbij hij/zij het gevoel heeft gedwongen te worden om te reageren.

De trouwe proefpersoon zal heel erg zijn/haar best doen om de instructies zo nauwkeurig mogelijk op te volgen en te vermijden dat hij/zij op basis van vermoedens of aannames omtrent het doel van het experiment zal reageren. Hierbij is een passieve uitvoering mogelijk, waarbij een proefpersoon apathisch de instructies volgt of actief, waarbij een proefpersoon heel erg gemotiveerd en alert is om zich niet te laten leiden door enige vermoedens in zijn/haar reactie.

De beduchte proefpersoon houdt zich bezig met het feit dat zijn/haar vaardigheden, persoonlijke karakteristieken of arbeidskansen geëvalueerd worden. Proefpersonen willen graag een goede indruk achterlaten bij een psycholoog en kunnen daardoor sociaal wenselijk reageren.

Proefpersoonrollen kunnen op verschillende manieren de validiteit aantasten. Wanneer de rollen systematisch verschillen tussen de condities kan de constructvaliditeit in het gedrang komen. De externe validiteit kan bedreigd worden als de resultaten alleen betrekking hebben op mensen die een bepaalde rol aannemen.

 

Aanbevelingen

Er zijn verschillend procedures voor handen om de invloed van proefpersoonrollen te minimaliseren. Waarschijnlijk moet de meeste aandacht besteedt worden aan de beduchte rol, omdat er aanwijzingen zijn dat deze rol het meest doorwerkt. Het kan helpen om bij een experiment aan te geven dat de antwoorden anoniem zijn, niet gebruikt zullen worden voor andere doeleinden dan het onderzoek, dat er geen goede of foute antwoorden zijn en dat de antwoorden sowieso nuttig zullen zijn.

De invloed van proefpersoonrollen kan geminimaliseerd worden door ervoor te zorgen dat proefpersonen niets te weten komen over de hypotheses. Voor de testleider is het van belang dat hij/zij een klimaat creëert waarin de proefpersoon eerlijk en openhartig kan reageren. De testleider kan benadrukken dat juiste informatie belangrijker is dan dat een persoon reageert zoals hij/zij denkt te moeten reageren.

 

Data-invoer en -verwerking

Aard van het probleem

Verschillende problemen kunnen optreden betreffende de data die verzameld worden, zoals fouten maken bij het scoren, invoeren of berekenen, een select deel van de data verwerken en het fabriceren of knoeien met de data.

Uit evaluatie-onderzoek is gebleken dat fouten bij het scoren en rekenfoutjes bij één procent van de data optreedt. Deze foutjes hebben de neiging om in de richting van de hypotheses te zijn. Het is duidelijk dat dit soort fouten belangrijk zijn, omdat ze leiden tot verkeerde conclusies. Systematische fouten kunnen de bevestigende hypothese veranderen, onsystematische of random errors kunnen de groepsverschillen ontkennen of versluieren doordat de fouten de variabiliteit verhogen.

Het computertijdperk heeft veel bijgedragen aan het verminderen van fouten in statistische berekeningen. Het minst foutgevoelig is een test die direct door de proefpersoon op de computer wordt ingevoerd. Het met de hand overzetten van data van bijvoorbeeld papier naar een database op de computer geeft ruimte voor fouten. Het is dan ook van belang om frequent de data-invoer te checken.

Bij het analyseren van de data kan er op vele manier bias optreden. Veel problemen hebben te maken met het selecteren van dat deel van de data dat geanalyseerd moet worden. Een onderzoeker kan alleen het deel selecteren voor analyse dat het meest veelbelovend lijkt. Wanneer wel alle data geanalyseerd worden, kan de onderzoeker ervoor kiezen om alleen een bepaald deel te rapporteren.

Als lezer van een rapportage kom je niet te weten of de onderzoeker het volledige plaatje laat zien of alleen de statistisch significante verschillen vermeld. Of dat de data blootgesteld zijn aan verscheidene statistische test, maar dat alleen de bevindingen van de test worden vermeld die een significant resultaat laten zien. Over niet significante verschillen wordt nauwelijks gerapporteerd. Hieraan wordt gerefereerd als het ‘file-drawer problem’.

De meest misleidende vorm van bias is het rapporteren van frauduleuze data. Wanneer onderzoekers het alleenrecht hebben op data, zal het bewust fabriceren of knoeien met data moeilijk te ontdekken zijn. Er zijn dramatische voorbeelden van fraude bekend binnen de wetenschappelijke wereld.

 

Aanbevelingen

Het verkeerd scoren of berekenen van scores is eenvoudig te ondervangen door goed te controleren. Mensen die proefpersonen beoordelen moeten niet geïnformeerd worden over de verschillende condities zodat er geen fouten in de richting van de hypothese kunnen plaatsvinden. Fouten bij het invoeren kunnen voorkomen worden door proefpersonen hun antwoorden direct op de computer in te laten voeren. Wanneer dit niet kan is het handig om volledige vragenlijsten in te scannen en de computer die te laten verwerken. Hoe minder stappen met menselijke handelingen, hoe minder kans op fouten. Het checken van de data vindt op alle momenten plaats en begint al bij het nakijken of de proefpersoon alle vragen heeft ingevuld.

Problemen omtrent het selectief analyseren of het selectief rapporteren over de data is een moeilijker probleem. De verantwoordelijkheid ligt hierbij niet alleen bij de onderzoekers. Vaak zijn tijdschriften alleen geïnteresseerd in significante verschillen.

Zoals eerder genoemd, is het knoeien met data heel moeilijk te detecteren en daarmee op te lossen.

 

De steekproef: wie is geselecteerd voor het experiment?

De aard van het probleem

Het veelal gebruik maken van studenten is al eerder als een probleem voor de externe validiteit genoemd. Studenten vertegenwoordigen een specifieke groep binnen de maatschappij.

Een andere problematische steekproef is de ‘gemakshalve steekproef’ (sample of convenience). Een groep wordt geselecteerd omdat die groep op dat moment voor handen is, maar mogelijk niet de meest passende is.

Een meer doorwerkend probleem heeft te maken met de vrijwilligersstatus. Bij een oproep om deel te nemen aan onderzoek besluit een deel om mee te doen en het andere deel niet. Het kan zijn dat die twee groepen op belangrijke punten van elkaar verschillen. Onderzoek wijst uit dat er inderdaad sprake van verschil is tussen die twee groepen. Vrijwilligers zijn bijvoorbeeld jonger, hoger opgeleid, socialer, geloviger etc. dan niet-vrijwilligers (voor de totale lijst zie tabel 4.3 op blz. 103).

Ditzelfde probleem doet zich voor bij klinisch onderzoek waarbij cliënten geïncludeerd worden die verwezen zijn voor behandeling van een desbetreffende stoornis. De verwezen groep weerspiegelt niet de totale groep mensen die aan die stoornis lijdt. De verwezen groep kan verschillen op zaken als het hebben van een bezorgd sociaal netwerk of aanvullend verzekerd zijn.

 

Aanbevelingen

Een voor de hand liggende aanbeveling is het vergroten van de verscheidenheid van proefpersonen. Het moet voor gedragsdeskundigen toch mogelijk zijn om personen, die zich normaal gesproken niet als vrijwilliger zouden opgeven, te laten deelnemen aan een studie.

Bij klinische studies is het soms handig om de verkregen resultaten te vergelijken met resultaten die gevonden zijn bij grotere populaties, zoals epidemiologische steekproeven. Zo kan er gekeken worden of de klinische steekproef zich anders gedraagt dan de grote massa.

 

Uitval: wie blijft in de studie?

Aard van het probleem

Het wel of niet vrijwillig deelnemen aan een experiment kan potentieel een selectiebias voorafgaand aan de studie opleveren. Het selectieproces stopt echter niet bij het begin van een studie. Wanneer er sprake is van herhaalde metingen in de tijd, loopt het selectieproces door. Het verlies van proefpersonen kan effect hebben op alle vormen van validiteit, doordat het gevolgen heeft voor de willekeurige (random) compositie van de groepen en de groepsgelijkheid (interne validiteit), voor de generaliseerbaarheid (externe validiteit), voor de mogelijkheid dat speciale karakteristieken van de overgebleven proefpersonen verantwoordelijk zijn voor de gevonden effecten en niet de interventie (constructvaliditeit en externe validiteit) en voor de grootte van de steekproef en de power (statistische conclusie validiteit).

Uitval kan een probleem vormen wanneer de uitvallers verschillen van de blijvers, wanneer het aantal uitvallers niet gelijk verdeeld is over de groepen, wanneer er sprake is van selectieve uitval (= de karakteristieken van de proefpersonen die uitvallen verschillen over de groepen) en wanneer het aantal uitvallers zo hoog is (= te lage N) dat er geen valide conclusies getrokken kunnen worden.

 

Aanbevelingen

Er zijn verschillende manieren om uitval tegen te gaan, zoals een oriënterend gesprek voorafgaand aan de studie, schriftelijke correspondentie tijdens de studie, herinneringsbrieven en planmethodes voor afspraken en geldelijke beloningen. Sommige onderzoekers maken zelfs gebruik van een borgmethode. Proefpersonen leggen aan het begin van de studie een bepaald bedrag in dat ze na afloop bij het nakomen van alle afspraken weer terugkrijgen.

Wanneer variabelen bekend zijn die samenhangen met uitval (bv. geen geld hebben voor het openbaar vervoer, hoog stressniveau, aantal symptomen) kan een cuttoff score bepaald worden of een profiel opgesteld worden van proefpersonen die een groot risico vormen om uit te vallen. Een andere strategie is begrijpen waarom mensen uitvallen en ze tegemoet komen.

Er zijn verschillende statische methodes ontwikkeld om om te gaan met uitval en een eventuele bias te identificeren. Deze methodes zullen beschreven worden in hoofdstuk 15.

 

Samenvatting en conclusies

Bronnen voor artefacten en bias zijn een functie van waarin de onderzoeker geïnteresseerd is. Met andere woorden, wat in het ene onderzoek als bias wordt beschouwd kan bij een ander onderzoek juist de bestudeerde variabele zijn.

Bronnen voor artefacten en bias (kunnen) zijn: het loose protocol effect en het afwijken van de procedure, testleiderverwachtingen, testleiderkarakteristieken, situationele en contextuele cues (demand characteristics), proefpersoonrollen, selectiebias van de steekproef en (selectieve) uitval.

 

Kernconcepten en -termen

Beduchte proefpersoonrol Loose protocol effect

Demand characteristics Gemakshalve steekproef (sample of convenience)

Effecten van testleiderverwachtingen Proefpersoonrollen

File-drawer problem Proefpersoonselectie bias

 

Hoofdstuk 5: Selectie van de onderzoeksvraag en het onderzoeksdesign

 

Tot nu toe is er nog niet gesproken over een belangrijk onderdeel van onderzoek doen, namelijk het te bestuderen onderwerp. Hoe kom je van een idee tot een onderzoeksopzet? Dit hoofdstuk gaat over het beginnen van een studie en het specificeren van een idee. Verder zal er vooruitgeblikt worden naar verschillende ontwerp mogelijkheden.

 

Onderzoeksideeën

Het onderzoeksproces begint bij het hebben van een idee of een vraag. Een idee kan ontstaan uit verschillende bronnen (zie ook tabel 5.1 op blz. 112 en 113):

  1. Nieuwsgierigheid aangaande een bepaald fenomeen. Nieuwsgierigheid geeft niet direct een verklaring voor het waarom van een bepaalde studie, maar het wordt hier genoemd om aan te geven dat niet alles onderzoeksideeën voortkomen uit complexe of hoogontwikkelde theoretische overwegingen.

  2. Een case-study. Het nauw betrokken zijn bij een individuele casus levert unieke informatie op, doordat verschillende variabelen en hun interacties geobserveerd kunnen worden gedurende een langere periode. Het levert ook informatie op over de fundamenten van persoonlijkheid en gedrag. De case-study neemt een speciale rol in binnen de klinische psychologie en daarom is er een apart hoofdstuk aan gewijd (hoofdstuk 10).

  3. Speciale populaties bestuderen. Deze bron van ideeën overlapt met een aantal andere bronnen die genoemd worden in tabel 5.1, namelijk met het bestuderen van uitzonderingen, subtypes en het uitbreiden van de externe validiteit. Vaak wordt gekeken hoe mensen met een bepaald kenmerk verschillen van mensen zonder dat kenmerk. Met het bestuderen van uitzonderingen wordt bedoeld dat de groep mensen onderzocht wordt die niet reageert als de meerderheid. Men kan denken aan mensen die een slechte jeugd hebben gehad, maar goed terecht zijn gekomen of het omgekeerde, mensen met stabiele kinderjaren die de vernieling ingaan door drugs en/of criminaliteit.

  4. Uitbreiden en vertalen van bevindingen bij dieren naar mensen. Een bevinding binnen onderzoek met dieren, kan de vraag oproepen: “Zou dit bij mensen ook zo zijn?”.

  5. Instrumentontwikkeling en -evaluatie. Om een fenomeen te kunnen bestuderen zijn er instrumenten nodig om het fenomeen in kaart te kunnen brengen. Het ontwikkelen en evalueren van meetinstrumenten is geëvolueerd tot een apart onderzoeksveld.

  6. Het oplossen van een specifieke kwestie uit eerder onderzoek. Onderzoek borduurt vaak voort op eerder uitgevoerde studies. Het oplossen van een specifieke kwestie uit eerder onderzoek valt samen met een aantal andere bronnen van ideeën die genoemd worden in tabel 5.1, namelijk het verbreden van de focus (uitkomsten, afhankelijke variabelen) en hes uitbreiden van de externe validiteit (populaties en settings).

 

In tabel 5.1 worden nog enkele bronnen genoemd (de focus op moderators, mediators en theorie), die vanwege hun belangrijkheid een aparte plaats zullen krijgen in dit hoofdstuk.

 

Tabel 5.1 is niet uitputtend. Er zijn meer bronnen van inspiratie. De waarde van een idee wordt bepaald door de empirische en conceptuele opbrengst.

 

Niveaus van begrijpen en de focus van de studie

Kennis vergaren omtrent een fenomeen houdt in: te weten komen wat de karakteristieken zijn, met welke factoren het samenhangt, hoe het werk en hoe het bedwongen kan worden. Het doorlopen van de verschillende niveaus van begrip omtrent een fenomeen verloopt procesmatig van beschrijven tot verklaren.

 

Kernvragen en -concepten

Het stellen van vragen geeft aanleiding tot het doen van onderzoek. Er zijn verschillende soorten vragen. Bij iedere vraag hoort een concept (zie tabel 5.2 op blz. 117).

 

Bij de vraag: “Wat is de relatie tussen de variabelen?”, horen drie concepten. De eerste is de correlatie. Er is sprake van een correlatie als twee (of meer) variabelen op een bepaald moment in de tijd met elkaar samenhangen, waarbij er geen direct bewijs is dat één variabele anticipeert op de ander.

Het aantonen van een correlatie leidt tot een beter begrip van het fenomeen. Door bijvoorbeeld een correlatie te vinden tussen seizoen en gemoedstoestand, waarbij in de winter de meeste depressieve klachten en in de zomer de minste gerapporteerd worden, biedt dit mogelijkheden voor het stellen van verdere vragen (hoe komt dat dan?, zijn mensen zomers actiever?, heeft het te maken met zonlicht?).

Een concept dat het begrip van een fenomeen verder verdiept dan de correlatie is de risicofactor. Risicofactor is een misleidende term, omdat het lijkt samen te hangen met een negatieve uitkomst. Dit is niet zo. Een risicofactor is een karakteristiek dat een voorbode is voor en de kans op een bepaalde uitkomst (positief of negatief) vergroot. Een risicofactor kan gezien worden als een correlatie waarbij tijdigheid (volgorde) is aangetoond.

Een risicofactor toont uitsluitend de volgorde van de relatie tussen de variabelen aan, maar kan niet gezien worden als de oorzaak van de uitkomst. Roken is een risicofactor voor hart- en vaatziekten, maar veroorzaakt niet noodzakelijkerwijs deze ziekten. Oorzaak is een apart concept en houdt een hoge mate van begrip van het fenomeen in. Van een oorzaak kan gesproken worden wanneer één variabele direct of door middel van andere variabelen het ontstaan van de uitkomst beïnvloedt. Verandering in één variabele leidt aantoonbaar tot verandering in een andere variabele (de uitkomst). Het kan zijn dat een fenomeen meerdere oorzaken heeft. Roken is een oorzaak van longkanker, maar niet ‘de’ oorzaak. Er zijn ook gevallen van longkanker bekend bij niet-rokers.

 

Een andere vraag die gesteld kan worden is, welke factoren de relaties tussen variabelen beïnvloeden, dat is, die de richting of grootte van de relatie bepalen. Het concept dat bij deze vraag hoort is de moderator. Een moderator is een variabele die de relatie tussen twee variabelen beïnvloedt. De relatie tussen A en B verandert als een functie van een andere variabele (geslacht, leeftijd, etniciteit).

Een onderzoeksgebied dat op zoek gaat naar modererende variabelen is het bestuderen van subtypes of variaties van een fenomeen. Het identificeren van subtypes is belangrijk, omdat de gevolgen groot kunnen zijn. Als er meerdere subtypes van een probleem zijn kan kennis omtrent de subtypes bijdragen aan het voorkomen of behandelen van het probleem. De verschillende subtypes kunnen verschillende causale paden hebben en bieden de mogelijkheid om op die invloeden te interveniëren, die ook werkelijk verschil uit zullen maken.

Een nog hoger niveau van begrip wordt bereikt wanneer het werkzame mechanisme geïdentificeerd kan worden. Het kan zijn dat er oorzakelijkheid tussen twee variabelen is aangetoond, maar dat niet bekend is waardoor. De derde soort vraag die dan ook gesteld kan worden is: “Hoe werkt het fenomeen, dat is, door welke relatie of mechanisme of door welk proces leidt A tot B?” Bij deze vraag hoort het concept mediator. Een mediator is een proces, mechanisme of middel waardoor een variabele een bepaalde uitkomst produceert. Behalve de wetenschap dat A tot B leidt, verschaft een mediërende variabele informatie over het mechanisme (psychologisch of biologisch) dat uitlegt hoe B kan ontstaan.

Wanneer het werkzame mechanisme bekend is, kan de vraag gesteld worden of er invloed uitgeoefend kan worden op de uitkomstvariable of dat de uitkomst veranderd kan worden. Het concept dat hierbij hoort is de interventie. Een interventie is iets dat gedaan kan worden om de kans op iets onaangenaams te verlagen (preventie) of een onwenselijke uitkomst te verminderen of laten verdwijnen (behandeling).

Bij het onderzoeken van een specifiek pad of richting van het probleem komen verschillende concepten samen. In dit geval is de onderzoeker geïnteresseerd in de rangorde, het ontvouwen, de fases of de volgorde van een gebeurtenis die samenhangen met een bepaald probleem of fenomeen. Bij een psychotherapeutische behandeling bijvoorbeeld verloopt gedragsverandering in fases. De ene vorm van verandering gaat vaak vooraf aan een andere. Dit verloopt niet altijd zo en onderzoek kan helpen bij het identificeren van personen en situaties waarop het fasemodel van toepassing is (moderator), de redenen of theoretische basis voor het beweging binnen de fases (mediators) en factoren die vooruitgang binnen een bepaalde fase bevorderen (interventie).

 

Voorbeelden
Inadequate opvoedingstechnieken van ouders blijken samen te hangen met agressief en antisociaal gedrag van kinderen. Hierbij is alleen nog maar een correlatie aangetoond. Welke van de twee voorafgaat aan de ander is onbekend. Het kan zijn dat inadequaat opvoeden tot agressie leidt, maar het kan ook zijn dat asociaal gedrag van een kind de opvoeding op een negatieve manier beïnvloedt.

Na het doen van cross-sectioneel en longitudinaal onderzoek kon geconcludeerd worden dat inadequaat opvoeden een risicofactor is voor het vertonen van agressief gedrag. De volgende stap was het proberen te interveniëren in de relatie door een groep ouders een opvoedcursus te geven, een andere groep een behandeling te geven zonder op opvoeding in te gaan en een controlegroep. Een opvoedcursus bleek het antisociale gedrag van een kind te verminderen, waarmee de causale relatie tussen de variabelen opvoeding en agressief gedrag aangetoond is. Dit wil niet zeggen dat opvoeding de enige oorzaak is van agressief gedrag bij kinderen, of zelfs noodzakelijk of voldoende is.

 

Een voorbeeld voor het tonen van het belang van het identificeren van een mediërende factor komt uit onderzoek naar HIV en AIDS. In de allereerste onderzoeken werden verschillende factoren gevonden die samenhingen met het oplopen van het HIV virus. Eén van die factoren was intraveneus drugsgebruik. Een vroege hypothese over de mediërende factor, het waarom achter de correlatie, was dat zwaar drugsgebruik iemands immuunsysteem aantast wat leidt tot een hogere vatbaarheid voor het virus. Tegenwoordig weten we dat de mediërende factor het onderling delen van naalden is. Dat is het mechanisme achter de directe besmetting.

 

Theorie als een gids
Bij het verdiepen van de kennis omtrent een fenomeen gaat een onderzoek niet lukraak op zoek naar variabelen die met een bepaald fenomeen zouden kunnen samenhangen om te kijken wat voor rol die variabelen spelen. Onderliggend aan de concepten die onderzoek leiden, vindt men de theorie van de onderzoeker die het onderzoeksidee richting geeft.

 

Definitie en bereik

Breed gedefinieerd, refereert theorie aan een conceptualisatie van het te bestuderen fenomeen. De conceptualisatie kan inzichten over de aard, voorgangers, oorzaken, correlaties en consequenties van een bepaalde eigenschap beslaan.

 

Aanverwante termen worden vaak als synoniem gebruikt voor theorie, zoals benadering, conceptueel oogpunt of model, theoretisch raamwerk en werkmodel. Toch dekken een aantal de lading niet. Bij een benadering wordt er veel meer gedacht aan een globaal overzicht met globale concepten. De termen conceptueel oogpunt en model zijn de scherpere variant van de benadering, maar de termen impliceren nog steeds een brede oriënterende blik.

 

De focus van een onderzoek kan breed of smal zijn. Is de onderzoeker alleen geïnteresseerd in het uitdiepen van een correlatie binnen een bepaald veld (biologie, psychologie, sociologie) of wil de onderzoeker het samenspel van verschillende factoren (biologisch, psychologisch en sociaal) binnen een uitgebreider model onderzoeken?

 

Los van het bereik van de theorie, kan de focus variëren. Een onderzoeker kan bijvoorbeeld geïnteresseerd zijn in de ontstaanswijze van een fenomeen, de factoren die het fenomeen in stand houden of de factoren die invloed kunnen uitoefenen op het fenomeen.

 

Waarom is theorie nodig?
Onderzoek doen bestaat niet uit het willekeurig verzamelen van feiten. De wens is om verschillende bevindingen aan elkaar te relateren op een samenhangende manier. De theorie verschaft die cohesie en fungeert als leidraad voor verder onderzoek.

 

Voordelen van het hebben van een theorie:

  1. Theorie kan orde brengen binnen een onderzoeksgebied waar de bevindingen diffuus of veelvoudig zijn.

  2. Theorie kan de basis voor verandering verklaren en verschillende uitkomsten met elkaar verenigen.

  3. Theorie richt de aandacht op het identificeren van relevante moderators. Zoals eerder vermeld zijn onderzoekers niet geïnteresseerd in het simpelweg catalogiseren van elke moderator of alleen het standaardrijtje van geslacht, leeftijd, culturele achtergrond en sociaal economische klasse. De theorie leidt een onderzoeker in die zoektocht.

  4. Een doel van onderzoek doen is het vergroten en toepassen van kennis in de wereld buiten het laboratorium. Om kennis te kunnen toepassen is begrip van het mechanisme noodzakelijk. De theorie helpt bij het identificeren van kritieke factoren die een verandering tot stand brengen.

 

Het genereren van versus het testen van hypotheses

Uit het voorafgaande is het belang van het hebben van een theorie naar voren gekomen, maar hoe komt men tot een theorie? Een manier is het doen van kwalitatief onderzoek. Bij kwalitatief onderzoek worden over het algemeen een groot aantal interviews afgenomen bij mensen die in aanraking zijn geweest met een bepaald fenomeen of die een bepaald kenmerk gemeen hebben. Op deze manier kan men op systematische wijze ideeën over de kerndimensies van een fenomeen vergaren en daarmee richting geven aan wat er bestudeerd zal moeten worden. Bij kwalitatief onderzoek wordt er gesproken van ‘onderlegde theorie’ om aan te geven dat hypotheses ontstaan vanuit intensieve observatie van een fenomeen, dat wil zeggen dat de theorie voortkomt uit en zijn basis vindt in observaties. Over het algemeen staat het doen van puur beschrijvend onderzoek zonder onderliggende theorie niet hoog aangeschreven. Toch heeft beschrijvend onderzoek zijn waarde bij het genereren van hypotheses.

 

Verschillende situaties zijn mogelijk. Het testen van een hypothese gebeurt vanuit een theorie, maar het kan zijn dat na het testen de uitkomst aanleiding geeft tot het herzien van of de behoefte aan uitbreiding van de theorie. Wat ook kan is dat men aan het begin van een studie begint met een voorzichtige beschrijving, maar eindigt met een model of conceptueel oogpunt dat verder getest kan worden.

 

Van denken naar doen

Operationele definities

Bij het onderzoeken van een idee is de eerste stap het concretiseren of operationaliseren van de abstracte constructen. Operationele definities verwijzen naar het definiëren van een construct in termen van de specifieke handeling die gebruikt wordt in een experiment. Bijvoorbeeld wanneer men een angstige groep met een niet-angstige groep wil vergelijken, zou een mogelijke operationele definitie voor angst een score binnen of boven het 75e percentiel op een gestandaardiseerde angstvragenlijst zijn.

 

Aan het gebruik van operationalisaties zitten beperkingen. Het kan zijn dat een operationalisatie niet het volledige fenomeen behelst. Het meten van hoe vaak iemand met zijn partner knuffelt of andere overte uitingen van liefde vertoont levert geen totale definitie van het begrip liefde op.

 

Een andere beperking is dat de operationele definitie kenmerken bevat die irrelevant zijn voor het originele concept. Door bijvoorbeeld angst te operationaliseren door personen te includeren die zich voor behandeling aanmelden voor angstklachten, sluipen andere componenten het onderzoek binnen. Het aanmelden voor behandeling hangt met verschillende factoren naast angst samen.

 

Een derde beperking heeft te maken met het gebruik van een enkelvoudige maat om een construct te beschrijven. Hieraan wordt gerefereerd als enkelvoudig operationisme (single operationism). Ieder meetinstrument heeft zijn beperkingen en het vertrouwen op één maat bij een operationalisatie is feilbaar, omdat de uitingen van een proefpersoon gedetermineerd worden door meer factoren dan het te meten construct.

 

Meerdere operationalisaties om een construct te representeren

Aan de andere kant van single operationism vinden we meervoudig operationisme (multiple operationism). Gecombineerde metingen van een fenomeen levert een duidelijker beeld op van een concept. Onderzoekers kijken naar consistentie tussen de verschillende maten. Ook wanneer verschillende meetinstrumenten een inconsistent beeld laten zien is dit interessant.

 

Van een latente variabele wordt gesproken wanneer een idee van een construct gerepresenteerd wordt door verschillende metingen. Naar specifieke maten wordt gerefereerd als geobserveerde variabelen en representeren het construct. Correlationele analyses kunnen de samenhang tussen geobserveerde variabelen en de mate waarin zij met een latente variabele samenhangen representeren. Doordat de latente variabele gedefinieerd wordt door verschillende maten is er geen sprake van confounding met de meetfout van een individueel instrument.

 

In het algemeen wordt het gebruik van meerdere maten aangemoedigd, omdat eenzelfde uitkomst op verschillende maten meer vertrouwen geeft in de demonstratie en de interpretatie. De voordelen van meerdere maten lossen de problemen op die zich voordoen bij een nauwe stimulus steekproef. Een uitzondering kan gemaakt worden bij goed onderzochte en gestandaardiseerde meetinstrumenten, waarvan bekend is hoe ze zich verhouden tot andere maten, zoals bijvoorbeeld de Minnesota Multiphasic Personality Inventory-2 of de Wechsler Adult Intelligence Scale.

 

Vuistregel: het is beter om weinig constructen met meerdere maten te meten, dan om veel constructen met minder maten te meten.

 

Discrepanties tussen definities

Het komt zeker niet altijd voor dat meerdere maten een consistent beeld opleveren. Bijvoorbeeld wanneer er verschillende beoordelaars zijn (ouders, kinderen, leerkrachten). Wanneer een diffuus beeld optreedt, dan wil men weten waardoor dat komt en het kan zijn dat de verschillen samenhangen met de variatie in maten.

 

Algemene opmerkingen

Onderzoek doen begint met een abstract idee aangaande een concept. Vervolgens wordt een concept geoperationaliseerd door middel van één of meer procedures of maten. De constructen die de on- en afhankelijke variabelen vormen worden vertaald naar specifieke meetmethodes. Het experiment toont een relatie tussen de on- en afhankelijke variabele, die vervolgens geconcretiseerd wordt. Na het experiment wil de onderzoeker graag conclusies trekken die verder gaan dan de specifieke operationalisatie, en keert terug naar de abstracte wereld van concepten.

 

Te onderzoeken variabelen

 

Types van variabelen

De onafhankelijke variabele van een studie refereert aan de condities die gevarieerd of gemanipuleerd worden om verandering tot stand te brengen. Er zijn drie types van onafhankelijke variabelen: omgevings- of situationele variabelen, instructionele variabelen en proefpersoon variabelen.

 

Omgevings- of situationele variabelen

Veel variabelen bestaan uit het toebrengen van veranderingen in de omgevings- of situationele condities van een experiment. Een omgevingsvariabele bestaat uit variaties in wat er gedaan wordt door of met een proefpersoon (wel of geen behandeling). Een alternatief is het variëren in blootstelling aan een variabele (meer versus minder en geen behandeling). Ten slotte kan de omgevingsvariabele bestaan uit condities die kwalitatief van elkaar verschillen (de ene vorm van feedback ten opzichte van een andere).

 

Instructionele variabelen

Instructionele variabelen zijn een specifiek type van omgevingsvariabelen die refereren aan variaties waarin de proefpersonen geïnformeerd worden over deelname aan een experiment. In de meest simpele situatie waarin instructionele variabelen gemanipuleerd worden, worden andere omgevingsvariabelen constant gehouden. Instructionele variabelen zijn gericht op het veranderen van de percepties, verwachtingen of evaluaties van een deelnemer aangaande de situatie.

 

Proefpersoon- of individueel verschillende variabelen

Proefpersoonvariabelen refereren aan eigenschappen of kenmerken van individuele proefpersonen. De term organismische variabelen (organismic variables) wordt ook wel eens gebruikt. Binnen de psychologie vallen karakteristieken waaraan een proefpersoon blootgesteld kan worden (leefomstandigheden, omgevingscontext, sociaal economische status) ook onder deze variabelen.

 

Proefpersoonvariabelen worden meestal niet direct gemanipuleerd. Vaak worden personen geselecteerd die variëren op bepaalde karakteristieken.

 

Proefpersoonvariabelen hoeven niet uitsluitend aan proefpersonen gekoppeld te zijn. Een onderzoeker kan ook geïnteresseerd zijn in karakteristieken van therapeuten, testleiders of interviewers. In die gevallen spreekt men ook van proefpersoonvariabelen.

 

Het onderzoeken van meerdere variabelen

Het apart beschrijven van de verschillende soorten variabelen wil niet zeggen dat bij een studie maar een enkel type onderzocht wordt. Meerder variabelen van hetzelfde type of van verschillende types kunnen onderzocht worden binnen een enkel experiment en daarmee ook meerdere vragen beantwoorden.

 

In het algemeen kan gesteld worden dat een studie die een enkele variabele of een enkele casus manipuleert zich richt op een rudimentaire vraag. Dit wil niet zeggen dat de vraag triviaal is. De waarde wordt bepaald door de samenhang van de vraag met de bestaande literatuur, theorie, praktijk en andere overwegingen. Echter het combineren van variabelen verhoogt de complexiteit van de vraag en daarmee vaak het begripsniveau.

 

Mogelijkheden voor onderzoeksontwerpen

De eerste fase van onderzoek doen karakteriseert zich door het ontwikkelen van een idee, de operationalisaties en de selectie van variabelen. De manier waarop het idee geëvalueerd wordt en de omstandigheden waaronder het fenomeen bestudeerd wordt, heeft gevolgen voor de validiteit van een studie. Het kiezen van een onderzoeksopzet is dan ook een gewichtig proces en het beschrijven ervan zal verschillende hoofdstukken in beslag nemen. Hier wordt volstaan met het geven van een overzicht van de verschillende onderzoeksontwerpen.

De term zuiver experiment refereert aan studies met een interventie of experimentele manipulatie en random toewijzing van proefpersonen aan condities. In de context van interventie- (behandel)onderzoek, wordt er gesproken van een randomized controlled clinical trial (RCT of randomized controlled trial). RCTs worden onder andere gebruikt binnen de psychologie, epidemiologie en geneeskunde. Binnen de psychologie wordt aan een RCT vaak gerefereerd als een behandeluitkomststudie (treatment outcome study).

Quasi-experimenten refereren aan experimenten waarbij het niet mogelijk is om een facet van de studie te randomiseren. Een quasi-experiment benadert een echt experiment. Ondanks het gebrek aan randomisatie en de mogelijkheid die dat biedt voor andere, irrelevante componenten om de studie binnen te sluipen, kan een quasi-experimenteel design wel degelijk een sterke basis bieden voor het trekken van conclusies. Er zijn namelijk genoeg ontwerpmogelijkheden en methodes voor handen om bedreigingen voor de validiteit te beheersen.

Zuivere en quasi-experimentele experimenten refereren uitsluitend aan studies waarbij een onafhankelijke variabele gemanipuleerd wordt door een onderzoeker. Een groot deel van klinisch onderzoek richt zich op variabelen die de ‘natuur’ heeft gemanipuleerd. Bij case-control designs wordt de te bestuderen variabele onderzocht door proefpersonen te selecteren die variëren op een bepaald karakteristiek (cases) en die te vergelijken met personen die het karakteristiek niet hebben (controles). Een case-control study kan veel duidelijkheid omtrent een fenomeen verschaffen en zal verderop uitgebreid besproken worden.

 

Ontwerp strategieën

Bij groepsontwerpen (group designs) worden verscheidene proefpersonen bestudeerd. Vaak worden de proefpersonen in verschillende groepen ingedeeld en met elkaar vergeleken. Deze ontwerpvorm wordt om die reden ook wel tussen groepen onderzoek (between-group research) genoemd.

 

Enkelvoudige casus experimentele designs (single-case experimental designs) worden gekarakteriseerd door het bestuderen van een enkel individu, een paar individuen of een enkele groep. De onderliggende gedachte van single-case designs is hetzelfde als voor groupdesigns, namelijk om de omstandigheden zo in te richten dat er valide conclusies getrokken kunnen worden aangaande de onafhankelijke variabele. Dit wordt bij een single-case experimental design alleen anders gedaan. Een proefpersoon wordt vaak voor een bepaalde tijd bestudeerd, waarbij herhaaldelijk afhankelijke metingen gedaan worden. De implementatie van de onafhankelijke variabele wordt onderzocht in relatie met het datapatroon over de tijd. SIngle-case designs kunnen een rol spelen bij klinisch onderzoek, waarbij men geïnteresseerd is in het bestuderen van een bepaalde koers. Net als bij groepsdesigns zijn er verschillende soorten single-case designs. Ieder met zijn eigen set van voorwaardes, voordelen en struikelblokken.

 

De condities van experimentatie

De condities waaronder onderzoek plaatsvindt kunnen zeer gevarieerd zijn. Hier worden drie gebieden beschreven waarbij enkele kernverschillen van condities geïllustreerd worden (zie tabel 5.3 op blz. 140). De verschillen staan beschreven in termen van de één versus de ander. Zo zwart wit is het niet. Ze kunnen beter gezien worden als de polen van een continuüm.

 

Laboratorium versus toegepast onderzoek. Bij laboratoriumonderzoek kan de onderzoeker de omgeving volledig beheersen. Hierbij kan afgeweken worden van de omstandigheden van het dagelijks leven. Vaak gaat het om het beantwoorden van procesmatige vragen. Bij toegepast onderzoek ligt de focus op settings binnen de realiteit met als doel te laten zien wat mogelijk is binnen de werkelijke omstandigheden of met een directe klinische relevantie.

 

Analogisch versus klinisch onderzoek. De focus bij analogisch onderzoek ligt bij het beantwoorden van een nauwkeurig geformuleerde vraag onder goed beheersbare omstandigheden. Het doel is om een bepaald proces zichtbaar te krijgen. Het proces zoals het bestudeerd wordt in het laboratorium toont grote gelijkenis met een fenomeen dat in het dagelijks leven moeilijk te isoleren is. Klinisch onderzoek vindt in de praktijk plaats.

 

Doelmatigheid (efficacy) versus doeltreffendheid (effectiveness). Doelmatigheidsonderzoek refereert aan treatment outcome studies die onder laboratorium en quasi-laboratorium omstandigheden uitgevoerd worden. Doeltreffendheidsonderzoek vindt plaats binnen de klinische praktijk waar geen stringente condities nageleefd kunnen worden.

 

Doelmatigheid en doeltreffendheid kunnen gezien worden als de polen een continuüm, of zelfs meerdere continua, omdat verschillende dimensies kunnen variëren binnen klinische en laboratoriumsettings die effect hebben op de generaliseerbaarheid. Tabel 5.4 op bladzijde 143 noemt een aantal dimensies waarop studies kunnen verschillen en beschrijft de mate van gelijkenis met de klinische praktijk. Wanneer het grootste gedeelte van de dimensies aan de rechterkant uitkomt spreekt men van een efficacy study en wanneer het grootste gedeelte links valt van een effectiveness study.

 

Externe validiteit is niet het enige construct waar rekening mee gehouden moet worden bij het kiezen voor een experimentele conditie. In sommige gevallen is generaliseerbaarheid helemaal niet het doel, omdat men puur geïnteresseerd is in bijvoorbeeld het proces. Er bestaat pas een probleem wanneer het soort onderzoek niet past bij het doel of de focus.

 

Tijdsschema van onderzoek

De looptijd van een onderzoek kan lang of kort zijn. Sommige onderzoeken kunnen uitgevoerd worden in twee sessie, sommige studies volgen proefpersonen jarenlang. Er wordt vaak onderscheid gemaakt russen cross-sectioneel onderzoek en longitudinaal, waarbij cross-sectioneel onderzoek vaak een vergelijking maakt tussen groepen op een bepaald moment in de tijd en longitudinaal onderzoek groepen vergelijkt over een langere tijd. De resultaten van de twee kunnen aanzienlijk van elkaar verschillen.

 

De grootste beperking van een cross-sectionele studie is de kans dat er een cohorteffect optreedt. Tweejarigen kunnen verschillen van achtjarigen op dit moment in de tijd, omdat zij mogelijk onder verschillende omstandigheden zijn opgegroeid. Bij een longitudinaal onderzoek is de kans op een cohorteffect veel kleiner, omdat alle tweejarigen op achtjarige leeftijd onder dezelfde omstandigheden zijn opgegroeid.

 

Bij een longitudinaal onderzoek kan een cohorteffect optreden wanneer de instroom van proefpersonen doorloopt. De tweejarigen die nu binnenstromen kunnen verschillen van de tweejarigen die vijf jaar geleden instroomden.

 

Combinaties van de twee designs zijn ook denkbaar. Men kan ervoor kiezen om verschillende leeftijdsgroepen herhaaldelijk cross-sectioneel te testen.

 

Samenvatting en conclusies

Een idee voor een onderzoek kan aan verschillende bronnen ontspringen, zoals nieuwsgierigheid, case-studies, interesse in bepaalde populaties, extrapolatie van bevindingen uit eerder onderzoek, instrumentontwikkeling, etc.

Bij het kijken naar samenhang tussen variabelen spelen concepten als correlaties, risicofactoren, oorzaken, moderators en mediators een rol. Hypotheses omtrent de samenhang tussen variabelen moeten zoveel mogelijk door theorie gestuurd worden.

Niet al het onderzoek dat gedaan wordt, is theoriegestuurd. Beschrijvend of explorerend onderzoek heeft zijn waarde bij het genereren van hypotheses omtrent een fenomeen dat nog niet of nauwelijks bekend is.

De on- en afhankelijke variabele moeten vervolgens geoperationaliseerd worden, dat is gedefinieerd worden in concrete maten. Karakteristieken, sterktes en zwaktes van operationalisaties zijn besproken.

Bij klinisch onderzoek draait het vaak om omgevings-, instructionele en proefpersoonvariabelen. Dezen zijn afzonderlijk beschreven.

Verschillende onderzoeksontwerpen zijn voorhanden om de variabelen te bestuderen. Zuivere, quasi-experimentele experimenten en case-control studies zijn belicht. RCT is een veel gebezigde term en refereert aan een zuiver experiment binnen behandeluitkomstonderzoek.

De verschillende condities waaronder onderzoek kan worden uitgevoerd zijn beschreven. Voorbeelden zijn laboratorium versus toegepast onderzoek, analogisch versus klinisch en doelmatigheid versus doeltreffendheid. Deze distincties verwijzen naar de mate van beheersbaarheid van de omstandigheden

Ook het tijdsschema kan tussen onderzoeken verschillen. Cross-sectioneel en longitudinaal onderzoek zijn hier voorbeelden van. In de volgende hoofdstukken zullen de verschillende designs die mogelijk zijn bij klinisch onderzoek in meer detail besproken worden.

 

Kernconcepten en -termen

 

Mediator Randomized controlled clinical trial

Moderator Risicofactor

Operationele definities Zuiver experiment

Quasi-experimenteel

 

Hoofdstuk 7: Controle- en vergelijkingsgroepen

 

De term controlegroep is misleidend. Het impliceert dat het toevoegen van een controlegroep meteen alle bedreigingen buitensluit. Dit is niet zo. Een controlegroep is niet meer dan een vorm van vergelijkingsgroep, waarbij de term vergelijkingsgroep refereert aan iedere groep die toegevoegd wordt aan het design naast de primaire groep. Sommige controlegroepen gaan bedreigingen voor de interne validiteit tegen (behandeling versus geen behandeling), andere bedreigingen jegens de constructvaliditeit (non-specifieke behandeling).

 

Controlegroepen

Controlegroepen worden vaak gebruikt om bedreigingen jegens de interne validiteit tegen te gaan, zoals geschiedenis, rijping, selectie en herhaaldelijk testen. Het controleren van deze bedreigingen wordt bereikt door een groep aan het experiment toe te voegen die dezelfde invloeden deelt, maar niet de interventie ondergaat. Wanneer de controlegroep en de experimentele groep random samengesteld wordt en de metingen gelijktijdig plaatsvinden worden bedreigingen jegens de interne validiteit meestal tegengegaan.

 

Geen behandeling controlegroep (no-treatment control group)

Beschrijving en rationale

Bij het bestuderen van de werking van een therapie, speelt altijd de vraag in hoeverre een persoon veranderd zou zijn zonder behandeling. Deze vraag kan beantwoord worden door een controlegroep toe te voegen die geen behandeling krijgt. Door een controlegroep toe te voegen, wordt voor de invloeden van geschiedenis, rijping en andere bedreigingen voor de interne validiteit direct gecontroleerd.

 

Bij klinisch onderzoek zien we vaak verbeteringen optreden bij cliënten die in de controlegroep zitten. Hiernaar wordt gerefereerd als ‘spontane remissie’. De redenen voor deze spontane verbetering zijn legio. Iemand kan andere hulp zoeken, een gesprek met de buurvrouw gaf een verlichting van de symptomen, extreme scores op het ene moment hebben de neiging om meer naar het midden te trekken bij een volgende meting, etc. Een no-treatment groep laat de mate van verandering zien wanneer er geen behandeling plaatsvindt.

 

Ook wanneer het bekend is hoe groot de mate van verandering is bij geen behandeling, is het toch nuttig om een controlegroep te gebruiken. Het effect van herhaaldelijk testen kan anders verantwoordelijk zijn voor de resultaten.

Het is belangrijk dat cliënten door random toewijzing in de controlegroep komen. Zonder randomisatie wordt het moeilijk om de verschillen tussen de groepen te interpreteren.

 

Speciale overwegingen

Een ethische kwestie doet zich voor bij het toewijzen van cliënten aan de niet-behandelconditie. Wanneer cliënten behandeling nodig hebben is het niet ethisch om dat te weigeren. Dit kan omzeild worden door cliënten vooraf goed te informeren over de mogelijkheid dat ze in de controlegroep terecht kunnen komen. Dit geeft nog steeds geen garanties. Cliënten kunnen hun medewerking alsnog opzeggen, wanneer ze erachter komen dat ze zijn toegewezen aan de controlegroep.

 

Naast ethische kwesties zijn er ook praktische. Hoe leg je aan een client het nut van een controlegroep uit? Cliënten kunnen besluiten ergens anders hulp te zoeken. Verder kan de studie ook niet te lang duren. Als algemene regel kan gesteld worden dat hoe langer van cliënten gevraagd wordt om als controle te dienen, hoe hoger de kans is dat iemand uit zal vallen.

 

Wachtlijst controlegroep

Beschrijving en rationale

In plaats van behandeling te onthouden, kan behandeling ook uitgesteld worden door mensen op een wachtlijst te plaatsen. De wachttijd komt overeen met de tijdsperiode die loopt van voor- tot nameting. De personen in de controlegroep ondergaan wel de metingen, maar niet de behandeling. Na afloop van het experiment krijgen de personen op de wachtlijst behandeling.

 

Men kan bij de aanmelding aan cliënten vragen of ze zouden blijven deelnemen aan de studie, zelfs als behandeling uitgesteld zou worden. Alleen de mensen die hier positief op reageren worden geïncludeerd. Het is verleidelijk om de weigeraars in te delen in de experimentele conditie, maar dit is methodologisch gezien een ramp. Proefpersoonselectie in combinatie met geschiedenis, rijping, regressie an andere bedreigingen krijgen op deze manier de ruimte.

 

Drie rudimentaire kenmerken karakteriseren de wachtlijst controlegroep.

  1. Wanneer een voormeting gedaan wordt, mag er geen behandeling plaatsvinden tussen de eerste en tweede meting bij de controlegroep.

  2. De tijd tussen de eerste en tweede meting moet overeenkomen met de tijd tussen de voor- en nameting van de experimentele groep.

  3. Cliënten krijgen een eerste en tweede meting, voordat ze behandeling krijgen. De tweede meting kan gekoppeld worden aan het begin van de uitgestelde behandeling en uitgelegd worden aan de client als een baseline meting vooraf aan de behandeling, terwijl het in werkelijkheid een tweede meting is.

 

Speciale overwegingen

Een in het oog springend nadeel van een wachtlijst controlegroep is dat de cliënten uiteindelijk behandeld worden. Zij zijn dan niet meer beschikbaar voor follow-up metingen verderop in de tijd.

 

Bij relatief milde klachten of aandoeningen kan de client geïnformeerd worden over de duur van de uitstel van behandeling en kan zelfs een follow-up periode ingebouwd worden.

 

Deze vorm van controlegroep geeft de mogelijkheid tot het herhalen (repliceren) van het experiment door na de wachtperiode iemand behandeling aan te bieden en vervolgens opnieuw een meting te doen.

 

R O1 X O2

R O3 O4 X O5

 

Een wachtlijst controlegroep is ethisch net iets verantwoorder dan een non-treatment control group. Ethische kwesties dienen zich aan wanneer iemand acuut hulp nodig heeft of op een andere manier schade ondervindt van de uitstel van behandeling.

 

Geen contact controlegroep

Beschrijving en rationale

Alleen al de participatie aan een onderzoek kan genoeg zijn om een reactie op de afhankelijke variabele bij controlepersonen te ontlokken. Vandaar dat er in sommige gevallen gekozen wordt voor een controlegroep die geen contact heeft met het project. Dit wordt een geen contact (no-contact) controlegroep genoemd. Aangezien de onderzoeker wel gegevens van de proefpersonen nodig heeft, zal die onder een andere noemer verkregen moeten worden. Men kan bijvoorbeeld personen zogenaamd benaderen voor een enquête.

 

Speciale overwegingen

Deze vorm van controlegroep wordt weinig gebruikt. Eigenlijk is de enige reden om dit te doen, wanneer het bekend of aannemelijk is dat het hebben van contact met een onderzoeker de resultaten zal beïnvloeden.

 

Verder moet er goed stilgestaan worden bij de kwestie van informed consent. Alleen een geïnformeerd persoon kan toestemming geven.

 

Non-specifieke behandeling of ‘aandacht-placebo’ controlegroep

Beschrijving en rationale

No-treatment en wachtlijst controlegroepen adresseren primair de bedreigingen voor de interne validiteit. Een non-specifieke behandel controlegroep (nonspecific-treatment control group) richt zich naast de bedreigingen voor de interne validiteit ook op de constructvaliditeit. Bij iedere vorm van behandeling kunnen veel schijnbare accessoires bijdragen of verantwoordelijk zijn voor therapeutische verandering, zoals het bijwonen van sessies, persoonlijk contact hebben met een therapeut, een logische verklaring horen voor het ontstaan van het probleem en het ondergaan van een procedure die op klachtenvermindering gericht is. Naar deze factoren wordt gerefereerd als de algemene of non-specifieke factoren van psychotherapie, omdat ze de ingrediënten zijn van de meeste behandelingen.

 

Bij een non-specifieke behandelingscontrolegroep wordt een client door een therapeut gezien, maar er vindt geen echte behandeling plaats. De controlegroep is te beschouwen als een placebo-groep, omdat de behandeling bestaat uit algemene, non-specifieke factoren. De experimentele conditie bestaat uit een specifieke vorm van behandeling. Op deze manier kan bepaald worden waarom behandeling tot verandering leidde, wat bijdraagt aan een betere constructvaliditeit.

 

Een non-specifieke controlegroep maakt het onwaarschijnlijk dat algemene factoren de resultaten verklaren, maar wijst niet direct het construct aan dat wel verantwoordelijk was voor de verandering. Een evaluatie van het proces dat verantwoordelijk geacht wordt voor de verandering moet rechtstreeks onderzocht worden (bijv. cognities) en getoetst worden in relatie tot de mate van verandering. Met andere woorden, een specifiek onderdeel van een behandeling wordt geïsoleerd, zodat de experimentele en controlegroep alleen op het specifieke onderdeel van elkaar verschillen.

 

Speciale overwegingen

Bij psychotherapeutisch onderzoek is het niet zo makkelijk om een non-specifieke controlegroep op te zetten. Ten eerste is er een conceptueel probleem. Wat is een inerte (neutrale) interventie? Bij medicijnonderzoek weet de onderzoeker dat een tablet met een suiker- of zoutoplossing geen chemische werking op het klinische symptoom zal hebben. Bij klinisch psychologisch onderzoek ligt dit anders. Vaak is het niet van tevoren bekend welke ingrediënten van een behandeling inert zijn.

 

Een tweede kwestie is de geloofwaardigheid van de non-specifieke behandeling. Wanneer proefpersonen in de controlegroep geen geloof hebben in de werking van de behandeling, kan dit van invloed zijn op de interpretatie van de resultaten.

 

Als derde probleem kunnen ethische kwesties genoemd worden. Wanneer cliënten in nood zijn en hulp zoeken, hoe ethisch is het dan om een deel van die cliënten te laten geloven dat ze behandeld worden, terwijl dit niet zo is. In een verklaring van de World Medical Association wordt gesteld dat placebo-controlegroepen niet gebruikt mogen worden bij medisch onderzoek. In plaats van een placebo moet het best mogelijke alternatief geboden worden.

 

Het gebruik van een non-specifieke behandeling kan zelfs schadelijk zijn. Wanneer cliënten een behandeling ontvangen die geen effect op hun klachten heeft, kunnen zij een aversie tegen therapie ontwikkelen die hen er van zal weerhouden om in de toekomst hulp te gaan zoeken.

 

Onderzoeksresultaten neigen naar de bevestiging van de opvatting dat psychotherapie effectiever is dan non-specifieke behandeling controlecondities en dat non-specifieke behandeling controlecondities effectiever zijn dan helemaal geen behandeling.

 

Routine of standaardbehandeling

Beschrijving en rationale

Een alternatief voor no-treatment, wachtlijst en non-specifieke behandeling controlecondities is de experimentele conditie te vergelijken met de behandeling zoals die op dat moment gangbaar is. Dit kan gedaan worden wanneer de andere vormen van controlegroepen niet ethisch verdedigbaar of praktisch haalbaar zijn.

 

Minimaal vier voordelen zijn verbonden aan het gebruik van de standaardbehandeling als vergelijkingsmateriaal voor de experimentele conditie.

  1. Aan de ethische en dienstverlenende vereisten wordt voldaan.

  2. Iedere proefpersoon krijgt een waarheidlievende behandeling, waardoor de mate van uitval verkleind wordt ten opzichte van de geen behandeling, wachtlijst en non-specifieke controlegroepen.

  3. De standaardbehandeling controleert voor veel van de algemene of non-specifieke factoren van behandeling, waardoor er geen ruimte is voor rivaliserende interpretaties.

  4. Voor clinici is de vergelijking van een nieuwe methode met de standaardbehandeling veel interessanter, omdat het meteen duidelijk wordt of het nieuwe echt beter is dan het oude.

 

Speciale overwegingen

Het gebruik van de standaardbehandeling levert een aantal dilemma's op. Het is bijvoorbeeld moeilijk te weten wat de standaardbehandeling precies inhoudt. Zonder oneerbiedig te zijn, worden behandelingen binnen een kliniek vaak slordig, inconsistent en met discretie aangaande de exacte inhoud uitgevoerd.

 

In het algemeen kan gezegd worden dat het gebruik van een standaardbehandeling vele ethische en praktische kwesties die samenhangen met het gebruik van een non-specifieke controlegroep omzeilt en de conclusies die getrokken kunnen worden versterkt.

 

Gejukte (yoked) controlegroep

Beschrijving en rationale

De gejukte controlegroep wordt gebruikt bij het meten van factoren die kunnen optreden als een functie van het implementeren van een bepaalde interventie. Het doel van de gejukte controlegroep is om de zekerheid te scheppen dat groepen gelijk zijn op potentieel belangrijke maar conceptueel en procedureel irrelevante factoren die voor groepsverschillen zouden kunnen zorgen.

Een gejukte controlegroep kan bijvoorbeeld gebruikt worden wanneer het aantal sessies bij de experimentele groep niet vast bepaald is. Een ingrediënt van een behandeling kan zijn dat de client kan binnenlopen wanneer hij/zij daar behoefte aan heeft. Hoeveel sessies moet de controlegroep dan krijgen? Bij het ‘jukken’ van proefpersonen worden er paren gevormd. Die paren kunnen willekeurig samengesteld worden, behalve in het geval van matching. Wanneer proefpersonen gematcht zijn toegewezen aan de condities vormen de gematchte paren de gejukte paren. Van alle proefpersonen in de experimentele conditie wordt genoteerd hoeveel sessies er hebben plaatsgevonden. De gejukte proefpersoon uit de controlegroep krijgt een gelijk aantal onzinsessies. Deze manier vereist dus wel dat er temporeel gemeten wordt. Eerst alle proefpersonen moeten de experimentele conditie afronden, voordat de controlepersonen ‘behandeld’ worden.

 

In het geval dat er in het design nog een andere controlegroep ingebouwd is (no-treatment), rijst de vraag hoeveel tijd er moet zitten tussen de voor- en nameting. Ook hier kan ‘gejukt’ worden met proefpersonen uit de experimentele conditie. Het tijdsinterval tussen de voor- en nameting is gelijk tussen de gejukte personen uit de experimentele en de controle groep.

 

Speciale overwegingen

Ook hier moet weer gezegd worden dat er alleen op variabelen ‘gejukt’ wordt die mogelijk een alternatieve verklaring van de resultaten kunnen opleveren.

 

Niet random toegewezen of non-equivalente controlegroepen

Beschrijving en rationale

In sommige gevallen worden groepen toegevoegd aan een experiment, die gevuld worden met proefpersonen die geen onderdeel uitmaakten van de oorspronkelijke ‘vijver’ (pool) en niet random zijn toegewezen. Naar deze groepen wordt gerefereerd als non-equivalente controlegroepen of ‘opgelapte’ (patched-up) controlegroepen. Het doel van zo’n controlegroep is hetzelfde als die bij een gerandomiseerde no-treatment controlegroep, namelijk het uitsluiten van bedreigingen jegens de interne validiteit, zoals geschiedenis, rijping, herhaaldelijk testen en instrumentatie. Hoewel het doel hetzelfde is, is de interpreteerbaarheid niet hetzelfde omdat de groepen anders gevormd zijn.

 

Speciale overwegingen

Hoewel een non-equivalente controlegroep data produceert die minder overtuigend zijn dan bij random toewijzing, kunnen de inzichten die bij deze groep verkregen worden net de balans doen omslaan bij het onwaarschijnlijk maken van alternatieve verklaringen.

 

Het toevoegen van een controlegroep hoeft niet altijd als doel te hebben de interne validiteit te bewaken. Groepen worden ook wel toegevoegd om meer informatie te verkrijgen over de afhankelijke variabele. Een voorbeeld is onderzoek waarbij men kijkt in hoeverre personen in de studie (personen die zich aangemeld hebben voor behandeling) verschillen van hun leeftijdsgenoten zonder problemen. Op die manier kan men kijken of therapie het functioneren van de client teruggebracht heeft naar een ‘normale’ maat.

 

Sleuteloverwegingen bij groepsselectie

 

Bij de selectie van groepen voor klinisch onderzoek zijn er drie overwegingen van belang: de interesse van de onderzoeker, resultaten uit eerder onderzoek en praktische en ethische beperkingen.

 

De interesse van de onderzoeker refereert aan het type statement dat iemand na afronding van de studie wil maken. Een algemene (valide) verklaring of een specifieke verklaring gekoppeld aan een goed omschreven construct. Op basis van de interesse (de onderzoeksvraag) van de onderzoeker worden de controlegroepen gekozen. De kwaliteit van een studie hangt niet af van het aantal controlegroepen. de kwaliteit hangt af van de mate waarin het design de onderzoeksvraag op een passende manier adresseert.

 

Er zijn geen vaste regels voor het selecteren van groepen en waarschijnlijk bewandelen verschillende onderzoekers verschillende paden bij het beslissen hierover. Het is in ieder geval handig om van tevoren stil te staan bij mogelijke alternatieve verklaringen, zodat bij de selectie van groepen geanticipeerd kan worden op het minder plausibel maken van die alternatieven.

 

Eerder onderzoek kan ook de keuze voor bepaalde groepen bepalen. Wanneer herhaaldelijk, op consistente wijze, bij verschillende populaties en settings is aangetoond dat een no-treatment groep geen verandering laat zien op de afhankelijke variabele kan overwogen worden om zo’n controlegroep niet toe te voegen. Voortschrijdend inzicht maakt dit mogelijk.

 

Praktische overwegingen bij het selecteren van groepen zijn al eerder genoemd. Genoeg proefpersonen includeren, uitval van proefpersonen bij no-treatment of onzinnige behandelingen controlegroepen. Ook zijn de ethische kwesties rond het niet verschaffen van (een werkende) behandeling reeds besproken.

 

Progressie van controle- en vergelijkingsgroepen: het evalueren van psychotherapie

 

De doelen van klinisch onderzoek zijn het identificeren van effectieve behandelingen, het begrijpen van de onderliggende fundamenten van therapeutische verandering en het doorborduren op client-, therapeut- en andere factoren waarvan therapeutische effecten afhangen. Tabel 7.1 op bladzijde 203 noemt een aantal hoofdstrategieën om behandelingen te evalueren, de vragen die bij die strategieën behoren en de controle- en vergelijkingsgroepen die waarschijnlijk benodigd zijn.

 

Behandelpakket strategie

Bij de behandelpakket strategie hoort de ‘algemene’ vraag of behandeling leidt tot therapeutische verandering. Hierbij is een behandeling versus geen behandeling of wachtlijst model benodigd.

 

Ontmanteling van behandeling strategie

De ontmanteling van een behandeling bestaat uit het analyseren van de componenten van een behandelpakket. De bijbehorende vraag is welke componenten nodig, voldoende en bevorderend zijn voor therapeutische verandering. Hierbij zijn twee of meer behandelgroepen nodig die variëren in de componenten van de aangeboden behandeling.

 

Constructieve behandeling strategie

Bij een constructieve behandeling strategie is de onderzoeker geïnteresseerd in de vraag wat er aan de behandeling toegevoegd kan worden om de effectiviteit te verhogen. Hiervoor zijn minimaal twee behandelgroepen nodig die variëren in componenten. Het doel is om effectieve combinaties van behandelingen aan te bieden aan de cliënt.

 

Parametrische behandeling strategie

Welke veranderingen kunnen gemaakt worden binnen de specifieke behandeling om de effectiviteit te vergroten? Bij deze vraag kunnen dimensies of parameters veranderd worden om de ideale manier van aanbieden te identificeren. De duur is een dimensie waaraan gedacht kan worden, alsmede de overweging om bijvoorbeeld wel of geen nazorg te bieden. Hiervoor zijn minimaal twee behandelgroepen nodig die op één of meer facetten van elkaar verschillen.

 

Vergelijkende behandeling strategie

Bij vergelijkende strategieën draait het om de vraag welke behandeling meer of het meest effectief is bij een bepaald probleem en populatie. Hiervoor zijn minimaal twee verschillende behandelingen nodig voor eenzelfde probleem.

 

Behandeling moderator strategie

Wanneer men niet alleen geïnteresseerd is in directe effecten, maar ook in interacties tussen variabelen, gebruikt men de moderator strategie. De bijbehorende vraag is van welke patiënt-, familie- of therapeutkarakteristieken de behandeling afhankelijk is wil die effectief genoemd worden. Voor de beantwoording van deze vraag is behandeling, apart toegepast bij verschillende casus, therapeuten, etc. benodigd.

 

Behandeling mediator strategie

Een mediator richt zich op het identificeren van het werkzame mechanisme. De bijbehorende vraag is welke processen optreden binnen de behandeling die de uiting binnen de sessie beïnvloeden en kunnen bijdragen aan de uitkomst. Behandelgroepen waarbij patiënt- en therapeutinteracties binnen sessies geëvalueerd kunnen worden is hiervoor nodig.

 

Algemene opmerkingen

De verschillende strategieën die genoemd zijn helpen bij het volledig begrijpen van de werking van een techniek of interventie en zijn progressief van aard. Het begint meestal met het evalueren van een behandelpakket, gevolgd door ontmantelings-, constructief en parametrisch onderzoek. De laatsten vereisen een hoge mate van operationalisatie, omdat de verschillende componenten voldoende gespecificeerd moeten zijn om verwijderd, toegevoegd of gevarieerd te kunnen worden. Vergelijkend onderzoek wordt waarschijnlijk al eerder uitgevoerd.

 

Om de progressie te kunnen maken en de verschillende onderzoeksvragen te kunnen beantwoorden zijn een verscheidenheid aan controle- en vergelijkingsgroepen nodig.

 

Samenvatting en conclusies

 

Een controlegroep verzwakt alternatieve interpretaties van de data. De geschiktheid van een groep als controlegroep is afhankelijk van de soort vraag die gesteld wordt.

 

Een no-treatment controlegroep bestaat uit personen die geen behandeling krijgen en controleert voor effecten als geschiedenis, rijping, herhaaldelijk testen, regressie en vergelijkende bedreigingen. Dit geldt alleen als de proefpersonen random zijn toegewezen. Een wachtlijst controlegroep is een variatie op de no-treatment groep. De wachtlijstgroep ontvangt uiteindelijk wel behandeling. Een geen-contact controlegroep kan geïncludeerd worden om te kijken wat het effect van contact hebben met een therapeut voor invloed heeft. Proefpersonen in zo’n groep weten vaak niet dat zij deelnemen aan een behandelevaluatie.

 

Een non-specifieke behandeling controlegroep wordt blootgesteld aan alle accessoires van behandeling, zoals sessies met een therapeut en het ontvangen van een rationale van de problemen, etc.

 

Routine of standaardbehandeling bestaat uit de gangbare behandeling zoals die op dat moment wordt uitgevoerd binnen een kliniek en kan goed als controlegroep dienen. Een voordeel is dat cliënten een waarheidlievende interventie ontvangen. Een methodologisch probleem bij het gebruik van standaardbehandelingen is dat dezen vaak ongestructureerd en ongespecificeerd uitgevoerd worden en per therapeut verschillen.

 

Een gejukte controlegroep controleert voor variaties tussen groepen die tijdens het experiment kunnen optreden. Jukken is een procedure die externe factoren gelijktrekt tussen de groepen door paren te vormen van personen in de experimentele en de controlegroep. De ervaringen van de persoon in de experimentele conditie bepalen de ervaringen van de controlepersoon.

 

Non-equivalente controlegroepen worden samengesteld door personen te includeren die geen deel uitmaakten van de randomisatie. Deze groepen worden later toegevoegd om specifieke bedreigingen te adresseren die de randomisatie niet kan oplossen.

 

Kernconcepten en -termen

 

Non-equivalente controlegroep Behandelpakket strategie

Non-specifieke factoren van psychotherapie Wachtlijst controlegroep

Behandeling mediator strategie Gejukte controlegroep

Behandeling moderator strategie

Hoofdstuk 9: Observationeel onderzoek: case-control en cohort designs

 

In de voorafgaande hoofdstukken draaide het primair om designs waarbij een bepaalde conditie werd gemanipuleerd door de onderzoekers en om de controle- en vergelijkingsgroepen die vaak geïncludeerd worden. Bij veel onderzoek worden de proefpersoonkarakteristieken niet direct door de onderzoeker gemanipuleerd, maar door ‘de natuur’. Een onderzoeker evalueert dan de impact van die variabelen door proefpersonen te selecteren bij wie dat karakteristiek aanwezig is. Naar zulke studies wordt gerefereerd als observationeel onderzoek, en wordt onderscheiden van experimenteel onderzoek, omdat de rol van de onderzoeker meer een beschouwende is en niet een actieve interveniërende. Ook bij observationeel onderzoek is het doel om causale relaties vast te stellen.

 

Aanvankelijk werd aan observationele designs geen aandacht besteed tijdens een methodologie cursus. De traditie lag bij het uitvoeren van experimenten en correlationeel onderzoek had een lagere status. Om verschillende redenen is dit veranderd. Ten eerste omdat binnen veel onderzoeksvelden (psychologie, astronomie, economie, antropologie) experimentele manipulatie niet plaats kan vinden, omdat het om intacte groepen gaat. Het wel of niet hebben van een stoornis kan niet gemanipuleerd worden.

 

Ten tweede hebben andere disciplines het klinisch onderzoek binnen de psychologie sterk beïnvloed en de beschikbaarheid van onderzoeksdesigns uitgebreid. Vooral designs uit de epidemiologie en openbare gezondheidszorg zijn goed bruikbaar binnen de psychologie en psychiatrie. Binnen de epidemiologie is er een rijke traditie in het volgen van speciale groepen (rokers versus niet rokers) en verschillende designs en data-analyse strategieën zijn ontwikkeld. Deze designs zijn zo goed doorontwikkeld dat er zelfs causale verbanden mee vastgesteld kunnen worden.

 

Ten derde, omdat bij observationeel onderzoek meerdere variabelen bestudeerd kunnen worden, terwijl dat bij experimenteel onderzoek in beperkte mate kan. Bij observationeel onderzoek kan gekeken worden of bepaalde variabelen dynamisch, interactief of wederkerig met elkaar samenhangen. Ten vierde zijn de data-analytische strategieën (path analysis, structural equation models, logistische analyses, survival analysis) verbeterd, waardoor er sterkere conclusies kunnen worden getrokken.

 

Er zijn vele mogelijkheden voor observationeel onderzoek. In dit hoofdstuk worden de belangrijksten beschreven, die vaak gebruikt worden bij psychologisch onderzoek. Bij ieder design staan een aantal karakteristieken centraal, namelijk intacte groepen worden bestudeerd (geen randomisatie) en variabelen die niet direct door de onderzoeker gemanipuleerd kunnen worden.

 

Case-control designs

Bij case-control designs bestudeert de onderzoeker een bepaald karakteristiek door groepen te vormen uit personen die het karakteristiek in verschillende mate vertonen en door die groepen op een aantal kenmerken te onderzoeken. Het hoofdkenmerk is dat groepen geïdentificeerd worden die variëren op de uitkomstmaat (criterium), dat is personen die het ‘probleem’ hebben. Het woord ‘case’ wordt gebruikt voor mensen die het probleem vertonen of de ziekte of het symptoom hebben.

 

In de meest basale versie van het design vergelijkt de onderzoeker twee groepen, de personen die het karakteristiek vertonen (cases) met de personen die dat karakteristiek niet vertonen (controls). De onafhankelijke variabele is het karakteristiek of het criterium dat dient als basis voor de selectie (het oudste kind, misbruikt, gescheiden zijn). De onderzoeker vergelijkt de groepen op het criterium en interpreteert de verschillen om een kritiek facet van het probleem te belichten.

 

Twee varianten van de case-control study zijn het waard om genoemd te worden, het cross-sectionele design en het retrospectieve design.

 

Cross-sectioneel design

Bij een cross-sectioneel case-control design worden de proefpersonen geselecteerd en geëvalueerd in relatie tot huidige karakteristieken. Dit wordt onderscheiden van retrospectieve studies die gebeurtenissen uit het verleden evalueren of prospectieve studies die gebeurtenissen die in de toekomst kunnen optreden onderzoeken. Het doel van een cross-sectionele case-control studie is om factoren te bestuderen die samenhangen met het criterium. Het design kan gebruikt worden om te beschrijven en te exploreren (hoe zien de vriendschaps- en familierelaties eruit bij jonge vrouwen die onzeker zijn over hun uiterlijk versus jonge vrouwen die zeker zijn?) of om theoretische voorstellen of conceptuele modellen te testen (eerst- en tweede geborenen kunnen vergeleken worden om een hypothese over verschillende hechtingspatronen in huidige volwassen relaties te toetsen).

 

Doordat alle data op hetzelfde moment worden verkregen, kan het design alleen correlationele verbanden vaststellen. Tijdigheid of causaliteit kan niet bepaald worden. Toch zijn er provocatieve bevindingen gedaan met case-control designs die bijgedragen hebben aan theorievorming en verder onderzoek.

 

Retrospectief design

Het doel van een retrospectief case-control design is het trekken van conclusies aangaande een voorafgaande conditie die heeft geresulteerd in of samenhangt met de uitkomst. Bij dit design is het doel om een tijdslijn tussen de mogelijke oorzaken of antecedenten (risicofactoren) en de uitkomst te identificeren. Proefpersonen worden geselecteerd die de uitkomst al vertonen (cases) en worden vergeleken met personen die die uitkomst niet vertonen (controls). Tot zover is dit hetzelfde als het cross-sectionele design, behalve dat bij een retrospectieve studie het verleden van alle proefpersonen wordt onderzocht.

 

Als algemene regel geldt dat een retrospectief design correlaties kan identificeren. De reden hiervoor is dat bij het terughalen van gebeurtenissen zich allerlei problemen kunnen voordoen, die het benoemen van een variabele tot risicofactor of oorzaak in de weg staan. Wanneer bijvoorbeeld een samenhang tussen onveilige hechtingspatronen inde kindertijd en suïcidaliteit in de adolescentie gevonden wordt, zou het kunnen zijn dat er eerst een onveilige hechting was en later suïcidaliteit. Maar het kan ook zo zijn dat suïcidale jongeren vanwege hun depressie negatiever terugkijken op hun vroege jeugd.

 

Als algemene regel kan gesteld worden dat psychologische toestandsbeelden (familieconflicten, psychische gezondheid, problemen in de kindertijd), tijdsperiodes, niveaus en data van specifieke gebeurtenissen zich slecht laten herinneren, terwijl het oproepen van specifieke gebeurtenissen (aantal verhuizingen) iets beter gaan.

 

Overwegingen bij het gebruik van case-control designs

Tabel 9.1 op bladzijde 239 noemt een aantal sterktes en zwaktes van case-control designs.

 

Sterktes

  • Goed geschikt bij het bestuderen van condities of karakteristieken die relatief weinig voorkomen.

  • Efficiënt in het gebruik van hulpmiddelen en tijd vanwege het cross-sectionele karakter.

  • Geen uitval, omdat er één meetmoment is.

  • In staat om de grootte en het type van de relatie vast te stellen (directe invloed, modererende invloed).

  • Stelt de onderzoeker in staat om proefpersonen te matchen op een van de variabelen die getest werd en die de resultaten kan beïnvloeden.

  • Kan de rol van confounders uitsluiten of ongeloofwaardig maken.

  • Kan hypotheses genereren aangaande causale relaties of volgordes van karakteristieken en hoe dezen tot een probleem kunnen leiden.

 

Zwaktes

  • Tijdigheid kan niet aangetoond worden.

  • Causale relaties kunnen niet direct gedemonstreerd worden, hoewel verschillende analyses (dosis-respons relaties) een sterke basis voor hypotheses over deze relaties kunnen verschaffen.

  • Steekproef biases kunnen optreden, afhankelijk van hoe de cases (bv. depressieve personen)geïdentificeerd zijn en of een speciaal karakteristiek (bv. aanmelden bij een kliniek) toegevoegd is.

 

 

Cohort designs

Een cohort design refereert aan de strategie waarbij een onderzoeker een intacte groep volgt in de tijd (= prospectief). De term ‘prospectieve longitudinale studie’ wordt ook wel gebruikt. Twee duidelijke verschillen zijn er ten opzichte van de case-control studie. 1) Cohort designs volgen proefpersonen over de tijd om factoren te identificeren die leiden tot (antedateren) een bepaalde uitkomst. 2) De groep wordt onderzocht voordat de uitkomst (bv. depressie) zich voorgedaan heeft.

 

De sterkte van een cohort design ligt in het vaststellen van relaties tussen voorafgaande gebeurtenissen en uitkomsten. Doordat personen over de tijd gevolgd worden kan men met zekerheid vaststellen dat een karakteristiek voor de uitkomst aanwezig was. Ten overvloede: een temporele relatie houdt nog geen oorzakelijk verband in, maar dit design geeft wel goede aanwijzingen voor zo’n relatie, die bij verder onderzoek uitgediept kan worden. Het cohort design kent vele variaties. Er worden er hier drie besproken.

 

Enkelvoudige groep cohort design

Een cohort studie begint met het identificeren van een groep proefpersonen die over de tijd gevolgd kunnen worden. Hiernaar wordt gerefereerd als een enkelvoudige groep cohort design, omdat alle mensen die aan een bepaald criterium voldoen geselecteerd worden (iedereen uit hetzelfde geboortejaar, alle patiënten van een lokaal ziekenhuis). De groep wordt geselecteerd om het optreden van een latere uitkomst (een stoornis, succesvolle carrière, verslaving) te onderzoeken. Een basisvoorwaarde hierbij is dat er minimaal twee keer een meting wordt gedaan en dat een substantieel aantal personen veranderd zijn op de bepaalde uitkomstmaat. Het doel van een cohortstudie kan ook omschreven worden als het vormen van subgroepen binnen een enkelvoudige groep.

 

De term longitudinaal kan misleidend zijn en begrepen worden als een noodzaak tot het jaren volgen van proefpersonen. Dit hoeft niet noodzakelijkerwijs zo te zijn. De term longitudinaal betekent alleen dat personen in de tijd gevolgd worden, meestal een jaar tot drie jaar.

 

Designs die wel voor een lange periode proefpersonen volgen zijn de geboortecohort studies (birth-cohort studies). Bij deze studies worden kinderen bij de geboorte geselecteerd en voor een lange tijd gevolgd, dit kan oplopen tot 10, 20 of 30 jaar. Verscheidene metingen worden op verschillende momenten in de tijd gedaan. Voorafgaande gebeurtenissen op verschillende momenten van de kindertijd en adolescentie kunnen latere uitkomsten (bv. psychopathologie, criminaliteit) voorspellen.

 

De kosten die samenhangen met het uitvoeren van geboortecohort studies zorgt ervoor dat ze maar weinig uitgevoerd worden

 

Meerdere groepen cohort design

De meerdere groepen cohort design (multigroup cohort design) is een studie waarbij minimaal twee groepen bij het eerste meetmoment (Tijd 1) onderscheiden worden en over de tijd gevolgd worden om een bepaalde uitkomst te onderzoeken. Eén groep wordt geselecteerd omdat zij een bepaald karakteristiek vertoont en de andere geïdentificeerde groep niet. Tot zover lijkt dit op een case-control design. Het grote verschil is dat een case-control studie groepen selecteert op basis van de aan- of afwezigheid van een bepaalde uitkomst en een multigroup cohort design selecteert groepen op basis van blootstelling aan een risicofactor en volgt de groepen om te zien wat de uitkomst is. Het verschil zit dus in de prospectiviteit.

 

Geaccelereerd multicohort longitudinaal design

Bij een geaccelereerd multicohort longitudinaal design worden meerdere groepen (cohorten) op een speciale manier prospectief en longitudinaal bestudeerd. Het hoofdkenmerk van dit design is dat de cohorten verschillen in leeftijd bij het begin van de studie. De term geaccelereerd wordt gebruikt, omdat de tijdsperiode waarin men geïnteresseerd is (verloop van een variabele over 10 jaar) ingekort kan worden. Dit wordt bereikt door groepen te includeren die ieder een aparte proportie van de totale tijdsspanne vertegenwoordigen.

 

Figuur 9.1 op bladzijde 247 laat een voorbeeld zien van een geaccelereerd multicohort design. Wanneer men bijvoorbeeld geïnteresseerd is in de ontwikkeling van een bepaalde karakteristiek bij kinderen van 5 tot 14 jaar, dan kan men één groep negen jaar volgen, maar men kan ook drie verschillende groepen maken van kinderen van 5, 8 en 11 jaar en dezen voor 3 jaar volgen. Dit design behelst een cross-sectionele component, waarbij de groepen vergeleken worden op de eerste meting. Bij de eindmeting zijn de vijfjarigen inmiddels acht en de achtjarigen elf. Bij dit design zijn er dus uiteindelijk twee groepen van acht en elf jaar. De longitudinale component onderzoekt de ontwikkeling van het karakteristiek over de tijd.

 

Een geaccelereerd design is bedoeld om twee prangende kwesties te adresseren. Allereerst stelt dit design de onderzoeker in staat om te bekijken of bepaalde karakteristieken van een cohort het gevolg zijn van historische gebeurtenissen of de tijdsgeest. Door cohorten uit verschillende leeftijdsgroepen te gebruiken kan dit probleem omzeild worden. De eerste groep achtjarigen kan vergeleken worden met de tweede groep achtjarigen om te kijken of er karakteristieken zijn die zich beperken tot een bepaalde cohort.

 

Ten tweede is een voordeel dat de looptijd van het onderzoek verkort kan worden.

 

Overwegingen bij het gebruik van cohort designs

Tabel 9.2 op bladzijde 249 noemt een aantal sterke en zwakke punten van cohort designs.

 

Sterktes

  • Kan goed een tijdslijn vaststellen (het antecedent komt voor een bepaalde uitkomst).

  • Meting van de antecedenten gebeurt unbiased van de uitkomst (bv. huidige depressiviteit kan terugkijken niet beïnvloeden).

  • Meerdere methodes en metingen kunnen op verschillende tijdspunten ingezet worden om de voorspellers die de koers in kaart brengen te meten.

  • Alle permutaties kunnen bestudeerd worden in relatie tot de antecedenten (wel of niet aanwezig op T1) en de uitkomst (personen lieten wel of niet de uitkomst op T2 zien). (Zie voor een voorbeeld figuur 9.2 op blz. 250.)

  • Werkt goed bij het genereren en testen van hypotheses aangaande risico-, beschermende en causale factoren.

 

Zwaktes

  • Prospectieve studies kunnen een behoorlijk lange looptijd hebben, waardoor antwoorden op prangende vragen op zich laten wachten.

  • Studies die een lange looptijd hebben kunnen kostbaar zijn in termen van personeel en middelen. Het binnenhouden van proefpersonen kan tijdrovend zijn.

  • Uitval kan een bias opleveren in de steekproef.

  • Cohorteffecten kunnen als moderator optreden. Dit wil zeggen dat de bevindingen alleen gelden voor dit specifieke cohort.

  • De uitkomst waarin men geïnteresseerd is kan weinig voorkomen (low base rate), waardoor statistische power en steekproefgrootte een kwestie kunnen vormen bij het evalueren van de uitkomst.

 

Kritische overwegingen bij het ontwerpen en interpreteren van observationele studies

 

Bij observationele studies zijn het isoleren van het te bestuderen construct en de richting van de invloed van voorspellers en uitkomsten belangrijke kwesties om rekening mee te houden (zie tabel 9.3 op blz. 253).

 

Het specificeren van het construct

Niveau van specificiteit van het construct

Het ligt voor de hand dat een te bestuderen construct nauwkeurig beschreven en gespecificeerd moet zijn. Brede en globale variabelen als leeftijd, geslacht, sociale klasse en culturele achtergrond lenen zich niet goed als fundament van het onderzoek. Met bijvoorbeeld de variabele sociaal economische status (SES) hangt een scala aan andere variabelen samen (hogere mate van fysieke en mentale aandoeningen, korter leven). Het is van belang om een brede variabele te ontleden en tot een specifiek construct te komen dat mogelijk het proces waardoor de uitkomst optreedt verklaart.

Operationaliseren van het construct

Een onderdeel van het specificeren van een construct is het bepalen van de operationele criteria voor het scheiden van de groepen. Wat wordt het specifieke criterium waarop de cases van de controls gescheiden worden?

Het vertrouwen op één enkel instrument is risicovol bij het operationaliseren van een construct. Bepaalde instrumenten zijn zo goed onderzocht, wijdverbreid en doorontwikkeld dat zij als enkelvoudige meting acceptabel zijn. Toch kan in het algemeen gesteld worden dat het prettig is om meerdere operationele definities te gebruiken.

Welke vorm van meting er ook gebruikt wordt bij een operationeel criterium, het is van belang dat het een betrouwbaar instrument is. Bij instrumenten die geen goed onderscheid kunnen maken tussen cases en controls kan diffusie van de variabele optreden wat een bedreiging voor de interne validiteit oplevert.

 

Het selecteren van groepen

Speciale kenmerken van de steekproef

De hoofdvraag die gesteld moet worden bij het selecteren van de steekproef is: “Wat is de populatie waaruit de cases getrokken zullen worden?” Cases die getrokken worden uit een klinische steekproef, vertonen wellicht bepaalde karakteristieken die niet representatief zijn voor de grotere samenleving.

 

Het selecteren van gepaste controles

Niet alleen het selecteren van de cases is belangrijk bij een case-control design. Bij het selecteren van de controles moet de onderzoeker in staat zijn om uit te leggen waarom deze controlegroep geselecteerd is en waarom deze het meest passend is voor de studie. Anders gezegd, voor welke invloeden of constructen is deze groep bedoeld te controleren?

 

In veel gevallen is het gebruik van controles uit de samenleving het meest gepast. Hoewel er rekening mee gehouden moet worden dat klinische symptomen ook binnen de algemene bevolking voorkomen.

 

Mogelijke confounders

Bij het onderscheiden van de groepen zijn een aantal vragen van belang. Zijn de groepen met en zonder het te bestuderen karakteristiek gelijk op proefpersoon- en demografische variabelen (leeftijd, geslacht etc.)? Deelt de controlegroep al de karakteristieken, behalve de te bestuderen, met de cases? Zo niet, hoe worden die andere karakteristieken geëvalueerd, voor gecontroleerd en geadresseerd?

 

Zoals eerder vermeld kunnen confounders zeer informatief zijn en werken als een moderator van een relatie of construct. Verschillende statistische analyses (path analyses, structural equation modelling) zijn voorhanden om de relatie te evalueren.

 

Tijdslijn en causale gevolgtrekkingen

Bij observationele studies moet de onderzoeker alert zijn op de conclusies die er getrokken worden naar aanleiding van de bevindingen. Is de gevonden relatie correlationeel, temporeel (risicofactor) of causaal?

 

Algemene opmerkingen

De taak van de onderzoeker is bij observationeel onderzoek hetzelfde als bij experimenteel onderzoek, namelijk om van te voren te bepalen wat voor soort conclusies men wil trekken. De precisie van de uitlatingen bepaalt de hoofdkenmerken van de steekproef, groepsformatie, het design en de data-analyses. Het gebruik van observationele designs vereist vernuft en creativiteit.

 

Een laatste opmerking aangaande het onderwerp experimenteel versus observationeel onderzoek, is dat een combinatie van de twee ook mogelijk is. De hypothese die hierbij hoort is dat twee gescheiden groepen (jonge onderzoekers en ervaren onderzoekers) anders zullen reageren op een experimentele manipulatie (een taak die erop gericht is om empathie op te wekken).

 

 

Samenvatting en conclusies

Bij observationeel onderzoek evalueert een onderzoeker variabelen door groepen te selecteren in plaats van een variabele te manipuleren. Het doel is om samenhangen tussen variabelen vast te stellen, die correlationeel, temporeel of causaal kunnen zijn. Een studie kan exploratief en beschrijvend zijn, maar ook door theorie gestuurd worden en hypothese testend zijn.

 

Case-control studies zijn beschreven, waarbij groepen die variëren op een uitkomstmaat geselecteerd worden en vergeleken worden op een aantal karakteristieken met een groep die de uitkomst niet vertoont. Deze karakteristieken kunnen nu aanwezig zijn (cross-sectioneel) of in het verleden hebben plaatsgevonden (retrospectief). Dit design is nuttig bij het ontrafelen van patronen. Een nadeel is dat er weinig gezegd kan worden over hoe de uitkomst bereikt wordt (het pad).

 

Cohort studies zijn zeer bruikbaar bij het vaststellen van een tijdlijn, dat is het definiëren van antecedenten en voorspellers. Bij een single-group cohort design wordt een groep die de uitkomst nog niet vertoont in de tijd gevolgd om te zien wie er op een later tijdstip de uitkomst gaat vertonen. Vervolgens worden er groepen gevormd en bekeken welke antecedenten de uitkomst voorspellen. Men begint met één groep, maar vormt later meerdere. Een accelerated, multicohort longitudinal design is een versnelde vorm van een meerdere groepen design en volgt meerdere leeftijdsgroepen over de tijd.

Case-control studies en cohort designs zijn binnen andere disciplines ontwikkeld, maar tegenwoordig wijdverbreid binnen de psychologie. De designs lenen zich goed voor het definiëren van de opererende mechanismen die tot een uitkomst leiden (mediators) en de karakteristieken van de mate van de uitkomst en voor wie (moderators).

Kritieke kwesties zijn belicht bij het ontwerpen en interpreteren van observationele studies, zoals het belang van het specificeren van het construct, het selecteren van cases en controls, het adresseren van mogelijke confounders en het trekken van causale gevolgtrekkingen.

 

Kernconcepten en -termen

 

Geboorte-cohort studie Cohort design

Case-control design Prospectieve studie

Cohort Retrospectieve studie

 

 

 

Hoofdstuk 10: De gevalsbeschrijving en enkelvoudige casus onderzoeksdesigns

 

Vanuit de traditie richt psychologisch onderzoek zich op het bestuderen van groepen. De definitie van onderzoeken richt zich echter op een benaderingswijze voor het evalueren van een fenomeen en het trekken van valide conclusies aangaande dat fenomeen, en noemt niets over het gebruik van groepen. Men kan zelfs zover gaan door te stellen dat bevindingen die gedaan worden bij groepen niet noodzakelijkerwijs meer generaliseerbaar zijn dan die bij een individuele casus.

 

Binnen de psychologie refereert de naam gevalsbeschrijving (case study) aan een ongecontroleerde en anekdotische gevalsbeschrijving van waaruit geen valide gevolgtrekkingen gedaan kunnen worden. Ook hier geldt dat een case study wel degelijk zijn waarde kan hebben bij het genereren van hypotheses en theorievorming.

 

Aan het andere extreem van de losse gevalsbeschrijvingen vindt men de enkelvoudige casus experimentele designs (single-case experimental designs). Het unieke kenmerk van deze designs is dat er experimenten uitgevoerd worden bij een individueel geval. De logica achter dit design zit in hoe de data wordt verzameld en niet zozeer bij de hoeveelheid proefpersonen. Het kan best zijn dat een grote groep binnen een enkelvoudig casus design valt.

 

De gevalsbeschrijving (case study)

 

De hoofdconcepten van een case study zijn:

  • Het intensief bestuderen van een persoon. Hoewel dit een individuele persoon, familie, groep, instantie, staat, land of andere unit kan zijn.

  • De informatie is rijk aan details, vaker in verhalende vorm dan als scores op afhankelijke maten.

  • Veel inspanning wordt geleverd om de complexiteit en de nuances van een geval weer te geven (contexten, invloed van andere personen, speciaal of uniek kenmerk dat zich alleen in dit geval voordoet).

  • De informatie is vaak retrospectief; invloeden uit het verleden worden gebruikt om een huidige staat te verklaren, maar men begint met de huidige situatie.

 

De waarde van de gevalsbeschrijving

Het gebrek aan gecontroleerde condities en het ontbreken van objectieve maten (betrouwbaar, repliceerbaar, valide) heeft de gevalsbeschrijving uitgesloten als onderzoeksgereedschap. Toch heeft de case study ook mogelijkheden opgeleverd als unieke bron van informatie die theorie, onderzoek en praktijk complementeert of verdiept. Gevalsbeschrijvingen hebben gediend als:

1) een bron van ideeën en hypotheses aangaande de menselijke uitingen en ontwikkeling;

2) een bron voor het ontwikkelen van therapeutische technieken;

3) een mogelijkheid tot het bestuderen van zeldzame fenomenen;

4) een waardevol middel om gangbare theoretische oogpunten te weerleggen en

5) als een overtuigend en motiverend middel om abstracte principes concreet en in het oog springend te maken.

 

Gevalsbeschrijvingen zijn vaak dramatisch doordat de casus speciaal om die reden geselecteerd is. Het maakt meer indruk wanneer iemand 50 kilo kwijtraakt dan wanneer iemand 10 kilo afvalt. De vier functies van een case study zijn dan ook, te informeren, intrigeren, inspireren en aansporen.

 

Voorbeelden van beroemde case studies

Er zijn voorbeelden van gevalsbeschrijvingen die enorme impact gehad hebben op onder andere theorievorming. Een heel bekende is Anna O, een 21 jarige patiënte van Joseph Breuer, een collega van Sigmund Freud. Uit deze gevalsbeschrijving is de praattherapie (talk therapy) ontstaan.

 

Een beroemde case study, die veel heeft bijgedragen aan de kennis rondom cognitieve en persoonlijkheidsfuncties is het geval van Phineas Gage. Gage was een 25 jarige man die tijdens het werken aan een treinspoor door een ongeval met een explosief een ijzeren staaf door zijn hoofd geboord kreeg. De staaf ging helemaal door de schedel heen en landde een stuk verderop. De man was bij bewustzijn en kon aan de arts vertellen wat er gebeurd was. Bij follow-up consulten bleek dat de man veranderd was qua persoonlijkheid en dat mensen om hem heen hem niet meer kenden.

 

Beperkingen van de gevalsbeschrijving

De eerste beperking van een gevalsbeschrijving is dat de methode sterk rust op anekdotische informatie, waarbij klinisch oordeel en interpretatie een grote rol spelen. Verder worden er conclusies getrokken uit zaken die de cliënt rapporteert. De tweede beperking is dat alternatieve interpretaties veelvoudig voor handen zijn om de huidige toestand van een cliënt te verklaren. Het derde probleem is de generaliseerbaarheid. De generaliseerbaarheid kan iets verhoogd worden door de bevindingen van losse gevalsbeschrijvingen te combineren (te aggregeren).

 

Single-case experimental designs: kernkarakteristieken

 

Bij een experimentele gevalsbeschrijving kan men zuivere experimenten uitvoeren en daarmee kan men causale relaties demonstreren en voor bedreigingen voor de interne validiteit controleren. Vaak wordt de proefpersoon op verschillende momenten aan verschillende condities blootgesteld. Tabel 10.2 op bladzijde 274 noemt een aantal hoofdkenmerken van de single-case experimental design.

 

Continue evaluatie

Definitie

Observaties vinden op meerdere momenten in de tijd plaats, vooraf en tijdens de periode waarbij de interventie wordt aangeboden.

Doel

Basisinformatie verzamelen waarvan de data-evaluatie en interventiefases afhangen. Beslissingen (bv. aangaande de effectiviteit) worden genomen op basis van continue evaluaties.

 

Baseline evaluatie

Definitie

Evaluatie van een bepaalde periode voorafgaand aan de implementatie. De baseline fase.

Doel

Het beschrijven (descriptive function) van het huidig functioneren en het voorspellen (predictive function) van het waarschijnlijke functioneren in de nabije toekomst wanneer de interventie niet plaats zal vinden (zie figuur 10.1 op blz. 276).

 

Stabiliteit van de uiting

Definitie

Een stabiele uiting wil zeggen dat de uiting weinig variabiliteit vertoont over de tijd.

Doel

Het toestaan van projecties van uitingen naar de nabije toekomst en het evalueren van de impact van een erop volgende interventie. Zeer instabiele (hoog fluctuerende) uitingen en een trend (geleidelijk verval in een bepaalde richting) tijdens de baseline periode, die in dezelfde richting bewegen als men hoopt dat de interventie zal doen, interfereren met de evaluatie. Voor een visuele weergave van fluctuaties en trends, zie figuur 10.2 op bladzijde 277 en figuur 10.3 op bladzijde 279.

 

Gebruik van verschillende fases

Definitie

Fases zijn tijdsperiodes waarin een bepaalde conditie geïmplementeerd wordt en data verzameld wordt.

Doel

Te testen of de uitingen in het voorspelde patroon blijven als in een vorige fase of dat de uitingen veranderen bij het aanpassen van de interventie of andere omstandigheden. Conclusies kunnen getrokken worden aangaande de effecten vanuit het datapatroon.

 

Belangrijkste experimentele design strategieën

 

Een hoofdkenmerk van een enkelvoudige casus design is de manier waarop de interventie gepresenteerd en over de tijd geëvalueerd wordt. Verschillende manieren worden hier besproken.

 

ABAB designs

Beschrijving

Een ABAB design is een experimentele opstelling waarbij continue observaties van de uitingen in de tijd plaatsvinden bij een bepaalde cliënt. Tijdens de loop van onderzoek worden er veranderingen aangebracht in de experimentele condities waaraan de cliënt wordt blootgesteld. Twee gescheiden fases alterneren in de tijd, namelijk de baseline fase (fase A) en de interventie fase (fase B). A en B worden herhaald om de vier fases te complementeren. De effecten van de interventie worden zichtbaar wanneer de uitingen verbeteren tijdens de eerste interventie fase , terugkeren naar baseline niveaus wanneer de interventie gestaakt wordt en weer verbeteren wanneer de interventie opnieuw aangeboden wordt.

 

Fase B wordt pas aangeboden wanneer de uitingen tijdens fase A stabiel zijn. Hetzelfde geldt voor het opnieuw installeren van fase A. Dit gebeurt pas wanneer de uitingen tijdens de interventie fase stabiel zijn. De terugkeer naar baseline uitingen tijdens de tweede A fase wordt ook wel de omslagfase genoemd.

 

Een ABAB design is lid van een familie van experimentele opstellingen en daarom hoeft er niet strak vast gehouden te worden aan vier fases. Soms worden ook ABA designs gebruikt.

 

Overwegingen

In sommige gevallen worden er meerdere interventies aangeboden. Bijvoorbeeld in het geval dat de eerste interventie (B1) niets blijkt te veranderen, kan een tweede interventie (B2) geprobeerd worden. Dit wordt als volgt genoteerd: AB1B2AB2.

 

De centrale voorwaarde bij dit design is dat de gedragsniveaus stabiel zijn. Er kunnen alleen aanwijzingen zijn voor een causaal verband wanneer er een duidelijk patroon ontstaat en niet een patroon waarbij fluctuaties en trends die zichtbaar waren bij baseline zich voortzetten in de B fase.

 

De tweede voorwaarde is dat uitingen tijdens de tweede baseline fase moeten terugkeren naar baseline maakt dat dit design niet geschikt is voor onderzoek binnen de psychotherapie waarbij de therapeuten en cliënten hopen dat beëindiging van een therapie niet leidt tot terugval naar baseline niveau.

 

meerdere baselines design (multiple baselines designs)

Bij meerdere baselines designs worden aparte baselines genomen voor verschillende gedragingen. Bij het introduceren van de eerste interventie wordt er alleen ingezet op één gedraging. De gedragingen worden wel allemaal geobserveerd. Bij de volgende fase richt de interventie zich vervolgens op twee gedragingen, enzovoort. Het effect van de interventie wordt gedemonstreerd door het vertonen van een veranderingspatroon bij het introduceren van de interventie (zie figuur 10.6 op blz. 285 voor een voorbeeld).

 

Er zijn verschillende versies van het multiple-baseline design. Wat ze met elkaar gemeen hebben is dat de data continu en tegelijkertijd over de verschillende baselines worden verzameld. Het voorbeeld beschrijft de variant waarbij de baseline verschillende gedragingen representeert. Andere ontwerp opties zijn dat de baselines hetzelfde gedrag representeren maar over verschillende individuen of hetzelfde baseline gedrag maar over verschillende situaties.

 

Voor alle varianten geldt dat de effectiviteit van een interventie getoond wordt wanneer gedragsverandering alleen optreedt na introductie van die interventie.

 

Overwegingen

Het multiple-baseline design demonstreert een effect zonder dat er teruggekeerd hoeft te worden naar baseline omstandigheden en laat een temporeel verlies zien van sommige verbeteringen die eerder zijn opgetreden.

 

Het aantal benodigde baselines is mogelijk afhankelijk van de interafhankelijkheid van de baselines. Gedragsverandering kan alleen optreden bij het introduceren van de interventie. Als gedrag al eerder verandert is het mogelijk dat externe factoren verantwoordelijk zijn en niet de interventie. In sommige gevallen kan het zo zijn dat een interventie algemeen is versus specifiek, zodat een verandering op de ene gedraging een verandering in een andere teweeg brengt (gegeneraliseerd effect). Wanneer dit gebeurt kan er een kenmerk van een ander single-case design (bv. een korte terugkeer fase) toegevoegd worden in aparte experimentele fases om een causale relatie aan te tonen.

 

Het voordeel van een multiple-baseline design is dat het makkelijk toepasbaar is. De interventie wordt gradueel aangeboden over verschillende responsen.

 

Criterium-veranderende designs (changing-criterion design)

beschrijving

Het criterium-veranderende design demonstreert het effect van een interventie door te tonen dat veranderingen op een bepaald criterium in snelheid of aantal toenemen. Een causale relatie tussen gedrag en interventie is aangetoond wanneer het gedrag overeenkomt met een constant veranderend uitingscriterium gedurende de koers van de behandeling.

 

Bij dit design wordt begonnen met een baseline fase waarna de interventie wordt geïntroduceerd. Bij het introduceren van de interventie wordt met de cliënt een specifiek niveau van gedrag als criterium genomen (aantal sigaretten per dag roken, aantal calorieën per dag eten). Het dagelijkse criterium wordt gebruikt als basis voor consequenties van het gedrag in de vorm van bijvoorbeeld een beloning. Wanneer het gedrag het criterium bereikt of voorbij gaat, wordt de consequentie toegediend.

 

Wanneer het gedrag een continu niveau bereikt voor minimaal twee dagen, wordt het criterium strenger gemaakt (minder sigaretten of calorieën). Het criterium wordt aangepast totdat de doelen van de behandeling behaald zijn. Als de gedragsverandering hetzelfde patroon laat zien als de criterium verandering (trapsgewijs) dan kunnen de veranderingen toegeschreven worden aan de interventie en niet aan externe factoren die waarschijnlijk niet trapsgewijs opereren.

 

Het changing-criterion design kan zeer bruikbaar zijn binnen een klinische setting. Vooral omdat behandelinterventies inzetten op een graduele verandering.

 

Algemene opmerkingen

Voordelen van single-case designs

Single-case designs bieden de mogelijkheid om empirisch te testen bij een individuele client. Door nauwkeurige evaluatie van een behandeling is het mogelijk om een totaal behandelpakket te evalueren door verschillende componenten op verschillende tijden aan te bieden.

 

Een ander voordeel is dat er problemen bestudeerd kunnen worden die bij tussen-groepsvergelijkingen niet bestudeerd kunnen worden. Bepaalde klinische aandoeningen (bv. transseksualiteit) zijn relatief zeldzaam en lenen zich niet voor grootschalige projecten.

 

Nadelen van single-case designs

De designs zijn zwak in het identificeren van proefpersoonkarakteristieken die de effecten van de behandeling kunnen modereren, doordat er maar van één proefpersoon gebruik wordt gemaakt.

 

Verder lijkt de generaliseerbaarheid een in het oog springend probleem, maar hoeft dit niet te zijn. Generaliseerbaarheid kan bij grootschalige projecten een even groot probleem zijn. Daarbij komt nog dat bij single-case designs vaak sterke effecten aangetoond worden die juist aanwijzingen geven voor het doortrekken naar andere personen.

 

Data-evaluatie bij single-case onderzoek

 

Hoewel er wel statistische toetsen voor single-case designs beschikbaar zijn (time-series analysis, randomisatie tests), worden die vaak niet gebruikt. Data-evaluatie bij single-case designs gebeurt over het algemeen niet-statistisch. Nonstatistical evaluation refereert naar het bestuderen van de data en het vaststellen of een interventie effect had op basis van visuele inspectie. Gezocht wordt naar specifieke patroonsveranderingen in de data die overeenkomen met het ingaan van de verschillende fases.

 

Criteria voor visuele inspectie

Het evalueren van data op niet-statistische wijze heeft hetzelfde doel als statistisch evalueren, namelijk het identificeren van effecten die consistent, betrouwbaar en waarschijnlijk niet toe te schrijven aan fluctuaties tussen de groepen (valide) zijn.

 

Visuele inspectie hangt af van verschillende karakteristieken van de data, maar vooral van die die betrekking hebben op de grootte (amplitude) van de veranderingen tussen de fases en de snelheid van de veranderingen. De twee kenmerken die gerelateerd zijn aan de grootte van het effect, zijn veranderingen in het gemiddelde en het niveau. De twee kenmerken gerelateerd aan de snelheid zijn helling en latentie van de verandering (latency of the change).

 

Veranderingen in gemiddelden worden gedefinieerd als het zichtbaar worden van een verandering in het gemiddeld voorkomen van het gedrag tussen de fases in de verwachtte richting (voor een visuele weergave zie figuur 10.8 op blz. 293).

 

Veranderingen in niveau refereren aan de verschuiving of discontinuïteit van de uiting vanaf het einde van de ene fase tot het begin van de volgende fase. Een verandering van niveau staat los van een verandering in gemiddeldes (voor een visuele weergave zie figuur 10.9 op blz. 293).

 

Veranderingen in de helling worden gedefinieerd als een verandering van richting van de helling van fase tot fase, zoals bijvoorbeeld het vertonen van geen helling (horizontale streep) bij baseline en het vertonen van een accelererende helling tijdens de interventie fase (voor een visuele weergave zie figuur 10.10 op blz. 294).

 

Latentie van de verandering (latency of the change) refereert aan de snelheid waarmee een verandering optreedt, zodra de omstandigheden veranderd worden (baseline naar interventie, interventie terug naar baseline). Oftewel, er wordt gekeken of de verandering onmiddellijk na het introduceren van de interventie optrad of pas na een bepaalde periode (voor een visuele weergave zie figuur 10.11 op blz. 295). Als algemene regel geldt dat hoe later in de interventie fase verandering optreedt, hoe meer kans er is dat externe factoren bijgedragen hebben aan het effect.

 

Visuele inspectie is het eenvoudigst bij niet-overlappende data. Niet-overlappend wil zeggen dat de datapunten van de baseline fase geen enkel datapunt van de experimentele fase benaderen.

 

Problemen en overwegingen

Visuele inspectie is zeer bruikbaar bij het identificeren van betrouwbare interventie-effecten. Wanneer de interventie-effecten krachtig zijn, wordt de benodigdheid van statistische evaluatie ondervangen. Interventie-effecten kunnen zeer duidelijk gemaakt worden door een grafische weergave van de data.

 

Een probleem bij het interpreteren van de data is dat er geen vaste afspraken zijn over wanneer er sprake is van een effect, zoals die afspraken bij statistische tests wel vastliggen.

 

Een ander nadeel is dat alleen sterke effecten zichtbaar worden. Effectieve interventies met kleine effecten worden niet opgemerkt en daarmee ook niet doorontwikkeld.

 

Tenslotte vereist de visuele inspectie een bepaald patroon van data in de baseline- en interventie fase om überhaupt geïnterpreteerd te kunnen worden. Trends en variabiliteit in de data zijn storend.

 

Algemene opmerkingen

Binnen de klinische praktijk hecht men waarde aan sterke effecten. Visuele interpretatie van de data levert vaak een waarheidslievender beeld op dan statistische significantie. Hiernaar wordt gerefereerd als klinische significantie.

 

Bezwaren tegen niet-statistische data-evaluatie kunnen weerlegd worden door het gebruik van visuele inspectie. Veranderingen in gemiddeldes, niveau, helling en de latentie van de verandering maken ons gevoelig voor de kritieke onderdelen van de data.

 

 

Samenvatting en conclusies

Het bestuderen van de individu kan verschillende vormen aannemen. De term case study (gevalsbeschrijving) is een algemene term die gebruikt wordt voor het intensief bestuderen van de individu. De gevalsbeschrijving heeft de naam alleen anekdotisch te zijn, maar toch zijn er gevallen bekend waarbij de gevalsbeschrijving een enorme bijdrage heeft geleverd aan het ontwikkelen van ideeën en hypotheses. Verder biedt de gevalsbeschrijving de mogelijkheid om zeldzame fenomenen te bestuderen. De kritiek op de gevalsbeschrijving als wetenschappelijke methode zit eigenlijk niet in de focus op het individu, maar in de subjectieve manier van evalueren.

 

Aan het ene uiterste van de lijst met mogelijke designs vinden we de anekdotische gevalsbeschrijving waarbij gefundeerde en valide conclusies moeilijk te bereiken zijn. Aan het andere uiterste vinden we de single-case experimental designs die de bedreigingen jegens validiteit buitensluiten en gebruikt kunnen worden als basis voor het identificeren van causale relaties. Bij het single-case experiment wordt er continu gemeten in de tijd, er vindt een baseline evaluatie plaats en door het gebruik van meerdere fases worden verschillen in uitingen zichtbaar. Verschillende vragen kunnen tegelijkertijd beantwoord worden door het evalueren van behandelpakketten, het analyseren van componenten, het bouwen van effectieve therapieën door componenten toe te voegen en verschillende behandelingen te vergelijken. Drie hoofdstrategieën voor het ontwerpen van single-case experimenten zijn besproken: ABAB, multiple-baseline en criterium veranderende designs.

 

Single-case designs trekken conclusies zonder gebruik te maken van statistische evaluatie, maar van visuele inspectie. Dit kan gedaan worden doordat er continu gemeten wordt en met verschillende fases gewerkt wordt. Niet-statistische beoordelingscriteria zijn: gemiddelde, niveau, helling en de latentie van de verandering.

 

Dit hoofdstuk heeft de extreme kant van methodologie geschetst door aandacht te besteden aan de uitersten van de mogelijke designs. Het volgende hoofdstuk zal aandacht besteden aan de variaties op de single-case designs die tussen de case study en het experiment vallen.

 

Kernconcepten en -termen

 

ABAB designs Multiple-baseline designs

Anekdotische gevalsbeschrijving Single-case experiment

Baseline fase Visuele inspectie

Continue evaluatie

Hoofdstuk 14: Beoordelen en evalueren van interventies

 

Het evalueren van interventies vindt plaats bij behandeling, preventie, educatie en verrijkingsprogramma’s. Vaak hebben zij de vorm van randomized controlled clinical trials. Dit soort onderzoek heeft vaak een lange looptijd en is daarom kostbaar. Om dezelfde redenen wordt dit soort onderzoek niet vaak gerepliceerd.

 

Het beoordelen van klinische significantie van de veranderingen

 

Behandeluitkomst onderzoek evalueert de effecten van behandelingen door statistisch significante veranderingen van voor tot na de behandeling (bv. een afname van symptomen) en statistisch significante verschillen (bv. de ene behandeling is beter dan de andere) te tonen. Statistische significantie zegt niets over het toegepaste belang van de uitkomst of van het effect. Klinische significantie zegt hier wel iets over. Klinische significantie verwijst naar de praktische waarde of belangrijkheid van het effect van een interventie, dat is, in hoeverre is er een ‘waar’ verschil gemaakt is voor de cliënt of anderen betreffende het functioneren in het dagelijks leven.

 

Veranderingen in het probleem waarvoor behandeling werd gezocht zijn vaak gradueel. Daardoor is het belangrijk dat er een beslissing wordt genomen over of de mate van verandering echt een verschil maakt in het leven van de cliënt. Verschillende evaluatie methodes zijn ontwikkeld om de klinische significantie van behandeleffecten vast te stellen. Iedere methode is gebaseerd op kwantitatieve evaluatie bij het beslissen over het belang van een verandering. Drie brede strategieën kunnen onderscheiden worden, namelijk vergelijkingsmethodes, subjectieve evaluatie en sociale impact.

 

Vergelijkingsmethodes

Bij de vergelijkingsmethodes worden de uitingen van een proefpersoon geëvalueerd in relatie tot uitingen van anderen.

 

Normatieve steekproeven

Bij normatieve vergelijkingen wordt de client vergeleken met goed functionerende anderen. Hiervoor zijn normatieve gegevens nodig vanuit een normatieve steekproef aangaande de gebruikte maten. Bij ipsatieve vergelijkingen wordt de cliënt met zichzelf vergeleken.

 

Disfunctionele steekproeven

Een andere methode om klinische significantie vast te stellen gebruikt een disfunctionele steekproef als vergelijkingsgroep. Een voorgesteld criterium is dat men van klinische significantie spreekt wanneer de verbetering van een cliënt geresulteerd heeft in een afwijking van twee standaarddeviaties van het gemiddelde van de disfunctionele groep. Waarom twee standaarddeviaties? Om twee redenen. De eerste is dat een afwijking van twee standaarddeviaties inhoudt dat een cliënt niet gerepresenteerd wordt door het gemiddelde van de disfunctionele groep. Een afwijking van twee standaarddeviaties van het gemiddelde houdt immers het 98e (of 2e) percentiel in. De tweede reden is gerelateerd. Twee standaarddeviaties benaderen het criterium dat gebruikt wordt bij statistische significantie bij groepsvergelijkingen (1.96 standaarddeviaties bij een two-tailed t test die groepen vergelijkt voor een p

 

Niet langer voldoen aan de criteria voor een psychiatrische diagnose

Klinische significantie kan ook geëvalueerd worden door te kijken of de diagnostische status van een individu veranderd is door de therapie. Een maat voor klinische significantie is de vaststelling of iemand aan het einde van de behandeling nog voldoet aan de criteria voor de aanvankelijke (of andere) diagnose.

 

Aan deze methode kleeft een nadeel. Een diagnose bestaat uit het vertonen van voldoende symptomen van een aandoening. Wanneer iemand niet meer voldoet aan de criteria (= een voldoende aantal symptomen), wil dit niet zeggen dat iemand ‘beter’ of ‘genezen’ is. Het kan zijn dat er een verbetering heeft plaatsgevonden op twee symptomen, maar dat er weinig verbeterd is in het gevoel van welbevinden.

 

Problemen en overwegingen

Een aantal kwesties spelen bij het gebruik van vergelijkingsmethodes. Een eerste vraag is wie er als de normatieve controlegroep kan fungeren. Met wie moeten bijvoorbeeld verstandelijk beperkten, chronisch psychiatrische patiënten of gevangen vergeleken worden? Een bijkomend probleem is het definiëren en identificeren van een normatieve populatie. De mate van voorkomen van disfuncties en symptomen varieert als een functie van sociale klasse, etniciteit en cultuur. Bij het vormen van een normatieve groep moeten die karakteristieken meegenomen worden als mogelijke moderators.

 

Zelfs wanneer een normatieve groep geïdentificeerd kan worden, blijft de vraag binnen welk bereik van de gedragingen het normatieve niveau valt. Het definiëren van een boven- en onderlimiet is arbitrair, tenzij er aangetoond kan worden dat gedragingen boven of onder een bepaald afkappunt (cutoff point) verschillende korte- en lange termijn uitkomsten hebben.

 

Het gebruik van symptomen als criterium kan aangevochten worden. Ook binnen de algemene bevolking komen problemen en psychiatrische stoornissen voor. Waarschijnlijk voldoet 20% van de algemene bevolking aan de criteria voor in ieder geval één psychiatrische diagnose. Misschien kunnen beter andere domeinen dan symptomen als uitgangspunt genomen worden, zoals bijvoorbeeld de mate van belemmering die de klachten opleveren of de kwaliteit van leven.

 

Verder kunnen er vraagtekens gezet worden bij het terugbrengen van scores binnen een normatieve range. Het kan namelijk zijn dat de normatieve groep zelf zoveel achterstand, deviante gedragingen of symptomen vertoont dat het bereiken van een normatief gemiddelde een twijfelachtig doel wordt. Bijvoorbeeld wanneer bij drugsgebruikende jongeren het gebruik teruggebracht moet worden tot het niveau van leeftijdgenoten. Waarschijnlijk wordt er door de normatieve groep ook volop geëxperimenteerd en is dit geen gepast doel.

 

Verder kan het zo zijn dat iemand verbetering laat zien, maar zich niet beter voelt of dat de veranderingen geen verschil hebben uitgemaakt bij de dingen die er echt toe doen.

 

Subjectieve evaluatie

Indrukken van de cliënt of degenen die interacteren met de cliënt aangaande de constateerbaarheid en het belang van de veranderingen. Het criterium bij de evaluatie is de mening over de zichtbaarheid van de verandering, over de mate waarin het originele probleem nog aanwezig is en over de impact van de verandering.

 

Problemen en overwegingen

Een aantal problemen doen zich voor bij subjectieve evaluatie. Allereerst worden vaak globale waarderingsschalen gebruikt bij het verkrijgen van subjectieve evaluaties. Zoals in het vorige hoofdstuk beschreven, zijn deze schalen gevoeliger voor bias van de kant van de beoordelaars dan meer specifieke maten.

 

Ten tweede hoeft de waarneming van een verandering door derden nog niet te betekenen dat de cliënt inderdaad is veranderd of veel is veranderd.

 

In het algemeen moeten subjectieve evaluaties met voorzichtigheid behandeld worden. Het kan zijn dat subjectieve evaluaties een verandering reflecteren waar andere instrumenten dat niet zouden doen. Hier voelen de cliënten zich misschien wel beter, maar zijn niet echt veranderd. Bijvoorbeeld, iemand voelt zich minder boos, maar slaat nog steeds de kinderen.

 

Sociale impact

Verandering op een maat die herkend of beschouwd wordt als van belang voor de samenleving, bijvoorbeeld arrestaties, spijbelen, rijden onder invloed. Het gaat hierbij vaak niet om psychologische schalen of maten die voor onderzoeksdoeleinden ontworpen zijn.

 

Problemen en overwegingen

Het meten van de sociale impact van een interventie wordt aangemoedigd, omdat het belangrijke brug slaat tussen onderzoekers en het publiek.

 

Sociale impact maten hebben hun zwaktes. Eén daarvan is de grofheid van de maat, waardoor een variëteit aan andere invloeden geassocieerd kunnen worden met de interventie. Een tweede zwakte is dat sociale impact maten veelal niet betrouwbaar beoordeeld of gedocumenteerd zijn. Verder worden ze vaak ook niet gestandaardiseerd afgenomen, waardoor ‘noise’ (error variantie) op kan treden. Het construct is ook niet altijd even goed gedefinieerd. Tevens zijn sociale impact maten gevoelig voor instrumentatie, dit wil zeggen gevoelig voor veranderingen binnen het meetinstrument zelf of maatschappelijke veranderingen in het vastleggen van informatie.

 

Over het algemeen genomen zijn sociale impact maten hoog geloofwaardig, maar hebben slechte psychometrische eigenschappen.

 

Algemene opmerkingen

Klinische significantie is een belangrijk concept. Het is belangrijk om te weten wat het effect is van behandeling, of het echt iets heeft veranderd in een mate die ertoe doet. Er zijn alleen nog geen duidelijke afspraken over wanneer iets klinische significant is. De besproken methodes hebben allemaal zo hun nadelen en moeten voorzichtig geïnterpreteerd worden.

 

Ondanks de nadelen, kan toch in het algemeen het rapporteren van een klinisch significante maat aangemoedigd worden. Het helpt de klinische praktijk vooruit en het helpt onderzoekers bij het uitdragen van de boodschap.

 

Bereik en breedte van de verandering

 

De focus van de maat voor de afhankelijke variabele is vaak smal gedefinieerd en richt zich vaak op een afname van symptomen. Zoals eerder vermeld kan dit een vertekend beeld geven. Andere domeinen van functioneren kunnen in ogenschouw genomen worden bij het bepalen van de klinische significantie, zoals bijvoorbeeld de mate van belemmering die de originele klachten opleverden vergeleken met de situatie aan het einde van de behandeling. Psychische klachten kunnen op verschillende manieren het dagelijks leven beïnvloeden bijvoorbeeld thuis, op het werk, op school en in sociale interacties.

 

Een andere manier is het kijken naar bijkomende kenmerken van een interventie. In de geneeskunde wordt bij een gelijkwaardige werking (afname van symptomen) het medicijn dat het makkelijkst toedienbaar is of de minste bijwerkingen heeft als superieur beschouwd.

 

Een goede reden om breder naar een concept als klinische significantie te kijken is dat psychotherapie een brede invloed heeft. Een interventie heeft niet alleen effect op de cliënt, maar ook op zijn/haar omgeving en zelfs op fysieke symptomen (psychotherapie verlengt het leven van terminaal zieke patiënten).

 

Karakteristieken van de behandeling

 

Tot nu toe is er aandacht besteedt aan het evalueren van therapie-effecten door de impact op de client te meten. Een ondergewaardeerd veld is de evaluatie van de karakteristieken van de behandeling, vooral van die karakteristieken die gerelateerd kunnen worden aan het incorporeren, gebruiken en verspreiden van een behandeling. In deze paragraaf worden drie criteria besproken voor de evaluatie van behandelingen.

 

Overdraagbaarheid

De mate waarin of het gemak waarmee een therapie verder verspreid kan worden naar andere therapeuten en cliënten. Bij dit criterium kan gedacht worden aan de complexiteit van de procedures, het type en de hoeveelheid benodigde training voor het implementeren van de procedures en de mate waarin afwijkingen van de voorgeschreven procedures geassocieerd is met het verlies van effectiviteit. Vanwege de verscheidenheid aan variabelen die samenhangen met de overdraagbaarheid van een behandeling zijn er geen eenvoudige maten voor het meten van de overdraagbaarheid.

 

Kosten

De monetaire kosten van het aanbieden van behandeling en het verlenen van diensten zijn onderdeel van de maten van behandeling. De kosten zijn niet per se onderwerp van wetenschappelijk onderzoek naar behandeleffectiviteit, maar behelst wel data die de overdraagbaarheid, implementatie en het beleid kunnen beïnvloeden.

 

Er zijn meerdere manieren om de kosten te berekenen, zoals uitgaven in relatie tot de winst van de uitkomst (kosten-baten analyse). Bij een kosten-baten analyse is het noodzakelijk dat een uitkomst in monetaire eenheden wordt uitgedrukt (bv. bewijs dat cliënten minder ziekteverzuim vertonen).

 

Een kosten-effectiviteit analyse heeft die omzetting naar monetaire een heden niet nodig en leent zich beter voor therapie-uitkomst onderzoek. Kosten-effectiviteit analyses bekijken de kosten in relatie tot een bepaalde uitkomst.

 

Het betrekken van een kostenmaat lijkt simpel. Dit is het echter niet. Het blijft namelijk niet bij het berekenen van de kosten van het leveren van de therapie, ook de kosten voor de ziektekostenverzekering, kosten van gemiste dagen werk door ziekteverzuim, etc, worden meegenomen. Kosten van een behandeling worden altijd vergeleken met de kosten van geen behandeling (die niet 0 zijn). De kosten van niet behandelen zijn hoog vanwege ziekteverzuim, uitkeringskosten, kosten voor medische behandelingen of ziekenhuisopnames.

 

Aanvaardbaarheid van de behandeling

De mate waarin degenen die deelnemen aan de behandeling (cliënten, familieleden en professionals) deze als redelijk, gerechtvaardigd, eerlijk en aantrekkelijk beschouwen. Bij gelijkwaardige behandelingen is degene die als meer acceptabel beschouwd wordt, waarschijnlijk degene die drukker en trouwer bezocht zal worden, beter nageleefd zal worden en correcter uitgevoerd zal worden.

 

Beoordeling tijdens de behandeling

 

Niet veel onderzoekers beoordelen cliënten tijdens de behandeling. Het is zeer informatief om dit wel te doen, omdat het de veranderingen in de client beoordeelt en de werkzame mechanismen die verantwoordelijk zijn voor de verandering geïdentificeerd kunnen worden.

 

Pre-post en continue beoordeling

Een onderzoeksontwerp met een voor- en nameting heeft, zoals eerder vermeld, vele voordelen. Toch is het bij het evalueren van een therapeutische interventie niet voldoende. Wat er zich tijdens de interventie afspeelt blijft namelijk buiten beeld. Men zou meer willen weten over hoe het veranderingsproces plaatsvindt. Daarbij komt nog dat veel interventies binnen een studie een vast protocol volgen. Ook daarvan zou men willen weten of dat protocol passend is, of er niet meer of minder sessies kunnen plaatsvinden bijvoorbeeld.

 

Bij het bespreken van continu beoordelen bij het hoofdstuk over single-case designs, werd al duidelijk dat er voordelen zitten aan het continu meten. Bij groepsstudies kan dit makkelijk geïmplementeerd worden door bij iedere sessie of om de sessie vijf tot 10 minuten voor een meting in te lassen.

 

Het evalueren van de mechanismen van de verandering

Door continu te meten tijdens de behandeling kunnen de koers van de therapie en de processen die betrokken zijn bij de verandering bestudeerd worden. Veranderen de symptomen gelijkmatig, veranderen sommige symptomen eerder, zijn de veranderingen lineair of beginnen ze vroeg en bereiken ze een asymptoot (het benaderen van een bepaald punt, maar het niet bereiken)?

 

De hiervoor genoemde vragen zijn beschrijvend van aard en hebben betrekking op de veranderingskoers van een therapie. Voor het trekken van causale verbanden aangaande werkzame mechanismen is een tijdslijn noodzakelijk. Er moet kunnen aangetoond worden dat wanneer A tot B leidt, A er eerder was dan B. Hiervoor is continue meting noodzakelijk.

 

Follow-up beoordeling

 

Beoordelingen die onmiddellijk na het beëindigen van de therapie plaatsvinden zijn na-metingen. Ieder moment daarna, of dit nu weken, maanden of jaren zijn, valt binnen een follow-up meting. Follow-up metingen leveren veel informatie op over de mate waarin de verbeteringen beklijven en of de verbeteringen de eventuele verbeteringen zonder formele behandeling ( de no-treatment groep) overstijgen.

 

Uitval

Overduidelijk is het hoofdprobleem bij follow-up metingen de uitval van proefpersonen. Met als algemene regel, hoe langer de follow-up periode, hoe meer uitval. Het grootste gevaar van uitval is dat de proefpersonen waarvan wel follow-up data beschikbaar zijn, niet het ‘zuivere’ niveau van functioneren van de hele groep hoeven te representeren. Een grote mate van uitval brengt schade toe aan de willekeurige samenstelling (de random toewijzing) van de groepen en maakt interpretatie van de follow-up data moeilijk.

 

Praktische overwegingen en mogelijkheden bij beoordelingen

Bij follow-up metingen zijn er aantal praktische problemen die voornamelijk voortkomen uit het feit dat cliënten uit beeld zijn. Zij komen niet meer regelmatig bij de kliniek en moeten op een andere benaderd worden voor de follow-up metingen.

 

Bij de voor- en de nameting zijn de maten, procedures en locaties identiek. Voor de follow-up hoeven niet dezelfde omstandigheden of meetprocedures gebruikt te worden. Een aantal sleutelbeslissingen moeten genomen worden over hoe de follow-up beoordeling eruit ziet en welke mogelijkheden er zijn.

 

Welke maten moeten gebruikt worden? Dezelfde als bij de voor- en nameting, minder, andere of nieuwe maten? Overweeg om buiten de gebaande paden te gaan en maten te bedenken die de kans dat proefpersonen de meting afmaken verhoogt.

 

Waar zal de beoordeling plaatsvinden? Bij de kliniek of het laboratorium, thuis, vanuit huis (telefonisch, email)? Sommige opties hebben meer kans van slagen. Het is voor een client gemakkelijker om tien minuten aan de telefoon te praten dan om naar een kliniek te komen.

 

Wie verschaft de data of dient als informant? Dezelfden die bij de voor- en nameting gebruikt zijn, andere, dossiers over aanwezigheid, arrestaties, hospitalisatie? Een combinatie van de opties kunnen passend zijn, maar gekeken moet worden wat het meest haalbaar is.

 

Wat kan er gedaan worden om de kans dat proefpersonen de follow-up zullen volmaken te verhogen? Contact blijven houden met de proefpersonen voordat de follow-up data verzameld worden, een geldelijke beloning in het vooruitzicht stellen, weinig vragen van de proefpersonen. De onderzoeker zal zijn/haar creativiteit en alle mogelijke middelen moeten gebruiken bij het binnenhouden van proefpersonen voor follow-up. Wie er contact opneemt, wat er gezegd wordt, hoe het gezegd wordt zijn allen cruciaal. Gezond verstand en warmte bij interpersoonlijke interacties hebben geen gelijke.

 

Algemene opmerkingen

Er worden te weinig follow-up data verzameld bij interventie studies. De mogelijkheden die besproken zijn variëren in kosten en in het mogelijke succes dat ze opleveren bij het verzamelen. In het algemeen kan gesteld worden dat de follow-up zo kort mogelijk en gebruikersvriendelijk moet zijn. Men kan bijvoorbeeld op basis van de gegevens die ut de voor- en nameting verkregen zijn enkele belangrijke maten selecteren en een verkorte versie van de eerder gebruikte testbatterij afnemen.

 

Samenvatting en conclusies

 

Interventie onderzoek is een grote stroming binnen het klinisch veld en roept verschillende vragen aangaande de beoordelingen op. Eén van de kwesties is hoe de uitkomstmaten beoordeeld moeten worden. Verschillende criteria en strategieën zijn besproken. Tevens is het begrip klinische significantie aan bod gekomen. Drie strategieën om klinische significantie te meten zijn besproken, namelijk vergelijkingsmethodes, subjectieve evaluatie en sociale impact maten. Verder zijn er aanbevelingen gedaan om het bereik van uitkomstonderzoek uit te breiden naar andere maten dan alleen symptomen. Er zijn meerdere klinisch relevante effecten van therapie (uitkomsten die relateren aan aanpassing, mentale en fysieke gezondheid). Maten om karakteristieken van behandeling te evalueren zijn ook besproken en houden overdraagbaarheid, kosten en aanvaardbaarheid in. Deze kenmerken hebben waarschijnlijk een effect op het in gebruik brengen van de ontwikkelde behandeling.

 

Follow-up beoordelingen zijn een belangrijk facet van interventie onderzoek. Het verlies van proefpersonen is het grootste obstakel bij de uitvoer van de follow-up. Het verlies van proefpersonen levert grote methodologische problemen op. Verschillende kwesties en aanbevelingen zijn aan bod gekomen om de kans op het verkrijgen van follow-up data te vergroten. Beslissingen aangaande waar de beoordeling plaats zal vinden en wie de data zal verzamelen zijn voorbeelden van beslissingen die al bij het ontwerpen van een studie genomen moeten worden.

 

Kernconcepten en -termen

 

Aanvaardbaarheid van de behandeling Normatieve vergelijkingen

Klinische significantie Sociale impactmaten

Overdraagbaarheid van de behandeling

 

 

Hoofdstuk 15: Statistische methodes van data-evaluatie

 

Nadat alle data verzameld zijn, breekt de fase van statistische data-evaluatie aan. Statistische evaluatie refereert aan het gebruik van kwantitatieve technieken die de data beschrijven of conclusies trekken aangaande de effecten, dat is, in hoeverre ze mogelijk het gevolg zijn van toeval of van een werkelijk effect. Dit facet van onderzoeken valt onder de statistische conclusie validiteit. Methodologie behelst meer dan het kijken of een verschil statistisch significant of niet. Het is belangrijk om de centrale kenmerken van statistische evaluatie te begrijpen in termen van de invloed die het heeft op het ontwerp van een studie en het trekken van valide conclusies.

 

Het testen van significantie en de nul hypothese

Overzicht

Het testen van een nulhypothese op significantie is in de jaren twintig en dertig van de vorige eeuw ontstaan. De houding is dat we, ook al zijn we geïnteresseerd in verschillen, er a priori vanuit gaan dat die er niet zijn, tenzij er overtuigend bewijs is.

 

Een doel van statistische evaluatie is het verschaffen van een objectief, of in ieder geval overeengekomen, criterium (significantie niveau) om te beslissen of er voldoende overtuigend bewijs is om de ‘geen verschil’ hypothese te verwerpen. Bij het vergelijken van groepen zal het gemiddelde altijd wel verschillen tussen de groepen. Het gaat erom dat er gekeken moet worden of die verschillen de gebruikelijke fluctuaties tussen groepen weergeeft of een daadwerkelijk verschil.

 

Bij statistische evaluatie wordt een betrouwbaarheidsniveau geselecteerd als criterium voor het bepalen ven de statistische significantie (meestal .05 of .01). Een statistisch significant verschil houdt in dat het waarschijnlijkheidsniveau gelijk of kleiner is dan het geselecteerde betrouwbaarheidsniveau. Bij een geobserveerde waarschijnlijkheid lager dan .05, wordt de nulhypothese verworpen en geconcludeerd dat de verschillen een werkelijk verschil inhouden.

 

Statistische significantie is niet heilig. Er kunnen verschillen gevonden worden, die er in werkelijkheid niet zijn en op toeval berusten. De rol van toeval moet nooit buitengesloten worden. Verder kunnen statistische evaluaties het slachtoffer zijn van misbruik, ambiguïteiten, misinterpretaties en subjectiviteit.

 

Alleen in bijzondere gevallen is het toetsen van statistische significantie overbodig. Dit is bij de zogenoemde ‘slam bang’ effecten. Dit zijn effecten die zo drastisch of dramatisch zijn dat verdere evaluatie overbodig is.

 

In het volgende deel worden een aantal sleutelconcepten beschreven in relatie tot hun betekenis en wat de onderzoeker kan doen om een effect te demonstreren wanneer er een verschil is.

 

Significantieniveau (alpha)

Alpha is een bekend besliscriterium bij data-evaluatie. Traditie leidt onderzoekers in het gebruik van alpha’s van p

 

Power

Het probleem

Power refereert aan de kracht van een onderzoek om een verschil aan te tonen dat er daadwerkelijk is. Bij het gebruik van statistische significantie om de resultaten te evalueren is het vaststellen van de power een cruciaal onderdeel.

 

Het vaststellen van het niveau van de power verloopt niet op een mathematische manier, maar is net als bij alpha gebaseerd op traditie aangaande de marge van bescherming die er moet zijn tegen het onterecht accepteren van de nulhypothese. Een power van .80 bij een alpha van .05 wordt als acceptabel beschouwd. Dit houdt in dat de kans van de onderzoeker om een bestaand verschil te vinden 4 uit 5 is. Over het algemeen wordt dit niveau niet gehaald bij psychologisch onderzoek.

 

Door de lage power van vele onderzoeken, moeten uitkomsten van onderzoeken die geen verschil vinden tussen interventies kritisch bekeken worden. De conclusie die namelijk vaak wordt getrokken is dat de behandelingen dan even effectief zijn, terwijl het onderzoek niet sterk genoeg was om verschillen überhaupt vast te kunnen stellen en gebrek aan power heel goed als rivaliserende interpretatie kan dienen.

 

Relatie tot alpha, effect- en steekproefgrootte

Power, alpha, effect- en steekproefgrootte zijn vier aan elkaar gerelateerde concepten. Wanneer drie bekend zijn, kan de vierde berekend worden. Dit wordt het meest gebruikt bij het bepalen van de steekproefgrootte. Voor alpha en de power vullen we getrouw .05 en .80 in, maar wat te doen met de effectgrootte? Daarvoor moeten we de grootte van het verschil van de groepen op de afhankelijke variabele weten.

 

Een uitkomst kan het consulteren van meta-analyses zijn. Meta-analyses worden gebruikt bij het evalueren van onderzoek binnen een bepaald veld en verschaffen een schatting van de effectgrootte. Wanneer meta-analyses niet beschikbaar zijn, kan men naar individuele studies kijken die dezelfde afhankelijke variabelen onderzocht hebben. Wanneer ook die niet voor handen zijn, kan een onderzoeker de effectgrootte schatten. Effecten kunnen ingedeeld worden in klein, gemiddeld en groot. De bijbehorende effectgroottes zijn respectievelijk: .2, .5, .8. Conservativiteit bij de schatting wordt aanbevolen.

 

Voor een rekenvoorbeeld zie tabel 15.1 op bladzijde 444.

 

Variabiliteit in de data

Zoals gezegd in hoofdstuk 3, beïnvloedt variabiliteit (error variantie) in de data de standaarddeviatie en daarmee de effectgrootte. Error variantie maakt de kans op statistisch significante verschillen kleiner. De kans op error variantie wordt vergroot bij slordig uitgevoerd onderzoek, door het gebruik van heterogene proefpersonen die op meerdere karakteristieken verschillen die samenhangen met de uitkomstmaat en door het gebruik van onbetrouwbare meetinstrumenten.

 

Manieren om de power te verhogen

Er zijn verschillende manieren om de power te verhogen. De meest voor de hand liggende is het vergroten van de steekproef. Wanneer men studenten als proefpersonen gebruikt zal dit niet zo moeilijk zijn, maar bij een klinische steekproef is dit aanzienlijk moeilijker, omdat er simpelweg niet genoeg mensen zijn die het bepaalde karakteristiek vertonen (kinderen met een bepaalde chronische aandoening, samenlevende ouders van hetzelfde geslacht, professoren met sociale vaardigheden).

 

Het verhogen van de te verwachten verschillen tussen de groepen

Men kan de te verwachten verschillen tussen de groepen verhogen (het verhogen van de effectgrootte) door bijvoorbeeld de manipulatie sterker te maken. Dit doet men door bijvoorbeeld het contrast groter te maken. In plaats van weinig met veel te vergelijken, kan men veel met niets vergelijken.

 

Wanneer een karakteristiek lineair opereert, waarbij meer ook erger betekent (depressie) kan men bijvoorbeeld het aantal groepen verkleinen. Had men eerst drie groepen gemaakt die in ernst verschillen (laag, gemiddeld, hoog), dan kunnen er twee groepen gevormd worden.

 

Gebruik van pretesten

Het gebruiken van een pretest verandert de ‘error term’ (de noemer in de functie van de effectgrootte), doordat een co-variaat wordt toegevoegd (voor de wiskundige notering zie tabel 15.2 op blz. 446). De noemer van de formule verandert dan van s naar s vermenigvuldigd met de wortel uit 1-de gekwadrateerde correlatie tussen de voor- en nameting. Hierdoor neemt het getal in de noemer af, waarmee de effectgrootte en daarmee de power toeneemt.

 

Het variëren van niveaus van alpha binnen een onderzoek

De afspraken over de significantieniveaus van .05 en .01 zijn hard. Toch zijn er gevallen waarin men de alpha kan herzien. Alpha representeert de fout van de eerste soort, waarbij de nul hypothese ten onrechte wordt verworpen. Het alpha niveau kan wat gereduceerd worden, waardoor de kans op een fout van de eerste soort vergroot wordt en daarmee de kans op een fout van de tweede soort, waarbij de nul hypothese ten onrechte wordt aangenomen, afneemt.

 

Situatie waarin met de alpha gevarieerd kan worden zijn:

  1. wanneer de classificatie van de groepen (bij een case-control studie) niet perfect heeft plaatsgevonden, waardoor bijvoorbeeld cases in werkelijkheid controls hadden moeten zijn,

  2. wanneer de gebruikte maat niet betrouwbaar vastgesteld is (slechte psychometrische eigenschappen),

  3. wanneer kleine effecten of verschillen (effectgrootte en significantie) verwacht worden en

  4. wanneer de consequenties van de beslissing duidelijk variëren als een functie van de richting en men alleen geïnteresseerd is in het ontdekken van verschillen in één richting (one-tailed en lenient alpha).

 

Het aanpassen van alpha is wel iets dat vooraf aan de studie bepaald moet worden en niet pas op het moment dat de resultaten tegen vallen.

 

Het gebruik van directionele testen

Wanneer men niet geïnteresseerd is in het vinden van een tweezijdig verschil (beter of slechter), maar alleen in een éénrichting verschil (beter), kan men een one-tailed test gebruiken. Een kleinere t waarde is nu nodig voor het verwerpen van de nul hypothese.

 

One-tailed testen worden nauwelijks gebruikt en roepen bij andere onderzoekers achterdocht op. Is er voor een one-tailed test gekozen voorafgaand aan de studie of na het zien van de resultaten? Deze achterdocht kan weggenomen worden door de resultaten van een one-tailed en een two-tailed test weer te geven of in de rapportage over een studie duidelijk aan te geven waarom voor een one-tailed test is gekozen.

 

Het verminderen van variabiliteit (error) in de studie

De laatste methode om de power te verhogen is het verminderen van variabiliteit in de studie. Variabiliteit (verschillen tussen proefpersonen) kan vele bronnen hebben, zoals heterogene steekproeven (jongeren en volwassenen versus alleen volwassenen) en hoe nauwkeurig de studie uitgevoerd en geleid wordt (monitoren van de behandelingsintegriteit). Het constant houden van de variabiliteit wordt gereflecteerd in minimale variatie dat zich vervolgens vertaalt naar een grotere effectgrootte.

 

Er zijn twee manieren om error variantie tegen te gaan, namelijk het constant houden van variabelen of het analyseren van die variabelen, die kunnen bijdragen aan de error variantie, als een aparte factor.

 

Data-analyses en het ontwerpen van de studie

Het is nuttig om bij het begin van de studie per hypothese te formuleren welke statistische strategie gebruikt zal worden om de data te analyseren. Bij het selecteren kan men zich het volgende afvragen:

  • heb ik genoeg power, gegeven de waarschijnlijke effectgrootte?

  • Kan ik alpha of de steekproefgrootte variëren, of op de één of andere manier de variabiliteit verlagen om de power op te krikken?

  • Kan ik de sterkte of kracht van de onafhankelijke variabele vergroten of het effect dat zal optreden uitvergroten door verschillende groepen in het design te gebruiken of door de condities te contrasteren?

  • Heb ik alle groepen in de studie nodig of kan ik alle proefpersonen in minder groepen indelen?

  • Zijn er andere tests gerelateerd aan de hypothese die de groepen verder kan verdelen (bijvoorbeeld mannen versus vrouwen)?

 

Speciale onderwerpen bij het analyseren van de data

 

Intent-to-treat analyse

Bij interventie-onderzoek is er vaak sprake van meerdere meetmomenten, een voor- en nameting en follow-up metingen. De kans op uitval is groot bij herhaalde metingen in de tijd. Het verlies van proefpersonen levert een methodologisch probleem op. De random toewijzing die aan het begin van de studie uitgevoerd is kan in gevaar komen en selectie bias kan optreden. Dit verandert een ‘zuiver’ experiment in een quasi-experiment.

 

In sommige gevallen zijn onderzoekers gerust gesteld wanneer de uitval gelijk in aantal is over de groepen. Deze gerustheid is maar schijn, omdat iedere vorm van uitval de random toewijzing verpest. Voor een ‘zuiver’ experiment is namelijk niet alleen random toewijzing nodig, maar ook dat proefpersonen in de toegewezen groep blijven. Wanneer een gelijk aantal proefpersonen uitvalt, wil dit nog niet zeggen dat hetzelfde type proefpersonen uitgevallen is. Wie er uitvallen kan als een functie variëren met de conditie waar de proefpersoon aan toegewezen was.

 

Hoe moeten de data geïnterpreteerd worden? Er zijn twee methodes die gebruikt kunnen worden bij interventie studies. Naar de eerste wordt gerefereerd als completere analyse en is de meest gebruikte bij psychologisch onderzoek. Bij deze methode worden alleen de data geanalyseerd van de proefpersonen die alle metingen voltooid hebben.

 

Het grote nadeel van de methode is dat de random toewijzing niet langer geldig is en allerlei bedreigingen voor de interne (selectie x geschiedenis, selectie x rijping) en externe validiteit (op wie hebben de bevindingen betrekking?) op de loer liggen.

 

Een andere methode voor data-interpretatie is de intent-to-treat analyse. De intent-to-treat analyse is ontworpen om de originele random toewijzing intact te houden. Zelfs de proefpersonen die na de voormeting al uitvallen blijven binnen de studie. De scores op de voormeting worden dan overgedragen naar de volgende meetmomenten.

 

Het gebruik van voorafgaande data bij volgende metingen is één manier. Men kan ook op het moment van uitval meten, ook al valt het uitvalmoment niet samen met een meetmoment.

 

Beide methodes hebben een keerzijde. Bij completere analyses kan bias optreden, doordat alleen de proefpersonen geïncludeerd worden die de behandeling hebben afgemaakt, waardoor de kans op selectiebias ontstaat doordat de random toewijzing niet meer geldt. Intent-to-treat analyses hebben als nadeel dat de data van proefpersonen gebruikt worden die geen behandeling hebben ontvangen. De intent-to-treat analyse is zeer conservatief, doordat de uitvallers beschouwd worden als personen die niet vooruit zijn gegaan bij de behandeling. Hierdoor wordt de kans op het vinden van verschillen verkleint.

 

Meestal wordt voor één van de methodes gekozen. Ze kunnen ook beide gebruikt worden, omdat ze net een andere vraag adresseren. Wanneer beide methodes dezelfde resultaten opleveren, versterkt dit de conclusies.

 

Analyses die meerdere vergelijkingen betrekken

Het controleren van alpha niveaus

Wanneer er meerdere groepen zijn in een studie, zeg A,B en C zijn behandelgroepen en D is de controlegroep, kan men ervoor kiezen om een algemene variantie-analyse uit te voeren en wanneer er significante verschillen optreden gaan zoeken naar de specifieke groepen die van elkaar verschillen.

 

In plaats van een variantie-analyse kan men ook meerdere vergelijkingen maken en iedere groep apart vergelijken met een andere groep. Wat hierbij goed bedacht moet worden is dat alpha refereert aan de kans op een fout van de eerste soort bij één gegeven vergelijking. Daarom wordt alpha ook wel eens de per-comparison error rate genoemd. Bij meerdere vergelijkingen kan de kans op een fout van de eerste soort veel groter zijn, ook wel probability pyramiding of experiment-wise error rate genoemd. Hoeveel hoger het niveau van p wordt hangt van het aantal groepen af.

 

Verschillende multi-vergelijkingen tests zijn beschikbaar die het probleem van experiment-wise error rate adresseren en controleren voor de verhoogde kans op een fout van de eerste soort. Veel van deze tests dragen de naam van de ontwikkelaar in zich (Tukey, Duncan, Scheffé).

 

De Bonferroni is een relatief simpele methode en bestaat uit een manier om alpha aan te passen in het licht van het aantal vergelijkingen. De Bonferroni aanpassing is gebaseerd op het delen van alpha (p = .05) door het aantal vergelijkingen (bijv. 6) . 05/6 houdt in p = .0083. Dit is nu het nieuwe significantieniveau.

 

Overwegingen

Er is een algemene overeenstemming dat meerdere vergelijkingen een bepaalde aanpassing vereist om te controleren voor een fout van de eerste soort, waarbij de nul hypothese ten onrechte wordt verworpen. Tegelijkertijd houdt het stringent bewaken van alpha in dat de kans op een fout van de tweede soort toeneemt, doordat de power verlaagt.

 

Ook al wordt er meer waarde gehecht aan het controleren voor een fout van de eerste dan de tweede soort, is dat bij psychotherapie onderzoek twijfelachtig. Zoals eerder vermeld is de power meestal al laag bij interventie studies en het strikt vasthouden aan een alpha van .05 of .01 kan deze power nog meer verlagen.

 

Wanneer significante verschillen verdwijnen bij het aanpassen van alpha, zijn er verschillende wegen die bewandeld kunnen worden. De onderzoeker kan simpelweg de resultaten weergeven voor de aangepaste en onaangepast alpha niveaus. Als tweede kan een onderzoeker een andere experiment-wise error rate nemen van bijvoorbeeld p = .10. Bij meerdere vergelijkingen wordt dit als vrij acceptabel beschouwd.

 

Als derde mogelijkheid kan het aantal vergelijkingen verkleind worden door alleen naar verschillen te zoeken tussen bepaalde groepen en niet alle mogelijke vergelijkingen maken. Hierdoor wordt de alpha minder stringent en ligt er niet zo een druk op de power.

 

Meerdere uitkomsten: multivariate en univariate analyses

Bij klinisch onderzoek worden vaak meerdere uitkomstmaten gebruikt (bijv. meerdere gezichtspunten: vanuit de client, therapie en familie). Bij meerdere maten is de interrelatie tussen die maten een relevante kwestie voor de data-analyse.

 

Uitingen op verscheidene uitkomstmaten kunnen conceptueel gerelateerd zijn, omdat ze een domein reflecteren dat de onderzoeker als een unit beschouwt of empirisch gerelateerd, omdat de maten hoog correleren met elkaar.

 

Voor meerdere uitkomstmaten geldt hetzelfde als voor meerdere vergelijkingen, namelijk dat meerdere aparte univariate testen (t of F test) de kans op een fout van de eerste soort vergroten. De Bonferroni kan dan natuurlijk toegepast worden, maar het kan ook zo zijn dat twee maten eigenlijk hetzelfde construct representeren. In dat geval kan het zo zijn dat de aparte maten beiden niet tot significantie komen, maar wel wanneer ze gecombineerd worden.

 

Bij meerdere uitkomstmaten kan men multivariate analyses gebruiken. Multivariate analyses includeren meerdere maten binnen één data-analyse, terwijl univariate analyses maar één maat per keer bekijken. Multivariate analyses worden niet zozeer gebruikt omdat er meerdere uitkomstmaten zijn, maar vanwege de mogelijkheid tot het begrijpen van de relaties tussen die maten. Multivariate analyses verschaffen lineaire combinaties van de maten en evalueren of die combinaties significant zijn.

 

Overwegingen

Het kan zijn dat zowel het gebruik van een univariate- als van een multivariate analyse gepast is. De keuze hangt af van de bedoeling van de onderzoeker. Multivariate analyses zijn vooral gepast wanneer de onderzoeker de maten als conceptueel interrelaterend beschouwt en geïnteresseerd is in het maken van verschillende groeperingen van de maten apart van of toegevoegd aan een individuele maat.

 

Multivariate analyses hoeven niet hetzelfde resultaat op te leveren als meerder univariate tests. Dit komt doordat de multivariate tests rekening houden met de relatie tussen de maten. Onderzoekers kunnen beginnen met een algemene multivariate test en bij een significant verschil univariate tests uitvoeren om te kijken tussen welke maten de verschillen gevonden worden. Uiteraard moet de experiment-wise error rate in acht worden genomen.

 

Bezwaren tegen het testen van statistische significantie

Het testen van statistische significantie voert de boventoon binnen de wetenschap. Het is dan ook belangrijk om onderlegd te zijn in de kwesties en methodes. Het echter ook van belang om te weten dat hoe er momenteel omgegaan wordt met statistische significantie misleidend, contraproductief en simpelweg verkeerd is. Er wordt onder andere aanbevolen om met het hele gebruik te stoppen of om het testen van significantie aan te vullen met andere informatie. De bezwaren tegen het testen van significantie hebben betrekking op wat er gedaan en niet gedaan wordt en hoe ze gemisinterpreteerd worden.

 

Zorgen

  • Een arbitrair gekozen criterium (alpha) dat rigide nageleefd wordt.

  • Alles of niets beslissingen (wel of niet accepteren van een nul hypothese).

  • H0 is bijna nooit waar, er zijn altijd wel verschillen tussen groepen.

  • Significantie is een functie (en maat) van N.

  • Tests zijn subjectiever dan verwacht (door de selectie en het gebruik van tests).

  • Significantie zegt niets over de sterkte of het belang van een effect.

 

Misinterpretaties

Het is niet waar dat:

  • p de waarschijnlijkheid representeert dat, of de mate waarin, de nul hypothese waar is. De p-waarde zegt alleen iets over de kans dat een bepaalde bevinding op toeval berust.

  • Een hogere p-waarde (p

  • Een hogere p-waarde een effect weergeeft dat hoogstwaarschijnlijk gerepliceerd zal worden.

  • Geen verschil betekent dat er geen echt effect is opgetreden, maar dat een verschil dat wel betekent.

  • Er non-significante trends bestaan of dat het verschil significantie benaderde. Het is een alles of niets beslissing. Sowieso verwijst de term trend naar een helling van een curve en wordt dus verkeerd gebruikt.

 

Het testen van significantie en het falen bij replicatie

Wanneer statistische significantie als uitgangspunt genomen wordt voor het trekken van conclusies kan dit replicatie en de vermeerdering van kennis belemmeren. Het kan namelijk zo zijn dat identieke bevindingen tot verschillende resultaten kunnen leiden.

 

Alles hangt af van de steekproefgrootte. Wanneer de effectgroottes van twee studies hetzelfde zijn, maar de steekproefgrootte verschilt, kan het hetzelfde effect bij de grotere steekproef significantie bereiken en bij de kleinere niet (voor een rekenvoorbeeld zie blz. 462 en 463). Dit is chaos!

 

Alternatieven voor of toevoegingen aan significantie tests

 

Er zijn drie alternatieven voor het testen van statistische significantie (zie ook tabel 15.5 op blz. 464).

Grootte en sterkte van het effect

Het wordt aanbevolen om in plaats van, of in ieder geval bij, de significantie een andere maat te rapporteren. Een maat die iets zegt over de grootte of de sterkte van het effect. De effectgrootte (ES) is al besproken. Anderen zijn: Cohen’s d, r, r², R, R², omega² (ω²), eta (η) en epsilon² (ε²). Voor wiskundige noteringen en de omzettingen naar de verschillende maten zie tabel 15.6 op bladzijde 466.

 

Betrouwbaarheidsintervallen

Een effectgrootte of andere maat voor de grootte van het effect verschaft een puntschatting, dat is, een specifieke waarde die de populatiewaarde schat. Als toevoeging hierbij is het handig om betrouwbaarheidsintervallen weer te geven. Een betrouwbaarheidsinterval geeft een bereik van waardes en reflecteert de kans dat de ES in de populatie binnen een bepaald gebied valt. Veel gebruikte intervallen zijn betrouwbaarheidsintervallen van 95% of 99% (voor de wiskundige notering zie tabel 15.5. op blz. 464).

 

Betrouwbaarheidsintervallen verschaffen een verscheidenheid aan waardes waarbinnen het werkelijke verschil tussen de groepen waarschijnlijk zal liggen. Ook al is dit een gebied en geen punt, het draagt ook de informatie in zich die men vanuit een significantie test zou verkrijgen, omdat z-waardes, die gebruikt worden bij het testen voor significantie ( z-score van 1.96 voor p = .05), gebruikt worden voor het bepalen van de onder- en bovengrens van het interval.

 

Een voordeel is dat de data makkelijk gerepresenteerd kunnen worden in termen van een originele meetunit (totaalscores, IQ punten), zodat ze makkelijker te interpreteren zijn. Zo kan er over een ES gezegd worden dat deze met een zekerheid van 95% binnen een bepaald gebied valt, maar ook over een bepaalde score (IQ).

 

Meta-analyse

Meta-analyse is een methodologie voor secundaire analyses waarbij meerdere studies geëvalueerd en gecombineerd worden. Meta-analyses combineren verschillende effectgroottes van verschillende studies en verschaffen daarom een beter schatting ven de populatie parameters. Meta-analyses gaan verder dan alleen een overzicht van de literatuur verschaffen. Door verschillende studies te evalueren zijn er meerdere effectgroottes voor verschillende relaties beschikbaar. Meta-analyses maken het daardoor mogelijk om relaties te testen die bij de originele studies niet mogelijk waren.

 

Statistische significantie, grootte van het effect en klinische significantie

Het verschil tussen effectgrootte (ES, r) en statistische significantie is eenvoudig te begrijpen. Verwarrender is het verschil tussen grootte van het effect en klinische significantie. De sterkte van het effect (ES, r) geeft de grootte van het experimentele effect, de hoeveelheid gedeelde variantie en hoeveel de variabelen gerelateerd zijn weer. Een grote ES zegt niets over de klinische significantie. Een reden daarvoor is, is dat de afhankelijke variabele die het grote effect vertoont ongerelateerd kan zijn aan alledaagse uitingen (reactietijd, specifieke cognitieve processen). Zelfs wanneer de maat relevant is voor een klinisch probleem kan de ES niet vertaald worden naar klinische significantie.

 

Bijvoorbeeld, bij een studie naar de behandeling van overgewicht zijn er twee groepen. In de experimentele groep valt iedereen twee kilo af en iedereen in de controlegroep komt 2 kilo bij. De effectgroottes kunnen aan het eind van de studie groot zijn, maar 2 kilo afvallen houdt in dat de deelnemers nog steeds kampen met overgewicht, dus is het effect niet klinisch significant.

 

Statistische significantie, effectgrootte en klinische significantie verschaffen ieder andere informatie over de data.

 

Algemene opmerkingen

Het is onduidelijk wat de toekomst zal zijn voor statistische significantie. In de literatuur wordt er veel geklaagd en het wordt aanbevolen om naast de statistische significante ook andere maten te vermelden.

 

Samenvatting en conclusies

Het testen van statistische significantie is de dominante manier van het analyseren van resultaten bij onderzoek. Bij het overgrote deel van de onderzoeken worden statistische tests uitgevoerd om de nul hypothese te testen en om vast te stellen of de verschillen tussen groepen statistisch significant zijn. Statistische tests maken gebruik van waarschijnlijkheidsniveaus bij deze beslissing en zijn puur gebaseerd op het voorkomen van een fout van de eerste soort, dat is, het onterecht verwerpen van de nul hypothese.

Sleutelconcepten bij statistische evaluatie zijn genoemd, zoals significantie niveaus, power, steekproefgrootte, significantie en grootte van het effect, meerdere vergelijkingstests en multivariate data. Statistische power heeft in dit hoofdstuk de meeste aandacht gekregen, omdat het het beste de samenhang tussen alpha, steekproefgrootte en ES weergeeft. Evaluaties van onderzoeken hebben laten zien dat onderzoeksontwerpen vaak een lage power hebben. De meest voor de hand liggende manier om de power te vergroten is door de steekproef te vergroten. Andere strategieën om de power te vergroten zijn sterkere manipulaties of meer contrasterende experimentele condities, het gebruik van een voormeting of herhaalde metingen om de error term te verlagen, het variëren van alpha, het gebruik van directionele tests en het minimaliseren van de error variabiliteit bij alle facetten van de studie.

 

Een aantal onderwerpen gerelateerd aan statistisch testen zijn aan bod gekomen, zoals intent-to-treat en completere analyses bij het omgaan met missende data. Ook zijn meerdere vergelijkingstests en de noodzaak van het controleren van error rates besproken. Als laatste zijn het gebruik van multivariate en univariate tests en de relatie met de error rate besproken.

 

Al sinds men begon met het testen van significantie hoort men ontevreden geluiden. Een aantal zorgen zijn dat de nul hypothese en significantie testen een arbitrair cutoff punt gebruiken om binaire beslissingen te nemen (accepteren of verwerpen) en niet de informatie verschaffen waarin men eigenlijk geïnteresseerd is. Wat heeft het sowieso voor zin om een nul hypothese van geen verschil te testen, terwijl er bijna altijd een verschil is tussen groepen. Over statistische significantie wordt gezegd dat het eigenlijk een maat van steekproefgrootte is en niets meer. Met een zeer grote steekproef bereikt bijna ieder verschil statistische significantie.

 

Een aantal aanbevelingen zijn gedaan aangaande alternatieven voor statistische significantie, zoals het vermelden van informatie aangaande de sterkte en de grootte van de relatie. Effectgrootte (ES) en Pearson product-moment correlaties (r) zijn besproken, maar er zijn er meer. Een puntschatting van het waarschijnlijk effect binnen een betrouwbaarheidsinterval is waarschijnlijk bruikbaarder bij het interpreteren van een studie.

 

Kernconcepten en -termen

Bonferroni aanpassing Experiment-wise error rate

Completere analyse Intent-to-treat analyse

Betrouwbaarheidsinterval Grootte van het effect

Hoofdstuk 16: Interpretatie van de data

 

In dit hoofdstuk ligt de focus op het bespreken van algemene zaken rond en valkuilen van het interpreteren van de data, oftewel bij de verschuiving van de resultaten sectie naar de discussie. Verder zal het in dit hoofdstuk gaan over het vinden van negatieve resultaten, dat is, het vinden van geen verschillen. Het laatste gedeelte gaat over het repliceren van een studie.

 

Het interpreteren van de resultaten van een studie

 

Overzicht

Bij data-interpretatie draait het om de stap maken van kwantitatieve analyses naar de beschrijving en interpretatie van de data in verhalende vorm. Data-interpretatie kan moeilijk zijn, omdat de betekenissen van de kwantitatieve resultaten gemisinterpreteerd en overgeïnterpreteerd kunnen worden. Het is belangrijk om naast de specifieke statistische resultaten ook iets algemeens te kunnen zeggen. Liever praten we over constructen dan over maten. Wat gezegd kan worden is afhankelijk van het ontwerp en de analyses.

 

Vaak voorkomende sprongen in taal en conceptualisatie van de bevindingen

De onderzoeker heeft meerdere mogelijkheden om overdreven sprongen te maken van wat de resultaten zeggen tot wat er in de discussie komt. Enkele voorbeelden.

 

Zeer significante effecten

Zoals eerder genoemd is het refereren aan een p-waarde van .001 als zeer significant eigenlijk onzinnig. Een p-waarde heeft eigenlijk geen statistische betekenis of speciale rol bij het testen van de nul hypothese. Verder kan er verwarring ontstaan door het gebruik van het woord significant, omdat het ook een synoniem voor betekenisvol is.

 

De ene variabele voorspelt de ander

Bij het interpreteren van correlaties wordt er wel eens onterecht gesproken over voorspellers, omdat bij verschillende statistische tests die variabelen bij de output zo worden genoemd. In werkelijkheid zijn het geen voorspellers, omdat de samenhang er alleen op één bepaald moment was.

 

Implicaties van de bevindingen

Bij de rapportage over een studie worden vaak de implicaties van het onderzoek vermeld. Het woord ‘implicatie’ dient voor sommige onderzoekers als een vrijbrief voor het aansnijden van ieder onderwerp. Wat is er mis met vermelden dat de studie alleen theoretische implicaties heeft of alleen bijdraagt aan een beter begrip van een construct. Er hoeven niet altijd (vergezochte) praktische implicaties te zijn.

 

Meerdere data-analyses dragen bij aan betere data-interpretatie

Bij de meeste onderzoeken wordt er gezocht naar hoofdeffecten tussen verschillende condities. Maar ook al vindt er een hoofdeffect plaats, het zal niet voor iedereen in de groep opgaan. Therapie kan in het algemeen werkzaam zijn, maar niet voor iedereen. Men is dan geïnteresseerd in voor wie wel en voor wie niet (interactie-effecten), dus subgroepen.

 

Het exploreren van behandelingsmoderators

Bij explorerende analyses kan er een andere indeling van groepen worden gemaakt op basis van de resultaten. Men kan bijvoorbeeld een behandelconditie opdelen in de cliënten die boven een bepaalde maat veranderd zijn en in cliënten die onder die maat veranderd zijn. Er kan dan gekeken worden op welke variabelen die cliënten van elkaar verschillen.

 

Bij explorerende data-analyses moet er altijd gewaakt worden voor het uitgraven (mining) van de data, omdat de kans op toevalseffecten groter wordt. Dit is geen reden om het niet te doen, maar wel een reden voor extra voorzichtigheid bij de interpretatie.

 

Het voorspellen van behandelingsmoderators

Het zoeken naar subgroepen, moderators en interactie-effecten zijn synoniem aan elkaar. De interactie geeft weer dat de impact van een variabele niet gelijk verdeeld tussen een andere conditie (geslacht, ernst van de aandoening), maar systematisch varieert als een functie van die andere conditie. Het onderzoeken van zo een andere conditie is een handige gids voor verder onderzoek.

 

Als het even mogelijk is, is het handig om interacties tussen variabelen te voorspellen. Voorspellingen aangaande interactie-effecten reflecteren vaak een beter begrip dan het voorspellen van hoofdeffecten. Interacties definiëren de limiterende condities van een bepaald effect of experimentele variabele. Om een interactie-effect te kunnen voorspellen hangt voor een groot deel af van de aanwezige kennis binnen een onderzoeksveld.

 

Algemene opmerkingen

Het zou mooi zijn als de wereld alleen uit hoofdeffecten bestond. Resultaten van experimenten konden dan simpelweg geaccepteerd of verworpen worden, wanneer aangetoond kon worden dat een variabele altijd (g)een effect heeft. In de echte wereld is het zo dat als een variabele geen effect heeft, het altijd mogelijk is dat het wel een effect zou hebben wanneer een bepaalde conditie veranderd zou worden. Interactie-effecten hebben invloed op de generaliseerbaarheid.

 

Negatieve resultaten of geen verschil bevindingen

Het verwerpen van de nul hypothese wordt vaak als een positief resultaat beschouwd en het moeten aannemen van de nul hypothese als negatief. Het vinden van een statistisch significant verschil is vaak een criterium voor de publiceerbaarheid van de studie. Ten onrechte worden bij studies die significante verschillen laten zien de zwaktes in het design door de vingers gezien en studies die geen verschillen laten zien als slecht ontworpen gezien.

 

De waarde van een studie zou beter beoordeeld kunnen worden als een functie van de conceptualisatie en methodologische gepastheid, dan in hoeverre er verschillen gevonden werden. Conceptualisatie refereert aan het belang van de onderzoeksvraag, de theoretische onderbouwing en hoe goed doordacht de vraag is blijkende uit de rapportage over de studie. Methodologie refereert aan alle facetten die bedreigingen voor de experimentele validiteit en bronnen voor artefacten en bias opleveren.

 

Ambiguïteit van negatieve resultaten

Studies die geen verschillen vinden worden niet vaak gepubliceerd, omdat het vaak niet duidelijk is waarom er geen verschillen zijn gevonden. Er zijn meerdere redenen voor het vinden van geen verschillen.

  • Er zijn geen of heel kleine verschillen in de populatie. Dit wil zeggen dat de geen verschil bevinding juist is.

  • De power was laag en waarschijnlijk te zwak om een verschil te kunnen waarnemen.

  • De onderzoeker kon de manipulatie niet dupliceren of uitvoeren of de manipulatie werd niet zoals bedoeld uitgevoerd (diffusie van condities, slechte naleving van het protocol door testleiders, groepen bleken bij de manipulatiecheck niet te verschillen).

  • Niveaus van de onafhankelijke variabele (laag, gemiddeld hoog) waren niet optimaal of leverden geen sterke test op.

  • Excessief veel ongecontroleerde error variabiliteit (heterogene proefpersonen, losse procedures, zwakke en onbetrouwbare maten).

  • Rivaliserende invloeden hadden een grotere impact op de resultaten dan de manipulatie (rijping, statistische regressie) en hebben alle effecten van de manipulatie uitgewassen of overstegen.

 

Wanneer negatieve resultaten interpreteerbaar zijn

Negatieve resultaten kunnen ook wel informatief en interpretabel zijn. In de eerste plaats binnen de context van een onderzoeksprogramma. Een onderzoeksprogramma refereert aan een serie van studies die door een onderzoeker of onderzoeksgroep worden uitgevoerd. De studies komen vaak met elkaar overeen op dimensies als de onafhankelijke variabelen, proefpersonen en maten. Een aantal van die studies zullen significante verschillen laten zien en anderen niet. Het gebruik van ongevoelige instrumenten of het slecht uitvoeren van de studie kunnen als verklaring uitgesloten worden.

 

Negatieve resultaten zijn ook informatief wanneer de resultaten gerepliceerd worden door verschillende onderzoekers. Een probleem binnen wetenschappelijk onderzoek is dat wanneer een studie een relatie heeft aangetoond het extreem moeilijk is die te weerleggen in volgend onderzoek. Het herhaaldelijk aantonen van geen verschillen kan bijdragen aan een weerlegging.

 

Negatieve resultaten zijn ook informatief wanneer de studie kan laten zien onder welke omstandigheden wel en onder welke omstandigheden de resultaten niet optreden. Di wordt het eenvoudigst bereikt met een factorieel design. Een interactie tussen verschillende factoren geeft aan dat het effect van één variabele afhangt van het niveau van een andere. Negatieve resultaten treden hier alleen bij sommige condities op.

 

Een gerelateerde manier is wanneer geen verschillen optreden bij een patroon van resultaten van meervoudige maten. Een negatief resultaat kan bij sommige, maar niet alle maten optreden. Dit levert een fijnmazige analyse van een fenomeen op.

 

Wanneer negatieve resultaten belangrijk zijn

In sommige gevallen hopen we op negatieve resultaten. Genetisch gemanipuleerd voedsel zou het hongerprobleem in de wereld op kunnen lossen. In zo een geval hopen we dat uit onderzoek zal blijken dat er geen negatieve gevolgen zijn van het eten van genetisch gemanipuleerd voedsel vergeleken met het eten van gangbaar voedsel.

 

Wanneer een onderzoeker in het bovengenoemde voorbeeld geen verschillen vindt, wordt er door een onderzoeker gezegd dat er geen bewijs is voor schade. Het publiek wil horen dat er bewijs is voor geen schade.

 

Het vinden van geen verschillen kan belangrijk zijn bij het uitproberen van een nieuw medicijn. Wanneer er geen verschillen gevonden worden hoeft er geen tijd en geld gestoken te worden in het op de markt brengen. Ook het aantonen van geen toegevoegde waarde van dure therapieën kan nuttig zijn.

 

Het belang van een negatief resultaat hangt af van de herleidbaarheid en de interpreteerbaarheid.

 

Replicatie

Replicatie is een cruciaal onderwerp dat relateert aan de evaluatie van de bevindingen en de accumulatie van kennis.

 

Types van replicatie

Replicatie refereert aan het herhalen van een experiment. Verschillend vormen van replicaties zijn mogelijk en bewegen zich langs een continuüm. Aan de ene kant van het continuüm vinden we directe of exacte replicatie aan de andere kant systematische of bij benadering replicatie. Directe replicatie refereert aan de poging om een experiment exact te herhalen. In het ideale geval zijn de condities en procedures van de replicatie en het originele experiment identiek. Systematische replicatie refereert naar de herhaling van een experiment door systematisch de kenmerken te variëren (van jong naar oud). De condities en procedures van de replicatie zijn bewust ontworpen om die van het originele experiment alleen te benaderen.

 

Directe replicatie wordt in het ideale geval gedaan door de onderzoeker zelf, omdat die exact weet waar de onderzoekspopulatie uit bestond, etc. Directe replicatie door aan andere onderzoeker is moeilijker, omdat de procedures waarschijnlijk niet voldoende beschreven zijn om een exacte kopie te maken.

 

Situaties waarbij replicatie bruikbaar is:

  • verschillende data-analyses kunnen leiden tot verschillende conclusies;

  • statistische tests hebben verschillende opties (heranalyse) en

  • overdraagbaarheid van laboratoriumbevindingen naar de praktijk.

 

Het belang van replicatie

Het belang van replicatie bij wetenschappelijk onderzoek kan niet voldoende benadrukt worden.

  1. Door het toetsen van de nul hypothese en het gebruik van statistische evaluatie kunnen er toevalsbevindingen optreden.

  2. Bij psychologische experimenten kunnen meerdere variabelen aan het werk zijn, die leiden tot een patroon aan resultaten dat niet alleen tot stand is gekomen door de onafhankelijke variabele.

 

Replicatie studies worden niet met veel enthousiasme ontvangen. Vanwege het herhalende karakter worden ze vaak als niet dramatisch en on-origineel beschouwd. Toch zou men anders tegen replicaties aan moeten kijken en ze moeten zien als een test voor robuustheid van de bevindingen. Door een studie te repliceren kan er gekeken worden of de conclusies handhaafbaar zijn.

 

Voor de klinische praktijk zijn replicaties van groot belang, omdat men zeer geïnteresseerd is te weten voor wie, door wie, waar, etc. een interventie het meest effectief is.

Replicaties leveren niet automatisch dezelfde resultaten op. Binnen de onderzoeksliteratuur zijn replicaties niet erg populair, replicaties van positieve bevindingen zijn niet zo interessant en replicaties van negatieve bevindingen worden niet als interessant beschouwd. Veel van dit soort onderzoek wordt dus nooit gepubliceerd en verdwijnt in een bureaula (file-drawer problem).

 

Algemene opmerkingen

Replicatie en negatieve resultaten zijn apart besproken, maar op belangrijke punten gerelateerd aan elkaar. Het is gebruikelijk om van een gerepliceerde bevinding te spreken wanneer de originele studie en de replicatie een positief effect laten zien. Van een niet gerepliceerde bevinding wordt gesproken wanneer de originele studie een significant effect laat zien, maar de replicatie(s) niet. In het vorige hoofdstuk hebben we al gezien dat dezelfde bevindingen tot verschillende conclusies kunnen leiden (effectgroottes gelijk, maar steekproefgrootte niet en daardoor bij maar één studie significante verschillen). Dus wanneer een studie niet repliceerbaar blijkt, kan dit het gevolg zijn van artefacten van de analysemethode.

 

Wat voor de power geldt, geldt ook voor replicatie. Het is een zeer belangrijk onderwerp, maar niet populair.

 

Samenvatting en conclusies

Drie onderwerpen die gerelateerd zijn aan data-interpretatie zijn in dit hoofdstuk besproken, namelijk interpretatie van de resultaten van een onderzoek, negatieve resultaten en replicatie. Bij het bediscussiëren van de resultaten kunnen taalkundige sprongen gemaakt worden die leiden tot misrepresentatie of overinterpretatie van de resultaten. Veel voorkomende voorbeelden zijn genoemd, zoals iets stelliger zeggen dan dat de data dat toelaten. Bijde discussie is het de bedoeling om de resultaten naar een hoger plan te trekken, maar men kan te ver gaan. De kwestie hangt samen met epistemologie: wat weten we vanuit deze studie en wat kunnen we zeggen aan de hand van dat resultaat?

Een ander onderwerp cruciaal bij de data-interpretatie is het vinden van negatieve resultaten, dat wil zeggen van geen verschil tussen de groepen. Het concept is niet populair vanwege de dominantie van statistisch significante bevindingen in de onderzoeksliteratuur. Het waarde hechten aan statistisch significante bevindingen leidt af van andere overwegingen als het kunnen accepteren van de conclusies op basis van theoretische of empirisch belang van de vraag en de kwaliteit van het onderzoeksdesign. Vaak is het zo dat methodologisch zwakke studies met significante verschillen eerder gepubliceerd worden dan methodologisch gedegen studies die geen verschillen vinden.

Gerelateerd aan het onderwerp van negatieve resultaten is de replicatie studie. Replicaties kunnen variëren in de gelijkenis tot de originele studie. Directe replicatie poogt het originele experiment volledig na te bootsen en systematische replicatie varieert doelbewust met de condities van het originele experiment. Replicaties kunnen tot negatieve resultaten leiden, wat vragen oproept over de basis van de resultaten van het originele experiment of de generaliseerbaarheid van de originele bevindingen. Replicatie onderzoek is belangrijk omdat het de meest robuuste test is om te kijken of een gevonden verschil waarheidlievend is. Omdat er veel studies gepubliceerd zijn die gebaseerd zijn op toevalsbevindingen (inherent aan het vertrouwen op statistische significantie) is het van belang dat studies gerepliceerd worden. Replicaties hoeven geen exacte kopieën te zijn, maar kunnen zowel nuances als totaal nieuwe vragen adresseren.

 

Kernconcepten en -termen

Directe replicatie Replicatie

File-drawer problem Systematische replicatie

Negatieve resultaten

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Image

Access: 
Public

Image

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Submenu: Summaries & Activities
Follow the author: Vintage Supporter
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
4083
Search a summary, study help or student organization