Samenvatting Onderzoeksmethoden (Boeije)
- 9459 reads
Deze samenvatting van Analyse van Onderzoeksgegevens (Spiering) is gebaseerd op het studiejaar 2013-2014.
Wetenschappelijk onderzoek is onmisbaar voor het begrijpen van natuurlijke fenomenen en de vooruitgaande kennis. Onderzoek probeert onderlinge relaties tussen variabelen te beschrijven en te verklaren.
Methodologie is de verzamelnaam voor verschillende principes, procedures en praktijken welke samen onderzoek bepalen. Onder een research design verstaat men het plan welke gebruikt wordt om de gestelde vraag te beantwoorden.
De meest makkelijke setting voor een onderzoek bestaat uit een experimentele conditie en een controle conditie. De experimentele conditie ondergaat ofwel een gemanipuleerde situatie of is geselecteerd, omdat deelnemers speciale kenmerken bezitten (psychiatrische stoornis). De meeste studies binnen psychologie testen een specifieke hypothese, deze hypothese is meestal opgebouwd via een ‘als-dan’ benadering (als de onafhankelijke variabele zo is gemanipuleerd dan komt dit uit de afhankelijke variabele). Bevindingen die consistent zijn met de hypothese bevestigen deze niet zondermeer, het positieve resultaat kan ook het gevolg zijn van confounds. Alleen wanneer er geen logische alternatieve verklaringen gevonden zijn voor het resultaat, kan er gesteld worden dat het effect afkomstig is van de manipulatie van de onafhankelijke variabele. Veel confounds kunnen van te voren gecontroleerd worden, maar sommigen ook niet. Soms duurt het jaren voordat men doorheeft dat er confounds in het spel zijn.
Er zijn drie belangrijke concepten belangrijk binnen methodologie.
Parsimony (Principle of economy, Principle of unnecessary plurality, Principle of simplicity, Occam’s Razor of spaarzaamheid): binnen de wetenschap zijn er vaak meerdere verklaringen voor gevonden resultaten. Volgens Occam’s Razor moet er in deze gevallen gekozen worden voor de meest simpele verklaring. Er moet worden afgevraagd of het nut heeft nieuwe concepten te introduceren. Als dit nodig blijkt, moeten er zo min mogelijk concepten worden geïntroduceerd.
Alternatieve verklaringen (plausible rival hypotheses): onderzoek kan een hypothese niet echt bewijzen, maar slechts ondersteunen door meerdere keren dezelfde resultaten te verkrijgen. Resultaten kunnen naast de verwachte invloed van de onafhankelijke variabele, ook beïnvloed zijn door andere variabelen, welke niet meegenomen zijn in de studie. Bij het afronden van een onderzoek is de vraag of er andere aannemelijke verklaringen zijn, naast de hypothese, dan ook erg belangrijk. Hoe beter een het research design, des te kleiner is de kans op aannemelijke alternatieve verklaringen.
Bevindingen vs. conclusies: bevindingen zijn de verkregen resultaten (bijv. de ene groep was meer verbeterd dan de andere groep). Conclusies zijn de verklaringen op basis van de bevindingen.
Het klinische onderzoeksveld beslaat een groot gebied. Er wordt aanspraak gemaakt op een grote groep deelnemers (van jong tot oud, met/ zonder psychiatrische stoornis, bijzondere relatie met iemand met een psychiatrische stoornis etc.). Onderzoek kan afgenomen worden in verschillende settings (laboratorium, klinieken, ziekenhuizen, scholen, gevangenissen ongestructureerde settings etc.). Tevens vindt er onderzoek plaats in samenwerking met andere disciplines (criminologie, psychiatrie, neurologie ect.)
In vele onderzoeken zijn de bevindingen vaak niet geheel helder, vooral wanneer het een relatief nieuwe tak van onderzoek is. De taak van psychologisch onderzoek is dan ook het ontwikkelen van experimenten welke hypothesen overtuigend kunnen ondersteunen. Er moet echter wel rekening worden gehouden met het gegeven dat bevindingen sneller als helder en geldig worden gezien wanneer deze verenigbaar zijn met de eigen overtuigingen.
Een onderzoek begint met een idee of vraag. Ideeën kunnen op vele manieren tot stand komen (zie tabel 5.1 op blz. 28):
Ideeën kunnen ontstaan door nieuwsgierigheid naar een fenomeen.
Ideeën en hypotheses kunnen ontstaan door case studies. Een case study bestaat meestal uit een intensieve observatie van een persoon waarbij vele variabelen worden geobserveerd gedurende een langere periode. Daarnaast wordt ook vaak de persoonlijkheid en het gedrag uitvoerig bestudeerd.
Ideeën kunnen ontstaan door onderzoek naar speciale populaties van individuen. Deze populaties (bijv. depressieven) worden vaak vergeleken met populaties die dit kenmerk niet bezitten. De speciale populatie kan uitgekozen zijn op ervaringen uit het verleden (bijv. seksueel misbruik of blootstelling aan geweld) of op huidige ervaringen (bijv. een ouder worden of slachtoffer van een natuurramp).
Ideeën voor onderzoek kunnen ontstaan door dieronderzoek uit te breiden of te vertalen naar een klinisch fenomeen. Dit kan van dieronderzoek naar humaan onderzoek of vice versa. Onderzoek dat deze verbindingen maakt, kan zeer informatief zijn, omdat er op deze manier meer kennis wordt vergaard over de mate waarin soorten wel en niet met elkaar overeen komen.
Veel onderzoek ideeën zijn gebaseerd op het ontwikkelen of uitbreiden van meetinstrumenten. Dit is zeer belangrijk voor ander, toekomstig, onderzoek.
Andere studies zorgen ook voor onderzoek ideeën (bijv. oplossen van een bepaald probleem uit een andere studie, het uitbreiden van de focus van een eerdere studie of het evalueren van de externe validiteit). Veel gepubliceerd onderzoek gaat hierover.
De hierboven genoemde bronnen van ideeën zijn echter niet de enige mogelijkheden. Ideeën welke ontstaan door alledaagse ervaringen of (counter) stereotypische gedachten kunnen een even goede bron vormen voor nieuwe onderzoekshypotheses als de meer complexe psychologische theorieën. Doorgaans wordt het aangeraden om je goed in te lezen in de literatuur betreffende jouw onderzoeksgebied. Dit kan echter ook beperkend zijn. Bestaande literatuur is gegrond op aangenomen assumpties en methoden. Vanuit minder conventionele gedachten kunnen er nieuwe dimensies ontstaan, welke bij het lezen van bestaande literatuur nooit waren bedacht.
Onderzoek binnen psychologie zoekt doorgaans naar correlaties tussen variabelen. Hierbij worden deelnemers op verschillende maten gemeten op een tijdstip om deze vervolgens te relateren aan andere variabelen. Er wordt gesproken van een correlatie, wanneer de variabelen een associatie met elkaar hebben en er geen direct bewijs is dat de ene variabele aan de andere variabele voorafgaat. Naast een correlatie kan er sprake zijn van een risicofactor. Dit betreft een variabele welke gecorreleerd is aan een bepaalde karakteristiek van een individu waaraan de risicofactor vooraf is gegaan. Door een risicofactor weet men dat bepaalde vroege ervaringen of blootstellingen (seksueel misbruik) de kans op het voorkomen van bepaalde karakteristieken (psychiatrische problemen) doet toenemen. Tot slot moet er onderscheid worden gemaakt tussen risicofactoren en oorzaken. Wanneer er sprake is van een oorzaak, is er, naast het temporele aspect, een directe invloed zichtbaar van de onafhankelijke variabele op de afhankelijke variabele. Een onderzoeksvraag ziet er als volgt uit: “Wat is de relatie tussen de te onderzoeken variabelen?”.
Onderzoek kan zich naast correlaties ook richten op moderators. Dit zijn variabelen die de richting, aard en grootte van de relatie beïnvloeden (bijv. de therapie werkt wel voor mannen, niet voor vrouwen. Hierbij is de moderator sekse). Identificatie van moderators is belangrijk, omdat hiermee het begrip wordt vergroot. Onderzoek naar moderators is voornamelijk handig bij onderzoek naar subtypes. Als er verschillende subtypes worden gevonden, is dit belangrijk om te weten bij het voorkomen en behandelen van een probleem. Een onderzoeksvraag ziet er als volgt uit: “Welke factoren beïnvloeden de relatie tussen de variabelen?”.
De focus op mediators of mechanismen bij onderzoek, gaat dieper in op de relatie tussen variabelen. Wanneer er sprake is van een mediator, betekent dit, dat men weet hoe een probleem in elkaar steekt, wat voor processen hierbij betrokken zijn en wat de manier is waarop de ene variabele tot de andere leidt. Een onderzoeksvraag ziet er als volgt uit: “Hoe werkt het fenomeen?”. Ander type onderzoek richt zich op paden of het beloop van een probleem. Hierbij is de onderzoeker geïnteresseerd in de volgorde van gebeurtenissen welke gerelateerd zijn aan een probleem of fenomeen.
Bij het opstellen van een onderzoeksvraag kan de onderzoeker een theorie hebben betreffende de uitkomst. Onder een theorie verstaat men de conceptvorming van het desbetreffende fenomeen. Er zijn vele benamingen voor theorie in de omloop; aanpak; conceptueel model; theoretisch frame en werkmodel. Deze benamingen worden vaak voor en door elkaar gebruikt. Een onderdeel van een theorie is bijv. een model, wat een geïntegreerde set van bevindingen is.
Naast het gebied waarin theorieën kunnen verschillen, kan ook de focus anders zijn tussen onderzoeken. Voorbeelden zijn: een focus op de aard van de klinische aandoening of gedragspatroon; een focus op de factoren welke bepaalde problemen, patronen of gedragingen in stand houden of een focus op therapeutische veranderingen en veranderingen in ontwikkeling.
Om het functioneren van de mens te begrijpen hebben we niet alleen feitjes en empirisch bewijs nodig. We moeten deze bevindingen kunnen relateren aan elkaar en andere fenomenen, hier zijn theorieën voor nodig. Er zijn tenminste vier punten waardoor duidelijk wordt dat theorie van belang is:
Theorie kan orde brengen in gebieden waar bevindingen uiteenlopend zijn.
Theorie kan de basis van veranderingen verklaren en verschillende uitkomsten samenbrengen tot een overkoepelende uitleg.
Theorie kan laten zien welke moderators bestudeerd moeten worden. Niet alle studies kunnen afgerond worden en daarom is het belangrijk te weten waar op gefocust moet worden bij onderzoek.
Het gebruik en uitbreiding van opgedane kennis buiten het laboratorium is een doel van psychologie. Hierbij speelt theorie, onderzoek en uitvoering allemaal een belangrijke rol. Zonder theoretisch begrip wordt het lastig om op een effectieve manier interventies uit te breiden naar de ‘echte’ wereld.
Vaak wordt het testen van hypotheses op basis van een concept als de beste en enige manier gezien om onderzoek te doen. Hier doet zich echter een probleem voor: hoe komt men om te beginnen aan een concept? Een manier is via kwalitatief onderzoek. Er wordt gebruik gemaakt van intensieve interviews, waardoor men op een systematische manier ideeën opdoet wat betreft sleuteldimensies van een probleem. Grounded theory is de term die gebruikt wordt om aan te geven dat de hypotheses afkomstig zijn van intensieve observaties van een fenomeen.
Binnen de psychologie worden onderzoeken welke niet gebaseerd zijn op een theoretische benadering meestal negatief geëvalueerd. Dit is begrijpelijk, omdat men hierbij het risico loopt de relatie tussen twee random variabelen te bepalen. Er is geen verklaring beschikbaar waarom deze variabelen samen onderzocht moeten worden. Het doel van onderzoek is begrijpen en daarbij speelt theorie een centrale rol in het samenbrengen van variabelen en processen.
Algemene vraagstellingen ontworpen door de onderzoeker moeten eerst geoperationaliseerd worden, voordat deze onderzocht kunnen worden. Bij operationele definities is er sprake van een definitie waarbij het concept is uitgelegd aan de hand van specifieke aspecten welke in het experiment gebruikt gaan worden. Dit brengt echter wel beperkingen met zich mee:
Een operationele definitie kan het concept (te) zeer vereenvoudigen, waardoor er naar een veel kleiner gebied dan de originele focus gekeken wordt.
Een operationele definitie kan irrelevante of niet-centraal staande aspecten bevatten als er wordt vergeleken met het originele concept.
Een operationele definitie gebruikt vaak een enkele meting voor het bepalen van een geheel construct. Dit, terwijl de prestatie van een deelnemer op een test van meer dingen afhankelijk is, dan van het ene construct dat er gemeten wordt. Tevens kan het moeilijker zijn relaties tussen verschillende concepten aan te wijzen door deze manier van meten. Deze vorm van operationaliseren heet enkelvoudig operationaliseren (single operationism).
Als tegenhanger van de enkelvoudige operationalisatie bestaat er meervoudige operationalisatie (multiple operationism). Bij deze vorm worden er meerdere metingen afgenomen voor een enkel construct. Door deze manier van onderzoek (gecombineerde metingen om een concept met verschillende operationalisaties te doorgronden) is de onderzoeker meer gegarandeerd van het onderzoeken van het bedoelde construct. Bij die verschillende metingen is men op zoek naar consistentie tussen metingen van een construct.
Onder een latente variabele verstaat men een construct dat door meerdere metingen wordt gerepresenteerd, maar niet zelf direct gemeten kan worden. Geobserveerde variabelen zijn de specifieke metingen en representeren het onderzochte construct. Doorgaans wordt het aangeraden om een enkel construct te operationaliseren aan de hand van meerdere metingen (of meetinstrumenten). Dit geldt voor zowel de onafhankelijke als de afhankelijke variabele(n). Dit wordt aangemoedigd, omdat op deze manier de construct validiteit beter wordt en er meer vertrouwen in de interpretatie van de resultaten kan worden gelegd.
Naast de brede operationalisatie van constructen willen onderzoekers graag meerdere constructen binnen een studie onderzoeken. Het valt te verklaren; een onderzoek kan zo moeilijk uitvoerbaar zijn, dat de onderzoeker de kans volledig wil benutten. Het kan ook zijn dat de onderzoeksvraag meerdere constructen betreft. De keus aan operationalisaties van een construct kan leiden tot verschillende conclusies betreffende hetzelfde construct. Doorgaans geldt dat men beter weinig constructen kan meten op meerdere manieren, dan meerdere constructen op weinig manieren.
Het type variabele dat bestudeerd kan worden, kan verschillen per soort studie. Er wordt onderscheid gemaakt tussen drie onafhankelijke variabelen.
Omgeving of situatie variabele (environmental of situational variable). Veel variabelen binnen onderzoek worden veranderd qua omgeving of situatie per conditie. Een omgevingsvariabele is een variabele waarbij er verschil is tussen wat gebeurt met of door de deelnemer. Een conditie of taak kan wel aan de ene groep, maar niet aan de andere worden gegeven (behandeling vs. wachtlijst). De hoeveelheid van de manipulatie kan ook verschillen (ene groep meer therapie dan de andere groep).
Instructie variabele (instructional variable). Dit betreft een speciaal type binnen de omgeving of situatie manipulatie. Instructie variabelen betreffen de variaties tussen condities wanneer het gaat om wat de deelnemers wordt verteld (verbaal of gelezen). Het doel hiervan is het veranderen van de perceptie, verwachting en evaluatie van de deelnemer over een situatie of conditie.
Subject of individuele verschillen variabele (subject en individual difference variable). Met deze variabele worden de karakteristieken van de deelnemers bedoeld. Deze variabelen zijn doorgaans niet direct gemanipuleerd, zij zijn gevarieerd te vinden over de condities door de selectie van uiteenlopende deelnemers. Mensen verschillen op vele dimensies van elkaar, zoals persoonlijkheidskenmerken, ervaringen, attributies en trekken. Voorbeelden zijn: leeftijd, sekse, sociale klasse, opleiding, score op persoonlijkheidstest. In klinische onderzoeken wordt er vaak gebruikt gemaakt van een speciaal sample (alle deelnemers voldoen aan diagnose sociale fobie gesteld volgens DSM-IV-TR). Naast de karakteristieken van de deelnemer, vormen ook de karakteristieken van de therapeut subject variabelen.
Het is niet alleen mogelijk om één type variabele te onderzoeken binnen een onderzoek, er kunnen meerdere variabelen van verschillende types tegelijkertijd onderzocht worden. Doorgaans geldt dat een studie waarin één soort variabele wordt gebruikt antwoord probeert te vinden op een rudimentaire vraag. Wanneer variabelen gecombineerd worden, worden de vragen complexer. Deze vragen gaan vaak in op de impact van een bepaalde manipulatie onder verschillende manipulaties.
Nadat een onderzoeksidee, operationalisatie en selectie van het type variabelen is bepaald, moet er bepaald worden hoe het idee het beste onderzocht kan worden en onder welke condities. Het onderzoekdesign moet bepaald worden. Binnen de psychologie wordt er vaak onderscheid gemaakt tussen drie grote types onderzoek:
Ware experimenten (true experiments). Een onderzoek waarbij er maximale controle mogelijk is over de onafhankelijke variabele of de manipulatie waar het om gaat. Het is mogelijk om deelnemers willekeurig (random) toe te wijzen aan condities. Dit is de beste basis voor het stellen van gevolgtrekkingen. Wanneer ware experimenten worden uitgevoerd als een interventie, wordt er vaak gesproken van een Randomized Controlled (Clinical) Trial (RC(C)T).
Quasi-experimenten. Wanneer een onderzoeker niet alle variabelen kan controleren, wordt er aanspraak gemaakt op quasi-experimenten. Hiermee wordt bedoeld dat de aard van een waar experiment geprobeerd wordt te benaderen, maar dat er ‘flaws’ in het design te detecteren vallen. Echter, deze vorm van onderzoek kan een sterke basis vormen voor het bepalen van invloeden en mag daarom niet uitgesloten worden.
Case-control designs. Veel van het klinisch onderzoek richt zich op variabelen welke door de natuur al gemanipuleerd zijn. Hierbij wordt gebruik gemaakt van een case-control design, een studie waarin de variabele geselecteerd wordt aan de hand van deelnemers die hierop verschillen. Dit kan gaan om karaktertrekken, maar ook om bepaalde ervaringen. Deze vorm van onderzoek kan inzicht bieden in de aard van onderzochte problemen, karakteristieken of ervaringen.
Een waar experiment, hoe goed deze ook gecontroleerd mag zijn, vormt niet per definitie een basis voor zekerheid van vindingen. Net zo goed is een case-control design niet een halfbakken experiment en uitgesloten van het stellen van causale informatie.
Binnen het soort onderzoek, vallen er verschillende types aan te wijzen. Bij een group design worden verschillende deelnemers bestudeerd, de groepen worden samengesteld door de onderzoeker. Hij bepaalt wie in welke conditie terechtkomt. Doorgaans ontvangen deelnemers slechts één van de beschikbare condities. Bij een between-group design worden er verschillende groepen gemaakt om deze vervolgens met elkaar te vergelijken. Bij een single-case experimental design wordt een individu of een groep over langere tijd gevolgd. De afhankelijke variabele wordt herhaaldelijk afgenomen over tijd.
De effecten van de verschillende experimentele en controle condities worden bepaald aan de hand van statistische procedures waarbij de groepen vergeleken worden op de afhankelijke variabele. Wanneer de groepen voor de interventie gelijk waren, is het verschil tussen de groepen na de interventie waarschijnlijk het gevolg van de interventie.
De condities waaronder een onderzoek wordt afgenomen kunnen zeer uiteenlopend zijn:
Laboratorium onderzoek vs. toegepast onderzoek (applied research). Laboratorium onderzoek betreft meestal onderzoek in een speciale onderzoek setting. Hier worden basale vragen beantwoord onder condities welke zeer goed controleerbaar zijn. Toegepast onderzoek betreft onderzoek dat wordt afgenomen binnen een kliniek waar patiënten behandeld worden. Er kunnen hierbij verschillende types van behandeling of populaties onderzocht worden.
Analoog vs. klinisch onderzoek. Een analoge studie betreft onderzoek dat zich focust op een zorgvuldig beschreven onderzoeksvraag onder gecontroleerde omstandigheden. Het doel is een specifiek proces verhelderen of het bestuderen van behandeling welke van belang zou kunnen zijn in klinische toepassingen. Analoge studies omvatten een zeer groot gebied (eigenlijk alles wat geen dieronderzoek betreft). Bijna al het onderzoek is analoog, maar er vallen verschillen te detecteren in de mate waarop een fenomeen geïsoleerd wordt om te bestuderen.
Efficacy vs. effectiveness onderzoek. Efficacy studies doen onderzoek naar de uitkomsten van behandelingen binnen een gecontroleerde setting (experimenteel of quasi-experimenteel). Effectiveness onderzoek gaat meer in op de behandeluitkomsten binnen klinische settings, waar geen sprake is van controle procedures.
Wanneer condities van een experiment zeer slecht verenigbaar zijn met klinische of toegepaste onderzoek settings, heeft de onderzoeker meer controle over de facetten binnen een onderzoek en kan hij bedreigingen tegen de interne validiteit goed bestrijden. Wanneer de condities echter zeer goed verenigbaar zijn met deze settings, vergroot dit de externe validiteit, maar tegelijkertijd ook meer problemen met het controleren van facetten (zie tabel 5.4). Er doen zich problemen voor bij het beantwoorden van de onderzoeksvraag wanneer het type of setting van het onderzoek niet overeenkomt met de focus van het onderzoek.
Onderzoek kan variëren qua duur. Meestal wordt de manipulatie en de metingen van de afhankelijke variabele om het effect van de manipulatie te bepalen, vrij snel na elkaar afgenomen. Een cross-sectionele studie maakt vergelijkingen tussen groepen op een bepaald tijdstip. Longitudinale studies maken echter vergelijkingen over een bepaalde tijd, meestal over verscheidene jaren. De uitkomst van een en dezelfde onderzoeksvraag kan verschillend beantwoord worden wanneer verschillende types onderzoek gebruikt zouden worden. Een cross-sectionele studie suggereert een ontwikkelingspatroon, namelijk hoe gedrag verandert wat betreft de frequentie van uitvoer. Een longitudinale studie geeft weer hoe gedrag binnen een sample verandert over tijd (dezelfde deelnemers worden gebruikt). Echter, het blijkt lastig om deelnemers over een langere periode te blijven volgen, er vindt veel uitval plaats tijdens een longitudinale studie.
Het meeste psychologische onderzoek wordt uitgevoerd door het vergelijken van twee groepen welke beide verschillende condities hebben ondergaan en gecontroleerd zijn door de onderzoeker. Voordat men een onderzoek kan uitvoeren, is het nodig om deelnemers te selecteren en toe te wijzen aan de onderzoekscondities. Dit selecteren kan via random selectie, wat betekent dat er een even grote kans bestaat voor iedereen om geselecteerd te worden als deelnemer. Het selecteren kan echter pas in gang worden gezet, wanneer de pool waaruit geselecteerd gaat worden enigszins afgebakend is. Er kan geselecteerd worden uit verschillende segmenten of subgroepen uit de populatie. Door gebruik te maken van random selectie zijn de gekozen deelnemers zeer representatief voor de gehele populatie. Dit proces vergroot dan ook de generalisatie van de gevonden resultaten, ofwel de externe validiteit.
Wanneer er niet gekozen wordt voor random selectie, moet er nagedacht worden over wie wél geselecteerd kan worden en waarom. Hier vloeit uit voort dat minderheidsgroepen minder vaak bestudeerd zijn en dat de meest voorkomende onderzoeksgroep bestaat uit blanke Amerikaanse mannen. Daarnaast wordt er weinig rekening gehouden binnen een sample met etniciteit en wordt er zeer vaak getest met studenten. Er wordt vanuit gegaan dat de resultaten verkregen in onderzoek met bijv. studenten te generaliseren zijn naar andere groepen binnen de populatie, terwijl dit niet het geval hoeft te zijn.
Binnen sommige onderzoeken is een strikt geselecteerd sample nodig (geen random selectie dus). Dit kan, omdat de onderzoeksvraag dit vereist, de onderzoeker het sample niet als zeer belangrijk beschouwt, maar slechts deelnemers nodig heeft om een fenomeen te bevestigen ( de honden gebruikt door Pavlov bijvoorbeeld) of omdat een breed sample simpelweg niet altijd haalbaar is voor een onderzoeker.
Wanneer deelnemers worden geselecteerd, omdat ze toevallig aanwezig of beschikbaar zijn, wordt er gesproken van een sample of convenience. Hoe de sample eruit ziet, is niet van groot belang voor de studie. Studenten vormen doorgaans een sample of convenience. Onderzoekers willen vaak niet alleen weten hoe iets werkt bij studenten, maar onderzoeken studenten om resultaten vervolgens te kunnen generaliseren. Bij het interpreteren van de resultaten moet er nagedacht worden of de sample unieke kenmerken bezit, welke als alternatieve verklaring beschouwd kunnen worden. Het gekozen sample moet sowieso altijd verantwoord worden binnen een studie.
Bij het toewijzen van deelnemers aan verschillende condities, is het van belang dat de deelnemers niet van elkaar verschillen voordat de manipulatie is uitgevoerd. Wanneer hier sprake van is, wordt de interne validiteit van het onderzoek aangetast. Het doel van onderzoek is het opstellen en behouden van gelijke condities, behalve voor de variabelen waar onderzoek naar wordt gedaan. Een veel gebruikte manier om deelnemers toe te wijzen aan condities is via random assignment. Dit houdt in dat deelnemers een even grote kans hebben om in een van de condities terecht te komen, vaak gebeurt dit aan de hand van een tabel met random nummers. Wanneer via een tabel wordt besloten welke deelnemer in welke conditie terecht komt, garandeert dit niet dat er evenveel deelnemers in iedere conditie terecht komen. Echter, voor het vergroten van de statistische power en gemak bij het uitvoeren van statistische analyses, is het beter om gelijke groepen te hebben. Dit kan bereikt worden door deelnemers in blokken in te delen. Een blok bestaat uit het aantal deelnemers dat gelijk staat aan het aantal beschikbare condities (een studie met 2 groepen, heeft blokken welke ook uit twee deelnemers bestaat). Binnen het blok worden de deelnemers vervolgens random toegewezen aan een van de condities. Tevens kan er gekozen worden voor random assignment met als restrictie gelijke groepen. Alhoewel random assignment niet garandeert dat de groepen gelijk aan elkaar zijn, is dit -tot nu toe- de beste manier om bedreigingen van de interne validiteit en ongewenste andere invloeden zo gelijkmatig als mogelijk te verdelen en dus uit te schakelen. Soms is random assignment van deelnemers echter niet mogelijk.
De aanwezigheid van kenmerken van deelnemers (zoals leeftijd, sekse, motivatie voor deelname) en omstandigheden tijdens deelname aan de studie kunnen invloed hebben op de interpretatie van de verschillen tussen de groepen, wanneer er niet voor deze factoren gecontroleerd wordt. Er kan hier gesproken worden over ruis variabelen (nuisance variables), variabelen die een onderzoeker niet wil onderzoeken, maar welke wel invloed kunnen hebben op de resultaten. Door het gebruik van random assignment verdeelt men deze variabelen als het ware ‘eerlijk’ over de condities. Wanneer een sample groot genoeg is, kan men aannemen dat de ruis variabelen gelijk verdeeld zijn. Random assignment kan echter geen equivalente groepen garanderen, de kans dat de groepen gelijk verdeeld zijn wordt slechts vergroot door deze maatregel. Het vinden van verschillen tussen groepen is gemakkelijker bij kleine dan bij grote samples en wanneer er sprake is van extreme scores binnen een groep. Wanneer de groepen relatief klein zijn, is de statistische power om verschillen op te pikken (sensitiviteit) klein. Dit leidt tot de conclusie dat de kans op gelijke groepen binnen een kleine sample door middel van random assignment gering is en dat eventuele verschillen ook moeilijker op te pikken zijn. Het gebruik van sample sizes welke groter zijn dan normaal (meer dan 40 deelnemers per groep) vergroot de kans op gelijke groepen aanzienlijk.
Een onderzoeker wil het risico op ongelijke groepen voordat de manipulatie voltooid is vaak niet lopen. Zeker niet wanneer het bekend is dat een bepaald kenmerk gerelateerd is aan de scores van de afhankelijke variabele. Het is belangrijk om in zulke gevallen dit kenmerk mee te nemen in de studie en te garanderen dat dit kenmerk niet verschilt tussen de groepen. Dit kan bereikt worden door deelnemers op dit kenmerk met elkaar te matchen en vervolgens random toe te wijzen aan de condities. Matching houdt in dat deelnemers gegroepeerd worden op basis van een kenmerk of een set van kenmerken. Je kunt dit doen door middel van het zoeken naar paren welke op de voormeting exact gelijke scores hadden, dit noemt men de identical pretreatment scores. Deze deelnemers worden vervolgens aan elkaar gekoppeld en ieder wordt op een eerlijke manier toegewezen aan een van de condities. Het nadeel van deze techniek is dat er een groot aantal deelnemers beschikbaar moet zijn om een afdoende sample van paren te kunnen maken.
Het sorteren van deelnemers naar aanleiding van de scores, bijvoorbeeld van hoge naar lage scores wordt vaker gebruikt. Dit heet ranking all of the subjects en heeft als voordeel dat alle deelnemers gebruikt kunnen worden voor de samenstelling van een sample. Wanneer is sprake is binnen het onderzoek van 4 condities, wordt de gerankte lijst verdeeld in blokken van vier deelnemers. Van ieder blok wordt vervolgens at random iedere deelnemer toegewezen aan een van de vier condities.
Deelnemers kunnen zich ook al in groepen bevinden, welke van tevoren samengesteld zijn. Hierbij is het matchen van deelnemers lastiger. De scores van de groepen kunnen namelijk afnemen of toenemen naar het gemiddelde (regression towards the mean). Het gemiddelde is echter voor beide groepen verschillend. Over het algemeen geldt: hoe lager de correlatie, hoe groter de error in de meting en hoe groter de regressie naar het gemiddelde is.
Pretest-Posttest Control Group Design
Dit design bestaat uit een minimum van twee groepen, de ene groep ontvangt behandeling en de andere groep niet. Beide groepen worden zowel voor als na de afloop van de behandeling gemeten. Hiermee kan het effect van de behandeling bepaald worden, het verschil tussen de voor, - en nameting. Dit design wordt vaak toegepast binnen interventie onderzoek. Schematisch kan dit worden weergegeven als:
Random toewijzing --> Voormeting --> Behandeling --> Nameting
Random toewijzing --> Voormeting --> - --> Nameting
De sterke punten van dit design:
Het controleren voor interne validiteit bedreigingen (herhaald testen, voorgeschiedenis, maturation etc.).
De afname van een voormeting stelt de onderzoeker in staat deelnemers te matchen op basis van de resultaten, mogelijkheid tot evaluatie van het effect van verschillende variabelen tijdens voormeting, teen toename van statistische power binnen het onderzoek, mogelijkheid bepalen wie er veranderd is en hoeveel deze deelnemer veranderd is en uitval kan meer diepgaand bestudeerd worden.
De zwakkere punten van dit design:
Geen controle voor interactie-effecten.
Geen controle voor test sensitisatie-effecten.
Posttest-Only Control Group Design
Het design bestaat eveneens minimaal uit twee groepen en is hetzelfde als bovenstaand design, met als enige verschil dat er geen voormetingen worden afgenomen. Het effect van de interventie wordt gebaseerd op de nameting alleen. Schematisch ziet het design er als volgt uit:
Random toewijzing --> Behandeling --> Nameting
Random toewijzing --> - --> Nameting
Dit design wordt minder vaak gebruikt. Soms is het echter simpelweg niet mogelijk of wenselijk een voormeting af te nemen. Door de afwezigheid van een voormeting kan het effect niet toegeschreven worden aan test sensitisatie. Het zwakke punt van dit design komt voort uit het niet afnemen van een voormeting. Men kan niet vaststellen of de groepen aanvankelijk gelijk waren, er kan niet gematcht worden en er kunnen geen relaties tussen voormeting en de verandering van het gedrag gesteld worden.
Solomon Four-Group Design
Dit design wordt gebruikt om het effect van een voormeting op een interventie te verhelderen. Er bestaat een minimum van vier groepen, twee hiervan ontvangen een voor,- en nameting, de andere twee groepen slechts een nameting. Dit ziet er schematisch als volgt uit:
Random toewijzing --> Voormeting --> Behandeling --> Nameting (1)
Random toewijzing --> Voormeting --> - --> Nameting (2)
Random toewijzing --> - --> Behandeling --> Nameting (3)
Random toewijzing --> - --> - --> Nameting (4)
De verkregen door het testen alleen kunnen onderzocht worden door 2 en 4 met elkaar te vergelijken. Het interactie-effect tussen de voormeting en interventie kan onderzocht worden door 1 en 3 met elkaar te vergelijken. Het design kent zowel een hoge interne, als externe validiteit.
Factorial Design
Bij designs waarbij slechts één variabele tegelijkertijd onderzocht wordt, worden vaak simpele onderzoeksvragen beantwoord. Wanneer de vragen complexer worden, is er ook een complexer design nodig. Een design wat antwoord kan geven over hoofd,- en interactie effecten van verschillende variabelen. Een factorial design maakt het mogelijk om twee of meer variabelen in één experiment te onderzoeken. Zulke variabelen hebben minstens twee niveaus, bijvoorbeeld: de variabele Sekse bestaat uit 2 niveaus, man en vrouw. Het meest simpele design bestaat uit twee variabelen, met ieder twee niveaus. Dit wordt een 2 x 2 factorial design genoemd. Vaak is men nieuwsgierig naar het bestaan van eventuele interacties, om deze reden wordt er vaak gebruikt gemaakt van een factorial design. Een interactie is een situatie waarin het effect van één of meerdere variabelen afhangt van het niveau van één of meerdere andere variabelen.
De sterke punten van dit design:
Meerdere variabelen kunnen binnen één experiment onderzocht worden (kosten effectief).
Verschaft informatie over de gecombineerde effecten van variabelen (interactie-effecten). Interacties geven duidelijkheid over de grenzen van onafhankelijke variabelen en bijbehorende effecten.
De zwakkere punten van dit design:
Het is verleidelijk meerdere variabelen tegelijkertijd te onderzoeken, waardoor het aantal groepen binnen de studie snel toeneemt. Dit zorgt ervoor dat er meer deelnemers nodig zijn.
Het interpreteren van resultaten kan lastig zijn met meerdere variabelen. Interacties waarbij twee of drie variabelen een rol spelen zijn gemakkelijk te interpreteren, maar dit wordt lastiger wanneer er sprake is van een interactie tussen meerdere variabelen.
Ter herhaling: een quasi experimenteel design is een onderzoekdesign waarbij de onderzoeker niet alle variabelen kan controleren, waardoor een ‘waar’ experiment niet langer mogelijk is.
Pretest-Posttest Quasi Experimental Design (Nonequivalent Control Group Design)
Dit design is in essentie gelijk aan het Pretest-Posttest Control Group Design. De controlegroep in het quasi experimentele design is echter niet per definitie equivalent aan de interventiegroep. Dit komt, omdat de deelnemers meestal van tevoren zijn toebedeeld aan een conditie waar niks aan veranderd kon worden. Deze reeds gevormde groepen hoeven dus niet gelijk te zijn aan elkaar. Schematisch kan het er als volgt uit zien:
Géén Random Toewijzing --> Voormeting --> Behandeling --> Nameting
Géén Random Toewijzing --> Voormeting --> - --> Nameting
Ook in dit design wordt er gecontroleerd voor bedreigingen van de interne validiteit (herhaald testen, voorgeschiedenis, maturation etc.). Het is echter wel mogelijk dat deze verschillen tussen de groepen.
Posttest-Only Quasi Experimental Design
Dit design is in essentie gelijk aan het Posttest-Only Control Group Design. Schematisch weergegeven als:
Géén Random Toewijzing --> Behandeling --> Nameting
Géén Random Toewijzing --> - --> Nameting
Net als in het experimentele broertje kan er op voorhand niet worden vastgesteld of de groepen gelijk waren voor het toedienen van de interventie. Dit proces wordt nog lastiger, aangezien er bij dit design geen sprake was van random toewijzing. De kans op verschillen tussen de groepen is dus aanzienlijk en maakt inferenties wat betreft groepsverschillen door de uitgevoerde interventie zwak. Tevens wordt er niet gecontroleerd voor bedreigingen van de interne validiteit.
Variaties
Niet alle design zijn hierboven besproken. Er zijn andere designs alsmede gecombineerde designs (zie onderstaand schema).
Géén Random Toewijzing --> Voormeting --> Behandeling --> Nameting
Géén Random Toewijzing --> Voormeting --> - --> Nameting
De bovenstaande groepen ontvingen op verschillende tijdstippen voor,- en nametingen. Er kan dus niet goed bepaald worden of beide groepen bij aanvang gelijk waren (doordat voormeting niet op hetzelfde tijdstip is verkregen kunnen er interne validiteit problemen opdoen).
Het multiple-treatment design houdt in dat er verschillende behandeling binnen een deelnemer met elkaar vergeleken kunnen worden. Er worden twee soorten designs besproken.
Crossover Design (Multiple-Treatment Design)
Het meest simpele design bestaat uit twee behandelingen. Twee groepen deelnemers ontvangen de behandeling en halverwege de studie wordt er veranderd van behandeling. Het enige verschil tussen de groepen is de volgorde waarin de behandelingen worden aangeboden. Dit ziet er schematisch als volgt uit:
Random Toewijzing -->Voormeting -->Behandeling 1 -->Tussenmeting -->Behandeling 2 -->Nameting
Random Toewijzing -->Voormeting -->Behandeling 2 -->Tussenmeting -->Behandeling 1 -->Nameting
Multiple-Treatment Counterbalanced Design
Dit design bestaat doorgaans ook uit twee behandelingen, waarbij de deelnemer beide behandelingen ontvangt, maar in verschillende volgorde. Op deze manier is er sprake van counterbalancing van behandelingen. Hoe meer behandelingen met elkaar vergeleken worden, des te ingewikkelder wordt het schema met volgordes van behandeling. Ter illustratie een schematisch overzicht waarbij vier behandelingen worden vergeleken:
| Plaats van Behandeling |
| ||
Groep | 1 | 2 | 3 | 4 |
1 2 3 4 | A B D C | B A C D | C D B A | D C A B |
Hierboven is gebruikt gemaakt van een systematische methode om de volgorde van behandeling te bepalen (het Latijns vierkant; Latin square). Iedere behandeling komt hierbij één maal voor op een bepaalde plek. Hierbij is het aantal behandelingen, groepen en volgorde mogelijkheden aan elkaar gelijk. Het schema hierboven is niet de enige mogelijkheid waarop de behandelingen ingedeeld kunnen worden. Hierdoor is het niet mogelijk uitspraken te doen over de invloed van andere volgordes voor de gevonden resultaten van de interventies. De volgorde van behandelingen kan echter ook random bepaald worden. Hierbij loopt men echter het risico dat een behandeling nooit als eerste wordt aangeboden, waardoor er als nog geen eenduidige conclusies getrokken kunnen worden.
Problemen bij Multiple-Treatment Designs
Wanneer een onderzoeker besluit gebruik te maken van een multiple-treatment design, moet er rekening worden gehouden met de volgorde waarin de behandelingen worden aangeboden. Als de volgorde van de behandelingen een verklaring kan vormen voor de gevonden resultaten, spreek men van een volgorde effect (order effect). Hiermee wordt bedoeld, dat niet de behandeling zelf voor de resultaten heeft gezorgd, maar slechts het tijdstip waarop de behandeling werd aangeboden van belang is. Het is algemeen bekend dat behandeling welke als eerste worden aangeboden meer veranderingen teweeg brengen dan behandelingen welke daarna worden aangeboden, ongeacht het soort behandeling.
Zo kan er ook verschil bestaan tussen de overgang van behandeling A naar B in vergelijking met de overgang van behandeling B naar behandeling A. Wanneer de indeling van de behandelingen bijdraagt aan de gevonden effecten, wordt er gesproken van sequence effecten. Dit vindt zijn oorsprong in carry-over effects (het effect van de eerste behandeling sijpelt door in de effectiviteit van de tweede behandeling).
Plafond,- en bodemeffecten (ceiling effects en floor effects) bestaan doordat de veranderingen van de afhankelijke variabele een limiet kennen, qua weergave dan. Veranderingen hierboven kunnen niet meer weergegeven worden. Het komt er in de praktijk op neer dat de veranderingen van de eerste interventie dusdanig groot zijn, dat een tweede interventie weinig tot geen ruimte voor verbetering meer over heeft. Wanneer het tegenovergestelde plaats vindt, het vinden van geen effecten tussen de groepen op een meetinstrument, kan dit komen doordat er limieten in de range van de scores op dat instrument bestaan. Wanneer de veranderingen scores hebben boven of beneden dat limiet, kunnen deze niet worden weergegeven. De schaal zou een grotere spreiding van scores moeten hebben, om deze veranderingen wel een betekenis te kunnen geven.
Daarnaast kan het zijn dat er een grotere verandering nodig is om een extreme(re) score te verkrijgen, in vergelijking met het krijgen van een score welke op een minder extreem punt op de schaal ligt.
Een controle groep betreft iedere groep binnen een onderzoeksdesign naast de experimentele groepen. Sommige controle groepen (geen behandeling controle groep en de wachtlijst controle groep) zijn in het leven geroepen om bedreigingen van de interne validiteit tegen te gaan, bedreigingen als voorgeschiedenis, maturation, selectie en test-effecten. De bedreigingen worden tegengegaan, doordat een groep deze invloeden deelt met de experimentele groep, maar zelf geen manipulatie ondergaat. Andere controle groepen (non-specifieke behandel controle groep) beschermen tegen bedreigingen van de construct validiteit.
No-Treatment Control Group
Deze groep krijgt binnen het onderzoek geen behandeling aangeboden. Door de inclusie van een dergelijke groep worden bedreigingen van de interne validiteit geminimaliseerd. Deelnemers binnen de no-treatment groep kunnen echter wel gedurende het onderzoek verbeteren, dit wordt spontane remissie (spontaneous remission) genoemd. De aanwezigheid van een no-treatment groep maakt het mogelijk om de base rate vast te stellen van verbetering bij mensen welke geen behandeling hebben ondergaan. Daarnaast kan verbetering optreden door slechts het meerdere keren afnemen van testen.
Het gebruik van een no-treatment groep brengt ethische problemen met zich mee. Wanneer deelnemers zich aanmelden voor behandeling is het lastig om uit te leggen dat er ook een mogelijkheid bestaat dat zij in de controle conditie terecht komen en dus geen behandeling ontvangen. Bovendien is het sowieso lastig uitleggen waarom er een no-treatment conditie is aan deelnemers. Men loopt het risico dat deelnemers die in de no-treatment groep zitten ergens anders hulpen gaan zoeken. Uitval vormt ook een reële mogelijkheid.
Waiting-List Control Group
In plaats van het weerhouden van een interventie, kan er besloten worden om gebruik te maken van een conditie waar deelnemers op een wachtlijst worden geplaatst. Zodra het onderzoek afgelopen is, ontvangen zij direct de onderzochte behandeling. Wanneer er sprake is van een voormeting, mag er geen behandeling plaatsvinden in deze groep tot de nameting. De tijd waarop de metingen worden afgenomen, moeten overeenkomen met de interventiegroep. Wanneer de metingen vervolgens voltooid zijn, ontvangen deelnemers op de wachtlijst behandeling.
Er bestaat hierbij een beperking in vergelijking met een no-treatment groep. Deelnemers in de wachtlijst conditie ontvangen na afloop van het onderzoek alsnog behandeling, waardoor de lange termijn effecten van bijvoorbeeld de voorgeschiedenis, maturation en test-effecten niet onderzocht kunnen worden. Toch zijn er ook voordelen te noemen. Het is doorgaans minder moeilijk deelnemers te vinden (zij hebben immers altijd een (uitgestelde) behandeling). Bovendien kunnen er behandeleffecten op verschillende momenten bekeken worden, er kunnen niet alleen between-group verschillen van de behandeling worden bekeken, maar ook within-group verschillen kunnen geëvalueerd worden. De ethische bezwaren worden door dit design niet volledig weggewerkt.
No-Contact Control Group
Veranderingen kunnen al opdoen door alleen de wetenschap van deelname aan een onderzoek. Bovendien kunnen deelnemers het gevoel hebben dat zij eindelijk geholpen gaan worden, wat ook al zorgt voor verlichting van de klachten. De impact van deelname aan onderzoek kan onderzocht worden aan de hand van een no-contact groep. Deze deelnemers zijn zich niet bewust van deelname aan de studie en ontvangen ook geen behandeling. Deze methode wordt zeer spaarzaam gebruikt.
Het verkrijgen van gegevens kan via andere onderzoeken, maar het blijft de vraag of deze manier van onderzoek doen ethisch te verantwoorden is. De rechten van een deelnemer moet bij dit design zeer scherp in de gaten worden gehouden.
Nonspecific-Treatment Control Group (Attention-Placebo Group)
Deze controle groep is in het leven groepen om voornamelijk de construct validiteit te beschermen. Er zijn binnen onderzoek genoeg andere variabelen welke meespelen in het uiteindelijke resultaat, naast de onderzochte variabelen (zoals het hebben van contact met een therapeut en aanwezigheid bij sessies). Deze variabelen welke aanwezig zijn bij alle therapieën, zijn niet dezelfde als de veronderstelde werkzame factoren van een behandeling. De gemeenschappelijke factoren van behandelingen zijn bij een nonspecific-treatment groep gebundeld als controle conditie. Bij medicatie is dit een makkelijk proces, er wordt een niet-werkzame pil aangeboden in plaats van het werkzame medicijn. Bij behandeling is het lastiger, een geloofwaardige nep-therapie (pseudo interventie) is moeilijk om samen te stellen. Er kan bijvoorbeeld voor gekozen worden om deelnemers in een dergelijke conditie naar de therapeut te laten komen en de problemen uiteen te zetten, zonder dat de therapeut hier binnen een behandelkader mee aan de slag gaat.
Deze conditie is er dus voor bedoeld om de gemeenschappelijke factoren binnen behandeling te controleren. Wanneer er geconstateerd wordt dat de behandeling effectiever is dan de pseudo interventie, betekent dit niet dat de unieke therapeutische factoren van de desbetreffende behandeling hier verantwoordelijk voor zijn. De nonspecific-treatment groep controleert alleen voor gemeenschappelijke factoren.
Het blijkt lastig om te bepalen wat er door kan gaan als geloofwaardige vervanger van een behandeling, zonder dat er sprake is van een theoretische achtergrond. Wanneer de pseudo interventie namelijk zeer geloofwaardig is, blijkt deze weer bijna net zo effectief als echte behandeling. Ook hier spelen er ethische bezwaren mee, kan men het verdedigen om behandeling aan te bieden sterke theoretische achtergrond of aan deelnemers welke zeer zware problematiek ondervinden?
Tevens kan het gebruik van een nonspecific-treatment groep schadelijke effecten hebben. De ervaringen van een deelnemer kunnen dusdanig negatief zijn, dat het beeld van therapie over het algemeen ernstig aangetast wordt. En er van toekomstige behandelingen wordt afgezien. Psychotherapie blijkt werkzamer dan pseudo interventies en deze blijken weer effectiever dan geen behandeling.
Standard Treatment
Wanneer het niet te verantwoorden valt om geen, verlate of neppe therapie aan te bieden als controle conditie, kan er gekozen worden om vergelijkingen te maken ten opzichte van een andere (standaard) therapie. Men heeft hier weinig tot geen last van ethische bezwaren, iedereen krijgt in deze studie (hopelijk) werkzame behandeling aangeboden. Doordat iedereen behandeling ontvangt, is de kans op uitval dusdanig klein. De vergelijking met een standaard behandeling controleert voor gemeenschappelijke factoren van behandeling. Tot slot kan deze vorm van onderzoek positieve uitwerking hebben op therapeuten. Wanneer therapeuten tijdens de studie de nieuwe interventie aanbieden aan deelnemers en merken dat deze positieve uitwerking heeft, zal een therapeut sneller geneigd zijn deze interventie in toekomstige gevallen aan te bieden in vergelijking met de standaard therapie.
Wat een standaard therapie inhoudt is echter lastig te achterhalen, iedere therapeut zal een techniek op een andere manier aanbieden.
Yoked Control Group
Het doel van deze controle groep is het verzekeren van gelijke groepen wat betreft belangrijke, maar binnen het onderzoek irrelevante, factoren welke verantwoordelijk kunnen zijn voor gevonden groepsverschillen. Men kan deelnemers matchen, ofwel ‘yoken’, tussen condities door het maken van paren. Wanneer een deelnemer in de experimentele conditie bijvoorbeeld 18 sessies ontvangt, zal de deelnemer welke in de controle conditie zit en geyoked is aan de bovenstaande deelnemer, ook 18 sessies ontvangen van een pseudo interventie. De factoren welke gebruikt worden om deelnemers op te yoken zijn vaak afhankelijk van de construct validiteit.
Nonequivalent Control Group (Patched-Up Control Group)
Deelnemers binnen een dergelijke controle groep zijn niet random toegewezen aan deze conditie, maar waren van tevoren al een bestaande groep. Deze groep help bij het tegengaan van bedreigingen van de interne validiteit en eventuele alternatieve verklaringen. Deze groep wordt vaak gebruikt wanneer er geen mogelijkheid bestaat om deelnemers random toe te wijzen. Echter, naast de genoemde voordelen, is het lastig om met deze controle groep te vergelijken, aangezien er geen duidelijkheid bestaat over de mate waarin deze groep overeenkomt met de interventie groep.
Het absolute doel van psychotherapie is het vinden effectieve behandelmethoden en een inschatting te kunnen maken wie bij welke therapie/behandeling de meeste baat heeft. Dit kan onderzocht worden via verschillende strategieën (zie tabel 7.1 op blz. 123).
Treatment-Package Strategie
Deze strategie probeert het effect te evalueren van een behandeling zoals deze doorgaans gebruikt wordt. ‘Package’ wil zeggen dat een behandeling meerdere facetten en componenten kan bevatten en dat deze allemaal binnen de treatment-package strategie meegenomen worden. Bij deze strategie wordt er vaak gebruikt gemaakt van een no-treatment of wachtlijst controle conditie, om bedreigingen van de interne validiteit tegen te gaan.
Dismantling Strategie
Deze strategie evalueert de componenten van een treatment-package. Wanneer een treatment-package effectief blijkt, kan er onderzoek gestart worden naar de werkzame elementen. Dit wordt onderzocht door een groep deelnemers de gehele package aan te bieden en een andere groep deelnemers slechts een of meerdere component(en) hiervan.
Constructive Strategie
Bij deze strategie is het doel het ontwikkelen van een treatment-package door componenten toe te voegen welke de werkzaamheid van de package verhogen. Dit kan gezien worden als een strategie tegenovergesteld aan de Dismantling strategie. Hierbij kan een combinatie van behandelingen gemaakt worden. Over het algemeen bestaat er de notie dat door het combineren van behandelingen afzonderlijke tekortkomingen overwonnen worden, maar dit blijkt niet in alle gevallen op te gaan. Echter, het combineren van behandelingen neemt consequenties met zich mee. Wanneer de behandelingen beide uit medicatie bestaan, zal er een toename van bijwerkingen ontstaan. Wanneer de behandelingen uit therapie bestaan, kan een vaststaand aantal sessies niet bijdragen aan de overweldigende hoeveelheid componenten om op deze manier tot een betere behandeling te komen. Als controle conditie wordt er binnen deze strategie vaak gekozen voor de afzonderlijke behandelingen of de meest sterke behandeling alleen.
Parametric Strategie
Hierbij worden aspecten van een behandeling aangepast om zo tot een betere behandeling te komen. Er vindt geen verandering van componenten plaats, slechts kleine aanpassingen. De variaties van de componenten moeten zorgen voor een meer effectieve behandeling. Een voorbeeld waar variaties van gemaakt kunnen worden is de duur van een behandeling. Ook maintenance therapie kan beschouwd worden als onderdeel een parametrische strategie, maar past ook bij de constructieve strategie.
Comparative-Treatment Strategie
De vraag welke centraal staat binnen deze strategie is welke van de onderzochte behandelingen beter is voor een bepaald klinisch probleem. Deze vraag is tegenwoordig minder interessant, aangezien er nog maar weinig pure interventies zijn zonder ook maar enige invloed van andere behandelingen. Het gebruik van een controle conditie is erg belangrijk binnen deze strategie. Wanneer beide behandelingen namelijk even effectief blijken, kunnen de effecten ook toegewezen worden aan voorgeschiedenis, maturation, test-effecten of gemeenschappelijke factoren van therapie.
Treatment-Moderator Strategie
Bij deze strategie is het doel om factoren te ontdekken en evalueren welke een modererend effect kunnen hebben op de behandeluitkomst. Anders gezegd, welke kenmerken van de cliënt, therapeut of context kunnen bijdragen aan het resultaat. Naast de verklaring van hoofdeffecten van de onderzochte behandeling, kunnen er door middel van deze strategie ook interactie-effecten onderzocht worden. De vraag welke therapie het best werkt voor wie, kan door middel van deze strategie beantwoord worden.
Treatment-Mediator Strategie
Hierbij wordt er getracht te onderzoeken hoe er door middel van therapie verandering teweeg gebracht kan worden binnen een individu. Er wordt binnen de sessies gekeken naar interacties tussen cliënt en therapeut.
Een onafhankelijke variabele wordt bij een experiment gemanipuleerd door de ene conditie op een andere manier te behandelen dan de andere conditie. Het is van belang dat de manipulatie een goede test voor de gestelde hypothese is; condities moeten op de bedoelde manier gemanipuleerd zijn, de manipulatie moet gelijk zijn tussen deelnemers in de conditie. Toezicht op de manipulatie is belangrijk voor construct validiteit (de mate waarin de interventie verantwoordelijk is voor de gevonden resultaten) en statistische conclusie validiteit.
Het checken van de experimentele manipulatie is vooral nuttig bij klinisch onderzoek om te onderzoeken of de onafhankelijke variabele is uitgevoerd zoals de bedoeling is en om de bepalen of subjecten blootgesteld zijn aan condities zoals de bedoeling is. Deze onderzoeken zijn van groot belang bij studies waarbij het mogelijk is dat de experimentele conditie niet volledig nageleefd is. Er wordt in het boek gesteld dat de beste check van de onafhankelijke variabele simpelweg de afhankelijke variabele is, deze moet immers naar aanleiding van aanpassingen in de onafhankelijke variabele veranderen.
Er zijn verschillende types manipulatie. Ten eerste kan de manipulatie gebaseerd zijn op de variatie van informatie tussen de deelnemers in verschillende condities. In dit geval is de manipulatiecheck vrij recht door zee. Er wordt gecheckt of de informatie aangereikt, ontvangen en geloofd wordt door de deelnemers. Het succes van de manipulatie kan (in de meeste gevallen) aan de hand van een self-report vragenlijst na worden gegaan. Hierbij is het de bedoeling dat er bij de experimentele groepen afwijkende patronen ontstaan. Ten tweede kan er variatie zijn in het gedrag en ervaringen van de deelnemers. Een manipulatie bestaat vaak uit het doen van iets; een taak uitvoeren of een bepaalde staat ervaren. De manipulatiecheck bestaat dan uit de vraag of een bepaalde taak de geobserveerde verandering teweegbrengt. Er wordt gekeken of de taken zijn verstrekt en zijn uitgevoerd op de manier zoals bedoeld. Assessment kan op verschillende manieren, afhankelijk van wat de deelnemer moet doen (bijv. door middel van self-report als de taak niet door anderen te observeren is). Ten derde kan er variatie zijn in de interventie tussen de condities. Hierbij worden de condities waaraan deelnemers worden blootgesteld gevarieerd (bijv. blootstellen aan verschillende soorten therapie). Van belang is de evaluatie van de mate waarin de behandeling is uitgevoerd zoals bedoeld (volgens protocol), de treatment integrity/ treatment fidelity. Dit vergroot de mogelijkheid van interpretatie van de bevindingen, zelfs wanneer verschillen in behandeluitkomsten niet van belang zijn. Om de treatment validity te bepalen stelt men eerst een zeer gespecificeerd behandelplan samen, vervolgens wordt de therapeut getraind op technieken specifiek voor deze behandeling en tot slot wanneer de behandeling begonnen is, is er sprake van casus supervisie om het afdwalen van de behandeldoelen te voorkomen.
Ervaring wordt vaak gezien als een criterium voor het adequaat uit kunnen voeren van therapieën. Ervaring alleen is echter niet voldoende om een specifieke techniek of behandeling volgens plan uit te kunnen voeren.
Aan de hand van checklijsten, ratingschalen en audio of videotapes kan men de treatment validity bepalen. Er wordt bekeken hoe de implementatie van de behandeling is voltrokken. Soms moet er sprake zijn van de aanwezigheid van bepaalde processen na afloop van behandeling (bijv. verbetering van het zelf-concept), terwijl in andere gevallen al gesproken wordt van adequate behandeling wanneer de cliënt een bepaald level van een proces (afname van angst) heeft behaald.
Als de data laat zien dat de onafhankelijke variabele naar behoren is gemanipuleerd, sterkt dit het vertrouwen in de vondst van deze resultaten. Wanneer er in zulke gevallen (dus een wel goed gemanipuleerde onafhankelijke variabele) niet de verwachte resultaten (geen verschil tussen groepen) worden gevonden, kan de onafhankelijke variabele handig zijn bij het interpreteren van de resultaten. Het is belangrijk om de vraag te stellen of de onafhankelijke variabele op een dergelijke manier gemanipuleerd is, zodat de verschillende condities goed doorgekomen zijn bij de deelnemers. Men moet weten of de deelnemers de instructies gehoord, begrepen en geloofd hebben. Wanneer dit allemaal het geval is er en door de manipulatie geen effect wordt bereikt, kan dit simpelweg ook betekenen dat de interventie geen invloed op de uitkomst heeft gehad.
Naast de handigheid van de manipulatiecheck bij het vinden van geen effect, is deze check ook handig om te verzekeren dat de condities van een studie daadwerkelijk te onderscheiden zijn. Overlap tussen de condities heeft niet direct desastreuze gevolgen, zolang de onderscheidende gebieden van de condities goed aangegeven zijn en deze bevestigd zijn in de manipulatiecheck. Het is belangrijk om af te vragen of de behandelingen correct zijn uitgevoerd en te onderscheiden bleven op de belangrijke (en dus vastgelegde) dimensies. Dit wordt bedoeld met de term behandeling differentiatie (treatment differentiation). Het aantonen dat de behandelingen in een studie van twee of meer behandelingen inderdaad te onderscheiden zijn op de belangrijke individuele dimensies.
Uit onderzoek is gebleken dat het lastig is om behandeling strikt uit te voeren. Behandelaars die beide behandelingen geven, passen vaak de technieken van de ene therapie ook (ongemerkt) toe in de andere behandeling en vice versa.
Het checken van de manipulatie kan, naast helpen bij de interpretatie van de resultaten, ook handig zijn bij het opstellen van toekomstig onderzoek. Er kunnen echter onduidelijkheden ontstaan tussen hetgeen de manipulatiecheck laat zien en de metingen van de afhankelijke variabele. Wanneer de resultaten geanalyseerd zijn, kan er op twee manieren worden gekeken of de interventie afdoende was uitgevoerd. Ten eerste kan dit via de manipulatiecheck en ten tweede via de afhankelijke variabele. Deze twee bronnen kunnen overeenkomen (beiden laten wel/geen effect zien) of niet overeenkomen (een laat wel een effect zien, de ander niet). Hier zijn vier verschillende combinaties voor:
Effecten op zowel de manipulatiecheck als de afhankelijke variabele. Hierbij kan geconcludeerd worden dat de interventie het bedoelde effect had op het meetinstrument dat de manipulatiecheck controleerde (deelnemers hebben instructie gehoord, begrepen en geloofd). Tevens had de onafhankelijke het gewenste effect op de afhankelijke variabele. In dit geval doen zich weinig tot geen interpretatie problemen voor.
Geen effecten op zowel de manipulatiecheck als de afhankelijke variabele. Ook in dit geval worden er weinig tot geen interpretatie problemen verwacht. Uit de manipulatiecheck komt naar voren dat de onafhankelijke variabele niet het bedoelde effect heeft uitgehaald bij de deelnemers (de interventie is op de een of andere manier ‘gemist’ of de interventie was te zwak van aard). Ook de afhankelijke variabele laat geen effect zien. Dit resultaat is van grote betekenis, omdat dit laat zien dat er nog werk te verzetten valt om de experimentele manipulatie te perfectioneren, zodat de manipulatie niet meer ‘gemist’ kan worden. De gestelde hypothese kan in dit soort onderzoeken niet echt getest worden.
Effect op de manipulatiecheck, maar niet op de afhankelijke variabele. In deze gevallen wordt er op de manipulatiecheck duidelijk dat de deelnemers de interventie goed tot zich hadden genomen, maar dat de afhankelijke variabele hier vervolgens geen effect van heeft doorgekregen. Dit staat gelijk aan een succesvolle operatie, waarbij de patiënt toch overleed in de medische wereld. Deze vondst kan betekenen dat de getoetste hypothese niet ondersteund wordt en dat er misschien zelfs geen relatie tussen de onafhankelijke en afhankelijke variabele valt te detecteren. Echter, dit toont niet aan dat er geen relatie tussen de variabelen bestaat. Het kan zijn dat deze relatie wel degelijk bestaat, maar dat de huidige manipulatie niet sterk genoeg was om deze relatie te laten zien.
Geen effect op de manipulatiecheck, maar wel op de afhankelijke variabele. In deze gevallen komt er naar voren dat de onafhankelijke variabele niet naar behoren is gemanipuleerd, maar er desondanks toch een effect op de afhankelijke variabele is gevonden. Dit is een slecht scenario, omdat dit de aanwezigheid van confounds aanzienlijk versterkt. De afhankelijke variabele kan veranderd zijn door andere redenen dan de manipulatie van de onafhankelijke variabele. Het gevonden resultaat kan het gevolg van kans zijn. Er kan hier sprake zijn van een Type I error (er wordt een effect gevonden, terwijl deze in de werkelijkheid niet aanwezig is). Een andere reden kan zijn dat de slechte uitkomst van de manipulatiecheck aantoont, dat er problemen zijn met het meetinstrument zelf. Vele checks zijn grotendeels gebaseerd op indrukvaliditeit (face validity). Dit houdt in dat de onderzoeker denkt dat de test valide is, maar hier geen bewijs van aantoonbaar is. Naast het probleem van indrukvaliditeit, kan er tevens sprake zijn van onduidelijke items die de manipulatie moesten checken. Het kan zijn dat de deelnemers de manipulatie wel gehoord hebben, maar niet beseft hebben dat deze relevant was, waardoor de manipulatie mislukt is. Kortom, er is een scala aan redenen te bedenken voor deze uitkomst. Het Het verschil tussen de twee variabelen komt vaak in de weg te staan bij de interpretatie van de resultaten.
Door de afname van de manipulatiecheck komen er vaak onduidelijkheden van de studie aan het licht, wat wellicht leidt tot het ontmoedigen van gebruik van dit soort meetinstrumenten.
Bij het gebruiken van manipulatiechecks kunnen zich problemen voordoen. Er kan sprake zijn van reactiviteit van de assessment, hierbij verhoog je -door het uitvoeren van de manipulatiecheck- het eventuele vermoeden van een deelnemer over het experiment wat normaliter niet het geval zou zijn geweest. Hierdoor maak je deelnemers sensitiever voor de manipulatie, wat niet de bedoeling is. Wanneer er sprake is van een subtiele manipulatie zal een onderzoeker dan ook niet kiezen voor het direct checken van de manipulatie (behalve als er onopvallende maten worden afgenomen), dit kan na afloop van het meten van de afhankelijke variabele(n). Door het na afloop checken van de manipulatie heb je geen last van de reactiviteit, maar is de kans dat er geen verschil tussen de groepen qua manipulatie wordt gevonden groter dan wanneer men dit direct na de manipulatie zou doen. Dit probleem kan opgelost worden door de manipulatie te checken in een pilot. Een pilot is een test om de aspecten van de manipulatie te bekijken. Er wordt gekeken of deze werken, haalbaar zijn en een effect hebben, voordat de ‘echte’ studie is begonnen. Er kan hierbij een beroep worden gedaan op een focusgroep. Dit zijn individuen die op een bepaald gebied zeer bedreven zijn en kunnen helpen vaststellen wat er invloed kan hebben op het gebied waar onderzoek naar wordt gedaan.
Er moet bij ieder onderzoek worden afgevraagd of het checken van de manipulatie wel nut heeft. Niet alle effectieve manipulaties werken op basis van het bewuste van de deelnemer.
Naast het checken van de onafhankelijke variabele moet er ook bekeken worden of er sprake is van andere variabelen welke veranderd kunnen zijn tijdens het experiment. Deze kunnen alternatieve verklaringen voor het gevonden resultaat vormen. Het is lastig om van te voren te bedenken welke ‘extra’ variabelen meegenomen moeten worden in de assessment. Als doel wordt gesteld alle variabelen welke de interpretatie van de resultaten kunnen verbeteren, mee te nemen in de assessment.
Voor sommige deelnemers zal de experimentele conditie goed gemanipuleerd zijn en voor anderen niet (sommigen verbeteren wel van therapie, anderen niet). Als onderzoeker mag je echter niet alleen de ‘positieve’ gevallen meenemen in de analyses, dit zou leiden tot subject-selection bias. Een analyse waarin wel alle deelnemers zijn meegenomen (ook degenen die tijdens het onderzoek zijn uitgevallen) heet een intent-to-treat analysis. Dit is een meer conservatieve test voor het onderzoeken van de effecten van de interventie. In het geval van uitval kan de pre-treatment data bijvoorbeeld gebruikt worden als tevens posttreatment data. Zo is er sprake van inclusie van alle deelnemers, waardoor subject-selection bias onmogelijk wordt. Het vormt een meer conservatieve test, de effecten die gevonden worden, moeten bewerkstelligd zijn door de sterke interventie.
Bij observationeel onderzoek zijn de variabelen door de natuur gemanipuleerd en onderzoekt een onderzoeker de impact van deze variabelen door het selecteren van deelnemers wie in het bezit zijn van de te onderzoeken karakteristiek. De taak van de onderzoeker is het observeren van verschillende karakteristieken en aanverwanten er van, in plaats van het experimenteel aanpassen van situaties. Er is een sterke voorkeur binnen de onderzoekswereld voor experimenteel, maar door verschillende factoren wordt deze voorkeur verminderd:
Vragen bij verschillende psychologie domeinen en andere disciplines zijn niet te onderzoeken met behulp van een experimentele opzet.
De invloed van andere disciplines hebben het aantal strategieën binnen psychologisch onderzoek verbreed (met name epidemiologie en de volksgezondheid hebben er grote invloed op gehad).
De model binnen de wetenschap zijn op een manier veranderd waardoor er waarde gehecht kan worden aan observationeel onderzoek. Experimenteel onderzoek is vaak ingeperkt door slechts manipulatie van één of twee variabelen op een bepaald moment. Observationeel kan echter verschillende variabelen meenemen, bestuderen en de invloeden van en op elkaar bekijken.
Data analyse technieken zijn verbeterd, waardoor er meer passende uitspraken betreffend observationeel onderzoek gedaan kunnen worden.
Binnen ieder observationeel design worden groepen (zonder dat er sprake is van randomisatie) bestudeerd en de invloeden zijn niet direct door de onderzoeker gemanipuleerd. Er wordt binnen dit onderzoek vaak gezocht naar dosis-respons relaties.
Een case control design is een manier van onderzoek waar de onderzoeker bepaalde karakteristieken wil onderzoeken. Hiervoor worden deelnemers die verschillen op deze karakteristiek vergeleken met deelnemers die de karakteristiek niet hebben. Het meest simpele design bestaat dus uit twee groepen, de ene groep bezit de karakteristiek wel (cases) en de andere groep niet (controls). Hierbij is de onafhankelijke variabele het criterium dat heeft gezorgd voor de selectie van deelnemers (dit kan een ervaring zijn in het heden of verleden of bepaalde status). Er worden twee varianten van case control design besproken, cross-sectioneel design en het retrospectieve design.
Het cross-sectionele case-control design is het meest gebruikte design binnen de psychologie. Hierbij worden deelnemers geselecteerd op basis van een bepaalde karakteristiek die op dit moment wel (cases) of niet aanwezig is (controls). Het doel van een dergelijk design is het onderzoeken van factoren die geassocieerd kunnen worden met de onderzochte karakteristiek. Alle metingen worden op één moment verkregen, waardoor er uit dit soort design alleen correlationeel bewijs naar voren komt. Men kan niet uitmaken of de uitkomst voorafgegaan of veroorzaakt is door een karakteristiek, er is namelijk geen sprake van een tijdslijn binnen dit onderzoek. Dit design wordt vaak gebruikt voor het ontwerpen van theorie en concrete hypotheses welke dieper onderzocht worden binnen andere designs. Veel van dit soort onderzoek leidt tot experimenteel onderzoek, waarbij een karakteristiek wordt getest op de eventuele (verwachte) causale rol bij de ontwikkeling van een uitkomst.
Het retrospectieve case-control design heeft als doel het maken van inferenties over een conditie welke heeft geresulteerd in of verbonden is met de uitkomst. Er wordt geprobeerd een tijdslijn te maken tussen eventuele oorzaken en risico factoren en een uitkomst. Binnen dit onderzoek kunnen er problemen ontstaan bij het ordenen van de constructen, de richting hiervan. A kan leiden tot B, maar dit kan ook andersom het geval zijn. Tevens kan er sprake zijn van een invloed van buitenaf (C).
Er kunnen door middel van dit design correlaties gemaakt worden. Bij sommige studies wordt er gebruik gemaakt van ‘historical records’ (schoolabsentie, deelname aan schoolactiviteiten etc.). Hierbij kunnen er problemen ontstaan bij het interpreteren van de gevonden resultaten door de slechte kwaliteit, betrouwbaarheid en compleetheid van de data.
Retrospectieve rapportage over psychologische staten (mentale gezondheid, moeilijkheden tijdens kindertijd), duur, niveau en data van bepaalde evenementen zijn niet bepaald betrouwbaar. Dit in tegenstelling tot rapportage over discrete gebeurtenissen (aantal verhuizingen) en meer stabiele karakteristieken zijn meer betrouwbaar, maar nog niets niet de volledige 100%.
Er zijn voor,- en nadelen te beschrijven van case control designs. Deze zijn terug te vinden in tabel 9.1 op blz. 163. Voordelen zijn:
Het design is geschikt om niet vaak voorkomende condities te bestuderen (door middel van het zoeken van geschikte deelnemers).
Het design is haalbaar en efficiënt als er gekeken wordt naar kosten en gebruikte bronnen.
Het verlies van deelnemers (attrition) is hier geen probleem, in tegenstelling tot longitudinale designs. De metingen worden in zijn geheel verkregen op een tijdstip.
Het design kan meer laten zien dan slechts een relaties tussen variabelen (correlatie), ook de grootte en het type van de relatie kan duidelijk worden.
Nadelen zijn:
Het design laat correlaties tussen variabelen zien en de richting daarvan, maar de richting hoeft helemaal niet duidelijk te zijn. Er bestaat vaak onduidelijkheid over welke variabelen gerelateerd zijn aan welke (welke ging vooraf aan welke variabele of welke variabele wordt veroorzaakt door welke variabele).
De causale relatie tussen de ene karakteristiek en de andere karakteristiek kan niet gedemonstreerd worden. Het design is echter wel geschikt om hier hypotheses over en bij te vormen.
Doordat men het sample zelf samenstelt en er geen sprake is van randomisatie, kan er sprake zijn van selectie bias. Deze bias kan de relaties tussen variabelen beïnvloeden. Het selecteren van deelnemers moet dan ook met grote zorg gedaan worden. Wanneer de sample bestaat uit vrijwillig aangemelde deelnemers bij een kliniek voor alcoholproblemen, hoeft deze sample niet representatief te zijn voor alle mensen met alcoholproblemen. De generalisatie kan hierdoor ernstig verzwakt worden.
Cohort designs zijn onderzoeksmethoden waarbij de onderzoeker een groep over tijd bestudeerd. Deze methode wordt soms aangeduid als longitudinaal en prospectieve studie. De kracht van een cohort design zit hem in de mogelijkheid tot het vaststellen van relaties tussen voorafgaande gebeurtenissen en uitkomsten, men kan een tijdslijn garanderen. Het aantonen van een gebeurtenis voorafgaand aan een uitkomst betekent niet direct een causale relatie, maar wel inzicht hierin. Er zijn twee grote verschillen aan te wijzen tussen cohort design en case control design, namelijk:
Cohort design gebruikt de tijd als identificatiefactor van bepaalde factoren welke kunnen leiden tot een uitkomst.
Cohort design samplet deelnemers al vóórdat de uitkomst plaatsgevonden heeft, terwijl cases worden uitgezocht op het meemaken of bezitten van een bepaalde uitkomst.
Er worden drie varianten op het cohort design besproken: een single-group cohort design, een multigroup cohort design en een accelerated, multicohort longitudinal design.
Een single-group cohort design houdt in dat deelnemers allemaal beschikken over een bepaald criterium (geboren in bepaald jaar). Er wordt onderzoek gedaan naar het ontstaan van een nog te ontwikkelen uitkomst op een later tijdstip (een stoornis, verslaving, succesvol in werk, bekende Nederlander worden etc.). De basis van dit ontwerp bestaat uit metingen op minstens 2 tijdstippen en een toereikend sample welke over tijd veranderen op de uitkomst waar onderzoek naar wordt gedaan. Een voorbeeld is de geboorte cohort studie, waarbij deelnemers geselecteerd worden op het geboortejaar en gevolgd wordt gedurende een bepaalde periode.
Naast de begin,- en eindmeting, zijn tussentijdse metingen zeer informatief. Deze kunnen inzicht geven in de stappen die worden genomen om bij bepaalde uitkomsten terecht te komen. Er kunnen ideeën worden opgedaan hoe een stoornis ontstaat (theorie), welke factoren beschermend werken, welke risicofactoren zijn en wat er gedaan kan worden om de pathologische ontwikkeling tot bedaren te brengen (preventie).
Een multigroup cohort design is een prospectieve studie waarin minstens twee groepen op een bepaald tijdstip gevormd worden en worden gevolgd over een bepaalde tijdsspanne om bepaalde uitkomsten te bestuderen. De ene groep wordt geïdentificeerd aan de hand van het ervaren van een bepaalde ervaring, conditie of karakteristiek. De andere groep bezit deze eigenschappen niet.
Een accelerated multicohort longitudinal design is een prospectieve, longitudinale studie waarin verschillende groepen (minstens 2 cohorten) bestudeerd worden op een afwijkende manier dan wat er hierboven beschreven is. De cohorten binnen deze studie verschillen qua leeftijd wanneer deze aan het onderzoek beginnen. Er wordt gebruik gemaakt van het woord accelerated, omdat dit onderzoek versneld resultaten kan vinden over een langere periode.
Dit is mogelijk, omdat de verschillende groepen, ieder een deel van de ontwikkeling binnen een bepaalde leeftijd vertegenwoordigen. De overlap tussen de cohorten kan gebruikt worden om een volledige ontwikkeling te kunnen beschrijven als onderzoeker. Dit design kan twee belangrijke punten detecteren:
Karakteristieken van bepaalde cohorten welke te wijden zijn aan historische invloeden of speciale kenmerken van een periode waarin een cohort onderzocht is. De gevonden effecten kunnen dan te wijden zijn aan het feit dat deelnemers wel of geen beschikking hadden over factoren welke invloed kunnen hebben op de uitkomst. Tevens blijft de cultuur veranderen, wat ook invloed kan hebben op de effecten binnen cohorten. Het is goed denkbaar binnen een single-group cohort design dat er sprake is van invloed van de periode waarin de studie is uitgevoerd. Binnen een accelerated multicohort longitudinal design kan men een betere scheiding maken tussen invloed door de geschiedenis en door de persoonlijke ontwikkeling
Deze vorm van onderzoek maakt het meest lastige deel van onderzoek relatief gemakkelijk: onderzoek gedurende een langere periode. Normaliter kampt men met grote uitval rate, maar doordat dit een versnelde studie is, is hier minder sprake van.
Ook cohort designs kennen voor,- en nadelen, de volledige lijst is terug te vinden in tabel 9.2 op blz. 173. De voordelen zijn:
De mogelijkheid van een tijdslijn tussen zogenaamde risicofactoren/oorzaken en de daadwerkelijke uitkomst.
Mogelijkheid tot nauwkeurige indicatie van de onafhankelijke variabele. Aangezien de uitkomst nog niet gebeurd is, kan men met zekerheid stellen dat deze de metingen niet vertroebeld heeft.
De methode is prospectief en metingen zijn op meerdere momenten afgenomen, waardoor er een meer gedetailleerd beeld ontstaat over de variabelen.
Mogelijkheid om een groot aantal variabelen te onderzoeken gedurende een langere periode binnen groepen welke wel en niet in het bezit zijn van de karakteristiek waar de onderzoeker nieuwsgierig naar is. Tevens is er de mogelijkheid om binnen de condities subgroepen te vormen en zo meer informatie op te doen over de eventuele interactie-effecten.
De methode is geschikt om risicofactoren, beschermende factoren en causale factoren te identificeren.
De nadelen van dit design zijn:
De duur van het experiment.
De hoge kosten van longitudinaal onderzoek.
Gevaar van grote proefpersoon uitval (attrition), waardoor er een selection bias in het resterende sample kan ontstaan.
De mogelijkheid van cohort effecten (de gevonden resultaten gelden specifiek voor de onderzochte groep).
De variabele waar men onderzoek naar wil doen, kan een lage base rate in de populatie hebben.
Men moet bij observationeel onderzoek altijd rekening houden met de construct validiteit, dat wil zeggen, in hoeverre de resultaten terug te voeren zijn naar het construct dat onderzocht wordt. Daarbij zijn de specifiteit van een construct, het selecteren van groepen en de richting en het type invloed van belang.
Specifieke variabelen ( sociale support patronen, patronen van sociale interactie) worden verkozen boven brede, globale variabelen (leeftijd, sekse). Hoe specifieker een variabele, hoe beter van een beschrijving van de relatie tot een verklaring van een fenomeen kan worden gekomen. Brede variabelen worden vaak gebruikt aan het begin van een studie. Naarmate de studie vordert, zullen ook de variabelen steeds specialistischer worden.
Het operationaliseren van constructen is van belang om de specifieke, onderscheidende criteria aan te kunnen geven tussen experimentele condities en controle condities. Wanneer constructen vaak gebruikt worden en op dezelfde wijze zijn geoperationaliseerd, kunnen vaak dezelfde meetinstrumenten worden gebruikt. Dit zorgt ervoor dat de studies onderling goed met elkaar vergeleken kunnen worden, maar dat er tegelijkertijd problemen kunnen ontstaan met de generalisatie. Het is van belang dat het meetinstrument consistent en accuraat meet hoe individuen geclassificeerd worden. Wanneer er sprake is van diffusie binnen een meetinstrument, betekent dit dat zowel de cases als de controls in dezelfde groepen terecht kunnen komen in plaats van specifiek in de juiste groep. Wanneer het meetinstrument onbetrouwbaar lijkt, kan het verstandig zijn gebruik te maken van een grotere sample.
Bij het selecteren van deelnemers binnen psychologisch onderzoek, wordt vaak gebruik gemaakt van selectie binnen speciale settings, zoals een kliniek, school of ziekenhuis. Deze geselecteerde deelnemers kunnen, ondanks het feit dat zij in het bezit zijn van een kenmerk waar de onderzoeker geïnteresseerd in is, niet representatief zijn voor de gehele populatie met dit kenmerk. Daarnaast kan het selecteren van een juist controle sample ook problemen met zich meebrengen. Wanneer men bijvoorbeeld een sample heeft dat bestaat uit patiënten welke vergeleken worden met een control sample afkomstig uit de gemeenschap, kunnen er niet direct specifieke conclusies over de patiëntengroep worden gezegd. Het enige wat met zekerheid kan worden gesteld bij het vinden van verschil tussen de groepen, is dat er daadwerkelijk verschil is. Om meer specifieke informatie te kunnen verschaffen is het toevoegen van andere condities nodig. Het is belangrijk om het te onderzoeken construct zoveel mogelijk ‘in te bouwen’, waardoor alternatieve verklaringen schaars worden. De taak van de controle groep moet daarom zoveel mogelijk bedacht zijn door de onderzoeker, zodat daar specifiek deelnemers op geselecteerd kunnen worden.
Bij het samenstellen van groepen kunnen er variabelen zijn welke eventueel gebiased zijn. Confouds kunnen op verschillende manieren bekeken worden. Vanuit het opzicht van een design, kunnen deelnemers gematched worden op variabelen welke risico op confounds lopen. Tevens kan er gekozen worden voor het statistisch gezien rekening te houden met eventuele confounds, dit kan door middel van partiële correlatie en een ANCOVA.
Er zijn een aantal factoren waar men bewust van dient te zijn wat betreft conclusies over tijdslijnen en het type van de gemaakte conclusie. Bij de aanwezigheid van een tijdslijn moet men rekening houden met de inferenties die wel en niet gemaakt kunnen worden. De meest gemaakte fout is het beschrijven van een causaal effect, wanneer er binnen een design niets gezegd is over een tijdslijn. Bij sommige statistische analyses wordt er gebruik gemaakt van termen als voorspellers (predictors) en uitkomsten (outcomes), waardoor de verleiding groot wordt om deze terminologie, ten onrechte, over te nemen.
Al met al dient men goed op de hoogte te zijn van de manier van sampling, groepsformatie, het design en de data analyses om juiste statements te verschaffen over de gevonden resultaten.
Assessment is een belangrijk onderdeel binnen wetenschappelijk onderzoek. Meestal wordt assessment gebruikt om verschillende metingen te vergelijken om zo een hypothese te testen. Echter, assessment kan gebruikt worden om de onafhankelijke variabele te indiceren, mediators en interveniërende processen te indiceren en zoals boven genoemd, de afhankelijke variabele te indiceren.
De selectie van meetinstrumenten voor onderzoek wordt gebaseerd op de construct validiteit van het instrument, de psychometrische eigenschappen en de sensitiviteit van het instrument.
Voor het kiezen van een juist meetinstrument is het van belang dat dit instrument bewezen het construct waar onderzoek naar gedaan wordt ook daadwerkelijk meet. Construct validiteit is de mate waarin een instrument daadwerkelijk het domein, de trek of karakteristiek van interesse meet. De manier hoe een meetinstrument reageert in verschillende situaties kan aangegeven worden met de psychometrische eigenschappen zoals betrouwbaarheid en validiteit van het instrument. Met betrouwbaarheid wordt doorgaans de consistentie van het instrument bedoeld. Validiteit wordt gebruikt om de mate weer te geven waarin het instrument daadwerkelijk meet wat het veronderstelt te meten. In tabel 13.1 op blz. 195 staan een aantal vormen van betrouwbaarheid en validiteit weergegeven. Wanneer het bekend is dat meetinstrumenten op een betrouwbare en valide manier een bepaald construct meten, neemt het vertrouwen wat betreft de interpretatie van de resultaten toe. De sensitiviteit van een meetinstrument geeft weer wat de capaciteit van het instrument is om veranderingen door interventie, manipulatie of verschillende groepscomposities te detecteren. De mate waarin een instrument verandering detecteert is lastig om te bepalen voor aanvang van een onderzoek. Echter, het wordt op prijs gesteld wanneer de afhankelijke variabele een relatief grote range van responses toestaat, zodat veranderingen sneller gedetecteerd kunnen worden. Daarnaast is het handig wanneer er bij extreme scores ook de mogelijkheid bestaat om deze in omgekeerde richting te kunnen detecteren. Over het algemeen kan er gesteld worden dat het wenselijk is dat plafond,- en bodemeffecten voorkomen kunnen worden.
Wanneer de sensitiviteit wél van tevoren vastgesteld is, brengt dit voordelen met zich mee. Zo kan er bijvoorbeeld gesteld worden dat het gebrek aan relatie tussen onderzochte variabelen daadwerkelijk bestaat en niet het gevolg is van de gebrekkige sensitiviteit van het meetinstrument.
In de meeste gevallen kiest een onderzoeker een gestandaardiseerd meetinstrument voor zijn onderzoek, waarvan de psychometrische eigenschappen bekend zijn. Deze instrumenten zijn doorgaans oneindig vaak toegepast in uiteenlopende settings. Dit betekent echter niet dat er geen sprake is van ambiguïteit bij een dergelijk meetinstrument. Bij het gebruiken van zo’n instrument moet de onderzoeker zich altijd afvragen of het instrument exact dat meet, wat de onderzoeker tracht te onderzoeken.
Wanneer een onderzoeker een gestandaardiseerd meetinstrument bij een populatie waar het instrument nog niet bij gebruikt is, is het van belang om psychometrische eigenschappen te bepalen binnen de nieuwe populatie en deze weer te geven. Bovendien is het handig weer te geven dat het instrument ook in een andere populatie het construct van interesse meet. Deze manier wordt vaak verkozen boven het creëren van een nieuw instrument, omdat er al onderzoek naar het bestaande instrument bestaat. Naast het toepassen van een instrument in een nieuwe populatie, kan er ook gekozen worden om een gestandaardiseerd instrument te gebruiken, maar deze enigszins aan te passen. Dit is prima, zolang er data weergegeven wordt wat betreft de betrouwbaarheid en validiteit van de aangepaste versie in vergelijking met het origineel.
Wanneer een te onderzoeken construct nieuw is in de onderzoekswereld, is de kans groot dat er geen gepast meetinstrument voor bestaat. In deze situaties is de onderzoeker genoodzaakt om een instrument te construeren. Hierbij moeten er minimaal een paar verschillende vormen van validiteit bij weergegeven worden, om zo de werkzaamheid aan te tonen.
Doorgaans is het aan te raden om meer dan één meetinstrument te gebruiken, welke een verschillend methodologisch karakter hebben, om het construct te meten. Wanneer dit gebeurt, kan de onderzoeker er zeker van zijn dat gevonden resultaten niet slechts te vinden zijn bij het gebruik van bepaalde instrumenten, maar algemeen geldend is. In tabel 13.2 op blz. 203 staan verschillende types van metingen weergegeven.
Globale Ratings
Door middel van deze rating wordt er geprobeerd een impressie te verkrijgen over algemene karakteristieken. Doorgaans worden deze ratings gedaan door een therapeut of een iemand in nauw contact met een cliënt. Bijna ieder construct kan via deze manier assessed worden, deze manier van assessment is dan ook redelijk populair. Het probleem van deze methode is de weergave van wat deze precies meten. Er bestaat een suggestie, maar geen zekerheid dat dit ook daadwerkelijk gemeten wordt. Bovendien kan er sprake zijn van instrumentatie (veranderingen binnen de meet procedures of criteria over een bepaalde periode). Hierdoor wordt de interne validiteit van het instrument bedreigd. Daarnaast kunnen er problemen op hoog niveau, waardoor vele details verloren raken. De instrumenten zijn vaak ‘homemade’ waardoor stellingen vaak gebaseerd zijn op indrukvaliditeit, in plaats van gegronde argumentatie. De globale aard van de ratings brengen met zich mee dat er ook alleen globale conclusies kunnen worden getrokken.
Zelf-rapportage, Vragenlijsten en Schalen
Deze vormen van assessment zijn de meest gebruikte vormen. De bedoeling van deze metingen is het weergeven van aspecten van persoonlijkheid, emoties, cognities en gedrag van de cliënt door de cliënt zelf. Sommige domeinen van functioneren kunnen alleen door zelf-rapportage weergegeven worden, waardoor dit een uitkomst vormt. Tevens kunnen deze gegevens gemakkelijk verkregen worden.
De antwoorden op stellingen of vragen kunnen ernstig beïnvloed worden door de woordkeuze, format en volgorde van de items. Hier moet een onderzoeker rekening mee houden bij afname. Tevens bestaat er een kans op bias of vertekening door de deelnemers. Deelnemers kunnen bewust andere antwoorden geven, omdat zij zichzelf op een andere manier dan werkelijk willen weergegeven. Dit heeft te maken met sociale wenselijkheid, men geeft antwoorden welke de deelnemers verwacht dat het meest normaal zijn. Bovendien kunnen deelnemers de tendens hebben om met items in te stemmen, zonder naar de inhoud te kijken of extreme scores aan te geven.
Wanneer deelnemers op de nameting meer extreme scores aangaven dan in werkelijkheid het geval was en bij de nameting een te overmatige positieve reactie laten zien, wordt er gesproken van het hello-good-bye-effect. Dit is echter lastig om vast te stellen.
De vormen van gedrag komen voort uit de wetenschap van deelnemers dat zij beoordeeld worden. Het gedrag zal altijd iets anders zijn, dan wanneer er geen sprake van beoordeling is (of men zich hier niet bewust van is).
Projectieve Technieken
Projectieve technieken is een speciale klasse van metingen welke onderliggende intrapsychische karakteristieken, motieven, processen, stijlen, thema’s en bronnen van sociaal conflict probeert bloot te leggen. Dit wordt geprobeerd door het aanbieden van ambigue stimuli aan deelnemers, waar de deelnemers vervolgens vrij over mogen projecteren (Rorschach en de Thematic Apperception Test). De reacties kunnen vervolgens ingedeeld worden in verschillende thema’s en de scores op deze thema’s zeggen dan wat over de persoon.
Deze methode wordt niet vaak gebruikt en is vaak onder vuur genomen. Dit komt, omdat veel projectieve technieken gebaseerd zijn op ideeën van de grondlegger en scores complex zijn en inconsistent zijn over verschillende therapeuten. Door deze moeilijkheden kiezen onderzoekers vaak een ander (handiger) meetinstrument.
Directe Observaties van gedrag
Directe observaties betreffen het vastleggen van gedrag van een individu in alledaagse situaties en leggen specifieke responsen bloot. Dit kan gebeuren in de natuurlijke omgeving van een cliënt of in een meer gestructureerde omgeving (lab). Observatie in de natuurlijke omgeving vergoot de externe validiteit, maar is niet altijd haalbaar, omdat bepaald gedrag een lage base rate kent of privé is. Binnen een gestructureerde omgeving wordt er vaak gebruik gemaakt van rollenspellen om het gedrag waar onderzoek naar wordt gedaan tot uiting te laten komen.
Omdat het gedrag direct geobserveerd wordt, lijken de metingen een duidelijke index van het probleem. Toch hoeft het geobserveerde gedrag niet representatief te zijn voor het gedrag dat normaliter wordt vertoond gedurende een dag. Dit probleem kan verholpen worden door random periodes binnen een dag te selecteren en alleen deze stukken gebruiken voor de assessment. Ook hier kan het bewustzijn van observatie de resultaten vertroebelen.
Psycho-biologische Metingen
Onder psycho-biologische metingen verstaat men de technieken welke gebruik maken van het evalueren van biologische substraten van affect, cognitie en gedrag of de links hier tussen. Metingen kunnen op uiteenlopende manieren verkregen worden: op een non-invasieve manier (hartslag meten, bloeddruk en ademhaling registreren), op een middelmatig invasieve manier (seksuele arousal meten) en door het afnemen van speeksel of bloed. Ook het meten van de biochemie wordt vaak toegepast (bijvoorbeeld het meten van het cortisol niveau). Psycho-biologische metingen zijn geen zwakke toevoegingen aan assessment, maar vormen een sterke batterij op zichzelf binnen klinisch onderzoek.
Men kan echter met het meten van fysiologische trekken de respons systemen niet gelijk stellen aan psychologische staten. Tevens bestaan er aanzienlijke verschillen tussen individuen op fysiologische maten bij eenzelfde construct. Nadelig aan deze metingen is de benodigde, dure, apparatuur welke vaak niet mobiel zijn. Technologische ontwikkelingen zullen apparatuur nog specifieker en fijner afgesteld kunnen maken.
Geautomatiseerde Assessment (Computerized Assessment)
De geautomatiseerde assessment houdt in dat computers tegenwoordig gebruikt worden voor de collectie van informatie, de scoring hiervan alsmede de evaluatie van deze informatie. Veel testen worden tegenwoordig via de computer gedaan, hierdoor kan er op een meer betrouwbare manier informatie verkregen worden (er kunnen geen vragen meer worden overgeslagen), er kan meer informatie worden verkregen en is kosteneffectief. Tevens kan een deelnemers gemakkelijk thuis deelnemen aan een studie, wordt informatie direct verzameld in een digitale database en bestaat er een grote flexibiliteit tijdens de assessment. De vooruitgang binnen de technologie voorspelt dat er nog veel meer mogelijkheden zijn wat betreft de geautomatiseerde assessment, waardoor zowel gebruiksgemak als onderzoek gemak vergroot zullen worden.
Zoals hierboven naar voren is gekomen, zijn deelnemers zich vaak bewust van de afname van metingen. Dit kan voor verstoring binnen de resultaten leiden. Deze groep van metingen wordt ook wel obtrusive measures genoemd. Wanneer er sprake is van aanpassing van het gedrag door het bewustzijn van de metingen, wordt er gesproken van reactiviteit. Binnen onderzoek naar behandelingen is het belangrijk om te weten of effecten generaliseren naar unobtrusive measures (dit zijn metingen welke voor de deelnemer onopgemerkt blijven). De veranderingen door de behandeling moet ook geldend zijn in het dagelijks leven, waar mensen over het algemeen niet het gevoel hebben gemonitord te worden.
Men kan verscheidene dingen doen om de invloed van het bewustzijn van afname van metingen te elimineren. Bij zelf-rapportage en ratings scales kan de deelnemers verteld worden dat de antwoorden anoniem zijn en niet te traceren zijn naar de deelnemer. Tevens kunnen er filler en buffer items worden toegevoegd. Hierdoor wordt het doel van de test minder duidelijk. Bovendien kan men besluiten om groepen deelnemers anders in te lichten over wat de taak inhoudt en hoe er gepresteerd zou moeten worden. Door de komst van de computer wordt het beantwoorden van sensitieve onderwerpen gemakkelijker, men vult liever dit soort informatie op de computer in.
Er bestaan verschillende soorten unobtrusive measures en deze zijn verkort weergegeven in tabel 13.3 op blz. 227.
Simpele Observatie
Dit houdt het observeren van een individu in, zonder dat deze hiervan op de hoogte is. Deze vorm van observatie is handig, omdat dit toegepast kan worden binnen iedere setting. Er ontstaan een probleem wanneer de observator als zodanig ontdekt wordt. Tevens kan het gedrag zo weinig voorkomen, dat het tijdens de observatie niet (genoeg) zichtbaar is, waardoor deze vorm van observatie kostbaar en inefficiënt wordt. Bovendien kunnen er ongecontroleerde factoren verantwoordelijk zijn voor de gevonden resultaten, waardoor de prestaties lastig beoordeeld kunnen worden.
Observatie binnen gecontroleerde situaties
Binnen een gecontroleerde situatie wordt er geprobeerd om de kans zo groot mogelijk te maken dat het gedrag waar onderzoek naar wordt gedaan naar voren te laten komen. Hierdoor wordt het probleem van niet genoeg materiaal opgelost. Het nabootsen van de natuurlijke situaties, stelt de onderzoeker in staat om factoren welke doorgaans niet gecontroleerd kunnen worden, te controleren. Het is van belang dat het onopvallende karakter van observatie behouden wordt.
Archief gegevens
Deze vorm van informatie verkrijgen is uniek in zijn soort, omdat dit toegepast kan worden zonder dat de onderzoeker hoeft te vrezen voor invloed op de ruwe data door acties van observatoren of de aanwezigheid van bepaalde verwachtingen. Er kunnen echter wel meetproblemen ontstaan. Binnen een periode kunnen de criteria voor het vastleggen van gegevens veranderen, waardoor de gegevens niet meer met elkaar te vergelijken zijn.
Fysieke sporen
Deze sporen bestaan uit slijtage (erosion) of aangroeiing (accretion) van materialen. De sporen hoeven echter niet representatief te zijn voor het gedrag van alle individuen. Tevens kunnen fysieke sporen ook problemen van reactiviteit ondervinden.
Voordelen aan unobtrusive measures is dat er additionele informatie verkregen kan worden naast de gewone methoden en dat deze vorm van metingen erg overtuigend blijkt. Echter, de bevindingen moeten met enige zorg geïnterpreteerd worden. Deze vorm van metingen kennen doorgaans weinig validerende studies, dus er is niet bekend of men werkelijk meet wat men tracht te meten. Daarnaast zijn er ethische problemen. Voordat een deelnemer begint met een studie, heeft deze een informed consent getekend, waarin staat wat er gaat gebeuren. Dit gebeurt echter (om logische redenen) niet bij unobtrusive measures. Tevens heeft een deelnemer te allen tijden recht op af te zien van deelname. Ook dit kan niet gehonoreerd worden binnen unobtrusive observation.
Een onderzoek gebruikt doorgaans meerdere meetinstrumenten om een construct te meten. Soms is één meetinstrument echter voldoende (bij het vaststellen van de dood is de hartslag meting afdoende). De meeste constructen kennen echter meerdere facetten (zoals persoonlijkheid) waardoor het niet aannemelijk lijkt, dat één enkel meetinstrument al deze facetten kan meten. Tevens kan de respons verschillen over verschillende situaties. Door meerdere metingen af te nemen, komt een onderzoeker hier meer over te weten.
Wanneer er een nieuw meetinstrument ontwikkeld is, is het van belang dat deze positief correleert met meetinstrumenten welke hetzelfde construct trachten te meten (convergente validiteit) en juist weinig tot niet correleert met instrumenten welke andere constructen meten (divergente validiteit). Dit kan achterhaald worden door de inter-relaties tussen verschillende instrumenten te berekenen. Deze gegevens worden vaak weergegeven in een multitrait-multimethod matrix.
Het meten van eenzelfde construct aan de hand van meerdere instrumenten kan echter ook nadelig zijn. De instrumenten kunnen bijvoorbeeld tot verschillende uitkomsten leiden. Dit vermoeilijkt de interpretatie aanzienlijk. Er zijn echter verklaringen te noemen voor het vinden van inconsistente resultaten:
Wanneer de assessment methodes van elkaar verschillen (true-false vs. multiple choice zelf-rapportage metingen) kan het verschil te verhalen zijn op methode variantie.
Bij persoonlijkheid is men er inmiddels van overtuigd dat dit een begrip is met meerdere facetten en daarom bij verschillende instrumenten anders uit de bus kan komen.
Meetinstrumenten welke hetzelfde construct dienen te meten kunnen verschillen door de manier waarop een deelnemer deze beantwoord. Er wordt gedacht dat er consistentie tussen instrumenten te vinden valt, wanneer een deelnemer extreme scores toont op verschillende metingen. De meeste deelnemers zijn echter gematigd qua scores, waardoor er verschillen kunnen ontstaan.
Het verschil tussen de instrumenten kan slechts weergeven dat een bepaalde onderdelen van een construct veranderen op verschillende tijdstippen. Wanneer er overeenstemming tussen de instrumenten bestaat, wordt er gesproken van synchrony. Wanneer dit niet het geval is, wordt er gesproken van desynchrony.
Onderzoek naar behandeling evalueert doorgaans het effect van de interventies aan de hand van het laten zien van statistische veranderingen tussen de voor, - en nameting (significante afname van symptomen) of door het laten zien van statistische significante verschillen (de ene therapie levert significant betere resultaten op dan de andere therapie). Klinische significantie wijst op de praktische waarde of belangrijkheid van het effect dat de interventie teweeg heeft gebracht. Hier gaat het erom of de verandering echt verschil maakt in het leven van de cliënt of naasten hiervan. De manier waarop deze maat wordt verkregen kan verschillen van de traditionele manier, meerdere factoren dan alleen afname van symptomen spelen hierbij een rol (sociaal functioneren, minder absentie op werk etc.). Er worden drie methoden besproken waarop klinische significantie verkregen kan woren; methoden welke vergelijking maken tussen samples, de subjectieve evaluatie en de sociale impact.
Aan het eind van de behandeling kan een patiënt een standaard procedure doormaken om te beslissen of de gemaakte veranderingen klinisch significant te noemen zijn. Dat kan via twee manieren, namelijk via een normatieve vergelijking (waarbij de prestatie van een patiënt vergeleken wordt met de prestatie van een ander) en via een ipsatieve vergelijking (de prestatie van een patiënt wordt vergeleken met eerdere eigen prestaties). Een vergelijking met een normatief sample probeert antwoord te krijgen of de vraag in hoeverre een patiënt na afloop van een behandeling binnen een normale range van gezondheid valt. Als patiënten na behandeling niet meer te onderscheiden zijn van een sample waarin normatieve, goed functionerende mensen wat betreft de geteste variabele, kan er gesproken worden van een klinisch significant resultaat. In veel gevallen is er echter geen normatief sample beschikbaar voor vergelijking. Er kan echter nog wel bekeken worden hoe groot de persoonlijke verandering is geweest. Naast een normatief sample kun je ook gebruik maken van een disfunctioneel sample. Hierbij wordt er aan het einde van de behandeling een vergelijking gemaakt tussen behandelde patiënten en een groep disfunctionele gevallen. Wanneer de behandeling werkzaam is, zou de patiënt aanzienlijk moeten afwijken van de scores op de geteste variabele van de disfuctionele gevallen (bijvoorbeeld 2 SD’s) voordat er gesproken kan worden van klinische significantie.
De klinische significantie kan ook verkregen worden door het eindproduct van een behandeling opnieuw te onderwerpen aan een diagnostisch gesprek, waarbij wordt nagegaan of een patiënt nog altijd voldoet aan de diagnostsiche criteria voor een bepaalde stoornis. Wanneer dit niet het geval is, kan er gesproken worden van klinische significantie.
Deze vergelijkingsmethoden roepen verschillende problemen op wat betreft het ontwerp van deze samples. Voorbeelden hiervan zijn:
Wie dient als normatieve groep? Welke verscheidenheid aan gedrag wordt opgenomen in het normatieve sample en welk gedrag niet?
Het gebruik van symptomen als maatstaaf voor klinische significantie is dubieus, aangezien deze symptomen, zij het in mindere mate, ook voorkomen binnen de algehele populatie.
Voor vele gevallen is het doel om binnen een normatieve groep te vallen twijfelachtig.
De geleverde prestaties door een patiënt hoeven geen afspiegeling te zijn van het dagelijks functioneren, maar zijn daar een verslechterde of verbeterende versie van.
De subjectieve evaluatie methode is bedoeld om de gedragsveranderingen van een individu te verkrijgen door individuen welke in contact staan met de patiënt. De vraag die hier centraal staat is of veranderingen binnen een persoon zichtbaar zijn en hoe anderen deze ervaringen. Deze manier van evaluatie is van groot belang. Wanneer een behandeling werkzaam is en impact op een individu heeft, lijkt het vanzelfsprekend dat er een verschil binnen een individu teweeg wordt gebracht, wat ook voor omstanders zichtbaar is. De mening van anderen is voor een patiënt van belang, omdat deze mensen vaak de reden zijn voor het zoeken van hulp door de patiënt.
Deze evaluatie methode bestaat meestal uit het afnamen van rating scales voor de subjectieve evaluatie. Deze manier is meer vatbaar voor systematische vertekening dan vragenlijsten en interviews, omdat de items daar concreter en meer helder omschreven kunnen worden. Ten tweede betekent een zichtbare verandering in het gedrag van de patiënt nog geen werkelijke verandering.
Het laatste type dat besproken wordt om de belangrijkheid te evalueren is het meten van de sociale impact. Dit betekent dat er gekeken wordt naar uitkomsten in het dagelijks leven van een patiënt welke van belang zijn binnen een samenleving (denk aan dronken achter het stuur zitten, ziekenhuisopnames, ziekte, spijbelgedrag etc.). De effecten van een succesvolle behandeling zijn voor mensen beter te begrijpen in andere termen dan symptomatische afname.
Er kan hierbij gedacht worden aan afgenomen afwezigheid op werk, minder doktersbezoeken of minder zelfmoord rate. Deze evaluatie is handig om te beslissen of de psychologische metingen terug te vinden zijn in de evaluaties van patiënten en de samenleving. Deze vorm van evaluatie vormt een brug tussen de onderzoekswereld en de samenleving. Zonder deze vorm van evaluatie is het niet duidelijk of behandeleffecten ook doorvoeren in het dagelijks leven van patiënten. De manier van meten neemt echter wel een aantal onzekerheden met zich mee:
De sociale impact methode is een ruim begrip dat gemeten wordt, waardoor er kans is dat er andere invloeden dan de interventie zelf meegenomen worden in de evaluatie.
De manier waarop deze metingen gedaan worden zijn niet per definitie erg betrouwbaar, waardoor de error binnen de metingen groot kan zijn.
De metingen van sociale impact zijn vaak geen juiste afspiegeling van wat men eigenlijk denkt. De bedoeling van de meting is voor velen onduidelijk.
Het instrument waarmee de sociale impact wordt gemeten kan veranderen, wat zorgt voor problemen bij betrouwbaar meten.
Alle drie de vormen van evaluatie helpen bij het verbeteren van klinisch werk, door vast te stellen dat behandeling daadwerkelijk voor verbetering bij patiënten zorgt. Tevens wordt er vastgesteld wat nog voor toekomstig onderzoek van nut kan zijn.
Bij het meten van de uitkomst van een interventie is het meetinstrument vaak zeer gefocust op specifiek punten. Als er wordt gekeken naar de klinische significantie van therapeutische verandering wordt er doorgaans gerefereerd aan de grootte van het verschil op de metingen van de symptomen. Er is echter geen bewijs dat deze manier van meten de beste manier vormt om voorspellers op een langer termijn te bepalen, alsmede de klinische disfunctie en het terugkeren naar behandeling.
Om klinische significantie te bepalen kan er bijvoorbeeld aandacht worden besteed aan de mate van beperking, hiermee wordt bedoeld in hoeverre het functioneren van een individu in het dagelijks leven beperkt wordt. Er wordt een verschilscore opgesteld, tussen het begin en eind van de behandeling in hoeverre de beperking is verminderd. Het lijkt daarom belangrijk om een bredere focus te hanteren bij het bepalen van klinische significantie. Een behandeling waarmee op een breed terrein effect wordt bereikt, kan hierdoor verkozen worden boven een therapie welke als meer effectief wordt beschouwd, maar op een minder breed terrein verbetering teweegbrengt.
Er worden drie criteria besproken waarmee de evaluatie van een therapie mede bepaald kan worden, namelijk de verspreiding van behandeling, de kosten van behandeling en de acceptatie van een behandeling.
Met de verspreiding van een behandeling wordt het uitzaaien van de behandeling over verschillende settings en patiënten bedoeld, welke verschillen van de originele behandeling. De gemakkelijkheid waarmee een behandeling zich verspreid kan afhangen van de variëteit van behandel karakteristieken, de complexiteit van de behandeling, de benodigde apparatuur en bijbehorende kosten, het type en duur van de training voor behandelaars en de kans dat patiënten deel zullen nemen en deel blijven nemen aan de behandeling. Zo kan het gebeuren dat de ietwat minder effectieve therapie verkozen wordt boven de meer effectieve therapie, omdat de eerste een vele mate grotere verspreiding van behandeling kent. Medicatie kent bijvoorbeeld een gemakkelijke verspreiding, maar brengt echter problemen met zich mee betreffende de trouw aan medicatie, mogelijke bijwerkingen, beperking in gedrag (niet mogen autorijden, alcohol nuttigen) en problemen in combinatie met andere medicatie.
Er wordt naast de verspreiding van de behandeling gekeken naar de kosten. Hierbij gaat het niet zozeer om de kosten van een therapie, maar om een vergelijking tussen de kosten van het uitvoeren van een behandeling vs. de kosten bij het niet uitvoeren van een behandeling. Als deze laatste groter blijken, zal er gekozen worden voor behandeling. Uiteraard wordt een goedkopere behandeling verkozen boven een duurdere wanneer beiden even effectief blijken. Het maken van een kosten-baten analyse (cost-benefit analysis) maakt hier deel van uit, hierbij worden de geldelijke kosten afgezet tegen het profijt dat behandeling met zich meebrengt. Een kosten-effectiviteit analyse (cost-effectiveness analysis) wordt gehanteerd om de kosten te bekijken in het licht van een specifieke uitkomst. Deze analyse laat het toe om verschillende soorten therapeutische technieken met elkaar te vergelijken welke dezelfde uitkomst voor ogen hebben.
Tot slot wordt er gekeken naar de mate van acceptatie van een behandeling. Dit is iets anders dan de effectiviteit van de behandeling. Het is goed denkbaar dat de mate van acceptatie bepalend is voor het wel of niet in behandeling blijven. Het is daarom van belang de acceptatie bij de patiënt en omgeving te vergroten.
Het is meestal standaard om voor,- en nametingen af te nemen bij een studie, maar er worden tussentijds niet vaak metingen afgenomen. Dit is echter van belang, omdat deze duidelijkheid geven over de stapsgewijze verandering van de cliënt. We willen niet alleen weten of de effecten alleen gelden wanneer de behandeling is afgelopen. Er moet bekeken worden hoe een cliënt tijdens behandeling verandert en functioneert. De huidige behandelingen zijn strak georganiseerd, waardoor er weinig ruimte is voor flexibiliteit (bijv. het toevoegen van een sessie). Door het afnemen van tests tijdens de behandeling kan beslist worden wat de beste manier van behandeling is, aangezien ‘de behandeling welke altijd verandering teweeg brengt’ nog niet gevonden is. Soms is het niet eens mogelijk een post-assessment uit te voeren, het einde van een behandeling is namelijk vaak niet eenduidig, zoals dat bij experimenten wel het geval is.
Tevens kan er door afname tijdens de behandeling meer duidelijkheid ontstaan wat betreft de werkende mechanismen of factoren. Hiermee wordt bedoeld dat er meer duidelijkheid ontstaat over het beloop van de therapie, welke aspecten van een cliënt veranderen en wanneer dit in het proces gebeurt.
Na de behandeling is het standaard, zoals eerder vermeld, om een nameting te doen. Wanneer dit later gebeurt, is er sprake van een follow-up meting. Hiermee wordt gekeken of de behandeleffecten na een geruime periode (weken tot jaren na afloop van de behandeling) nog steeds aanwezig zijn. Hiermee kan bepaald worden of de therapie werkelijk beter is dan geen therapie. Het kan namelijk ook het geval zijn dat er zonder interventie ook een verlichting van de klachten ontstaat.
Wat de follow-up lastig maakt, is het probleem van uitval van deelnemers. Hoe langer de follow-up op zich laat wachten, des te meer deelnemers laten het afweten (dit kan om zeer uiteenlopende redenen zijn). Het verliezen van deelnemers is problematisch, omdat het overgebleven sample niet per definitie representatief meer is voor het originele sample. Bovendien verpest dit de randomisatie waarmee deelnemers van tevoren zijn ingedeeld in condities. De uitvoering brengt een aantal problemen met zich mee. Ten eerste zijn de deelnemers niet meer actief deel van de studie, waardoor het bereiken van de deelnemers een stuk lastiger wordt bij een follow-up. Wanneer deze vervolgens wordt afgenomen, komen de vragen vaak overeen met de voormeting. Dit is echter niet nodig, wanneer het lastig blijkt mensen te bereiken, kan er gekozen worden voor een verkorte versie als follow-up (kleine batterij geselecteerd uit de voor,- en nametingen). Tevens kan er gekozen worden deelnemers niet naar het lab te laten komen, maar om verschillende manier aan te bieden om de follow-up af te nemen (vragenlijst thuisgestuurd, via telefoongesprek, invullen op het lab, etc.), zodat de kans op respons vergroot wordt. Dit is echter wel lastig vergelijken, de kans dat verschillende meetinstrumenten tot dezelfde resultaten komen is namelijk klein, het aanbieden van opties verkleint de statistische power aanzienlijk.
Onderzoekers doen moeite om in contact te blijven met deelnemers (sturen van verjaardagskaarten, een vriendelijk telefoontje, een geldelijke vergoeding voor deelname) om deelnemers betrokken te blijven houden bij de studie, zodat uitval minimaal is.
Voordat de follow-up afgenomen kan worden, moet er bepaald worden welke persoon de informatie gaat verschaffen. Dit kan de cliënt zelf zijn, maar ook een naaste hiervan. Kortom, om de follow-up met zo min mogelijk uitval te kunnen afnemen, moet deze zo kort en gebruiksvriendelijk als mogelijk zijn!
Statistische evaluatie betekent doorgaans dat er door middel van kwantitatieve technieken een beschrijving of verklaring wordt verkregen van data. Het doel van statistische analyses is het op een objectieve manier besluiten van het behouden of verwerpen van een geen verschil hypothese (nulhypothese). Er wordt gekeken naar de aannemelijkheid dat de gevonden verschillen ook daadwerkelijk verschillen zijn. Dit wordt bereikt door het evalueren van verschillen tussen groepen op de afhankelijke variabele als effect van de onafhankelijke variabele.
Wanneer gevonden verschillen zonder twijfel belangrijk en betrouwbaar zijn, wordt er gesproken van slam bang effects.
Er zijn verschillende strategieën om een verschil te laten zien als er daadwerkelijk sprake is van een verschil. Dit kan via het aanpassen van het significantie niveau en het aanpassen van de power.
Alpha (significantie niveau) wordt gebruikt als beslissende factor bij het verwerpen of behouden van nulhypotheses. De statistische significantie is eigenlijk een direct gevolg van de sample size, hoe groter, des te sneller zullen kleine verschillen tot een significante uitkomst leiden.
Power wordt omschreven als de mate waarin een studie een verschil kan vinden tussen groepen wanneer deze ook daadwerkelijk bestaat. Wanneer men statistische analyses gaat doen, moet er dus enige zekerheid bestaan dat de power van de studie dusdanig hoog is, dat verschillen gedetecteerd kunnen worden. De power wordt berekend door 1-beta. Beta is de kans dat de nulhypothese geaccepteerd wordt, wanneer deze eigenlijk verworpen zou moeten worden. Een power van .60 wil zeggen dat een studie 3 van de 5 keer een verschil zal detecteren wanneer deze ook daadwerkelijk aanwezig is. Je kunt de power laten toenemen door een grotere sample size samen te stellen. Je kunt er ook voor kiezen om de verschillen tussen de groepen groter te maken, waardoor detectie gemakkelijker wordt, het gebruik van voormetingen om op deze manier error te verminderen is ook effectief. Het aanpassen van het significantie niveau leidt ook tot een van power. Een grotere alpha leidt tot een hogere power. Naast het spelen met de significantie waarde, kan men er ook voor kiezen om eenzijdig te testen. Hierdoor is er een lagere t-waarde nodig, waardoor het resultaat eerder significant wordt bevonden. Echter, studies waarin dit principe wordt toegepast wordt negatief bejegend. Wanneer er eenzijdig getoetst wordt, wil dat zeggen dat de onderzoeker een bepaalde verwachting probeert te testen. Wanneer er geen verwachting is, wordt er tweezijdig getoetst. Alpha, effectsize, sample size en power staan direct met elkaar in contact. Wanneer drie van de vier concepten bekend zijn, kan de vierde berekend worden.
Het onderzoek naar interventie heeft als voorwaarde dat deelnemers alle metingen doorgaan, zowel de voor, - als na de afloop van behandeling. Echter, studies hebben altijd te maken met uitvallers. Wanneer er deelnemers uitvallen, zijn de groepen niet langer random samengesteld en gaat een waar experiment opeens naar een quasi experimentele opzet. Dit gebeurt zelfs wanneer er een gelijk aan deelnemers uitvallen over de groepen. Echter, de uitvallers hoeven niet allemaal hetzelfde te zijn. De data van de deelnemers kan vervolgens op twee manieren bestudeerd worden.
Een completer analysis. Deze methode wordt doorgaans toegepast. Dit houdt in dat alleen de data gebruikt wordt voor analyses van deelnemers welke alle metingen hebben voltooid. Dit lijkt logisch. Er kan echter sprake zijn van bias, de groepen zijn immers niet random meer verdeeld en verschillen tussen condities kunnen het gevolg zijn van een gebrekkige interne validiteit alsmede externe validiteit.
Een intent-to-treat analysis. Bij deze analyse wordt het random karakter behouden. Alle deelnemers, ook uitvallers, worden in deze analyse meegenomen. Meestal wordt als data voor de uitvallers de laatst opgegeven metingen gebruikt. Wanneer een deelnemer dus alleen een voormeting heeft voltooid, zal deze score ook gelden als na,- en follow-up meting gelden. Tevens kan er ook gekozen worden om de deelnemers bij uitval een korte meting te laten doen, zodat er een meer accurate meting beschikbaar is.
Tijdens een experiment zal een onderzoeker vaak verschillende groepen met elkaar willen vergelijken. Wanneer er tijdens deze vergelijkingen sprake is van een experiment-wise error, wil dit zeggen dat test op significantie resulteert in een Type I fout. De mate waarin dit gebeurt wordt de experiment-wise error rate genoemd.
Wanneer verschillende constructen worden gemeten kan de analyse plaats vinden aan de hand van univariate of multivariate analyses. Bij univariate analyse wordt er geen rekening gehouden met de relatie van de metingen met elkaar (geen interactie-effecten). Hierdoor kunnen effecten gemist worden, waar 2 afzonderlijke hoofdeffecten niet significant worden bevonden, kan 1 interactie-effect dat wel zijn. Wanneer er meerdere afhankelijke variabelen zijn, kan er een multivariate analyse uitgevoerd worden. Dit wordt vaak uitgevoerd wanneer een onderzoeker nieuwsgierig is naar de relatie (interactie) tussen de afhankelijke metingen.
Het testen van data via statistische analyses alleen is misleidend, counter productief en voorzien van schoonheidsfouten (zie tabel 15.4 op blz. 300). Het begint bij de nulhypothese en het testen op significantie. Men wordt gedwongen tot het maken van een binaire beslissing (verwerpen of behouden van de nul hypothese), terwijl de alpha een arbitraire grens betreft. Bovendien blijkt de nulhypothese bijna altijd niet waar te zijn. Het vinden van een significant resultaat hangt ook in grote mate af van de sample size. Als er een grote sample size is, worden kleine verschillen al snel significant bevonden. Tevens kan de onderzoeker veel aanpassingen maken om de uitkomsten wel significant te krijgen, waardoor het objectieve karakter van toetsen verloren gaat. Tot slot zeggen significante resultaten niets over de grootte of de implicatie van de resultaten.
Het is niet waar dat de p-waarde staat voor de mate dat de gevonden resultaten waar zijn, de sterkte van het effect en de kans dat de resultaten gerepliceerd kunnen worden. Het enige wat de p-waarde aangeeft is mate waarin de uitkomst voortgekomen kan zijn door kans. Tevens wordt er vaak ten onrechte gedacht dat de statistische vondst van geen verschil werkelijk betekent dat er geen verschil is. Dat er in de studie geen verschil is gevonden, wil echter niet zeggen dat de relatie tussen de variabelen ook daadwerkelijk afwezig is. Tot slot wil een hogere p-waarde niet zeggen dat het effect sterker, beter, groter of meer betekenisvol is. De kans dat deze uitkomst werd gevonden alleen op basis van kans is alleen kleiner bij een hogere p-waarde in vergelijking met een lagere p-waarde.
Alternatieven voor testen van significantie
Grootte en de sterkte van het effect bepalen. In plaats van of naast statistisch de significantie toetsen, kan men de sterkte van het gevonden effect tussen de onafhankelijke en afhankelijke variabele weergeven of de grootte van het verschil tussen de condities. De grootte van het effect (magnitude) kan op verschillende manieren worden weergegeven: omega², eta, epsilon² en de Pearson product-moment correlatie, r. Tevens kan er gekozen worden voor de effectsize, deze laat de relatie zien en niet of deze significant is of niet. Wanneer er sprake is van een effectsize van .40, laat dit zien dat de interventie groep 4/10 standaard afwijking hoger scoort dan de controle groep. Een grote effectsize kan niet vertaald worden naar significante resultaten!
Gebruik van betrouwbaarheid intervallen. Deze bestaan uit een range waarbinnen de effectsize gevonden kan worden. Een interval van 95% zekerheid dat de effectsize erbinnen ligt staat gelijk aan een alpha van .05 en een interval van 99% zekerheid staat gelijk aan een alpha van .01.
Meta analyses. Bij een individuele studie zijn effectsize en betrouwbaarheid intervallen een nuttige vervanging voor significantie testen. Meta analyses zijn een uitbreiding op het gebruik van de effectsize, deze wordt berekend over een groter aantal studies. Hierdoor kan er een betere schatting worden gemaakt wat betreft de effectsize. Bovendien zijn er op deze manier betere schattingen van het werkelijke effect en de range waarbinnen deze valt. Dit is waardevoller dan het zoeken naar een significante uitkomst.
Wanneer een onderzoeksfase is afgerond, wil de onderzoeker de gevonden resultaten gaan interpreteren. Het gaat er dan om in welke mate de variabele (en niet bepaalde artefacten of biases) de basis voor de gevonden resultaten is. Vaak wordt de bevinding van non-significante resultaten als niet informatief en negatief beschouwd. Er zijn echter uitzonderingen, waarbij deze vinding van een non-effect wel degelijk van belang is (bepaalde medicatie heeft op ene groep positief effect, op de andere groep een averechts effect).
De onderzoeker heeft als taak de kwantitatieve resultaten te beschrijven zonder getalletjes en ‘gewoon’ te zeggen wat er gevonden is. De resultaten kunnen echter verkeerd geïnterpreteerd of over-geïnterpreteerd worden, waardoor de studie niet informatief meer is. Doorgaans geldt dat niet wordt gesproken over meetinstrumenten, maar het daarmee gemeten construct wordt besproken. Tevens wordt er niet gesproken over de manier waarop de onafhankelijke variabele gemanipuleerd is, maar het concept wat de operationalisatie behelst, wordt besproken.
De onderzoeker kan (te) grote stappen maken bij het vertalen van de resultatensectie naar de discussie. Het is denkbaar dat gemaakte interpretaties door de onderzoeker niet te verantwoorden zijn met de gevonden data. Voorbeelden hiervan zijn:
Het vermelden van ‘zeer significante resultaten’ (highly significant results). Wanneer een vinding niet alleen significant is bij p < .05, maar ook bij p < .001, kunnen de resultaten door de onderzoeker worden benoemd tot ‘zeer significant’. Deze benaming heeft echter zeer weinig betekenis binnen de statistiek. Daarnaast moet er altijd worden afgevraagd of het gevonden significante effect wel daadwerkelijk informatief is. Klinisch significante effecten blijken soms bij deelnemers geen belangrijke veranderingen teweeg te brengen. Men dient voorzichtig om te gaan met de combinatie van ‘zeer’ en significant.
Een variabele voorspelt een andere variabele. Dit komt voor in gevallen waarin meerdere variabelen worden bestudeerd aan de hand van een voorspellende statistische analyse. In deze context betekent een voorspelling slechts dat de variabelen onderling gecorreleerd zijn. Als de variabelen op hetzelfde tijdstip zijn afgenomen kan er niet eens sprake zijn van voorspellende factoren, aangezien het ene niet voorafging aan het ander. De onderzoeker impliceert door het gebruik van het woord ‘voorspeller’ de aanwezigheid van een tijdlijn, terwijl hier geen sprake van is. Wanneer er in studies gesproken wordt over voorspellers is het altijd van belang na te gaan of er een tijdlijn bestaat binnen het onderzoek.
De implicaties van de eigen bevindingen. Het komt voor dat er teveel nadruk en te vergaande implicaties uiteen worden gezet in discussies. Er is dan sprake van over-interpretatie. Het probleem bij implicaties is dat dit woord soms gebruikt wordt als vrijbrief door onderzoekers om het over ieder gewild onderwerp te hebben, afgezien wat van belang is binnen een studie. Vaak wordt hier gehamerd op de implicaties betreffende behandeling en preventieve doeleinden, terwijl deze implicaties niet uit een groot deel van de studies voortvloeit. Daarnaast is niet altijd nodig implicaties te geven, soms zijn bevindingen op zichzelf van genoeg nut.
In de meeste studies wordt er gezocht naar hoofdeffecten (main effects), verschillen tussen de groepen. Dit dekt echter niet alle informatie welke verkregen kunnen worden uit studies. Er zijn verschillende responsen mogelijk per individu per interventie, de groepseffecten kunnen daardoor niet de gehele groep representeren. Het lijkt nuttig om naast de zoektocht naar hoofdeffecten ook aandacht te besteden aan individuele verschillen binnen een interventie. Dit kan door het zoeken naar moderatoren van behandeling. Het doel hierbij is het uitzoeken van hypotheses welke behulpzaam zijn bij de responsiviteit van behandelingen. Zo kan men erachter komen dat sekse een moderator is voor een bepaalde therapie, vrouwen reageren hier beter op dan mannen dan doen, bijvoorbeeld. Deze post hoc analyses zijn zeer nuttig en leiden tot het voorspellen in komende studies welke deelnemers waarschijnlijk wel en niet zullen reageren op behandeling. Op deze manier kunnen er betere behandelingen worden gemaakt en toegespitst worden op de specifieke behoeften van een deelnemer.
Naast het zoeken naar moderatoren, kan er ook een voorspelling worden gedaan wat betreft de moderatoren voor behandeling. De zoektocht naar subgroepen binnen een grote conditie kan ook omschreven worden als de zoektocht naar interacties. Dit houdt in dat de impact van een variabele niet gelijk is over alle condities, maar varieert als een functie van die andere conditie. Voorspellingen over de interacties van de onafhankelijke variabelen bereiken vaak een groter begrip over de manier waarop een onafhankelijke variabele invloed heeft op een afhankelijke variabele, dan voorspelling over hoofdeffecten dit doen. Men komt er op deze manier achter hoe variabelen werken en onder wat voor omstandigheden. Echter, er moet rekening worden gehouden met het feit, dat resultaten soms moeilijk te interpreteren zijn door de bestaande interacties onderling. Tevens kan niet met zekerheid worden vastgesteld, dat bij het vinden van geen effect, dit ook het geval was geweest wanneer er onder een andere conditie was getest. De gevonden resultaten in psychologisch onderzoek worden dan ook zelden tot nooit gerepliceerd, er zijn altijd impliciete interacties tussen de condities aanwezig.
In de meeste onderzoeken wordt er op basis van de nul hypothese besloten of de studie een effect heeft gevonden of niet, er wordt een effect gevonden als de nul hypothese verworpen kan worden. Wanneer de nul hypothese behouden wordt, wil dat zeggen dat de onafhankelijke variabele geen effect heeft gehad op de afhankelijke. Men is doorgaans op zoek naar positieve resultaten, resultaten waarbij de nul hypothese verworpen kan worden. Er is sprake van negatieve resultaten wanneer er geen statistische verschillen te vinden zijn tussen groepen welke verschillende condities kenden. Het kan ook zijn dat het gevonden resultaat niet het resultaat is waar de onderzoeker op gehoopt had. Dit zijn twee mogelijkheden waardoor de nul hypothese wordt geaccepteerd.
Als onderzoekers graag gepubliceerd willen worden, is het van groot belang dat er positieve resultaten uit een studie naar voren komen. Hierdoor is men er sneller van overtuigd dat het een nuttige, informatieve studie betreft. Om tot positieve resultaten te komen, kan de onderzoeker besluiten en minder goed onderzoeksdesign te gebruiken, waardoor er gemakkelijker significante uitkomsten gevonden kunnen worden; een slechte zaak. De waarde van een studie moet bepaald worden door het gebruikte concept en methodologische adequaatheid van de opzet in plaats van de vondst van verschillen tussen condities. Er kan geconcludeerd worden dat de verwerping van de nul hypothese en daarmee de vondst van positieve resultaten te erg benadrukt wordt in de huidige onderzoekswereld.
Als er sprake is van het vinden van geen verschil tussen de condities, kan het lastig zijn om de reden hiervan te identificeren binnen het experiment. De meest logische verklaring stelt dat de nulhypothese gehandhaafd blijft, omdat er simpelweg geen relatie tussen de onafhankelijke en afhankelijke variabele bestaat. Er vallen echter meerdere verklaringen te bedenken:
Het vinden van geen verschil kan liggen aan de statistische power van een experiment. Dit kan niet groot genoeg zijn geweest om een verschil (wanneer deze wek aanwezig was) te kunnen detecteren. Daarnaast is het van belang te weten of er outliers (uitbijters) aanwezig waren en of deze wel of niet meegenomen zijn bij de analyses.
Het vinden van geen verschil kan verklaard worden door de experimentele manipulatie. Deze kan niet of niet goed genoeg uit zijn gevoerd waardoor eventuele verschillen niet zijn opgepikt.
Het vinden van geen verschil kan liggen aan de onderzoeker. Wanneer hij geen besef heeft hoe de interventie geïmplementeerd moet worden, kunnen hierdoor vitale verschillen tussen condities gemist worden.
Er kunnen verschillende levels van de onafhankelijke variabele geselecteerd zijn voor de studie, welke verantwoordelijk zijn voor het vinden van een verschil tussen groepen. Niet de onafhankelijke variabele zelf heeft dan voor het verschil gezorgd.
Tot slot kan er verschil bestaan tussen gebruikte meetinstrumenten. Verschillen tussen detecteren verschilt zo tussen de instrumenten, dat soms alleen de meest robuuste instrumenten het effect kunnen detecteren. Tevens kan de gekozen afhankelijke variabele niet de meest geschikte zijn om de onderzochte relatie mee te detecteren.
Wanneer er geen verschil tussen condities wordt gevonden, betekent dit lang niet altijd dat er dus sprake van een slecht experiment was. Negatieve resultaten kunnen zeer informatief zijn in bijvoorbeeld de volgende gevallen:
In de context van een onderzoeksprogramma. Bij een onderzoeksprogramma worden er verschillende onderzoeken met een grote overlap hiertussen onderzocht. Wanneer er binnen deze onderzoeksgroep een variabele wordt getest, die vervolgens niet van invloed lijkt te zijn op de condities, kan er met meer zekerheid worden gesteld dat dit niet slechts een toevalsbevinding is (wat wel kan worden gezegd bij een geïsoleerde studie).
De vondst van negatieve resultaten is zeer informatief wanneer deze bevindingen gerepliceerd worden door verschillende onderzoekers. Hierdoor kan er gesteld worden dat de originele studie verschil vond onder zeer speciale (discutabele) omstandigheden of door de aanwezigheid van confouds.
Wanneer er door middel van negatieve resultaten onderscheid kan worden gemaakt tussen condities. Dit is het gemakkelijkst aan te tonen binnen een factorieel design waarbij interacties toegestaan worden. Wanneer een onderzoeker binnen één studie kan aantonen dat een bepaalde relatie interacteert tussen de aanwezigheid van een andere variabele (of het gebrek aan aanwezigheid), wordt de studie als zeer informatief gezien.
Verder zijn negatieve resultaten zeer belangrijk in klinisch en toegepast onderzoek wanneer er sprake kan zijn van schade, bijwerkingen of gemaakte kosten. In de onderzoekswereld betekent ‘geen verschil gevonden’ dat er geen bewijs is gevonden voor bijv. schade (mobiel bellen leidt niet tot tumoren). Het volk verlangt echter naar een andere ‘geen verschil gevonden’, namelijk dat er bewijs van geen schade wordt gevonden. Dit laat zien dat er wel bewijs kan worden gevonden voor hypotheses, maar dat 100% zekerheid niet gegeven kan worden. Wanneer er echter herhaaldelijk hetzelfde resultaat gerepliceerd wordt, neemt de zekerheid toe.
Binnen klinisch onderzoek wil men het doel (effectieve behandelingen) zo snel mogelijk bereiken. Een studie waarin onder zeer gecontroleerde en gestructureerde wijze geen resultaat tussen behandelingen wordt gevonden, is hierdoor nog steeds van grote waarde.
De betrouwbaarheid van een vinding wordt vergoot wanneer vergelijkbaar onderzoek hetzelfde laat zien. Het is doorgaans de vraag of een behandeling welke in één studie als effectief wordt aangewezen, dit ook is wanneer het onderzoek herhaald wordt in de klinische setting (of er gegeneraliseerd kan worden naar de klinische praktijk). Replicatie is het herhalen van een experiment. Dit kan op twee manieren:
Directe replicatie. Een poging om een experiment exact uit te voeren als het origineel. Hier wordt de originele procedure nauwgezet nagevolgd. Deze vorm van replicatie is lastig wanneer deze niet door de originele onderzoeker wordt uitgevoerd, er mist vaak informatie in de artikelen. Het is dan ook handig om als onderzoeker contact op te nemen met de originele onderzoeker om alle details gelijk te kunnen houden.
Systematische replicatie. Het herhalen van een experiment waarbij enige variabelen binnen een onderzoek aangepast mogen worden. Een systematische replicatie kan proberen te achterhalen of een relatie tussen een onafhankelijke variabele en afhankelijke variabele blijft bestaan wanneer de deelnemers verschillen van de originele sample deelnemers (in leeftijd, diagnose of ervaring van therapeut).
Een exacte replicatie is niet mogelijk, aangezien onderzoekers te maken hebben met verschillende deelnemers welke getest zijn op een ander moment (door verschillende onderzoekers). Naast het opnieuw uitvoeren van het gehele experiment, kan er ook gekozen worden om slechts de gevonden data te heranalyseren. Hierbij wordt getracht te onderzoeken of nieuwe analyses (waarbij gecontroleerd wordt voor meer of andere variabelen en er andere assumpties gelden) hetzelfde effect wordt gevonden.
Het belang van replicatie kan niet vaak genoeg benadrukt worden. Door de manier van onderzoek doen (met behulp van een nulhypothese), blijft er altijd een kans dat de gevonden resultaten slechts een toevalsbevinding zijn (Type I error). Wanneer resultaten vaker worden gevonden, wordt deze kans echter nihil. Daarnaast zijn er meerdere factoren dan de onafhankelijke variabele welke invloed hebben op de afhankelijke variabele. De vondst kan dan ook het gevolg zijn van andere factoren dan de onafhankelijke, deze verklaring kun je minder waarschijnlijk maken door het gebruik van replicatie.
Replicaties ontvangen niet zoveel aandacht van onderzoeksland, omdat er logischerwijs niets nieuws onderzocht wordt. Replicaties zijn echter wel van belang bij het beslissen van de generalisatie van vindingen bij het bepalen van behandelingen. Directe replicaties zorgen voor het toegenomen vertrouwen in de originele bevinding en systematische replicaties zorgen voor toegenomen zekerheid wat betreft generalisatie mogelijkheden.
Wanneer replicaties andere bevindingen doen dan het originele onderzoek, wordt hier meestal weinig aandacht aan besteed. Er is sprake van het file-drawer probleem, de wetenschap dat onderzoeken welke geen significante resultaten hebben behaald ‘ergens in een la belanden’, terwijl deze (zoals besproken) vitale informatie kunnen verschaffen.
Replicaties zijn zeker belangrijk wanneer het onderzoeksveld nog jong is, aangezien daar theorieën en fenomenen nog ‘bevestigt’ dienen te worden.
Doorgaans wordt er gesproken van een replicatie als twee of meer onderzoeken gelijke resultaten laten zien. Als nieuw onderzoek origineel onderzoek niet kan bevestigen qua resultaat, wordt de term replicatie niet gebruikt. De mogelijkheid om verschillende studies te combineren om zo bepaalde karakteristieken te kunnen analyseren (welke het effect kunnen beïnvloeden) is een van de belangrijke doelen van replicatie.
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Field of study
Add new contribution