Boeksamenvatting bij Research Methods: A Process of Inquiry van Graziano - 8e druk

Wat is de invloed van nieuwsgierigheid, creativiteit en toewijding op psychologie als wetenschap? - Chapter 1
Hoe verloopt het proces van wetenschappelijk onderzoek? - Chapter 2
Waarom is het stellen van goede onderzoeksvragen belangrijk? - Chapter 3
Wat is het doel van metingen bij psychologisch wetenschappelijk onderzoek? - Chapter 4
Hoe werkt de statistische analyse van data in psychologisch onderzoek? - Chapter 5
Wat is de methodiek achter naturalistische observatie en casusonderzoek? - Chapter 6
Wat is de methodiek achter correlationeel en differentieel onderzoek? - Chapter 7
Waarom is het belangrijk om de geldigheid van onderzoekhypotheses te toetsen? - Chapter 8
Hoe waarborgen controleprocedures de geldigheid van onderzoek? - Chapter 9
Wat zijn onafhankelijke groepdesigns met één variabele? - Chapter 10
Wat valt onder correlated-groups en single-subject designs? - Chapter 11
Wat valt onder factorial designs? - Chapter 12
Wat is de methodiek achter veldexperimenten, programma-evaluatie en enquête-onderzoeks (een tweede kijk op veldwerk)? - Chapter 13

Wat is de invloed van nieuwsgierigheid, creativiteit en toewijding op psychologie als wetenschap? - Chapter 1

Wetenschap

Psychologie is een wetenschappelijk vakgebied dat onderzoek doet naar gedrag. Om psychologie te begrijpen, is het dus belangrijk om te weten wat wetenschap inhoudt. De wetenschap poogt kennis te verwerven over de wereld door middel van systematische observaties en rationele werkwijzen. Het correct opstellen van een onderzoeksvraag is daarbij net zo belangrijk als het beantwoorden ervan. Wetenschappelijk onderzoek is het proces van het opstellen van onderzoeksvragen en het systematisch beantwoorden daarvan. De manier van denken staat daarbij centraal, en niet de gebruikte middelen. Wetenschappers zijn doorgaans sceptici die bereid zijn om bestaande denkbeelden ter discussie te stellen om zo tot completere antwoorden te komen. Ze worden gestuurd door nieuwsgierigheid en de drang om de wereld te begrijpen. Het is daarbij belangrijk om oplettend en gedisciplineerd te zijn.

De combinatie van nieuwsgierigheid, creativiteit en toewijding blijft niet beperkt tot wetenschappers. Kunstenaars bezitten al deze eigenschappen ook, maar geven juist een eigen invulling aan hun voorstelling van de wereld. Ondanks het feit dat wetenschap en kunst uiteraard niet hetzelfde zijn, worden beide gekenmerkt door de combinatie van menselijke nieuwsgierigheid en creativiteit om uiting te geven aan ideeën. Het is bovendien goed mogelijk dat een kunstenaar geïnteresseerd is in wetenschap, of dat een wetenschapper kunst waardeert.

Kennis verwerven

Wetenschap is slechts één manier van kennisverwerving. Andere manieren zijn vasthoudendheid, intuïtie, autoriteit, rationalisme en empirisme. De wetenschap, een combinatie van rationalisme en empirisme, is de meest veeleisende methode voor het verkrijgen van informatie. Ze stelt hoge eisen aan het verkrijgen en gebruiken ervan.

Vasthoudendheid is de bereidheid tot het accepteren van ideeën als waarheid, ondanks bestaande tegenbewijzen of een gebrek aan bewijs voor het idee. Het wordt gekenmerkt door het weinig waarde hechten aan de juistheid van ideeën, het niet openstaan voor alternatieve ideeën en het niet bereid zijn tot toetsen van ideeën met een kritische blik.

Intuïtie is het (ogenschijnlijk) direct verwerven van kennis zonder gebruik van wetenschappelijke methoden. Het wordt vaak gebruikt in het dagelijks leven en kan in veel situaties uitkomst bieden, maar leidt ook regelmatig tot fouten. Intuïtieve reacties zijn haastige beoordelingen op basis van ervaringen, houdingen en gevoelens. De informatie wordt snel voor 'waar' aangenomen, zonder verdere verkenning.

Autoriteit is het accepteren van ideeën als gangbaar, doordat een breed gedragen bron claimt dat ze kloppen. Net zoals vasthoudendheid en intuïtie stelt ze weinig eisen aan het verkrijgen en het gebruiken van informatie.

Rationalisme is het verwerven van kennis door middel van beredenering. Bestaande informatie wordt zorgvuldig gedocumenteerd en middels logica komt men tot acceptabele nieuwe conclusies. Rationalisme is daarom een betrouwbaarder middel om kennis te verwerven dan vasthoudendheid, intuïtie en autoriteit. Het rationalisme kent echter wel een beperking: om tot de juiste conclusies te komen, moeten de gebruikte aannames kloppen. De nauwkeurigheid van de getrokken conclusies hangt dan ook af van zowel de beredeneringen als de nauwkeurigheid van de gebruikte aannames. Enkel juist redeneren garandeert dus niet het trekken van de juiste conclusies.

Empirisme is het verwerven van kennis door middel van rationele observatie met onze zintuigen. Er zijn twee soorten empirisme: naïef empirisme en geavanceerd empirisme. Naïef empirisme wordt gekenmerkt door het enkel geloven van een fenomeen als dit direct wordt waargenomen. Dit levert een beperking op: door enkel te vertrouwen op directe waarneming kan men tot de verkeerde conclusies komen. Er zijn immers dingen die mensen niet direct kunnen waarnemen. Geavanceerd empirisme gaat verder dan dit; zij stelt dat empirische waarneming niet beperkt hoeft te worden tot directe waarneming. We kunnen veel fenomenen namelijk ook indirect waarnemen.

Wetenschap poogt empirisme te integreren met rationalisme. Het empirisme speelt weliswaar een cruciale rol in de wetenschap, maar enkel het verzamelen van feiten garandeert niet dat men snapt wat is waargenomen. Wetenschappers dienen daarom beide methoden te hanteren. De wetenschap kenmerkt zich dus door een continue en systematische wisselwerking tussen empirische observatie en rationeel nadenken.

De opkomst van wetenschap

De mensheid heeft in de loop van duizenden jaren verschillende wetenschappelijke methoden ontwikkeld om kennis te verwerven. Er kwamen stedelijke nederzettingen op waarin technologische, sociale en intellectuele vooruitgang werd geboekt. Rond de Middellandse Zee kwamen Babylonische en Egyptische samenlevingen op. Hun handel berustte zich enerzijds op lange reizen over land en zee en anderzijds op het wegen, meten, tellen en bijhouden van allerlei gegevens. Zodoende kwam er meer informatie beschikbaar over vakgebieden als sterrenkunde, geneeskunde en wiskunde. Het bestuderen van de hemel door boeren leidde bijvoorbeeld tot de eerste nauwkeurige kalenders. Daarnaast was het bekend dat vaste stoffen kunnen worden omgezet in vloeistoffen. Dit soort vaardigheden vereiste een abstract begrip van de natuur aan de hand van empirische observatie. Bovendien konden bovengenoemde waarnemingen hard gemaakt worden doordat er regelmaat in te ontdekken was. De wetenschap berust zich dan ook op de overtuiging dat het heelal zich ordelijk gedraagt.

Thales (625-547 v.Chr.) was de eerste Griekse filosoof die zowel een empirische en rationalistische kijk op het heelal had. Zijn filosofie verwierp mystiek en benadrukte het belang van observatie van het natuurlijke heelal. Hij opperde een wereldbeeld waarin water centraal stond. Alles zou voortkomen uit water en er uiteindelijk tot vervallen. Thales' observaties waren altijd zorgvuldig en nauwkeurig. Hij legde de basis voor abstracte geometrie en zou later door velen worden gezien als de voorvader van de wetenschap. Andere Griekse denkers raakten geïnspireerd door het werk van Thales en volgden zijn rationalistische werkwijze. Dit leidde tot een groot aantal nieuwe inzichten, die alle voortkwamen uit logische denkstappen. Strato, een andere Griekse denker, bracht deze rationalistische inslag nog een stap verder. Volgens hem kon kennis het best verworven worden door te experimenteren.

Strato's empirische werkwijze ondervond echter al gauw weerstand van gelovige gezaghebbers en de meer filosofische wereldbeelden van Plato en Socrates. Door de botsende invalshoeken werd de empirische inslag al gauw de kop ingedrukt, wat tot een onderdrukking van bijna 1900 jaar leidde van de opkomende empirische wetenschap. Na Socrates' tijd waren de belangrijkste idealen religie, politiek en mystiek; het empirisme was naar de achtergrond verdreven. Plato en Socrates hadden er dus voor gezorgd dat de nadruk niet meer lag op rationalistische werkwijzen.

De Griekse filosofie zou zich hierna steeds meer baseren op mystiek, waardoor men anders ging kijken naar ontdekkingen. Zo werden de regelmaat en ordelijkheid die werden gevonden in sterrenkundige observaties bijvoorbeeld opgedragen aan het bestaan van een hogere macht. Er had een omslag plaatsgevonden: waar de eerste Griekse denkers de natuur systematisch probeerden te beschrijven, zochten latere filosofen naar bovennatuurlijke verklaringen in hun beschrijving van de natuur.

Aan het einde van de vierde eeuw domineerde theologie de geleerdheid. Theologie, de studie van God en Gods verhouding tot het heelal, werd op de voorgrond geplaatst ten koste van vakgebieden als sterrenkunde en optica. Uiteindelijk sloeg dit om. Rond de dertiende eeuw begonnen verschillende geleerden (bescheiden) natuurkundige experimenten te doen waardoor de empirische invalshoek terugkeerde. De twaalfde en dertiende eeuw kenden bovendien grote veranderingen in de politiek, kunst en plaatselijke verkenning. Mensen letten meer op de wereld om hen heen, wat zorgde voor een opleving van de oude Griekse geleerdheid. Rond het Middellandse Zeegebied werd kennis uitgewisseld tussen Europese en islamitische geleerden. Wetenschappelijke vondsten werden niet alleen doorverteld, maar ook vertaald in andere talen, zodat de kennis gemakkelijker kon worden gedeeld. Er ontstonden in heel Europa medische instellingen waarin geneeskunde, wiskunde en natuurkunde weer op empirische wijze werden benaderd. De opgeleefde wetenschap en theologie (be)stonden gedurende een paar eeuwen naast elkaar, maar uiteindelijk zou de wetenschap haar vraagtekens zetten bij de theologie en zich proberen los te maken van de door haar opgelegde beperkingen.

Christelijke theologen zetten op hun beurt vraagtekens bij de empirische wetenschap die opkwam. Ze waren zelfs in de positie om Griekse geleerden twee beperkingen op te leggen en deden dat dan ook. De eerste was dat empirische wetenschap niet de geloofsleer mocht tegenspreken. Bij een verschil in visie was de oplossing simpel: de theologie zou haar gelijk opeisen en tegensprekende visies onwaar verklaren. De tweede beperking was dat wetenschap alleen voor religieuze doeleinden gebruikt mocht worden. Oorspronkelijk poogden wetenschappers deze beperkingen nog subtiel te omzeilen, door te benadrukken dat het gebruik van wetenschap de mensheid zou kunnen helpen, maar uiteindelijk ontstond er toch conflicten.

Vanaf de dertiende eeuw stond de wetenschap centraal in de nieuwe medische instellingen. Bovendien werd langzamerhand steeds meer erkend dat de wetenschap profijtelijk kon zijn voor de mensheid. Men begon in te zien dat kennis gebruikt kon worden om mensen te helpen in hun huidige leven, en zich niet enkel blind te staren op een eventueel 'hiernamaals'. Hoewel het gebruik van wetenschap in dienst van de mensheid steeds breder werd gedragen, bleef de wetenschap nog tot ver in de veertiende eeuw gecontroleerd worden door de kerk. Dit conflict nam van de dertiende tot zestiende eeuw toe in kracht, toen de wetenschappelijke revolutie, geleid door grote denkers als Copernicus, Galileo, Kepler en Newton, in volle gang was. Ondanks felle weerstand van geestelijken, die de wetenschappelijke beweging zagen als een aanval op de kerk, bereikte de wetenschap onafhankelijkheid aan het begin van de negentiende eeuw. Overal doken universiteiten en andere wetenschappelijk ingestelde instanties op. De wetenschap was een krachtige, gevestigde sociale beweging geworden. In de 20^e eeuw ging deze beweging onverminderd hard door en ook in de 21^e eeuw staat de wetenschap centraal.

Wetenschap is dus niet nieuw, hoewel dit wel vaak wordt gedacht. De reden hiervoor is dat men wetenschap vaak verwart met technologie. Hoewel ze sterk verwant zijn, zijn ze niet hetzelfde. Technologie is een belangrijk middel om problemen op te lossen of nieuwe mogelijkheden te verwezenlijken. De wetenschap is een manier van denken en is voortdurend op zoek naar kennis, terwijl technologie die kennis toepast om onze levens te verbeteren. Wetenschap zou kunnen bestaan zonder technologie, maar het omgekeerde is normaliter niet waar.

Het overkoepelende doel van de wetenschap is om kennis te verwerven over het heelal en natuurlijke verschijnselen te begrijpen. Om dat te realiseren volgen wetenschappers een traject dat bestaat uit verschillende tussenstappen: waarneming, beschrijving, voorspelling, ontdekking van causaliteit, verklaring en toepassing.

Wetenschappers beginnen doorgaans met de waarneming en beschrijving van een fenomeen, waarbij het fenomeen wordt geobserveerd en zorgvuldig wordt gedocumenteerd. Het zorgvuldig beschrijven van een fenomeen garandeert geen inzicht in wat er wordt waargenomen; het verschaft enkel belangrijke informatie die eventueel kan worden gebruikt in nieuw onderzoek.

Bij voorspelling gaat het om het begrijpen van verbanden tussen verschillende variabelen. Voorspellingen kunnen ons een beter begrip opleveren, maar het is ook mogelijk om een voorspelling te doen zonder het achterliggende mechanisme volledig te begrijpen.

Het ontdekken van causaliteit gaat een stap verder dan voorspelling. Zodra causaliteit is vastgesteld, zijn we er zeker genoeg van om uitspraken te doen over het fenomeen en van welke factoren het fenomeen afhangt. Normaal gesproken is dan nog niet bekend waarom de factor een verandering kan veroorzaken; we weten enkel dat het zo is.

Verklaring gaat nog verder dan dat. Wat zijn de achterliggende mechanismen? Door modellen op te stellen aan de hand van de beschikbare informatie, kunnen we proberen fenomenen te verklaren en uiteindelijk kennis op te doen.

Toepassing draait om het gebruiken van onze kennis voor het oplossen van spelende problemen in de wereld. Dit is, naast het simpelweg opdoen van kennis, een van de twee hoofddoelen van wetenschappelijk onderzoek.

Psychologie

Psychologie is, zoals gezegd, de wetenschappelijke discipline die gedrag onderzoekt. Het vakgebied is sterk beïnvloed door Darwins evolutietheorie, die stelde dat er veel vergelijkingen konden worden getrokken tussen dieren en mensen. Dit idee ondervond veel weerstand van gelovigen en filosofen, die stelden dat de mens uniek was – of in ieder geval anders dan dieren. Hoe dan ook, het concept van natuurlijke selectie benadrukte de aanwezigheid van verschillen tussen individuen, een uitermate belangrijk uitgangspunt in de psychologie. De vroege psychologie werd gekenmerkt door verschillende stromingen, elk met een eigen invalshoek.

Het structuralisme (uit de negentiende eeuw) richtte zich voornamelijk op het bestuderen van bewustzijn. De voornaamste onderzoeksmethode was introspectie: het vragen naar de mentale ervaringen van de deelnemers terwijl zij verschillende taken uitvoerden.

Het functionalisme is een stroming die zich richt op het functioneren van het verstand, en niet zozeer op de structuur. Functioneel psychologen waren vooral geïnteresseerd in praktische vragen met betrekking tot onderwijs, training en behandeling.

De dynamische psychologie ziet gedrag als als een optelsom van complexe en tegenstrijdige interne invloeden, waarvan de meeste onbewust zouden gebeuren. Dit in contrast met het structuralisme.

De Gestaltpsychologie kwam op in Duitsland aan het begin van de 20^e eeuw. Deze stroming was het niet eens met het structuralisme, dat poogde bewustzijn op te delen in verschillende aspecten. Volgens Gestaltpsychologen ging men daardoor voorbij aan het geheel. Zij vonden bovendien dat het geheel meer is dan de optelsom van de delen waar het uit bestaat.

Het behaviorisme, dat tevens aan het begin van de 20^e eeuw begon maar dan in de Verenigde Staten, bekritiseerde de psychologie op het feit dat zij te subjectief zou zijn en zich te veel bezig zou houden met de geest. Het behaviorisme keurde concepten als de geest en bewustzijn dan ook af. In plaats daarvoor zou men objectiever te werk moeten gaan, op basis van geobserveerd gedrag.

De humanistische psychologie ontstond halverwege de 20^e eeuw. Ze richtte zich op bewuste ervaringen, creativiteit en persoonlijke ontwikkeling. Ze beweerde dat er een natuurlijke neiging is om het beste uit jezelf te halen.

Cognitieve psychologie is de stroming die perceptie, geheugen en leren bestudeert. De moderne variant ervan bevindt zich op het raakvlak van de cognitieve wetenschap, een vakgebied dat psychologie, neurowetenschap en computerwetenschap probeert samen te brengen.

De psychologie werd in de 20^e eeuw, net zoals veel andere disciplines, gedomineerd door blanke mannen. Vrouwen en andere minderheden konden zich pas in 1835 aanmelden voor dergelijk (universitair) onderwijs. Vrouwen die diploma's wisten te behalen en daarna belangrijke functies zouden bekleden, moesten lang knokken tegen bestaande vooroordelen en uitsluitingen. Tegenwoordig is dat wel anders. Hoewel mannen nog steeds de meeste doctoraten behalen in de psychologie, zijn de meeste studenten vrouw, en ook andere minderheden zijn tegenwoordig goed vertegenwoordigd in het vakgebied.

Ook het vakgebied zelf heeft veranderingen ondergaan. Tegenwoordig is er een samensmelting gaande van verschillende wetenschapsgebieden om een vollediger beeld te krijgen van zaken. Zo omvat biologische psychologie bijvoorbeeld psychologie, neurologie en taalontwikkeling. Cognitiewetenschap en neurowetenschap werken steeds meer samen om zo de hersenen en hersenactiviteit beter in kaart te brengen. Een goed begrip van biologische processen wordt dus steeds belangrijker. Door deze ontwikkelingen zijn hedendaagse psychologen doorgaans bekend met meerdere stromingen in de psychologie en meerdere vakgebieden in de wetenschap. De mainstream psychologie trekt dan ook lering uit verschillende psychologische theorieën en onderzoeksgebieden.

De psychologie is tegenwoordig een onafhankelijke wetenschappelijke discipline. Samen met wiskunde, natuurkunde, scheikunde, aardwetenschappen, geneeskunde en sociale wetenschappen is het een van de zeven hub sciences. Een hub science is een invloedrijk wetenschappelijk vakgebied waar veel kennis aan wordt ontleend door andere wetenschapsgebieden. Psychologie is bovendien een vakgebied dat veel last ondervindt van allerlei vormen van pseudowetenschap, afkomstig van mensen die geen psychologische achtergrond hebben. Hoewel pseudopsychologisch onderzoek vaak met goede intenties gebeurt, kan het schadelijk zijn, omdat zij vaak te simpele verklaringen geeft voor complexe fenomenen. Pseudowetenschap heeft, in tegenstelling tot echt wetenschappelijk onderzoek, nooit uitkomsten geboden voor vraagstukken in de psychologie.

Hoe verloopt het proces van wetenschappelijk onderzoek? - Chapter 2

Het wetenschappelijke proces

Wetenschappelijk onderzoek lijkt in veel opzichten op alledaagse denkstappen, maar het is formeler en systematischer, en daardoor nauwkeuriger en betrouwbaarder. De wetenschap gaat uit van bepaalde aannames: ideeën waarvan de juistheid alom geaccepteerd is. Deze zijn:

Het heelal bestaat
Het heelal is grotendeels een ordelijk en voorspelbaar systeem
De wetmatigheden van het heelal kunnen achterhaald worden
Kennis over het heelal is altijd incompleet

Concepten worden enkel alom geaccepteerd als theorie als ze herhaaldelijk empirische toetsen hebben doorstaan. Zelfs dan kunnen wetenschappers de juistheid van theorieën in twijfel trekken. Dit kunnen ze doen door fouten aan te tonen met behulp van onderzoek, en/of betere theorieën te opperen.

Wetenschappelijk onderzoek omvat minimaal de volgende stappen:

Het formuleren van een vraag.
Het ontwikkelen van methoden ter beantwoording van de vraag.
Het doen van empirische observaties (data verzamelen).
Het rationeel interpreteren van die observaties.
Het gebruiken van die interpretaties om gebeurtenissen te voorspellen.
Het naar buiten brengen van de resultaten.

Feiten zijn gebeurtenissen die direct en herhaaldelijk vastgelegd kunnen worden door middel van observatie. In de psychologie gaat het dan vaak om gedragingen. Daarnaast worden er niet direct waarneembare fenomenen onderzocht, zoals geheugen, emotie, intelligentie, creativiteit en humor. Het gegeven dat dit strikt gezien geen feiten zijn, betekent dus niet dat ze niet kunnen worden onderzocht. Het intellectuele proces waarbij conclusies worden getrokken uit geobserveerde feiten heet gevolgtrekking. We dienen onze gevolgtrekkingen niet te verwarren met de realiteit; we kunnen immers niet zeker weten of onze conclusies juist zijn. Gevolgtrekkingen kunnen echter wel helpen geobserveerd gedrag te verklaren. Als een onderzoeker een niet direct waarneembaar fenomeen probeert te verklaren, is hij/zij bezig met het opstellen van een construct. Wetenschappers doen dan net alsof het construct daadwerkelijk iets te maken heeft met het waargenomen fenomeen, in een poging om de onderliggende verbanden te achterhalen. Wetenschappers gebruiken voortdurend observaties en constructs bij het doen van onderzoek, maar men dient wel te voorkomen dat constructs worden verward met feiten.

Wanneer we veralgemeniserend redeneren, gebruiken we inductieve redenering. Wanneer het omgekeerde gebeurt – als we algemene ideeën gebruiken om specifieke fenomenen te verklaren – spreken we van deductieve redenering. Ook hier geldt dat wetenschappers beide voortdurend (afwisselend) gebruiken. Bovendien moet dit met grote nauwkeurigheid gebeuren.

Modellen en theorieën in de wetenschap

Een belangrijk doel in alle wetenschappelijke disciplines is het ontwikkelen en gebruiken van theorieën. Een theorie is een formeel geheel van concepten dat waarnemingen beschrijft, verklaringen geeft voor fenomenen en een basis legt voor het het doen van voorspellingen. Een theorie is pas wetenschappelijk als deze te toetsenn is en falsifieerbaar is. Dat wil zeggen dat het mogelijk moet zijn om aan te tonen dat de theorie niet klopt aan de hand van empirisch bewijs.

Een goede wetenschappelijke theorie vereist een sterke empirische basis, zorgvuldig opgestelde constructs en nauwkeurige toetsen om de juistheid ervan te bepalen. Theorieën zijn weliswaar niet nodig om nieuwe kennis op te doen, maar wetenschappelijke feiten zijn wel nuttiger en betekenisvoller als ze geplaatst worden in het ordenende kader van een theorie. Een schrale theorie is een relatief simpele theorie. Als twee verschillende theorieën een bepaald fenomeen even goed beschrijven, wordt voorkeur gegeven aan de simpelere theorie. Verder moet een goede theorie geldigheid bezitten. Dat wil zeggen dat de theorie specifieke uitspraken doet die getoetst kunnen worden door het doen van observaties.

Alle wetenschappelijke theorieën maken gebruik van inductieve en deductieve redeneringen, maar de mate waarin de een of de ander wordt benadrukt kan verschillen. Theorieën die inductie benadrukken heten inductieve theorieën. Deze theorieën blijven dichtbij de empirische data en benadrukken het belang om geen uitspraken te doen die niet direct uit de data te halen zijn. Deductieve theorieën benadrukken afleidingen (voorspellingen) op basis van constructs. De afleidingen zijn hypotheses, die wetenschappers empirisch toetsen aan de hand van onderzoek. Deductieve theorieën gaan meestal verder dan gerapporteerde gegevens en pogen gaten in de theorie op te vullen met nieuwe kennis. De meeste psychologische theorieën zijn functionele theorieën, die in gelijke mate gebruikmaken van inductieve en deductieve redenering. De drie bovengenoemde theorieën streven dezelfde doelen na: het organiseren van kennis, het voorspellen van fenomenen en het achterhalen van onderliggende verbanden.

Een vierde soort theorie is een model. In de wetenschap worden modellen gebruikt als een versimpelde voorstelling van de (complexe) werkelijkheid, en niet als nabootsing. Modellen zijn doorgaans dan ook minder ver ontwikkeld dan formele theorieën. Aan de hand van modellen kunnen nieuwe ideeën worden opgedaan over hoe de wereld werkt. Modellen kunnen worden gebruikt voor nagenoeg alle fenomenen in het heelal. Ze kunnen zowel fysiek als abstract zijn. In dat laatste geval worden ze opgesteld aan de hand van ideeën en uitgedrukt in (wiskundige) taal. Modellen hoeven bovendien niet waar te zijn om waarde te hebben. Modellen worden beoordeeld aan de hand van hun vermogen om informatie te ordenen, fenomenen te verklaren en nauwkeurige voorspellingen te doen.

Het onderzoeksproces

Wetenschappelijk onderzoek is op te delen in verschillende fasen:

Het opdoen van ideeën

Ideeën kunnen ontstaan uit onduidelijke gedachten. Bovendien gebeurt dit lang niet altijd planmatig. In de wetenschap gebeurt het meestal echter wel op systematische wijze door andere onderzoeksresultaten te interpreteren. Dit gebeurt vooral in ver ontwikkelde onderzoeksgebieden. Men moet oppassen ideeën niet te snel te verwerpen.

Het opstellen van een onderzoeksvraag

Vage ideeën dienen te worden opgehelderd en verfijnd. Dit kan een onderzoeker doen door de betreffende literatuur te bestuderen en erachter te komen hoe andere onderzoekers deze ideeën benaderd hebben. De literatuur levert de informatie die wetenschappers nodig hebben om het te onderzoeken probleem te begrijpen. Uiteindelijk is het de bedoeling dat er één of meer zorgvuldig opgestelde onderzoeksvragen tot stand komen. Deze stap is cruciaal, omdat dit in grote mate het verdere verloop van het onderzoek bepaalt.

Het ontwikkelen van onderzoeksmethoden

Deze fase is systematisch en complex. De onderzoeker bepaalt in deze fase in grote lijnen de werkwijze van het onderzoek. Denk hierbij aan vragen betreffende het doen en vastleggen van observaties, onder welke voorwaarden dit gebeurt, welke statistische methoden gebruikt zullen worden om de data te analyseren, enzovoort. In deze fase wordt ook besloten wie deelneemt aan het onderzoek.

Het doen van observaties

In deze fase voert de onderzoeker het onderzoek uit aan de hand van de ontwikkelde werkwijze. Deze fase speelt een sleutelrol in alle gebieden van de wetenschap. Merk op dat de voorgaande fases ter voorbereiding dienen op het doen van deze empirische observaties. Hierna worden de waarnemingen verwerkt, geïnterpreteerd en naar buiten gebracht.

Het analyseren van data

De onderzoeker verwerkt de data met behulp van statistische methoden. In de psychologie wordt data meestal weergegeven in de vorm van getallen die de observaties vertegenwoordigen. Statistische methoden worden gebruikt om de significantie van de waarnemingen te bepalen. Het is hierbij belangrijk dat de onderzoeker methoden hanteert die aansluiten op de onderzoeksvraag.

Het interpreteren van data

Gebruikmakend van de geanalyseerde data komt de onderzoeker tot een antwoord op zijn/haar onderzoeksvraag. Daarnaast wordt bekeken hoe de resultaten bijdragen aan de kennis in het vakgebied. De onderzoeker verbindt de resultaten dus niet alleen aan de onderzoeksvraag, maar ook aan andere concepten en bevindingen in het vakgebied. Hij/zij gebruikt de resultaten om te bepalen hoe nauwkeurig de theorie fenomenen voorspelt.

Het naar buiten brengen van resultaten

Het naar buiten brengen van onderzoeksresultaten is belangrijk. Dit gebeurt op een aantal manieren. Ze kunnen worden gepresenteerd op wetenschappelijke conferenties, of worden gepubliceerd in tijdschriften, boeken, of op internet. Dat laatste geniet steeds vaker de voorkeur vanwege de lage kosten en efficiëntie. Wetenschappelijke publicaties dienen onderzoeksmethoden uitvoerig te beschrijven, zodat anderen het gedane onderzoek kunnen begrijpen, nabootsen en beoordelen. Op basis van het onderzoek kan worden besloten tot verder onderzoek, door dezelfde onderzoeker dan wel door andere onderzoekers.

Het hierboven beschreven proces is gebruikelijk voor alle wetenschappelijke disciplines. Het feit dat de aard van de waarnemingen kan verschillen per vakgebied, neemt niet weg dat de gebruikte methoden hetzelfde zijn. Bovendien geldt voor alle disciplines dat ze empirisch van aard zijn. Hoe systematischer en zorgvuldiger we fenomenen waarnemen, hoe steviger het fundament wordt waarop we verder bouwen. Dat gaat wel ten koste van flexibiliteit. De mate waarin waarde wordt gehecht aan precisie beïnvloedt de mate van beperking. Met andere woorden: nauwkeurigheid gaat ten koste van flexibiliteit.

Afhankelijk van de mate van beperking kunnen we onderscheid maken tussen verschillende vormen van wetenschappelijk onderzoek, maar er is geen sprake van duidelijke grenzen; er is een zekere overlap. We maken een onderscheid tussen:

Naturalistische observatie

Dit betreft het observeren van deelnemers in hun natuurlijke omgeving. De onderzoeker moet ervoor zorgen dat er geen beperkingen worden opgelegd aan de omgeving of het gedrag van de deelnemers.

Casusonderzoek

Deelnemers worden in een gematigd beperkte omgeving geplaatst en geobserveerd aan de hand van interviews en toetsen. Hoewel de onderzoeker in lichte mate beperkt wordt, behoudt hij/zij de flexibiliteit om de aandacht te richten op relevant en/of interessant gedrag.

Correlationeel onderzoek

Dit onderzoek is gericht op het kwantificeren van de relatie tussen twee of meer variabelen. Onderzoekers dienen zorgvuldig de meetwijzen te bepalen en te volgen.

Differentieel onderzoek

Hierbij staat het vergelijken van twee of meer groepen deelnemers centraal. Het is daarbij cruciaal dat er sprake is van gelijke omstandigheden en meetwijzen, zodat de te onderzoeken variabele het enige is wat de groepen van elkaar onderscheidt. Er is dan sprake van een reeds aanwezige variabele, die de onderzoeker niet kan beïnvloeden. Denk hierbij aan leeftijd, IQ, geslacht, enzovoort.

Experimenteel onderzoek

Dit soort onderzoek richt zich op het vergelijken van de prestaties van deelnemers in verschillende situaties. Elk aspect van het onderzoek is voorbedacht en onderzoekers volgen expliciete methoden gedurende de metingen. Het hele onderzoek is dus afgebakend.

Zodra de mate van beperking voor het onderzoek is bepaald, mag er niet meer worden veranderd van werkwijze. Dit zou namelijk het gevaar met zich meebrengen dat er verkeerde conclusies worden getrokken. Vaak vormen conclusies uit onderzoek met weinig beperkingen de uitgangspunten voor sterker afgebakend onderzoek. Naarmate onderzoek sterker beperkt wordt, worden de werkwijzen en bevindingen nauwkeuriger. Daartegenover staat dat de procedure ook kunstmatiger kan worden, of verder verwijderd van de realiteit, waardoor het onderzoek relevantie kan verliezen. Dit staat bekend als het nauwkeurigheid-versus-relevantieprobleem.

Ethische principes

Bij het doen van onderzoek worden deelnemers blootgesteld aan situaties die we zelf kiezen. Uiteraard is het een uitzonderlijk grote verantwoordelijkheid om te beslissen wat er met mensen (of andere levende organismen) gebeurt tijdens een onderzoek. We zijn dan ook verantwoordelijk voor de veiligheid en het welzijn van mens en dier. In 1947 is daarom de Code van Neurenberg opgesteld. Dit omvatte tien ethische principes ter bescherming van deelnemers aan onderzoek, waarvan de belangrijkste was dat het deelnemen aan onderzoek altijd vrijwillig moet gebeuren. Sindsdien hebben tal van andere commissies en instellingen zich gebogen over de kwestie en de voorschriften verder verbeterd, om de risico's van het doen van onderzoek te minimaliseren. Concluderend kunnen we zeggen dat de onderzoeker altijd de verantwoordelijkheid draagt om het onderzoek op een ethische en veilige manier uit te voeren.

Waarom is het stellen van goede onderzoeksvragen belangrijk? - Chapter 3

Vragen stellen en verfijnen

Onderzoek start met het stellen van de juiste vragen. Het formuleren van een goede vraag is een van de belangrijkste en meest creatieve aspecten van het doen van onderzoek. Vragen komen vaak voort uit persoonlijke interesse of verwondering. Onderzoek levert meestal meer vragen op dan ze beantwoordt en vormt dan ook vaak het uitgangspunt van nieuw onderzoek. Dit gebeurt op twee manieren: heuristisch en systematisch. We spreken van heuristische invloed wanneer onderzoeksresultaten interesse of ongeloof genereren en nieuwe vragen oproepen. Systematische invloed vindt plaats wanneer onderzoek nieuwe vragen oproept die getoetst dienen te worden. Beide invloeden zijn belangrijk in de wetenschap.

Wegens haar ordelijke benadering levert wetenschappelijk onderzoek vaak voorspelbare resultaten op. Wanneer dit niet gebeurt, kan dit leiden tot een omslag in de manier van denken.

In de psychologie wordt veel gebruik gemaakt van toegepast onderzoek: onderzoek dat directe oplossingen zoekt voor praktische problemen. Fundamenteel onderzoek tracht meer kennis te verwerven van de natuur zonder nadruk te leggen op praktische doeleinden. De kennis is dus het doel, maar kan later ook de basis vormen voor toepassingen. In de praktijk is het moeilijk om financiële steun te krijgen voor fundamenteel onderzoek, omdat beleidsmakers vaak niet het nut inzien van onderzoek zonder directe praktische doeleinden. Translationeel onderzoek probeert basiskennis te toetsen en uiteindelijk te gebruiken in de praktijk.

Na het opstellen van een onderzoeksvraag moet de vraag net zo lang worden verfijnd totdat deze voldoende specifiek is om door de onderzoeker beantwoord te kunnen worden. Het is belangrijk om te specificeren welk gedrag onderzocht gaat worden en onder welke omstandigheden. Dit zijn de variabelen van het onderzoek. Een variabele is een verschijnsel waarvan de waarde kan variëren. Sommige variabelen zijn gemakkelijker te manipuleren dan andere.

Over het algemeen kunnen we zeggen dat onderzoekers de onderzoeksvraag zo ver mogelijk moeten verfijnen. Hoe meer er bekend is, hoe specifieker de onderzoeksvraag doorgaans zal zijn en hoe gebruikelijker het is om sterk afgebakende onderzoeksmethoden te gebruiken om de vraag te beantwoorden.

Verschillende variabelen in een onderzoek

Onderzoekers onderscheiden drie soorten variabelen op basis van hun eigenschappen:

Gedragsmatige variabelen

Waarneembare reacties van organismen worden gedragsmatige variabelen genoemd. Aangezien de psychologie gedrag onderzoekt, spelen deze variabelen een belangrijke rol in psychologisch onderzoek. Ze worden bovendien het vaakst waargenomen.

Stimulerende variabelen

Variabelen die (mogelijk) invloed hebben op de reacties van het organisme noemen we stimulerende variabelen. Deze kunnen variëren van simpel tot complex. In psychologisch onderzoek worden stimulerende variabelen doorgaans gecontroleerd en gedragsmatige variabelen meestal geobserveerd.

Organismische variabelen

Dit zijn kenmerken van de deelnemers. Variabelen die direct waargenomen kunnen worden, noemen we geobserveerde organismische variabelen. Variabelen die niet direct waargenomen kunnen worden, kunnen soms toch afgeleid worden door gedrag waar te nemen. Op basis van deze variabelen kunnen deelnemers in groepen worden verdeeld om zo klassen aan te brengen in de gegevens.

Variabelen kunnen ook worden onderscheiden op basis van de manier waarop ze in onderzoek worden gebruikt:

Onafhankelijke en afhankelijke variabelen

Variabelen die de onderzoeker kan manipuleren heten onafhankelijke variabelen. De reacties op deze manipulaties zijn de afhankelijke variabelen. Wat onderzocht dient te worden, is of de onafhankelijke variabele wel of niet van invloed is op de afhankelijke variabele. Onafhankelijke variabelen zijn verder op te delen in gemanipuleerde onafhankelijke variabelen en niet-gemanipuleerde onafhankelijke variabelen. De eerste zijn variabelen die de onderzoeker actief controleert gedurende het onderzoek. De tweede categorie slaat terug op eerder genoemde kenmerken als IQ en leeftijd. Zoals de naam al zegt kan de onderzoeker deze variabelen niet beïnvloeden; ze vormen eerder de basis voor het onderscheid tussen groepen. Door leeftijdscategorieën aan te brengen in het onderzoek, kan bijvoorbeeld worden gekeken of er verschillen bestaan tussen mentale prestaties van verschillende leeftijdsgroepen. Onderzoekers proberen vaak dit soort verbanden te achterhalen. Wanneer een verandering in de ene variabele leidt tot een (voorspelbare) verandering in de andere, spreken we van een normaal verband. Hoewel dit een simpel concept lijkt, is het in de praktijk vaak moeilijk om de onafhankelijke variabele niet te beïnvloeden.

Uitwendige variabelen

Als onvoorziene en ongecontroleerde factoren de uitkomst van een onderzoek beïnvloeden, spreken we van uitwendige variabelen. Onderzoekers moeten ervoor zorgen dat deze factoren zo min mogelijk het onderzoeksresultaat verstoren.

Variabelen en constanten

Als de omstandigheden waaronder het onderzoek plaatsvindt veranderen, is de gebeurtenis zelf een variabele geworden. Alleen als de omstandigheden niet veranderen, spreken we van constanten. Een reeks gebeurtenissen is dus alleen constant als de onderzoeker ervoor zorgt dat de omstandigheden niet veranderen. De vraag of waarden variabel of constant moeten zijn, hangt af van de onderzoeksvraag.

Geldigheid en uitwendige variabelen controleren

Geldigheid heeft betrekking op de juistheid en nauwkeurigheid van een onderzoek of werkwijze. Bij het doen van onderzoek is het belangrijk dat de geldigheid van de werkwijzen wordt gemaximaliseerd. Het is daarbij bijvoorbeeld belangrijk om de invloed van uitwendige variabelen te beperken met behulp van controles. Dat houdt in dat er systematische methoden aanwezig zijn om externe factoren te beperken in hun invloed op de geldigheid van het onderzoek. Zonder deze controles kan er geen zekerheid bestaan over onderzoeksresultaten.

Ethische principes

Het belangrijkste ethische principe is dat onderzoekers mensen (of dieren) niet mogen schaden. Dit werd vastgelegd in het historische Belmont Report, dat de belangrijkste ethische principes voor het doen van onderzoek schetste:

Liefdadigheid

Het risico dat deelnemers lopen moet geminimaliseerd worden en de voordelen voor de deelnemers en de maatschappij dient gemaximaliseerd te worden.

Vrijwilligheid

Deelnemers moeten zelf kunnen beslissen of ze meedoen aan onderzoek en er moet voldoende informatie gegeven zijn om die keuze te kunnen maken.

Rechtvaardigheid

Zowel risico's als voordelen van het doen van onderzoek moeten gelijk verdeeld worden over de leden van een populatie.

Bij psychologisch onderzoek moet bovendien gelet worden op de volgende belangrijke zaken. Deelnemers dienen te worden beschermd van misleiding (het geven van valse informatie) en verzwijging (het voorhouden van informatie). Dit kan leiden tot wantrouwen jegens het onderzoek. Ook inbreuk op privacy dient voorkomen te worden. Gezien de persoonlijke aard van de informatie moet de onderzoeker daarom zorgen voor geheimhouding van de informatie. Er is in feite een constante belangenverstrengeling gaande; aan de ene kant is de maatschappij sterk gebaat bij wetenschappelijke vooruitgang, maar aan de andere kant vereist het vinden van oplossingen soms het in gevaar brengen of het schenden van de privacy van individuen. Onderzoekers moeten deelnemers voldoende informatie geven over het onderzoek, zodat de deelnemers een afgewogen beslissing kunnen maken over hun deelname. Dit noemen we geïnformeerde toestemming. Verder moet de steekproef veelzijdig zijn. Veelzijdigheid zegt iets over hoe goed verschillende bevolkingsgroepen (onderscheiden op basis van etniciteit, cultuur, leeftijd en geslacht) vertegenwoordigd zijn in het onderzoek. Traditioneel worden vrouwen en veel etniciteiten ondervertegenwoordigd in onderzoek, maar tegenwoordig worden onderzoekers aangespoord om een mix van deelnemers te werven die de bevolking goed weergeeft. Onderzoekers mogen alleen bevolkingsgroepen uitsluiten als hier een wetenschappelijk gegronde reden voor is.

Ook bij onderzoek naar dieren gelden ethische regels. Ten eerste is het belangrijk om te beseffen dat dieren niet in staat zijn om toestemming te geven tot het meedoen aan onderzoek. Daarnaast is onderzoek naar dieren vaak indringender en lopen dieren grotere risico's dan mensen. Onderzoekers moeten zich bewust zijn van hun verantwoordelijkheid en niet vergeten dieren 'menselijk' te behandelen bij het doen van onderzoek. Net zoals bij mensen moet worden gekeken of het nut van het doen van onderzoek opweegt tegen de kosten en het risico voor de deelnemers.

Wat is het doel van metingen bij psychologisch wetenschappelijk onderzoek? - Chapter 4

Meting

Het belangrijkste doel van meten is om onderzoeksvariabelen weer te geven in cijfers. Daarbij wordt gebruik gemaakt van twee soorten informatie: een abstract getallensysteem en de te meten variabele. De bedoeling is dat de getallen nauwkeurig de variabelen weergeven. Dat kan lastig zijn, want de twee systemen volgen niet altijd dezelfde regels. We dienen daarom te bepalen hoe goed de eigenschappen van het abstracte getallensysteem de variabelen vertegenwoordigen. De eigenschappen van het abstracte getallensysteem houden zich aan:

Identiteit: elk getal heeft een bepaalde betekenis.
Magnitude: er is een aanwezige volgorde van klein naar groot.
Gelijke intervallen: de afstand tussen getallen is overal op de schaal gelijk.
Absoluut nulpunt: er is een onarbitrair nulpunt van de gemeten variabele.

Door deze eigenschappen kunnen we rekenen met getallen. Dat betekent echter niet dat de kenmerken van psychologische variabelen altijd overeen hoeven te komen met die van het getallensysteem. Zo past 50 in het normale getallensysteem tweemaal in 100, maar mogen we niet zeggen dat iemand met een score van 100 op een intelligentietest twee keer zo intelligent is als iemand met een score van 50. Data waarvan de psychologische betekenis wél direct uit het getallensysteem te halen is, kunnen aan strengere statistische toetsen onderworpen worden. De conclusies die uit deze (exacte) data worden getrokken, zijn om die reden doorgaans nauwkeuriger en betekenisvoller.

Meetschalen

Om te bepalen in hoeverre de eigenschappen van psychologische variabelen overeenkomen met die van het getallensysteem, worden variabelen opgedeeld in vier niveaus op een meetschaal. Van minst tot meest accuraat zijn dit: nominale schalen, ordinale schalen, intervalschalen en ratioschalen.

Nominale schalen

Nominale schalen komen niet goed overeen met het getallensysteem en zijn daarom de zwakste manier van meten. Ze worden gekenmerkt door beschrijvingen aan de hand van woorden, en dus niet door getallen. De verschillen tussen de categorieën zijn daarom kwalitatief en niet kwantitatief. De data afkomstig van nominale schalen noemen we nominale data.

Ordinale schalen

Ordinale schalen bezitten zowel magnitude als identiteit. Er is dus wel sprake van een orde van grootte, maar de afstand tussen de klassen is onduidelijk. De getallen geven dus enkel informatie over de relatieve positie van klassen, maar niet over de absolute afstand ertussen. Sociaaleconomische klassen zijn hier een goed voorbeeld van. Data afkomstig van ordinale schalen noemen we geordende data.

Intervalschalen

Wanneer metingen informatie geven over zowel magnitude als de afstand tussen waarden, spreken we van intervalschalen. Ze bezitten alle eigenschappen van ordinale schalen, maar dan met gelijke intervallen tussen de waarden. Van een absoluut nulpunt is echter geen sprake. De Celsiusschaal is hier een goed voorbeeld van, aangezien de intervallen wel gelijk zijn, maar het nulpunt geen absoluut nulpunt is. Een ander voorbeeld is de IQ-schaal. Data afgeleid van intervalschalen noemen we score data.

Ratioschalen

Ratioschalen zijn ideaal voor metingen. Ze hebben alle genoemde eigenschappen van meting (identiteit, magnitude, gelijke intervallen en een absoluut nulpunt). Door de nauwe overeenkomst met het getallensysteem kunnen alle wiskundige bewerkingen worden uitgevoerd op de data. Doordat het delen van twee getallen altijd een geldig en betekenisvol antwoord geeft, kunnen we met recht spreken van een ratioschaal. Data van ratioschalen noemen we tevens score data.

Variabelen meten en manipuleren

Nu er een basis is gelegd voor termen uit de statistiek, kunnen we beginnen met het meten en manipuleren van variabelen. Allereerst is het belangrijk om te weten dat er bij metingen sprake kan zijn van meetafwijkingen. Door deze afwijkingen is het onzeker of de waarnemingen de werkelijkheid goed weergeven. Ook het fenomeen dat mensen soms geneigd zijn een sociaal wenselijk antwoord te geven (in plaats van een eerlijk antwoord) kan ervoor zorgen dat de geldigheid van een meting verloren gaat. Schaamte en sociale druk zijn fenomenen die vaak ten grondslag liggen aan het geven van sociaal wenselijke antwoorden. Hierdoor kunnen meetfouten ontstaan.

Het minimaliseren van meetfouten is erg belangrijk. De beste manier om dit te bewerkstelligen is door een goed doordachte meetwijze te ontwikkelen en deze zorgvuldig en consequent uit te voeren.

Om empirisch onderzoek te doen op basis van abstracte ideeën, moeten deze ideeën eerst worden vertaald van een abstract naar een concreet niveau. Dat doen we door operationele definities te ontwikkelen. Een operationele definitie is een definitie van een variabele, kijkend naar de procedures die worden gebruikt om die variabele te meten en/of te manipuleren. Als je bijvoorbeeld op een weegschaal stapt om je gewicht te meten, heb je het abstracte concept 'gewicht' vertaald naar een empirische meting. De kern van een operationele definitie is dus het concreet en praktisch maken van een theoretische abstractie, waarbij de onafhankelijke en afhankelijke variabelen zo nauwkeurig mogelijk gedefinieerd moeten worden. Vaak kan dit op verschillende manieren, en het is mogelijk dat de gevonden resultaten (sterk) afhangen van de gekozen definities voor de variabelen. Soms is het voor het ontwikkelen van een operationele definitie daarom handig om te kijken naar de literatuur die gebaseerd is op onderzoek uit het verleden.

Metingen evalueren

De kwaliteit van de gedane metingen dient te worden geëvalueerd. Door verslag te doen van de kwaliteit van de metingen kunnen andere onderzoekers meer te weten te komen over eventuele nieuwe metingen voor hun eigen onderzoeksprojecten. In die evaluaties zijn drie dingen belangrijk: betrouwbaarheid, bereik en geldigheid.

Goede metingen geven consistente resultaten, ongeacht wie de metingen verricht. Bovendien moeten herhaalde metingen van hetzelfde fenomeen hetzelfde resultaat opleveren. Dit noemen we betrouwbaarheid. Er zijn drie typen betrouwbaarheid:

Inter-rater betrouwbaarheid

Als metingen van hetzelfde fenomeen door twee of meer verschillende onderzoekers dezelfde resultaten opleveren, spreken we van inter-rater betrouwbaarheid. Om onafhankelijk van elkaar te meten, moeten onderzoekers blind zijn voor elkaars resultaten. In de praktijk is deze betrouwbaarheid noch perfect, noch verwaarloosbaar. Meestal zit de waarde er ergens tussenin.

Test-retest betrouwbaarheid

Variabelen die niet van waarde veranderen, zouden dezelfde resultaten moeten opleveren als ze op een later moment weer worden gemeten. Dit noemen we test-retest betrouwbaarheid. Deze waarde wordt vaak uitgedrukt in de vorm van een correlatiecoëfficiënt.

Interne consistentie betrouwbaarheid

We spreken van interne consistentie betrouwbaarheid als verschillende toetsen hetzelfde verschijnsel pogen te meten en dat ook doen. Daarvan is ook sprake wanneer er meerdere observaties worden gedaan van bepaald gedrag, en ze alle consistent zijn met alle andere gedane metingen. Dit gebeurt als alle voorwerpen hetzelfde verschijnsel meten. Hetzelfde construct wordt dan gemeten door verschillende, onafhankelijke metingen. Hoe meer waarnemingen worden gedaan, hoe groter de interne consistentie doorgaans is.

Naast betrouwbaarheid is ook het bereik van de schaal belangrijk. Stel dat we het gewicht van heel grote en heel kleine dingen willen meten. In dat geval zullen we twee verschillende weegschalen nodig hebben, omdat er geen weegschaal bestaat die beide nauwkeurig kan meten. Hoewel het concept van gewicht voor beide voorwerpen hetzelfde is, volstaat het niet om dezelfde schaal te gebruiken. De meeste methoden beschikken niet over de mogelijkheid om, in het geval van mensen, alle deelnemers te betrekken.

Een verwant probleem is het opdoen van schaalverzwakkende effecten. Als de gebruikte schaal niet groot genoeg is, kunnen de resultaten te veel geconcentreerd raken in een van de uiteinden van de schaal. Een goed voorbeeld hiervan is wanneer een examen te moeilijk (of te makkelijk) is. Hierdoor zullen bijna alle kandidaten ergens onderaan de meetschaal zitten, waardoor er nauwelijks meer sprake is van spreiding. Het wordt hierdoor moeilijker om uitspraken te doen over verschillen tussen de kandidaten. Dit noemen we het bodemeffect. Aan de andere kant van de schaal kan dit verschijnsel ook optreden. In dat geval spreken we van een plafondeffect.

Geldigheid is de laatste factor waarmee we rekening moeten houden. Een meetschaal is enkel geldig als het datgene meet dat het zou moeten meten. Dit is niet hetzelfde als betrouwbaarheid, dat enkel iets zegt over de consistentie van verschillende metingen. Als een weegschaal bijvoorbeeld consistent is in het meten van een bepaald gewicht, terwijl dat gewicht onjuist is, is er wel sprake van betrouwbaarheid (want de metingen zijn consistent), maar niet van geldigheid. Een meting kan niet geldig zijn als de meting niet tegelijkertijd betrouwbaar is, maar het omgekeerde is niet per se waar. Net zoals betrouwbaarheid is geldigheid een concept dat gradaties kent en meestal in een correlatiecoëfficiënt wordt uitgedrukt. Wanneer we het hebben over hoe goed een meting een toekomstige gebeurtenis voorspelt, spreken we van voorspellende geldigheid. De variabele die een onderzoeker wil voorspellen heet het criterium; de gebruikte methode om het criterium mee te voorspellen noemen we de voorspeller. Wanneer we willen weten of een meting correleert met een reeds bekend criterium, spreken we van aansluitende geldigheid. Denk bijvoorbeeld aan het koppelen van IQ aan schoolcijfers.

Objectiviteit is erg belangrijk in het doen van onderzoek. Een belangrijk uitgangspunt in de wetenschap is dat natuurwetten altijd van kracht zijn, ongeacht wie ze onderzoekt. Subjectieve waarnemingen leiden vaak tot onenigheden door het ontstaan van meningsverschillen. Om die reden is het belangrijk om objectieve meetwijzen te hanteren, zodat we steeds dezelfde resultaten verkrijgen. Het gebruik van statistische methoden biedt daarin tegenwoordig bijna altijd uitkomst. Door de objectieve aard van statistiek vormt het een uitstekende manier om data te verwerken en te beoordelen. Bovendien zijn statistische toetsen reproduceerbaar. Bovengenoemde redenen verklaren waarom de psychologie zo sterk berust op statistische analyses van data.

Ethische principes

Zoals eerder al besproken is, hebben wetenschappers twee ethische verantwoordelijkheden bij het doen van onderzoek: het beschermen van de deelnemers, en het eerlijk zijn in het doen en rapporteren van het onderzoek. Vooral dat laatste gaan we nu nader bekijken.

Er zijn verschillende manieren waarop het doen van onderzoek, met betrekking tot het verkrijgen van data, niet ethisch kan gebeuren. Het gaat dan vooral om het bewust fabriceren van data en plagiaat. Het behoeft geen uitleg dat dit ernstige zaken zijn. Waar het verdraaien van feiten in het dagelijks leven regelmatig voorkomt en niet meteen ernstig hoeft te zijn, zo anders is dat in de wetenschap. Het bewust verdraaien van de feiten en het stelen van andermans werk behoren tot de grootste fouten die wetenschappers kunnen begaan. Niet alleen vanuit ethisch oogpunt, maar ook vanwege het grote maatschappelijke belang van nauwkeurige wetenschappelijke informatie. Het getuigt van een gebrek aan eerlijkheid en verantwoordelijkheid om persoonlijke of financiële doelen te plaatsen boven wetenschappelijke. Bovendien kan de fraude meestal worden aangetoond door collegiale toetsing. Vaak leidt dit tot ontslag, reputatieschade en in uitzonderlijke gevallen zelfs tot gevangenisstraf.

Bovengenoemde vormen van fraude kunnen ook worden begaan door hele organisaties, zoals overheden en bedrijven.

Hoe werkt de statistische analyse van data in psychologisch onderzoek? - Chapter 5

Nadat bepaald is hoe variabelen worden gemeten in het onderzoek, moeten we besluiten hoe de data statistisch geanalyseerd gaat worden. Statistische procedures zijn krachtige hulpmiddelen met twee (brede) doelen: de resultaten van een onderzoek beschrijven (beschrijvende statistiek) en de betekenis van de resultaten bepalen (inferentiële statistiek). Welke statistische methoden gebruikt zullen worden, hangt sterk af van de onderzoeksopzet. Er wordt al in een vroeg stadium – namelijk bij het maken van de onderzoeksopzet – besloten welke statistische methoden gebruikt zullen worden. Zonder statistiek zouden we weinig lering kunnen trekken uit onderzoeken.

Individuele verschillen

Statistische procedures zijn in zekere zin afhankelijk van onderlinge verschillen tussen deelnemers van een onderzoek. De meeste variabelen die psychologen kunnen manipuleren in een onderzoek veranderen maar weinig aan prestaties van mensen. Statistische methoden kunnen onderzoekers helpen te bepalen wat de oorzaak is van waargenomen verschillen tussen groepen.

Beschrijvende statistiek is gericht op het samenvatten, versimpelen en beschrijven van grote hoeveelheden data. Inferentiële statistiek heeft als doel om betekenis te geven aan de data en er de juiste conclusies uit te trekken. Het is bijvoorbeeld belangrijk om te bepalen of gemeten verschillen tussen deelnemersgroepen willekeurig zijn, of juist niet.

Data organiseren

De meeste nominale en geordende data kunnen we statistisch vereenvoudigen door het berekenen van frequenties: het aantal deelnemers dat in elk van de categorieën valt. Dit geven we weer in frequentieverdelingen. Als we deelnemers op basis van meer dan één variabele tegelijk willen categoriseren, kunnen we gebruikmaken van kruistabellen. Dit kan inzichten opleveren in de verbanden tussen de gemeten variabelen.

Score data wordt ook weergeven in een frequentieverdeling. Hierdoor wordt de data georganiseerd en is het gemakkelijker af te lezen. Doordat score data magnitude bezit, is er een logische volgorde aanwezig in de frequentieverdeling. Als een variabele erg veel waarden kan aannemen, is het beter om de metingen onder te verdelen in intervallen. Hierdoor blijft het overzicht beter bewaard. Dit noemen we gegroepeerde frequentieverdelingen. Data mag alleen op die manier worden weergeven als er sprake is van een continue variabele. Dat wil zeggen dat de variabele in principe elke waarde kan aannemen tussen twee grenzen. Geldbedragen zijn hier een goed voorbeeld van.

Data kan ook weergeven worden in een grafiek. Het voordeel hiervan is dat de data gemakkelijker afgelezen kan worden. Frequentieverdelingen kunnen grafisch weergegeven worden in een histogram of een frequentiepolygoon. Beide presenteren de data in een tweedimensionale grafiek. Op de x-as staan de waarden die de variabele kan aannemen. Op de y-as staat de frequentie van die verschillende uitkomsten. Bij een histogram wordt de frequentie weergegeven door de hoogte van een balk. Bij een frequentiepolygoon gebeurt dat door middel van punten die verbonden worden door rechte lijnen.

Veel variabelen in de psychologie vormen normale verdelingen. Dit zijn vloeiende, symmetrische verdelingen waarin een groot deel van de deelnemers geconcentreerd is rond het midden van de verdeling. Bij scheve verdelingen gebeurt het tegenovergestelde. Daarvoor geldt dat scores geconcentreerd zijn aan één van beide kanten van de verdeling. We spreken van positieve scheefheid als de meeste waarden geconcentreerd zijn aan het linkeruiteinde. Als de scores veelal hoog zijn en dus rechts geconcentreerd zijn, spreken we van negatieve scheefheid.

Beschrijvende statistiek

Beschrijvende statistiek dient twee doelen. Het eerste doel is om data te beschrijven met maar één of twee getallen, waardoor groepen gemakkelijker vergeleken kunnen worden. Het tweede doel is om een basis te leggen voor verdere (inferentiële) analyses.

Centrummaten spelen een belangrijke rol in beschrijvende statistiek. Zij geven een beschrijving van waar de meeste data geconcentreerd is. De drie belangrijkste centrummaten zijn de modus, de mediaan en het gemiddelde.

De modus is de waarde in de steekproef met de hoogste frequentie. Er hoeft niet altijd één waarde te zijn die het vaakst voorkomt. In het geval dat er twee of drie waarden zijn met de hoogste frequentie, spreken we van respectievelijk bimodale of trimodale verdelingen. De modus is gemakkelijk te bepalen, maar is wel onstabiel. De modus mag gebruikt worden met alle meetschalen.

De mediaan is de middelste waarde in een verdeling. Het is de waarde waarvoor geldt dat de helft van alle waarden eronder ligt, en de andere helft erboven. We spreken ook wel van het 50e percentiel. We kunnen de mediaan gemakkelijk bepalen als de scores geordend zijn van laag naar hoog. Als er een oneven aantal waarnemingen is, wordt de mediaan gegeven door de waarde (N+1)/2, waarin N het totaal aantal waarnemingen is. Dit geeft altijd één uitkomst. Bij een even aantal waarnemingen zijn er twee 'middelste' waarden. De mediaan wordt dan gegeven door het gemiddelde van die twee waarden. De mediaan kan alleen worden gebruikt met geordende data en score data.

De meestgebruikte centrummaat is het gemiddelde. Het gemiddelde wordt berekend door alle scores op te tellen en te delen door het aantal scores. Dit kan alleen worden gedaan met score data, omdat daarbij sprake is van gelijke intervallen tussen de getallen.

De mediaan en het gemiddelde worden het vaakst gebruikt om iets te zeggen over een grote groep getallen. De mediaan geeft een betere indicatie als er een aantal uitzonderlijk hoge of lage waarden voorkomt in de data. Het gemiddelde is daarentegen waardevoller in statistische procedures, zoals inferentiële statistiek.

Naast de bovengenoemde centrummaten is het ook belangrijk om de variabiliteit van waarden te bepalen. Het kan namelijk voorkomen dat twee verdelingen hetzelfde gemiddelde hebben, maar toch een heel ander beeld laten zien. Dit kun je je voorstellen door te bedenken dat het gemiddelde van twee getallen die ver uit elkaar liggen hetzelfde kan zijn als het gemiddelde van twee getallen die dichtbij elkaar liggen.

De simpelste maat van variabiliteit is het bereik. Het bereik is de afstand van de kleinste tot de grootste waarde en is dus gemakkelijk te berekenen. Daar staat tegenover dat de waarde wisselvallig is. Een uitzonderlijk lage of hoge waarde kan het bereik immers drastisch beïnvloeden.

Om de andere maten van variabiliteit te illustreren, leggen we eerst de gemiddelde afwijking uit.

De gemiddelde afwijking geeft aan hoeveel een waarde gemiddeld van het gemiddelde afligt. Je verkrijgt het door eerst het gemiddelde van elke score af te trekken om zo alle afwijkingen te vinden. Vervolgens tel je deze afwijkingen op en deel je dit door het aantal scores. De gemiddelde afwijking wordt hier enkel uitgelegd om toe te werken naar de belangrijke maten van variabiliteit. Het wordt nooit gebruikt in statistische analyses.

De variantie bereken we als volgt. Eerst berekenen we voor alle waarden het verschil tussen die waarde en het gemiddelde. Vervolgens kwadrateren we deze waarden. De optelsom van alle gekwadrateerde waarden delen we door het aantal vrijheidsgraden. Dit is het aantal scores dat vrij is om te variëren. In dit geval is er één beperking waardoor er 4 – 1 vrijheidsgraden zijn.

De standaardafwijking is gelijk aan de wortel van de variantie.

We illustreren de uitgelegde termen nu aan de hand van een voorbeeld. Stel dat we de resultaten bekijken van een toets die gemaakt is door een viertal leerlingen. De resultaten zijn weergegeven in de linkerkolom van onderstaande tabel, waarin X een cijfer van één tot tien kan aannemen. De tweede en derde kolom zijn reeds ingevuld.

X	X – gemiddelde	(X – gemiddelde)²
9	3	9
4	2	4
3	3	9
8	2	4

We leggen nu uit hoe de bovenstaande waarden zijn verkregen.

Bereken het gemiddelde cijfer.

Gemiddelde = = = 6.0

Met behulp van dit gegeven is de tweede kolom ingevuld. Deze hebben we nodig bij het berekenen van de gemiddelde afwijking en de standaardafwijking. Merk op dat we de absolute waarde gebruiken, wat wil zeggen dat we niet letten op de richting waarin we deze waarde berekenen. Met andere woorden: we noteren altijd de positieve waarde.

Bereken de gemiddelde afwijking.

Gemiddelde afwijking = = = 2.5

Met behulp van de derde kolom, waarin we de waarden van de tweede kolom hebben gekwadrateerd, kunnen we de variantie berekenen.

Bereken de variantie.

S² = = (≈ 8.67)

Bereken de standaardafwijking.

S = = ≈ 2.94

Soms willen we kwantificeren hoe sterk de relatie is tussen twee variabelen. Met andere woorden: in welke mate de twee variabelen meeveranderen met elkaar, ofwel covariëren. De beste manier om dit te kwantificeren is door de correlatiecoëfficiënt (ook wel bekend als correlatie) te berekenen. Er zijn verschillende correlatiecoëfficiënten voor verschillende soorten data.

Pearson Product-Moment Correlatie

Dit is de meestgebruikte vorm van correlatie. Het kan alleen gebruikt worden voor score data. Het gebruikt een schaal van -1.00 tot +1.00 om te bepalen hoe sterk het verband is tussen twee variabelen. Een correlatie van +1.00 betekent dat de twee variabelen perfect samenhangen. Met andere woorden: als de ene variabele in waarde stijgt, doet de andere dat ook, en andersom. Een correlatie van -1.00 betekent een perfecte negatieve relatie. Dat wil zeggen dat de ene waarde stijgt als de andere daalt, en andersom. Een coëfficiënt van 0.00 duidt erop dat er geen verband bestaat tussen de twee variabelen.

De Pearson product-moment correlatie is een indicatie voor de mate waarin twee variabelen een lineair verband tonen. Door de punten op een spreidingsdiagram te bekijken, kun je veel informatie winnen over de variabelen. Als er sprake is van een correlatie kan er een rechte lijn worden getrokken door de punten, waardoor het verband tussen de variabelen duidelijk wordt. Bij een positieve correlatie tussen de variabelen is dit een stijgende lijn; bij een negatieve correlatie een dalende. Bij een perfecte correlatie gaat de lijn precies door alle punten heen. Bij een niet-lineair verband is de correlatiecoëfficiënt (bijna) 0.00. Dit levert een rechte lijn op die soms misleidend kan zijn. Het kan immers voorkomen dat er wel een relatie is (zoals een golfbeweging), maar dat deze niet lineair van aard is. Het is daarom aan te raden om niet alleen naar de correlatiecoëfficiënt te kijken, maar ook goed het spreidingsdiagram te bestuderen.

Regressie

Correlatiecoëfficiënten kwantificeren de grootte en de richting van een verband tussen twee variabelen. Het vinden van deze verbanden is een belangrijk doel in de wetenschap. Daarnaast is het belangrijk om gebeurtenissen te voorspellen. Ook hier spelen correlatiecoëfficiënten een belangrijke rol. Een sterk verband tussen twee variabelen verschaft immers informatie over de ene variabele als de andere bekend is. Dit noemen we regressie. Hoewel er andere vormen dan lineaire regressie bestaan, gaat dat te ver om nu te behandelen.

De standaardscore (ook wel de Z-score genoemd) is een veelgebruikte transformatie in onderzoek. We berekenen de standaardscore door het gemiddelde af te trekken van een bepaalde waarde, en de uitkomst te delen door de standaardafwijking. In formulevorm ziet het er zo uit:

Z =

De standaardscore is een relatieve score, want het laat zien hoe een deelnemer scoort in verhouding tot de andere deelnemers. De relatieve score is positief als de deelnemer bovengemiddeld scoort, en negatief als de deelnemer onder het gemiddelde scoort. De grootte van de standaardscore geeft een indicatie van hoe ver een bepaalde score van het gemiddelde afligt. Als de verdeling bij benadering normaal is, kan de standaardscore gemakkelijk worden omgezet in een percentielscore. Een percentielscore geeft aan hoeveel procent van de deelnemers beter presteerde en hoeveel procent van de deelnemers minder goed presteerde dan jijzelf.

Statistische gevolgtrekking

Het gebruik van statistiek om data te beschrijven is de eerste stap in het analyseren van onderzoeksresultaten. De rest van de analyse richt zich niet meer op de individuele deelnemers, maar op de betekenis van de data voor hele groepen.

Het is bijna nooit mogelijk om gehele populaties te observeren. In plaats daarvan selecteren en observeren we een relatief kleine steekproef van een relatief grote populatie. De steekproef vertegenwoordigt dan de populatie. De populatie is de grotere groep mensen waar men uiteindelijk een uitspraak over wil doen, terwijl de steekproef een selectie uit de populatie is die daadwerkelijk wordt onderzocht. Het is de bedoeling dat we de conclusies van het onderzoek naar de steekproef uiteindelijk terugvoeren op de hele populatie. De populatie is immers de groep waarin we geïnteresseerd zijn. Inferentiële statistiek geeft ons de middelen om te bepalen hoe zeker we kunnen zijn van een generaliserende uitspraak.

Twee verschillende steekproeven van dezelfde populatie zullen nooit precies hetzelfde zijn. De meeste steekproeven zijn representatief voor de populatie waarvan ze geselecteerd zijn. Het kan echter ook voorkomen dat de steekproef niet representatief is, zelfs als de onderzoeker de procedures juist heeft uitgevoerd. De aanwezigheid van verschillen tussen verschillende steekproeven noemen we sampling error. We bedoelen daarmee niet dat er sprake is van een fout, maar van willekeur. Doordat steekproeven nooit perfect representatief zijn voor een populatie, kunnen we er niet zeker van zijn dat de getrokken conclusies geldig zijn voor de hele populatie. Het beste dat we kunnen doen is de waarschijnlijkheid berekenen dat onze gevolgtrekking juist is. Waarschijnlijkheid voorziet ons van een getal dat aangeeft hoe waarschijnlijk het is dat iets gaat gebeuren. Dit is een belangrijk concept in de inferentiële statistiek. Eén van de belangrijkste doelen daarin is om toevallige resultaten, ontstaan als gevolg van sampling error, te onderscheiden van significante resultaten. Om dat te doen toetsen we de nulhypothese.

De nulhypothese stelt dat er geen significant verschil bestaat tussen de gemiddelden van twee steekproeven. Als de waargenomen gemiddelden van de steekproeven sterk verschillen, verwerpen we de nulhypothese en concluderen we dat er wel een significant verschil is. De vraag is: wanneer spreken we van significant? Inferentiële statistiek geeft ons de mogelijkheid dit soort vraagstukken te beantwoorden. Onderzoekers gebruiken inferentiële statistiek om te berekenen hoe groot de kans is dat ze de data verkrijgen die hoort bij de nulhypothese. Als die kans groot is, is de nulhypothese waarschijnlijk geldig, en andersom. We spreken van statistisch significante resultaten als het onwaarschijnlijk is dat het gevonden resultaat op willekeur berust. Om dit te bepalen, maken we gebruik van alfawaarden. Alfawaarden worden meestal op kleine waarden zoals 0.05 of 0.01 gesteld. Als de waarschijnlijkheid groter is dan de alfawaarde, behouden we de nulhypothese; als de waarschijnlijkheid kleiner of gelijk is aan de alfawaarde, verwerpen we de nulhypothese.

Er bestaat altijd een kans dat een onderzoeker verkeerde conclusies trekt. We spreken van een Type I fout als een onderzoeker onterecht de nulhypothese verwerpt en concludeert dat er een significant verschil bestaat. De kans dat deze fout wordt begaan is gelijk aan de gekozen alfawaarde. Anders gezegd: de alfawaarde is de fractie van Type I fouten die we verwachten te maken als we het onderzoek vaak uitvoeren. Bij een alfawaarde van 0.05 verwachten we dus Type I fouten in 5% van de onderzoeken. Het kan ook voorkomen dat we de nulhypothese niet verwerpen waar dat wel had gemoeten. Als dit gebeurt spreken we van een Type II fout. Er wordt dan onterecht geconcludeerd dat de gemiddelden van de populaties niet significant verschillen. De kans dat we een Type II fout maken, noemen we bèta. Het liefst maken we natuurlijk beide fouten niet, maar door de onzekerheid in het doen van onderzoek is dit niet realistisch. Als we de kans op een Type I fout verkleinen, vergroten we automatisch de kans op een Type II fout. De twee moeten dus tegen elkaar worden afgewogen.

Inferentiële statistiek

Inferentiële statistiek poogt conclusies te trekken over hele populaties op basis van onderzoek naar steekproeven. De twee meestgebruikte methoden zijn de t-toets en variantieanalyse.

De t-toets

De t-toets is de meest gebruikte methode voor het vergelijken van groepen. De nulhypothese stelt dat er geen significant verschil bestaat tussen de gemiddelden van twee populaties. Dat wil zeggen dat eventuele verschillen enkel te wijten zijn aan sampling error. Het is de bedoeling dat we de toetsingsgrootheid berekenen en de waarschijnlijkheid dat we deze waarde verkrijgen als de nulhypothese klopt (de p-waarde). Als de p-waarde kleiner is dan de alfawaarde, verwerpen we de nulhypothese en concluderen we dat de gemiddelden van de populaties significant verschillen.

Variantieanalyse

We gebruiken variantieanalyse (ook wel ANOVA genoemd) om de verschillen in gemiddelden tussen twee of meer groepen te toetsen. De naam is verwarrend, aangezien de toets niet varianties vergelijkt, maar gemiddelden.

(Een uitgebreidere uitleg van de twee methoden volgt in de hoofdstukken 10 t/m 12.)

De term onderscheidend vermogen verwijst naar de gevoeligheid van een statistische procedure om verschillen in gemiddelden op te sporen. Het is het vermogen tot het correct verwerpen van de nulhypothese als deze onjuist is. Als het onderscheidend vermogen toeneemt, neemt de kans op een Type II fout af. De voornaamste manier om het onderscheidend vermogen te vergroten, is door de steekproef te vergroten. We kunnen berekenen hoe groot de steekproef moet zijn opdat een bepaald onderscheidend vermogen wordt gehaald. Dit proces noemen we onderscheidend vermogen analyse. Onderscheidend vermogen hangt niet alleen af van de statistische procedure of de grootte van de steekproef. Ook de nauwkeurigheid van het onderzoek speelt een belangrijke rol. Elke verandering in de onderzoeksopzet die leidt tot een grotere gevoeligheid, vergroot tevens het onderscheidend vermogen.

Zoals gezegd is het vergroten van de steekproef een belangrijke manier om het onderscheidend vermogen te vergroten. Het vinden van statistisch significante resultaten is echter niet altijd voldoende om zinvolle uitspraken te doen over twee steekproeven. Het is daarom gebruikelijk geworden om een stap verder te gaan dan statistische significantie en de effectgrootte te berekenen. Dit is een berekening om het verschil in de gemiddelden uit te drukken in termen van standaardafwijkingen. Als de effectgrootte toeneemt, neemt het onderscheidend vermogen ook toe. De reden hiervoor is dat het gemakkelijker is om grote verschillen tussen de gemiddelden op te sporen dan kleine verschillen.

Ethische principes

Het is mogelijk om mensen te bedriegen door juist gegevens te selecteren die jouw standpunt bekrachtigen en tegenstrijdige informatie te negeren. Uiteraard is dit niet gewenst. Wetenschappers hebben een belangrijke ethische verantwoordelijkheid om hun statistische resultaten dusdanig te presenteren dat ze de data goed weergeven. Het bewust selecteren van (niet bestaande) data of het gebruiken van statistische analyses die bepaalde zaken onderbelichten is onethisch en oneerlijk. Het misleiden van mensen blijft niet beperkt tot de wetenschap. Sterker nog, het overbelichten van positieve dingen is zo gebruikelijk geworden dat we het vaak niet eens veroordelen. In de politiek komt het geregeld voor dat enkel de positieve aspecten van beleid worden belicht, met als gevolg dat andere belangrijke informatie onderbelicht blijft. In de wetenschap is dit soort gedrag ontoelaatbaar. Onderzoeksresultaten dienen altijd eerlijk, objectief en representatief te zijn.

Wat is de methodiek achter naturalistische observatie en casusonderzoek? - Chapter 6

Naturalistisch onderzoek en casusonderzoek zijn flexibele methoden die de onderzoeker in staat stelt om onverwachte gebeurtenissen waar te nemen en nieuwe ideeën te ontwikkelen. Deze methoden benadrukken de natuurlijke gang van zaken met geen of weinig controles of manipulaties. Het onderzoek vindt plaats in omgevingen waar gedrag direct waargenomen kan worden, zoals de leefomgevingen van een dier of een klaslokaal. Casusonderzoek legt iets meer beperkingen op aan het onderzoek, zodat de onderzoeker situaties kan creëren die interessante informatie opleveren.

De uitdagingen van zwak afgebakend onderzoek

Onderzoekers gaan in dit soort onderzoek flexibel te werk en leggen weinig beperkingen op. Dat betekent echter niet dat dit onderzoek gemakkelijk uit te voeren is. Zoals bij elke vorm van onderzoek moet men ook hier zorgvuldig te werk gaan. Bovendien kan men niet leunen op hulpmiddelen waar men wel beschikking over heeft bij sterker afgebakend onderzoek. De kern van naturalistische observatie is dat de onderzoeker natuurlijke fenomenen systematisch waarneemt en vastlegt. Vervolgens worden over die fenomenen hypotheses ontwikkeld. Dit soort onderzoek blijft niet beperkt tot de psychologie. Ook in de biologie, de ethologie en de sociologie wordt gebruik gemaakt van deze onderzoeksmethode. Bij casusonderzoek worden er milde beperkingen opgelegd aan de methoden. Zo kiest de onderzoeker waar het onderzoek zal plaatsvinden en welk gedrag dient te worden waargenomen. Er wordt dus meer toegespitst op specifiek gedrag.

De waarde van zwak afgebakend onderzoek

Zwak afgebakend onderzoek is gepast bij vragen over natuurlijk gedrag in natuurlijke en door de mens gemaakte omgevingen. We onderscheiden vijf verschillende vormen.

Verkennend onderzoek

In verkennend onderzoek wordt vaak zwak afgebakend onderzoek gebruikt. Het gaat om simpele waarnemingen in de natuur, maar ook op plekken als cafés of kantoren. Er worden voorzichtig hypotheses ontwikkeld over gedrag die later getoetst kunnen worden in sterker afgebakend onderzoek.

Uitgangspunt voor nieuw onderzoek

Vaak dient zwak afgebakend onderzoek als uitgangspunt voor nieuw onderzoek, omdat zij het mogelijk maakt de wetenschap verder te brengen. Dat is niet alleen nuttig, maar zelfs nodig. Goede wetenschappers gebruiken zowel sterk als zwak afgebakende methoden en zijn altijd oplettend.

Vertrouwd raken met een nieuw onderzoeksgebied

Het gebruik van naturalistische observatie is ook zinvol als we bekend willen raken met fenomenen en deelnemers die ons niet bekend zijn. Op die manier krijgen we een globaal beeld van de omstandigheden waar we mee te maken krijgen tijdens het onderzoek.

Uitvoerbaarheid aantonen

Afgebakende methoden kunnen ook worden gebruikt om te laten zien dat een nieuwe werkwijze of behandeling werkt. Hierbij probeer je niet voorspellingen te doen; je probeert enkel aan te tonen dat een werkwijze uitvoerbaar is.

Generaliseerbaarheid toetsen

Casusonderzoek en naturalistische observatie kunnen ook de generaliseerbaarheid van onderzoeksresultaten toetsen. In deze context betekent generaliseerbaarheid de mate waarin onderzoeksresultaten echte gebeurtenissen voorspellen. Vooral casusonderzoek is waardevol in onderzoeken naar individuen waarvan de resultaten worden gegeneraliseerd.

Uit zwak afgebakend onderzoek kunnen verschillende gegevens worden gehaald. Hierbij onderscheiden we drie typen.

Nieuwe informatie vastleggen

Zwak afgebakend onderzoek kan beschrijvende informatie opleveren waar interessante vragen uit kunnen voortkomen.

Een stelling weerleggen

Een van de meest waardevolle aspecten van zwak afgebakend onderzoek is dat het een stelling kan weerleggen. Hoewel zwak afgebakend onderzoek stellingen kan weerleggen, kan het niet stellingen formuleren.

Mogelijkheden identificeren

Onderzoek poogt verbanden tussen variabelen te vinden en te begrijpen. Experimenteel onderzoek identificeert informele verbanden tussen variabelen. In zwak afgebakend onderzoek kunnen we niet dergelijke gevolgtrekkingen doen, maar we kunnen wel andere informatie winnen. Als er een verband wordt vermoed op basis van waarschijnlijkheid, spreken we van een mogelijkheid. Vaak vormen deze mogelijkheden een belangrijke bron voor hypotheses in sterk afgebakend onderzoek.

In kwalitatief onderzoek komt zwak afgebakend onderzoek van pas. In sterk afgebakend onderzoek baseren we ons op formele controles om de geldigheid van het onderzoek te garanderen. In zwak afgebakend onderzoek hangt geldigheid meer af van de denkstappen van de onderzoeker. Dit komt veelvuldig voor in onderwijs, sociologie, communicatiewetenschappen en psychologie. Al deze terreinen pogen alledaags gedrag te beschrijven en te analyseren en worden geschaard onder kwalitatieve onderzoeksmethoden. De nadruk ligt op het individu. Diegene moet zelf aangeven hoe hij/zij aankijkt tegen een situatie of bepaalde acties die hij/zij nam in een situatie. Vaak gebeurt dit met behulp van waarnemingen, vragenlijsten en analyses van gesprekken.

Het gebruik van zwak afgebakende methoden

Het formuleren van problemen en opstellen van hypotheses is belangrijk in elke vorm van wetenschappelijk onderzoek. Bij experimenteel onderzoek ligt de nadruk op het vinden van causaliteit. Bij naturalistisch onderzoek en casusonderzoek kunnen we minder zeker zijn en spreken we van eventualiteit. Causale vraagstukken kunnen niet worden beantwoord met behulp van zwak afgebakende methoden, omdat deze methoden niet voldoende controle bieden. Probleemstellingen in naturalistisch onderzoek en casusonderzoek zijn vaak algemeen verwoord, omdat er geen basis is voor het stellen van specifieke vragen. Uiteindelijk moet er wel nadruk worden gelegd op specifieke elementen, maar als dit te snel gebeurt, kan het zich voordoen dat belangrijke zaken over het hoofd worden gezien. Probleemstellingen kunnen ook veranderen naarmate we een beter idee krijgen van het te observeren gedag. Uiteindelijk krijgen we een steeds beter beeld van de situatie en kunnen we probleemstellingen concretiseren naar bepaalde hypotheses. Dit soort onderzoek kent een beperking: er kan maar een beperkte hoeveelheid informatie uit gewonnen worden. Bovendien moeten we onthouden dat dit een relatief niet veeleisend onderzoek is en dat de conclusies niet causaal zijn.

Observeren en data verzamelen staan centraal in elk onderzoeksproject. In sterk afgebakend onderzoek bepaalt de onderzoeker voorafgaand aan de observaties al hoe data verzameld en geobserveerd gaat worden. In zwak afgebakend onderzoek is dat niet het geval; daar is de onderzoeker vrij om gedurende de observaties nog hypotheses en werkwijzen te veranderen. Het feit dat er in naturalistisch onderzoek en casusonderzoek gebruik kan worden gemaakt van geavanceerde meetinstrumenten doet niets af aan de vrije aard van het onderzoek.

Observeren

In naturalistisch onderzoek kan er op twee manieren worden waargenomen: als een onopvallende waarnemer of als een deelnemende waarnemer. Een onopvallende waarnemer probeert te voorkomen dat het verloop van het onderzoek beïnvloed wordt door op de achtergrond te blijven. Een deelnemende waarnemer is deel van het onderzoek en kan er zelfs aan bijdragen. Dit kan voorbedacht of spontaan zijn. Zodra de waarnemer een deelnemer wordt, spreken we niet meer van naturalistische observatie, maar van een casusonderzoek. Een voordeel van het manipuleren van de onderzoeksomstandigheden is dat de onderzoeker omstandigheden kan creëren die doorgaans niet ontstaan. Reactiviteit van meting verwijst naar het fenomeen dat deelnemers zich anders gedragen dan ze normaal zouden doen, omdat ze weten dat ze geobserveerd worden. De oorzaak hiervan is dat deelnemers geneigd zijn wenselijk gedrag te vertonen. Door onopvallend te waarnemen, is het waarschijnlijk dat deelnemers minder reactiviteit vertonen.

Onopvallende metingen

Metingen van gedrag die de deelnemer niet doorheeft en daardoor niet van invloed zijn op gedrag noemen we onopvallende metingen. Er zijn verschillende manieren om onopvallende metingen te verrichten. In al die manieren is het coderen van bepaalde aspecten van de data belangrijk. Coderen is het classificeren van data aan de hand van kenmerken van een deelnemer en zijn/haar gedrag. Door het organiseren van deze informatie kan het analyseren van gedrag veel gemakkelijker en efficiënter gebeuren. Ook verhalende data (verbale beschrijvingen van handelingen of gevoelens) kunnen gecategoriseerd worden. De categorieën waarin gedragingen worden geplaatst dienen wel zorgvuldig gedefinieerd te worden.

Onopvallende metingen zijn in veel situaties nuttig, maar er zijn vaak meerdere manieren waarop een bepaalde variabele gemeten kan worden. Welke manier de voorkeur geniet, hangt af van het betreffende onderzoek.

Archivale metingen

Bestaande archieven kunnen informatie verschaffen over fenomenen die eerder zijn waargenomen. Archieven betreffen schoolarchieven, trouwboeken, militaire records en meer. Archieven zijn normaal gesproken in de vorm van afgedrukte verslagen of cijfers. Ze worden vaak gebruikt als naslagwerk door overheden. Men moet echter altijd bedenken dat gearchiveerde onderzoeken gedateerd of achterhaald kunnen zijn. De informatie is beschrijvend van aard en mag enkel gebruikt worden ter kennisgeving. Bovendien moet altijd in ogenschouw worden genomen wie het archief bij heeft gehouden en met welk doel. Het analyseren van het archief op inhoud en bovengenoemde gegevens noemen we inhoudsanalyse.

Ook de vraag welke mensen meedoen aan het onderzoek is belangrijk. Dit noemen we sampling. Hoe representatiever de steekproef is, hoe meer vertrouwen we mogen hebben in de geldigheid van de conclusies. De mate waarin een steekproef de populatie vertegenwoordigt noemen we representativiteit. In naturalistisch onderzoek en casusonderzoek heeft de onderzoeker vaak niet de controle over zijn/haar steekproef. Om die reden kan het voorkomen dat de steekproef niet representatief is voor de populatie. In dat geval mogen we onderzoeksresultaten niet zomaar generaliseren. Generaliseren betekent dat je gevonden resultaten in je steekproef terugvoert op de hele populatie. Dit levert dus alleen nauwkeurige conclusies op als de steekproef representatief is voor de populatie en er veel (verschillende) metingen zijn gedaan.

Zodra de waarnemingen gedaan zijn, dienen we de resultaten te evalueren en te interpreteren. Meestal betreft dit statistische analyses van gecategoriseerde data. Bij zwak afgebakend onderzoek hoeft dit soms niet veel verder te gaan dan beschrijvende statistiek. Bedenk wel dat dit soort onderzoek weinig controles kent, waardoor het moeilijk is om tot overtuigende conclusies te komen.

Beperkingen van zwak afgebakende methoden

Hoewel zwak afgebakende methoden waardevolle instrumenten zijn in de wetenschap, hebben ze ook aanzienlijke beperkingen.

Zwak afgebakende onderzoeken hebben een beperkte representativiteit. Dit is een belangrijk minpunt van deze werkwijze. Normaliter bestaat de steekproef uit mensen die door de onderzoeksopzet reeds tot een bepaalde groep behoren. Daardoor is het moeilijk om conclusies terug te voeren op de populatie. We mogen alleen generaliseren als we zorgvuldig een representatieve steekproef hebben geselecteerd. Een dergelijke procedure is normaal gesproken echter alleen mogelijk in onderzoek dat strengere beperkingen oplegt aan de werkwijze.

Een andere beperking is dat zwak afgebakend onderzoek moeilijk nagebootst kan worden. Aan de ene kant is de flexibiliteit van dit soort onderzoek een pluspunt, maar aan de andere kant levert dit de beperking op dat verschillende gerelateerde onderzoeken moeilijk vergeleken kunnen worden. Onderzoekers hebben immers een zekere vrijheid in de werkwijze die ze hanteren. Door die vrijheid is het niet altijd duidelijk welke procedures gehanteerd werden en of dat consistent gebeurde. Om die reden is het vaak lastig om het onderzoek exact na te bootsen.

Het vinden van causale verbanden is moeilijk in naturalistisch onderzoek of casusonderzoek. Causale gevolgtrekkingen zijn conclusies die impliceren dat een bepaalde variabele direct afhangt van één of meer andere variabelen. Vaak is observatie niet voldoende om de relatie tussen twee variabelen te achterhalen. Op basis van waarnemingen zijn we soms geneigd te denken dat twee variabelen met elkaar samenhangen, terwijl dit niet zo hoeft te zijn. Als deze (onjuiste) conclusie toch wordt getrokken, spreken we van een ex post facto drogreden. Om tot de juiste conclusies te komen, dienen we drie dingen vast te stellen:

Covariantie tussen gebeurtenissen
Logische oorzaak-gevolgrelatie
Geen alternatieve verklaringen

In zwak afgebakend onderzoek is er vaak niet voldoende data om aan deze strengere criteria te voldoen. Doordat er geen controle is over alle onafhankelijke variabelen, kunnen alternatieve verklaringen bijna nooit worden uitgesloten. We kunnen daarom enkel hypotheses opstellen die getoetst kunnen worden in een vervolgonderzoek. Resultaten uit zwak afgebakend onderzoek dienen nooit gepresenteerd te worden alsof ze streng getoetst zijn. Als dat wel gebeurt, kan dat een onjuist beeld geven.

We moeten ook bedenken dat het uitvoeren van onderzoek er al voor kan zorgen dat deelnemers zich anders gedragen. Dit is reeds besproken. Als acties van onderzoekers bepaalde reacties uitlokken, spreken we van experimenter reactivity. Als een onderzoeker bij voorbaat al verwachtingen heeft van de uitkomst van het onderzoek, spreken we van experimenter bias. Dit kan van invloed zijn op de resultaten van het desbetreffende onderzoek. Om natuurlijk gedrag waar te nemen, dient de onderzoeker het onderzoek zo min mogelijk te beïnvloeden.

Ethische principes

In naturalistische observatie veranderen we meestal niets aan de omgeving waarin wordt waargenomen. Er is dan ook geen sprake van ethische problemen in de manier waarop met deelnemers wordt omgegaan. We krijgen voornamelijk te maken met kwesties aangaande vertrouwelijkheid en vrijwilligheid. Centraal staat dat deelnemers voldoende kennis moeten krijgen over het onderzoek waaraan ze meedoen. Daarnaast dient meedoen vrijwillig te zijn en moeten deelnemers te allen tijde kunnen stoppen als zij dat willen. Vaak wordt in naturalistisch onderzoek niet voldaan aan deze voorwaarden. Het komt vaak voor dat er onderzoeken plaatsvinden zonder dat deelnemers dat door (kunnen) hebben. Het doen van archivale metingen is daar een goed voorbeeld van. Hoewel er steeds vaker toegang moet worden verstrekt alvorens onderzoekers archieven kunnen raadplegen, verzekert dit niet dat de betreffende deelnemers hier bewust van zijn. Meestal is dat niet het geval. Het is daarom aan de onderzoeker om aan te tonen dat er geen risico's verbonden zijn aan het gebruiken van de data en dat er vertrouwelijk om wordt gegaan met de gegevens. De onderzoeker dient te verzekeren dat de anonimiteit en privacy van individuen worden gewaarborgd als zij dit wenselijk vinden. Onderzoekers dragen dus een grote ethische verantwoordelijkheid.

Wat is de methodiek achter correlationeel en differentieel onderzoek? - Chapter 7

De wetenschap baseert zich op het identificeren en gebruiken van verbanden tussen variabelen. Het liefst herkennen we causale verbanden tussen variabelen, maar niet alle onderzoeksopzetten zijn krachtig genoeg om dergelijke verbanden te ontdekken. In dit hoofdstuk worden methoden behandeld die causaliteit proberen te identificeren tussen variabelen.

Correlationele en differentiële onderzoeksmethoden definiëren

Correlationeel onderzoek bepaalt de sterkte van verbanden tussen variabelen. Een correlatie geeft niet alleen de sterkte van het verband aan, maar ook de richting. Net zoals in naturalistische observatie worden variabelen niet gemanipuleerd. In tegenstelling tot naturalistisch onderzoek worden er echter wel minstens twee variabelen gemeten, en bovendien met een vooraf bepaald doel. Het vinden van een correlatie garandeert niet dat er ook sprake is van causaliteit, maar het dient wel twee doelen. Het eerste is dat correlaties gebruikt kunnen worden om toekomstige gebeurtenissen te voorspellen. Ook als waarnemingen niet helemaal worden begrepen, kunnen ze waardevol zijn als ze gebeurtenissen voorspellen. Een tweede doel is dat correlationeel onderzoek data kan leveren die ofwel consistent, ofwel inconsistent is met wetenschappelijke theorieën. Hoewel correlatie kan bewijzen dat een theorie niet klopt, kan het niet de juistheid van een theorie bewijzen. Het is moeilijk om een theorie te bewijzen aangezien theorieën vaak veel voorspellingen doen. Een theorie is pas bewezen als elke voorspelling zou worden bewezen, maar dat is in de praktijk vaak onmogelijk. Wetenschappers gebruiken daarom niet graag het woord 'bewijzen'; we spreken liever in termen van waarschijnlijkheid. Hoe meer verbanden worden bewezen, hoe waarschijnlijker het is dat de theorie klopt.

Differentieel onderzoek vergelijkt twee of meer groepen die in een bepaald kenmerk verschillen. Dit kunnen zowel kwalitatieve kenmerken (geslacht, politieke voorkeur, enzovoort) als kwantitatieve kenmerken (leeftijd, aantal jaren ervaring) zijn. In beide gevallen bestaan de kenmerken al voordat het onderzoek plaats heeft gevonden. Deelnemers worden in groepen verdeeld aan de hand van de gekozen kenmerken. Deze kenmerken vormen de onafhankelijke variabele. Het vertoonde gedrag van de deelnemers is de afhankelijke variabele. In differentieel onderzoek worden variabelen gemeten, maar niet gemanipuleerd. In die zin lijkt het op correlationeel onderzoek. Het kent ook overeenkomsten met experimenteel onderzoek. Beide vormen van onderzoek maken gebruik van mensen die in groepen zijn verdeeld op basis van een onafhankelijke variabele. De onderzoeker meet vervolgens een afhankelijke variabele bij alle deelnemers in elke groep.

Een voorbeeld van differentieel onderzoek is wanneer deelnemers van verschillende leeftijden worden onderverdeeld in groepen. Stel dat een onderzoeker de cognitieve ontwikkeling van drie-, vijf- en zevenjarigen wil vergelijken door ze een aantal puzzels te laten oplossen. De verschillen in de uitslagen van de jongere en oudere kinderen dienen als data voor cognitieve ontwikkeling. Ook als er weinig verschillen zouden worden waargenomen, zou dat bruikbare informatie zijn. Zoals altijd moeten we voorzichtig zijn in het trekken van conclusies, want een verband tussen twee variabelen hoeft niet te betekenen dat er sprake is van causaliteit. Als er sprake is van verschillend gedrag door een verschil in leeftijd of cultuur, spreken we van een cohorteffect. Als we een steekproef gedurende een langere tijd volgen om veranderingen in de ontwikkeling waar te nemen, spreken we van een longitudinaal ontwerp. Een nadeel van dergelijke onderzoeken is dat het lang duurt voordat het onderzoek af is.

Als we meer dan één groep individuen bestuderen, dienen we beperkingen op te leggen aan het onderzoek en waarneemmethoden te standaardiseren. Vergelijkingen tussen groepen zijn alleen zinvol als de waarnemingen in de verschillende groepen op precies dezelfde manier worden gedaan. Twee variabelen zijn verstorend als het niet lukt om de ene variabele constant te houden terwijl de andere varieert. Hier is bijvoorbeeld sprake van wanneer we verschillend gedrag waarnemen in twee groepen, maar we niet dezelfde meetwijzen hebben gebruikt. In dat geval kunnen we niet zeker weten of het resultaat duidt op een fundamenteel verschil. De enige manier om dit te voorkomen is door te allen tijde één variabele constant te houden. De variabele die constant wordt gehouden is altijd de variabele waar de minste interesse naar uitgaat. Daarmee bedoelen we meestal de meetmethode. We zijn vaak immers meer geïnteresseerd in de verschillen in gedrag tussen verschillende steekproeven, dan in de verschillende manieren van meten. De meetmethode houden we daarom bijna altijd constant als we het gedrag observeren. Wanneer methoden niet voldoende beperkt worden, kan dit zorgen voor verstoring en artefacten. Een artefact is een ogenschijnlijk effect van een onafhankelijke variabele dat eigenlijk veroorzaakt wordt door een andere variabele die niet goed gecontroleerd werd. Artefacten ontstaan als gevolg van verstoring.

Differentiële onderzoeksmethoden zijn effectiever in het beantwoorden van onderzoeksvragen dan naturalistisch onderzoek of casusonderzoek. Dat is zo, omdat differentiële onderzoeksmethoden in staat zijn om deelnemersgroepen te vergelijken die verschillen in belangrijke punten. Dit gaat wel ten koste van flexibiliteit, aangezien we dezelfde werkwijze moeten hanteren om geldige vergelijkingen te mogen maken tussen de groepen.

Aan het begin van een onderzoek is het moeilijk om nauwkeurige, afgebakende werkwijzen te hanteren. We hebben in dit stadium immers geen goed beeld van het te onderzoeken fenomeen en kunnen daarom geen concrete plannen opstellen. Daarom komt differentieel onderzoek bijna nooit voor in de beginfase van een onderzoek. In plaats daarvan gebruiken we flexibele methoden die ons in staat stellen een beter begrip te krijgen van het fenomeen. Dat is nodig om expliciete hypotheses en gepaste procedures op te stellen. Pas als we een goed beeld hebben van het fenomeen, kunnen we strengere beperkingen hanteren. We kunnen deze informatie meestal niet winnen door alleen resultaten te lezen van eerder onderzoek.

Zowel correlationeel als differentieel onderzoek meten verbanden tussen variabelen, maar differentieel onderzoek stelt strengere eisen. Bij differentieel onderzoek zijn we vaak geïnteresseerd in causale vraagstukken. Die vraagstukken dienen te worden beantwoord met behulp van experimenteel onderzoek waarin we vaak tegen ethische of praktische belemmeringen aan lopen. Het is bijvoorbeeld onmogelijk om deelnemers willekeurig in groepen te verdelen met en zonder schizofrenie. Differentieel onderzoek kan deze al bestaande onderverdeling wel onderzoeken. Vaak krijgen we echter te maken met groepen die ook op andere punten al van elkaar verschillen. Zo komen mensen met chronische schizofrenie vaker uit lagere sociale klassen en slikken ze meer medicatie dan gemiddeld. We moeten de eerder genoemde verstorende variabelen zien te controleren om krachtige conclusies te kunnen trekken. We kunnen dat doen door twee groepen te analyseren die op veel punten overeenkomen, maar op een paar punten verschillen. Op die manier kunnen we het verband tussen bepaalde variabelen nauwkeuriger bepalen en beter begrijpen welke variabelen verantwoordelijk zijn voor bepaalde bevindingen en welke niet. Deze actieve vorm van sampling verkleint de kans op verstoring. Daardoor kunnen we sterke conclusies trekken. Correlationeel onderzoek heeft deze beperking niet en is daarom minder veeleisend.

Differentieel onderzoek wordt meestal gebruikt als het manipuleren van een onafhankelijke variabele onpraktisch, onmogelijk of ongepast is. Het wordt ook gebruikt wanneer het onmogelijk is om experimenteel te manipuleren. Als we bijvoorbeeld de sociale ontwikkeling van hoogbegaafden willen onderzoeken, kunnen we geen onderverdeling maken op basis van intelligentie. Die eigenschap is immers constant gehouden. Ten slotte zijn er hypotheses die technisch gezien mogelijk zijn om uit te voeren, maar wegens ethische redenen moeilijk zijn om te toetsen.

Correlationeel onderzoek uitvoeren

Correlationeel onderzoek poogt de sterkte en richting van het verband tussen twee of meer variabelen te kwantificeren. Vooralsnog richten we ons op slechts twee variabelen. Later komen we nog te spreken over de verbanden tussen meer dan twee variabelen. Dit noemen we multivariate analysemethoden.

Correlationele vraagstukken zijn vaak als volgt geformuleerd: “Wat is de sterkte en richting van het verband tussen variabele X en variabele Y?”. Meestal dient correlationeel onderzoek voor secundaire statistische analyses in veeleisend onderzoek. Correlaties geven in een oogopslag inzicht in het verband tussen twee variabelen en verschaffen veel informatie over de data. Om uit die informatie geldige conclusies te trekken, is het cruciaal om van veel verschillende variabelen het onderlinge verband te achterhalen. Als we dit niet doen, is de kans groot dat we onjuiste of onvolledige conclusies trekken. We moeten dus alle mogelijke verschillen tussen groepen zien te identificeren, voordat we ons wagen aan het uitspreken van correlaties.

In correlationeel onderzoek is het belangrijk om effectieve definities van de variabelen te ontwikkelen. Onderzoekers moeten alle aspecten van het meten in ogenschouw nemen. Bovendien moeten we voorkomen dat we (onbedoeld) deelnemers beïnvloeden. Twee effecten dienen gecontroleerd te worden: experimenter expectancy en experimenter reactivity. Met de eerste term bedoelen we de neiging van onderzoekers om te zien wat ze verwachten te zien. Reactiviteit slaat terug op het fenomeen dat onderzoekers het gedrag van deelnemers kunnen beïnvloeden. Experimenter expectancy kunnen we minimaliseren door objectieve meetwijzen te gebruiken indien mogelijk. Hierdoor is er bij metingen geen sprake meer van subjectieve interpretatie. Reactiviteit kunnen we verminderen door twee onafhankelijke onderzoekers in te zetten of door het onderzoek te automatiseren, waardoor er helemaal geen onderzoekers aan te pas komen. Een ander potentieel probleem is de invloed van de deelnemer. Deelnemers zijn vaak consistenter in hun uitspraken als ze weten dat onderzoekers hen aan het observeren en het beoordelen zijn. Dit kan de schijn wekken dat de verbanden tussen variabelen sterker zijn dan in werkelijkheid het geval is. We kunnen dit op verschillende manieren proberen te beperken. De eerste is door zogenaamde filler items te gebruiken. De bedoeling is dat deze voorwerpen onduidelijkheid scheppen over wat er onderzocht wordt, zodat de aandacht van de deelnemer wordt afgeleid van het werkelijke doel van de meting. In werkelijkheid meet het schijnvoorwerp niets. Een tweede manier is om onopvallende metingen te doen. Daardoor blijven deelnemers onbewust van het feit dat ze geobserveerd worden en zijn ze minder geneigd af te wijken van hun normale gedrag. Een derde manier is om metingen van elkaar te scheiden. Dit kunnen we doen door op verschillende momenten observaties te doen, of door meerdere onderzoekers metingen te laten verrichten. De beste manier om met reactiviteit van meting om te gaan, is door metingen te verrichten die de deelnemer niet kan verstoren. Hierdoor blijft de meting volledig objectief.

Mensen die in een bepaalde cultuur zijn opgegroeid, kunnen heel verschillend reageren op een situatie dan mensen uit een andere cultuur. Het wordt in de psychologie steeds gebruikelijker om fenomenen in andere culturen te bestuderen om te zien in hoeverre onderzoeksresultaten te generaliseren zijn. Dit noemen we cross-cultureel onderzoek. Er is tegenwoordig een besef dat cultuur sterk van invloed kan zijn op veel psychologische variabelen.

Bij het analyseren van data in correlationeel onderzoek hebben we altijd te maken met het berekenen van correlaties. Welke correlatiecoëfficiënt geschikt is, hangt af van de meetschaal van beide variabelen. Als beide variabelen minstens worden gemeten op een intervalschaal, dienen we de Pearson-product moment correlatie te gebruiken. We gebruiken de Spearman rank-order correlatie als één variabele wordt gemeten op een ordinale schaal en de ander op minstens een ordinale schaal. Als minstens één variabele nominale data produceert, gebruiken we een Phi coëfficiënt. De Pearson en Spearman correlatiecoëfficiënten geven aan in hoeverre er een lineair verband bestaat tussen de twee variabelen. De schaal loopt in beide gevallen van -1.00 tot +1.00, waarin -1.00 een perfect negatieve correlatie betekent en +1.00 een perfect positieve. Een correlatie van 0.00 geeft aan dat er geen lineair verband bestaat tussen de variabelen. Er bestaan nog enkele andere correlaties dan de bovengenoemde, maar het gaat te ver om deze uitgebreid te behandelen.

Bij het interpreteren van een correlatie bekijken we eerst de richting en de grootte ervan. Dit vertelt ons of er sprake is van een positief of een negatief verband, en hoe sterk het verband is. Vervolgens wordt bepaald of de correlatie sterk genoeg is om terug te kunnen voeren op de populatie. Met andere woorden: we toetsen of de nulhypothese klopt, die stelt dat de variabelen niet correleren. Computerprogramma's kunnen voor elke correlatie de p-waarde berekenen. De p-waarde is de kans dat er een bepaalde correlatie wordt gevonden in een steekproef, terwijl er in de populatie geen sprake is van een correlatie. Als deze kans klein is, betekent het dat er een kleine kans is dat de correlatie in de populatie nul is. In dat geval spreken we van een statistisch significant resultaat. De kans moet traditioneel laag zijn (0.05 of 0.01) voordat we spreken van een statistisch significant resultaat. Als de p-waarde onder deze waarde ligt, mogen we concluderen dat er een significant verband bestaat.

Bij het gebruik van correlatiecoëfficiënten is het ook belangrijk om de determinatiecoëfficiënt te berekenen. De determinatiecoëfficiënt is het kwadraat van de correlatie. Een correlatiecoëfficiënt van 0.50 zou dus een determinatiecoëfficiënt van 0.25 opleveren. Dat betekent dat 25% van de variabiliteit van de ene variabele veroorzaakt wordt door de andere variabele. De determinatiecoëfficiënt geeft alleen een goede benadering als de steekproef minstens 30 deelnemers kent.

Differentieel onderzoek uitvoeren

Onderzoekers gebruiken differentieel onderzoek om groepen te vergelijken wanneer experimentele procedures niet gebruikt kunnen worden wegens praktische of ethische redenen.

Probleemstellingen in differentieel onderzoek lijken op het eerste oog redelijk simpel, maar in werkelijkheid zijn ze een van de moeilijkste om te beantwoorden in de hele wetenschap. De vraagstelling ziet er zo uit: “Verschilt groep A van groep B op basis van de afhankelijke variabelen?”. In principe kunnen we oneindig veel van dit soort vragen opstellen. We moeten echter wel bedenken dat de vergelijkingen theoretische significantie hebben. Het kiezen van de juiste groepen en afhankelijke variabelen kan lastig zijn. Een differentieel onderzoek is pas theoretisch significant als het ons iets vertelt over de factoren die de afhankelijke variabele beïnvloeden. Informatie over de verschillen tussen twee groepen alleen is dus niet voldoende.

Om vergelijkingen tussen groepen zinvol te maken, moeten we probleemstellingen ontwikkelen die twee groepen vergelijken op basis van één variabele. Als groepen op alle andere variabelen niet of nauwelijks verschillen, kunnen we nauwkeuriger zijn in onze uitspraken. Zelfs als er maar één variabele is, moeten we voorzichtig zijn in het trekken van conclusies. We kunnen zekerder zijn van uitspraken over de populatie als we meerdere steekproeven met elkaar vergelijken. Stel dat we de verschillen tussen mannen en vrouwen in kaart willen brengen. We vergelijken jongens op de basisschool met meisjes op de basisschool, mannelijke studenten met vrouwelijke studenten, werkende mannen met werkende vrouwen, en werkloze mannen met werkloze vrouwen. Als we in al deze groepen dezelfde resultaten vinden, mogen we zekerder zijn van een verschil tussen de geslachten. Ook dan moeten we echter oppassen geen voorbarige of onjuiste causale conclusies te trekken.

In differentieel onderzoek onderscheiden onderzoekers de onafhankelijke variabele van de afhankelijke variabele. We meten (in plaats van manipuleren) de onafhankelijke variabele. De onderzoeker moet bepalen wat de onafhankelijke variabele is en op basis daarvan een onderscheid maken tussen de deelnemers. Een controlegroep is een geselecteerde groep die wordt gebruikt ter vergelijking met de testgroep. Zoals eerder uitgelegd is, moeten we ook bij differentieel onderzoek verstorende variabelen proberen uit te sluiten. De ideale controlegroep is identiek aan de testgroep op alle variabelen, op één na: de onafhankelijke variabele die de groepen kenmerkt. De controlegroep dient dus ook dezelfde potentieel verstorende variabelen te hebben als de testgroep. Voorbeelden hiervan zijn opleidingsniveau, leeftijd en ziekteverleden. Nadat deze zijn geïdentificeerd, kunnen we een controlegroep selecteren die dezelfde potentieel verstorende variabelen kent. De controlegroep verschilt dan niet meer van de testgroep, op één variabele na: de te onderzoeken variabele. Het is zeldzaam om een ideale controlegroep te vinden. Wetenschappers nemen meestal genoegen met een controlegroep die de belangrijkste verstorende variabelen deelt met de testgroep.

Een andere manier om hiermee om te gaan is door meerdere controlegroepen te gebruiken. Elke controlegroep controleert dan een paar van de belangrijkste variabelen, maar geen enkele controlegroep controleert ze allemaal. Als alle vergelijkingen tussen de verschillende controlegroepen en de testgroep dezelfde resultaten geven, mogen we er redelijk zeker van zijn dat het waargenomen effect veroorzaakt wordt door de onafhankelijke variabele, en niet door de verstorende variabelen.

Om resultaten te mogen generaliseren naar de populatie, dienen onderzoekers een willekeurige steekproef te nemen. Dat betekent dat alle potentiële deelnemers een even grote kans moeten hebben om gekozen te worden. We moeten altijd voorzichtig zijn dat we niet (onbedoeld) een steekproef kiezen die bepaalde groepen onder- of oververtegenwoordigt. Het is namelijk makkelijk om een steekproef te verkrijgen die de populatie niet goed vertegenwoordigt. Het voorkomen hiervan is een belangrijk aspect in elke vorm van onderzoek, maar vooral in differentieel onderzoek is dit cruciaal. Als een representatieve steekproef niet haalbaar is, dienen we nog voorzichtiger te zijn in het trekken van conclusies.

Welke statistische toets ook gebruikt wordt, we interpreteren de resultaten op dezelfde manier. We vergelijken de berekende p-waarde met de vooraf bepaalde alfawaarde om te bepalen of de nulhypothese verworpen dient te worden. De nulhypothese stelt dat de populatiegemiddelden gelijk zijn. Als de nulhypothese verworpen wordt, betekent het dat minstens één populatiegemiddelde verschilt van minstens één ander populatiegemiddelde. De juiste conclusie trekken omtrent de nulhypothese is het makkelijke gedeelte van het interpreteren van data. Het moeilijke gedeelte is rekening houden met alle mogelijke verstorende factoren. Als het niet lukt om alle verstorende factoren te controleren, moeten we hier melding van maken in het onderzoeksrapport. Omdat verstorende variabelen zo vaak voorkomen in differentieel onderzoek, is het moeilijk om krachtige conclusies te trekken op basis van één onderzoek. Het is daarom belangrijk om de resultaten van andere onderzoeken te kunnen interpreteren. Om die reden is het ook noodzakelijk om zelf objectief en gedetailleerd verslag te doen van een onderzoek. Indien mogelijk moeten we melding maken van potentieel verstorende variabelen. Op die manier is die benodigde informatie reeds beschikbaar voor toekomstige onderzoekers. Ook als de controlegroepen niet in staat zijn om verstoring te beperken, dienen we hier verslag van te doen.

Beperkingen van correlationeel en differentieel onderzoek

Hoewel correlationeel en differentieel onderzoek veel vraagstukken kunnen oplossen, hebben ze ook beperkingen. De twee belangrijkste zijn problemen bij het bepalen van causaliteit en problemen met verstorende variabelen.

Zoals gezegd moeten we voorzichtig zijn als we conclusies trekken. Correlatie staat immers niet gelijk aan causaliteit. Als A en B correleren, kan dit drie dingen betekenen: A veroorzaakt B, B veroorzaakt A, of C veroorzaakt zowel A als B. Hoewel we soms denken te weten wat het verband is tussen twee variabelen, kan de werkelijkheid anders zijn. Ook als we geneigd zijn om iets te denken, moeten we dus voorzichtig zijn in onze beoordeling. Door logisch na te denken kunnen we vaak het verband tussen twee variabelen achterhalen. Als een derde factor (C) verantwoordelijk is voor de correlatie tussen A en B, bedoelen we niet dat dit maar één mogelijkheid is. Het betekent enkel dat een onbekende factor zorgt voor het verband. Dit kunnen in principe tientallen of honderden dingen zijn.

Een tweede beperking is dat het vaak moeilijk of onmogelijk is om verstorende variabelen te vermijden. Vooral in differentieel onderzoek is dit eerder regel dan uitzondering. Ondanks zorgvuldig samengestelde controlegroepen is het meestal onmogelijk om verstoring te voorkomen.

Ethische principes

Soms is het doen van een experiment niet mogelijk of niet geoorloofd. In sommige gevallen is de onafhankelijke variabele te groot, te complex of te zeldzaam om te manipuleren. Ook in correlationeel en differentieel onderzoek komt het soms voor dat deelnemers niet (voldoende) worden geïnformeerd over de procedures. Er zijn drie belangrijke lessen die we moeten leren.

Weet dat ethiek heel belangrijk is bij het doen van onderzoek;
Leer de ethische belangen, gevaren en correcties;
Begrijp dat je constant waakzaam moet zijn.

Het derde punt ligt misschien voor de hand, maar er zijn nog altijd mensen die ethische beperkingen proberen te verzwakken om hun eigen doelen te realiseren. Denk hierbij aan persoonlijke ambitie, politieke doeleinden of commercieel succes. Fraude komt nog altijd voor in de wetenschap, zij het bij een kleine groep onderzoekers.

Waarom is het belangrijk om de geldigheid van onderzoekhypotheses te toetsen? - Chapter 8

In dit hoofdstuk worden enkele concepten uit andere hoofdstukken geïntegreerd en uitgebreid besproken. Ook komen er enkele nieuwe concepten aan bod.

Hypotheses toetsen

Een belangrijk onderdeel van wetenschappelijk onderzoek is het ontwikkelen en toetsen van onderzoekshypotheses. Dat gaat in een paar stappen. Eerst verfijnt een onderzoeker een idee tot een vraagstelling door enkele observaties te doen en de onderzoeksliteratuur te bestuderen. Vervolgens stellen we een hypothese op en definiëren we de meetprocedures. Een experimentele onderzoekshypothese is een specifieke voorspelling van de effecten van een specifieke onafhankelijke variabele op een specifieke afhankelijke variabele. Experimentele onderzoeken zijn niet de enige onderzoeken die gebruikmaken van onderzoekshypotheses. Sterker nog, elke vorm van wetenschappelijk onderzoek maakt er gebruik van. Vooral bij experimenteel onderzoek is het belangrijk dat die hypotheses duidelijk gespecificeerd zijn. Alleen bij die vorm van onderzoek kunnen we causale hypotheses toetsen en zeker zijn van onze conclusies.

Een onderzoek begint met een idee dat verfijnd en ontwikkeld wordt tot één of meerdere specifieke vragen en voorspellingen. Een idee kan ontstaan uit het lezen van de onderzoeksliteratuur, van persoonlijke interesses, of van de noodzaak een praktisch probleem op te lossen. Nadat we een idee hebben ontwikkeld, bestuderen we de onderzoeksliteratuur. We bekijken vergelijkbare onderzoeken om te zien welke werkwijzen eerder zijn gevolgd. Op basis van de literatuur kunnen ideeën eventueel worden aangepast of verworpen.

Ideeën die na het bestuderen van de literatuur nog de moeite waard zijn om te onderzoeken, worden geformuleerd in een vraagstelling. In experimenteel onderzoek gaan vraagstellingen meestal over causaliteit. Een probleemstelling omvat drie dingen.

Een uitspraak over een verwacht causaal effect;
Identificatie van minstens twee variabelen;
De verwachte richting van de causale resultaten (indien mogelijk).

Een goede probleemstelling bevat bovendien de volgende eigenschappen.

De probleemstelling doet een uitspraak over de verwachte relaties tussen verbanden;
De probleemstelling moet in de vorm van een vraag zijn;
De probleemstelling moet de mogelijkheid geven tot het doen van een empirische toets.

Zodra de probleemstelling duidelijk gedefinieerd is, moeten we de variabelen operationeel definiëren. Soms moeten we in detail treden om tot goede definities te komen. Andere wetenschappers kunnen het onderzoek bovendien gemakkelijker nabootsen als de definities uitvoerig zijn beschreven.

Nu de afhankelijke en onafhankelijke variabelen gedefinieerd zijn, kunnen we de operationele definities en de probleemstelling combineren tot een onderzoekshypothese. Een onderzoekshypothese doet een verklarende uitspraak over het verwachte verband tussen variabelen.

Theorie speelt een belangrijke rol bij het ontwikkelen van onderzoekshypotheses. Zelfs als een onderzoeksgebied nog nooit eerder is bestudeerd, kunnen we met behulp van theorieën een idee krijgen van hoe iets werkt. Vaak dienen onderzoeken uit het verleden als leidraad voor nieuwe onderzoeken.

De onderzoekshypothese omvat in werkelijkheid drie hypotheses: de nulhypothese (of statistische hypothese), de verstorende variabele hypothese en de causale hypothese.

Nulhypothese

Voordat we causale conclusies mogen trekken, moeten we bepalen of er sprake is van een significant resultaat. Dat betekent dat het resultaat niet op te hangen is aan toeval. De eerste hypothese die we dienen te toetsen is de statistische hypothese. De t-toets (genoemd in hoofdstuk 5) is hiervoor geschikt. De nulhypothese stelt dat er geen significant verschil bestaat tussen twee toestanden. We verwerpen de nulhypothese alleen als we een verschil vinden dat te groot is om veroorzaakt te kunnen zijn door toeval.

Verstorende variabele hypothese

Ook als we statistisch significante verschillen vinden in de voorspelde richting, kunnen we er nog niet zeker van zijn dat dit komt door de onafhankelijke variabele. Ze kunnen immers ook veroorzaakt worden door verstorende variabelen. De nulhypothese verwerpen is dus niet voldoende om causale conclusies te mogen trekken. Het is een belangrijke taak om uit te sluiten dat verstorende variabelen verantwoordelijk zijn voor het waargenomen effect. Het is het best om verstorende variabelen al uit te sluiten tijdens het ontwerpen van het onderzoek De verstorende variabele hypothese stelt dat de waargenomen verschillen misschien veroorzaakt worden door verstorende factoren. Hoewel we accepteren dat er een statistisch significant verschil is, accepteren we nog niet dat dit verschil veroorzaakt wordt door de onafhankelijke variabele. We laten de mogelijkheid open dat er verstorende factoren zijn die het verschil veroorzaken. We mogen er pas zeker van zijn dat de onafhankelijke variabele verantwoordelijk is voor het effect als alle alternatieve verklaringen verworpen zijn. De verstorende variabele hypothese wordt niet op een directe manier getoetst. In plaats daarvan proberen we verstorende variabelen één voor één uit te sluiten. Dat doen we door ze vooraf te identificeren en een passende werkwijze en controles te hanteren. Als we dat niet doen, brengen we de geldigheid van het onderzoek in gevaar.

Causale hypothese

De causale hypothese stelt dat de onafhankelijke variabele het verwachte effect zal hebben op de afhankelijke variabele. Nu we hebben vastgesteld dat er een significant resultaat is en die niet veroorzaakt wordt door verstorende variabelen, resteert er maar één mogelijkheid: de onafhankelijke variabele heeft de afhankelijke variabele beïnvloed. Er is dan sprake van causaliteit. Onthoud echter wel dat dit nog steeds een uitspraak in termen van waarschijnlijkheid is. De eerste hypothese werd immers statistisch getoetst, wat altijd (een kleine) onzekerheid met zich meebrengt. We kunnen dus wel vertrouwen hebben in de resultaten van een onderzoek, maar geen zekerheid. Bovendien kunnen resultaten achterhaald worden door nieuwe observaties. Dat is de reden dat wetenschappers terughoudend zijn in het gebruiken van het woord 'bewijs'.

Als we eenmaal een zorgvuldig ontwikkeld onderzoek hebben opgestart, kunnen we gemakkelijk enkele operationele definities aanpassen om een andere variant van hetzelfde onderzoek uit te voeren. We bekijken hetzelfde vraagstuk dan als het ware vanuit een andere invalshoek. We veranderen maar één afhankelijke variabele per keer. Er is dan steeds sprake van een nieuwe hypothese voor dezelfde probleemstelling. Dit proces kan net zo vaak herhaald worden tot de onderzoeker vindt dat er voldoende varianten van hetzelfde onderzoek zijn uitgevoerd.

Samenvattend bevat een experiment de volgende stappen:

We verfijnen ideeën tot een probleemstelling.
De probleemstelling identificeert variabelen, impliceert causaliteit en geeft de verwachte richting van het effect aan.
We formuleren operationele definities van de variabelen en stellen een onderzoekshypothese op.
De onderzoekshypothese doet een voorspelling over het verband tussen twee variabelen die we kunnen toetsen.
We toetsen de onderzoekshypothese aan de hand van de nulhypothese, de verstorende variabele hypothese en de causale hypothese.
We accepteren de causale hypothese pas als de nulhypothese en verstorende variabele hypothese beide zijn verworpen.
Het toetsen van de nulhypothese beoordeelt in hoeverre de resultaten op willekeur berusten.
We kunnen verschillende onderzoekshypotheses ontwikkelen uit één probleemstelling, waardoor we hetzelfde vraagstuk vanuit verschillende invalshoeken bekijken.
Om te bepalen of een significant verschil veroorzaakt wordt door de onafhankelijke variabele, dienen we alternatieve verklaringen uit te sluiten.

Geldigheid en bedreigingen voor geldigheid

Een belangrijk aandachtspunt in het doen van onderzoek is de geldigheid van de werkwijze en de conclusies. Geldigheid heeft verschillende betekenissen. De belangrijkste betekenis verwijst naar hoe goed een onderzoeksopzet toetst wat het hoort te toetsen. Geldigheid is belangrijk in alle soorten onderzoek, maar vooral in experimenteel onderzoek. Er zijn veel potentiële bedreigingen voor de geldigheid van een onderzoek. Onderzoekers moeten daarop anticiperen door procedures te ontwikkelen om ze te elimineren of te beperken. We onderscheiden vier soorten geldigheid: statistische geldigheid, construct geldigheid, externe geldigheid en interne geldigheid.

Het verwerpen van de nulhypothese is een belangrijke stap in het onderzoek naar de effecten van de onafhankelijke variabele. Statistische geldigheid beantwoordt de vraag of deze statistische conclusies nauwkeurig zijn. Er zijn enkele bedreigingen voor de geldigheid die we dienen te controleren. Het is bijvoorbeeld mogelijk dat de methoden voor het schatten van de afhankelijke variabele onbetrouwbaar zijn. Een andere bedreiging is dat de onderliggende aannames van een statistische toets geschonden worden. Dat kan de p-waarde van een statistische toets verstoren. Statistische geldigheid zegt niets over de mate waarin de statistische keuze de werkelijkheid weergeeft. De statistische keuze is immers gebaseerd op waarschijnlijkheid. De alfawaarde geeft aan in hoeveel procent van de gevallen we de verkeerde conclusie trekken.

Wetenschappers formuleren onderzoekshypotheses in een theoretische context van ideeën. Construct geldigheid verwijst naar de mate waarin de onderzoeksresultaten de gebruikte constructs ondersteunen en of de gevonden theorie de beste verklaring is van de resultaten. Een onderzoeker kan bedreigingen voor deze geldigheid beperken door heldere definities te gebruiken en hypotheses zorgvuldig op te stellen. Het nature-nurture-debat is een treffend voorbeeld van een vraagstuk dat te maken heeft met construct geldigheid. Soms kan de data consistent zijn met beide theorieën. In dat geval is de construct geldigheid van één van de twee interpretaties in het geding.

Strikt gezien zijn de resultaten van een experiment beperkt tot de deelnemers die eraan meededen en de omstandigheden die op dat moment van kracht waren. Dat is echter niet waarin we geïnteresseerd zijn. We willen de resultaten kunnen generaliseren. Externe geldigheid verwijst naar de mate waarin we onderzoeksresultaten kunnen terugvoeren op andere deelnemers en omstandigheden. Om onderzoeksresultaten te mogen generaliseren, dient de steekproef een goede weergave te zijn van de populatie. Eigenlijk is het dat nooit, omdat we enkel gebruik kunnen maken van deelnemers die daarvoor toestemming geven. Als we op basis van onderzoek naar een steekproef uitspraken doen over de populatie, spreken we van generalisatie. De beste manier om daarin problemen te voorkomen is door deelnemers willekeurig te selecteren uit een populatie en niet te voorbarig te zijn in het generaliseren naar tijd, plaats of omstandigheden. Het herkennen van deze beperkingen noemen we het vaststellen van beperkingen van generalisatie. Bij onderzoek in een laboratorium onderscheiden we nog een term: ecologische geldigheid. Dit verwijst naar de geldigheid van generalisaties van labonderzoek naar de werkelijkheid.

Interne geldigheid heeft betrekking op de kern van het doen van onderzoek: het vinden van causaliteit. We spreken van interne geldigheid als we kunnen vaststellen dat de onafhankelijke variabele (en niet een verstorende variabele) zorgt voor de verandering in de afhankelijke variabele. Doordat verstorende variabelen precies veranderen wanneer onafhankelijke variabelen dat ook doen, is het niet altijd duidelijk welk van de twee verantwoordelijk is voor de verandering in de afhankelijke variabele. We kunnen alleen causale conclusies trekken als we alle verstorende variabelen weten te controleren.

Belangrijke verstorende variabelen

We onderscheiden nu enkele belangrijke verstorende variabelen.

In longitudinaal onderzoek zijn deelnemers bij een tweede meting meestal aanzienlijk ouder dan bij de eerste meting. Daardoor kunnen ze zijn veranderd in hun uiterlijk en innerlijk. Dit proces noemen we rijping. Rijping komt niet alleen voor bij jongeren. Ook ouderen kunnen nog veranderingen ondergaan. We moeten waakzaam zijn voor verschillen die veroorzaakt worden door rijping, en dus niet door de onafhankelijke variabele.

Gedurende een onderzoek kunnen externe gebeurtenissen plaatsvinden die de resultaten van een onderzoek beïnvloeden. Zulke historische factoren zorgen voor verstoring. Over het algemeen neemt de kans op verstoring toe naarmate de tijd tussen de eerste en de tweede meting groter wordt. Vooral afhankelijke variabelen die onderhevig zijn aan natuurlijke gebeurtenissen hebben last van historische factoren.

Het herhaaldelijk toetsen van deelnemers kan de interne geldigheid bedreigen, doordat deelnemers beter kunnen worden in de opdracht. Denk hierbij vooral aan geheugen- en intelligentietests.

Waargenomen verschillen tussen twee meetmomenten kunnen veroorzaakt worden doordat een meetinstrument veranderd is. Deze verstorende variabele noemen we instrumentatie. Deze vorm van verstoring komt het vaakst voor als het meetinstrument een mens is. De waarnemer kan zijn/haar criteria naar verloop van tijd veranderen.

Regressie naar het gemiddelde is het fenomeen dat deelnemers die op een eerste toets goed scoren vaak minder goed presteren op de tweede toets, en andersom. De mate waarin dit gebeurt hangt af van de oorzaak van dit fenomeen. Als er veel uitschieters waren, mogen we verwachten dat veel van de scores de volgende keer dichter bij het gemiddelde zullen liggen.

Verstoring door selectie komt voor wanneer de onderzochte groepen niet gelijk zijn. Idealiter selecteren en verdelen we deelnemers willekeurig, maar dit is niet altijd mogelijk. Dat is vooral zo bij onderzoeken waarin we niet willekeurig een steekproef kunnen samenstellen.

Verstoring door uitval komt voor wanneer er in één groep van de steekproef meer deelnemers (met een bepaalde eigenschap) uitvallen dan in de andere. Onderzoekers moeten oppassen dat ze geen procedures gebruiken die bepaalde deelnemers beter in staat stellen het onderzoek te voltooien.

Onderzoeksresultaten kunnen beïnvloed worden als deelnemers gedurende het onderzoek in staat zijn informatie met elkaar uit te wisselen. Als er informatie over het onderzoek wordt doorverteld aan deelnemers in andere (controle)groepen, kan dit de resultaten van het onderzoek verstoren. Dergelijke informatiewisseling noemen we diffusion of treatment.

In veel psychologische onderzoeken worden deelnemers blootgesteld aan meer dan één experimentele toestand. Ondanks de voordelen die dit met zich meebrengt, brengt het ook een verstorende variabele met zich mee: volgorde-effecten. Hier is sprake van als de reacties van de deelnemer beïnvloed worden door de aanwezigheid van een vaste volgorde in het onderzoek. We kunnen dit voorkomen door niet vast te houden aan één vaste volgorde van toestanden.

Er zijn veel potentieel verstorende variabelen in een onderzoek die in verschillende richtingen kunnen werken. Om tot geldige conclusies te komen over de invloed van de ene variabele op de andere variabele, dienen we bedacht te zijn op potentieel verstorende variabelen. We moeten ze bedwingen zodat andere hypotheses kunnen worden uitgesloten. Alleen dan kunnen we er zeker van zijn dat we te maken hebben met een causaal verband.

Deelnemers- en onderzoekerseffecten

Deelnemers- en onderzoekerseffecten zijn een belangrijke bedreiging voor de geldigheid van een onderzoek. De verwachtingen en vooroordelen van de onderzoeker en de deelnemers kunnen de uitslagen van een onderzoek systematisch beïnvloeden, waardoor de geldigheid verloren kan gaan.

Elk psychologisch experiment is een sociale situatie waarin deelnemers en onderzoekers met elkaar omgaan. Iedereen gedraagt zich zoals hij/zij denkt zich te moeten gedragen. Deelnemers zijn niet volledig onwetend. Ze kunnen bepaalde ideeën hebben van wat het onderzoek inhoudt. Mensen kunnen om verschillende redenen meedoen aan onderzoek. De belangrijkste zijn nieuwsgierig zijn, het krijgen van een vergoeding en het opdoen van kennis. Een experiment is een kunstmatige situatie die vaak (maar niet altijd) ver van het dagelijks leven afstaat. Als mensen weten dat ze geobserveerd worden, kunnen ze ander gedrag vertonen dan gebruikelijk. Dit kan leiden tot deelnemerseffecten. Dit zijn veranderingen in het gedrag van deelnemers als gevolg van deelname aan het onderzoek zelf. Sommige deelnemers proberen de hypothese van het onderzoek te achterhalen. Op die manier kunnen ze bepalen wat wenselijk gedrag is. Ze zijn vaak gevoelig voor aanwijzingen die de onderzoeker onbedoeld geeft. Zulke aanwijzingen noemen we demand characteristics. Een vergelijkbaar fenomeen is het placebo-effect. Dit kan voorkomen wanneer deelnemers verwachtingen hebben van een bepaalde onderzoeksprocedure.

Onderzoekerseffecten zijn verstorende effecten die ontstaan door handelingen van de onderzoeker. Hoewel onderzoekers zo objectief en nauwkeurig mogelijk proberen te zijn, kunnen ze hun eigen verwachtingen hebben van het onderzoek. Experimenter expectancies zijn verwachtingen die de onderzoeker heeft van de onderzoeksresultaten. Dit kan leiden tot demand characteristics en het gunstig weergeven van onderzoeksresultaten door een bepaalde werkwijze te hanteren. Vaak maakt een onderzoeker keuzes die de onderzoekshypothese of zijn/haar verwachtingen ondersteunt. Dit gebeurt meestal niet bewust.

Ethische principes

Het controleren van verstorende variabelen en deelnemers- en onderzoekerseffecten is een ethische kwestie. Een onderzoek heeft weinig waarde als het er niet in slaagt deze verstorende effecten te beheersen. Daarom dienen we de best mogelijke controles te hanteren. Dit mag echter niet ten koste gaan van ethische principes. Geïnformeerde toestemming is daarvan de belangrijkste. Het is aan een ieder om te bepalen of hij/zij wil deelnemen aan een onderzoek en het wil afmaken. Deelnemers moeten altijd voortijdig kunnen stoppen, ook als dat verstoring oplevert.

Hoe waarborgen controleprocedures de geldigheid van onderzoek? - Chapter 9

Een controle is een procedure die bedreigingen voor de geldigheid tegengaat, waardoor we meer vertrouwen mogen hebben in de onderzoeksresultaten. Niet elke bedreiging komt voor in elk onderzoek. Daarom hebben we nooit tegelijkertijd alle controleprocedures nodig. Controles zijn in alle soorten onderzoek waardevol, maar in experimenteel onderzoek zijn ze het verst ontwikkeld. We onderscheiden vier soorten:

Algemene controleprocedures
Controle van deelnemers- en onderzoekerseffecten
Controle door deelnemers te selecteren en toe te wijzen
Controle door experimenteel ontwerp

Algemene controleprocedures

Algemene controleprocedures kunnen in elk onderzoeksproject worden toegepast. We onderscheiden voorbereiding, reactiemeting en nabootsing.

De onderzoekssetting moet dusdanig ontworpen worden dat verstorende variabelen gecontroleerd kunnen worden. We kunnen zo meer vertrouwen hebben in de resultaten, doordat bedreigingen voor de geldigheid dan worden beperkt. Door in een laboratorium te werken, kunnen we deze bedreigingen goed elimineren. Dat brengt echter ook nadelen met zich mee. Zo kan externe geldigheid verloren gaan als de omstandigheden zo kunstmatig zijn dat ze niet meer op de werkelijkheid lijken. Met computersimulaties kunnen onderzoekers realistische omstandigheden creëren die als therapie kunnen dienen.

Een andere belangrijke controleprocedure is het selecteren en voorbereiden van de meetinstrumenten. Door meetinstrumenten te gebruiken die betrouwbaar en geldig zijn, wordt zowel de statistische geldigheid als construct geldigheid verbeterd. Soms moeten we een nieuw meetinstrument ontwikkelen. Het is de verantwoordelijkheid van de onderzoeker om ervoor te zorgen dat deze betrouwbaar en geldig zijn. De kwaliteit van de meetinstrumenten kan een groot effect hebben op de geldigheid van de resultaten. We moeten een balans zien te vinden in het ontwikkelen van onafhankelijke variabelen en het formuleren van afhankelijke variabelen.

Door de omstandigheden, werkwijzen en meetinstrumenten van het onderzoek te specificeren, maken we het anderen makkelijker om het onderzoek na te bootsen. We kunnen belangrijke informatie winnen uit nabootsing van onderzoek. Als de resultaten van een onderzoek kunnen worden bevestigd met een nabootsend onderzoek, mogen we zekerder zijn van die resultaten. Als dat niet lukt, moeten we die resultaten in twijfel trekken. Er zijn drie soorten nabootsing. Exacte nabootsing blijft zo dicht mogelijk bij het oorspronkelijke experiment. In de psychologie komt dit nauwelijks voor. Systematische nabootsing is gebruikelijker. Daarbij worden enkele aanpassingen gedaan aan het oorspronkelijke onderzoek om te kijken of de resultaten standhouden. De derde vorm van nabootsing is conceptuele nabootsing. Daarbij ontwikkelen en toetsen we verschillende onderzoekshypotheses op basis van dezelfde probleemstelling. Dit is reeds besproken in hoofdstuk 8. Nabootsing vergroot het vertrouwen dat we mogen hebben in de geldigheid van onderzoeksresultaten, maar het biedt geen garantie. Immers, als we onjuiste onderzoeksresultaten opnieuw vinden, maakt dat ze nog niet juist.

Controle van deelnemers- en onderzoekerseffecten

Er zijn veel factoren die deelnemers en onderzoekers in de hand hebben. Als deze niet worden beperkt, kan er twijfel ontstaan over de conclusies van het onderzoek. Er zijn controles om deze factoren te beperken. We onderscheiden enkel- en dubbelblinde procedures, automatisering, objectieve meetwijzen, meerdere waarnemers en misleiding.

Onderzoekerseffecten ontstaan doordat de onderzoeker de hypothese van het onderzoek en de aard van de experimentele omstandigheden kent. Dat kan de manier waarop de onderzoeker omgaat met de deelnemers beïnvloeden. We kunnen dit voorkomen door het onderlinge contact tussen onderzoeker en deelnemer te beperken. Een onderzoeker kan daarvoor een assistent inhuren die de onderzoeksprocedures niet kent. We zeggen ook wel dat de assistent blind is. In dit geval spreken we van een enkelblinde procedure. Een krachtigere controle is de dubbelblinde procedure. Daar is sprake van als zowel de onderzoeker als de assistent niet weten welke deelnemer gekoppeld is aan welke omstandigheden. In dit soort procedures wordt vaak gebruik gemaakt van een placebo. Noch de deelnemers noch de onderzoekers weten dan wie een placebo toegediend krijgt. In werkelijkheid is het lastig om in psychologisch onderzoek gebruik te maken van placebo's. Bovendien krijgen we te maken met ethische kwesties, die we aan het einde van het hoofdstuk zullen bespreken. Soms is het onmogelijk om een onderzoeker blind te houden voor bepaalde aspecten van het onderzoek. Desondanks is dat wel de bedoeling. De regel is dat we deelnemers en score data zo blind mogelijk moeten meten om experimenter bias te voorkomen.

Een tweede manier om deze bevooroordeeldheid te voorkomen, is door het contact tussen onderzoekers en deelnemers weg te nemen. Dat kunnen we bijvoorbeeld doen door de procedures te automatiseren. Dit is de reden dat het gebruik van computers en andere elektronische apparatuur de standaard is geworden in labonderzoek. Computers hebben vele andere toepassingen die de geldigheid van het onderzoek ten goede komt.

Het gebruiken van objectieve meetwijzen is belangrijk bij het meten van afhankelijke variabelen. Een meetwijze is objectief als die zich baseert op waarneembare en goed gedefinieerde gebeurtenissen, waar meerdere personen zich snel in kunnen vinden. Goede objectieve meetwijzen definiëren precies welk gedrag waargenomen dient te worden. Daardoor zijn ze minder gevoelig voor experimenter bias.

Als we geen objectieve meetwijzen kunnen gebruiken ,is het verstandig om meerdere waarnemers in te zetten. De data van de verschillende waarnemers worden dan vergeleken om te zien in hoeverre ze het met elkaar eens zijn. Dit kan gedaan worden met inter-rater betrouwbaarheidscoëfficiënten of met een index van percent agreement. Het gebruik van meer dan één waarnemer komt de objectiviteit van het onderzoek ten goede.

De meestgebruikte controle voor deelnemerseffecten is het vertroebelen van de hypothese door middel van misleiding. Dat wil zeggen dat deelnemers bewust onjuiste informatie wordt gegeven over het onderzoek, of dat er informatie wordt voorgehouden. Soms is dit de enige redelijke manier om bepaalde hypotheses te toetsen. Omdat misleiding deelnemers in gevaar brengt, mag misleiding alleen gebruikt worden als dit gerechtvaardigd is. Bovendien moet de onderzoeker achteraf een volledige beschrijving van het onderzoek geven.

Controles door deelnemers te selecteren en toe te wijzen

De manier waarop onderzoekers deelnemers selecteren en toewijzen aan groepen kan zowel de externe als interne geldigheid van een onderzoek beïnvloeden.

Selectie van deelnemers verwijst naar het herkennen van mensen om deel te nemen aan een onderzoek. Het is een vorm van sampling. Door geschikte deelnemers te selecteren vergroten we de externe geldigheid, waardoor onderzoekers hun resultaten sneller mogen generaliseren. De populatie is de grotere groep mensen (of dieren) waarvan een steekproef wordt getrokken. Een representatieve steekproef vertegenwoordigt de populatie. De general population is de groep mensen, dieren of dingen waarin we geïnteresseerd zijn. De target population is de subgroep waarin de onderzoeker vooral geïnteresseerd is. Target populations zijn niet gemakkelijk te verkrijgen, omdat het erg moeilijk is om een groep deelnemers samen te stellen die de general population goed vertegenwoordigt. Vaak gebruiken we daarom een steekproef van de accessible population: dat deel van de populatie dat wél bereikbaar is. Na zo'n onderzoek mogen we de resultaten weliswaar terugvoeren op de accessible population, maar niet per se op de target population. Het deel van de populatie dat bereikbaar is hoeft immers niet representatief te zijn voor de target population. Als nabootsing van een onderzoek met andere accessible populations dezelfde resultaten oplevert, mogen we er zekerder van dat de resultaten ook gelden voor de target population. In de praktijk maken we bijna nooit gebruik van populaties. In plaats daarvan nemen we een steekproef van de accessible population. We moeten ervoor zorgen dat dit een representatieve steekproef is. Een steekproef is representatief als de kenmerken van de populatie goed terug te zien zijn in de steekproef. Hoewel het idee simpel is, kan het moeilijk zijn om een representatieve steekproef te verkrijgen. Grote steekproeven zijn vaak betere vertegenwoordigingen van de populatie, omdat ze de effecten van sampling error beperken. Er zijn verschillende manieren om een representatieve steekproef te verkrijgen. We onderscheiden random sampling, stratified random sampling en ad hoc sampling.

Random sampling is het dusdanig selecteren van deelnemers zodat ieder persoon in een populatie een even grote kans heeft om geselecteerd te worden. Bovendien moeten de selecties los van elkaar staan. Als het selecteren van deelnemers echt willekeurig gebeurt, mogen we verwachten dat alle kenmerken van de populatie in de juiste verhouding aanwezig is in de steekproef. De beste manier om een onbevooroordeelde steekproef te nemen is door willekeurig mensen te selecteren. Dit kunnen we doen met behulp van een tabel met willekeurige getallen of een random-number generator.

Bij stratified random sampling nemen we afzonderlijke steekproeven van verschillende subgroepen. De subgroepen zijn vooraf gedefinieerd aan de hand van één of meer organismische variabelen. We richten ons op organismische variabelen waarvan we verwachten dat ze een belangrijke rol spelen in de onderzoeksvraag. Stel dat we geïnteresseerd zijn in het stemgedrag van de inwoners een land. Uit de gegevens blijkt dat 16% van de mensen tussen de 20 en 30 jaar oud is. In dat geval zouden we willen dat ook in onze steekproef 16% van de mensen die leeftijd heeft. Uiteraard kunnen we dit proces herhalen met vele andere variabelen. Voorbeelden hiervan zijn sociaaleconomische achtergrond, opleidingsniveau en geslacht. Als alle variabelen goed overeenkomen met die van de populatie, mogen we veel vertrouwen hebben in generalisaties.

Psychologisch onderzoek maakt bijna nooit gebruik van random sampling, omdat target populations vaak moeilijk te bereiken zijn. In plaats daarvan selecteren psychologen meestal deelnemers uit toegankelijkere populaties, zoals studenten of scholieren. Een dergelijke steekproef noemen we een ad hoc sample. Dit is de gebruikelijkste manier om een populatie te verkrijgen in psychologisch onderzoek. Uiteraard moeten mensen vrijwillig kunnen deelnemen, maar dat zorgt er wel voor dat steekproeven niet geheel willekeurig zijn. We onderzoeken dan immers alleen vrijwilligers. Dit levert een beperking op bij het generaliseren van resultaten. We moeten erop letten dat we de resultaten alleen terugvoeren op groepen die op de steekproef lijken. Het is daarom belangrijk om over beschrijvende informatie van de deelnemers te beschikken.

Nadat de deelnemers geselecteerd zijn, moeten we ze koppelen aan experimentele omstandigheden. Onbevooroordeelde en willekeurige participant assignment is belangrijk voor de geldigheid van het onderzoek. Hiermee wordt voorkomen dat alle bovengemiddeld scorende deelnemers onderdeel zijn van dezelfde groep, wat een verkeerd beeld zou geven. Daarmee voldoen we aan het equivalentieprincipe, dat stelt dat alle groepen aan het begin van het experiment gelijkwaardig moeten zijn. Dat betekent niet dat ze exact hetzelfde zijn, maar dat ze statistisch gelijkwaardig zijn. Dat wil zeggen dat de verschillen tussen de groepen niet groter zijn dan wat we mogen verwachten op basis van sampling error. Er zijn verschillende manieren om deelnemers toe te wijzen aan groepen. Daarvan zijn sommige geheel willekeurig, en andere gecontroleerd. Het gebruik van de willekeurige manieren levert alleen gelijkwaardige groepen op als de gebruikte steekproef groot is. Als ze dat niet is, kan het gebeuren dat er te veel deelnemers met dezelfde eigenschappen in dezelfde groep belanden. Dan hebben we te maken met verstoring. Dit kan worden opgelost door deelnemers handmatig te koppelen aan andere deelnemers. We bepalen daarvoor eerst van welke variabelen we verwachten dat ze een belangrijke rol gaan spelen in het onderzoek, en koppelen op basis daarvan deelnemers aan elkaar die op die kenmerken weinig van elkaar verschillen. Die deelnemers worden vervolgens gescheiden van elkaar, zodat er twee groepen ontstaan die voor een groot deel op elkaar lijken. Met andere woorden: beide groepen bezitten dan ongeveer even veel verstorende variabelen, waardoor die het onderzoek niet meer kunnen beïnvloeden. We kunnen dit ook bereiken door eerst (willekeurig) een groep deelnemers samen te stellen en het gemiddelde en de standaardafwijking van die groep te berekenen. Vervolgens stellen we de tweede groep dusdanig samen, dat het gemiddelde en de standaardafwijking overeenkomen met die van de eerste groep. Ook op deze manier worden de effecten van verstorende variabelen geminimaliseerd. Deelnemers willekeurig toewijzen aan groepen, in contrast met de bovengenoemde methoden, is alleen effectief als we niet goed weten welke variabelen mogelijk verstorend zijn.

Controle door experimenteel ontwerp

De interne geldigheid waarborgen is belangrijk in experimenten. Experimentele methoden zijn hiervoor de beste methoden. Experimenteel ontwerp verwijst naar het zorgvuldig samenstellen van alle onderdelen van een experiment om de effecten van de onafhankelijke variabele op de afhankelijke variabele te toetsen. Goede onderzoekers hanteren zorgvuldig geformuleerde concepten en definities, inductieve en deductieve redeneringen, nauwkeurige metingen en geschikte statistische methoden om de data mee te analyseren. Onderzoek moet bovendien voldoen aan de volgende vijf criteria:

Een zorgvuldig geformuleerde onderzoekshypothese die een causaal verband voorspelt tussen twee variabelen;
De aanwezigheid van minstens twee onafhankelijke variabelen;
Het willekeurig toewijzen van deelnemers aan omstandigheden;
Specifieke en systematische procedures om de voorspelde causale effecten empirisch mee te toetsen;
Specifieke controles om bedreigingen voor de interne geldigheid te beperken.

In essentie is experimenteel ontwerp dus een gedetailleerd plan voor het uitvoeren van een experiment.

Ethische principes

Onderzoekers die gebruikmaken van placebo's moeten zich houden aan een aantal ethische regels. De onderzoeker moet ervoor zorgen dat deelnemers beschermd worden en dat er geen wetten worden overtreden. Hoewel het gebruik van placebo's (bewust) misleidend is, worden deelnemers voorafgaand aan het onderzoek ingelicht over de mogelijkheid dat er placebo's worden gebruikt. Als een deelnemer besluit mee te doen aan het onderzoek, gebeurt dat dus met geïnformeerde toestemming en de kennis dat er placebo's gebruikt kunnen worden. Misleiding is in principe acceptabel in psychologische onderzoeken, maar het hangt af van de manier waarop de misleiding plaatsvindt. De American Psychological Association heeft de volgende richtlijnen gesteld:

Psychologen mogen deelnemers niet misleiden als dat leidt tot lichamelijke pijn of emotionele schade.
Misleiding mag alleen gebruikt worden als
het nodig is om het onderzoek uit te kunnen voeren,
het onderzoek mogelijk wetenschappelijke of maatschappelijke waarde heeft,
alternatieve procedures onhaalbaar zijn, en
de deelnemers achteraf een verslag van het onderzoek krijgen.

Het terugkoppelen van informatie aan deelnemers na het onderzoek noemen we ook wel debriefing. Meestal gebeurt dit direct na het onderzoek, maar in sommige gevallen gebeurt dit pas nadat alle deelnemers zijn getoetst. In zo'n verslag dient informatie te staan over de aard, de resultaten en de conclusies van het onderzoek. De onderzoeker moet uitleggen waarom de deelnemers werden misleid, zodat de deelnemers de werkwijze van het onderzoek en het gebruik van misleiding kunnen begrijpen. Indien gewenst kunnen de deelnemers hun resultaten dan nog terugtrekken. We moeten misverstanden omtrent de misleiding ophelderen en eventuele ongemakken bij de deelnemers proberen weg te nemen. Ondanks die pogingen kunnen deelnemers toch verontrust blijven door de misleiding.

Wat zijn onafhankelijke groepdesigns met één variabele? - Chapter 10

Variantie

We onderscheiden twee belangrijke soorten varianties in experimenteel onderzoek: systematische variantie tussen groepen en niet-systematische variantie binnen groepen.

Systematische variantie tussen groepen

Een experiment toetst de effecten van een onafhankelijke variabele op de afhankelijke variabele door:

ten minste twee niveaus voor de onafhankelijke variabele te gebruiken,
verschillende deelnemersgroepen te toetsen op elk niveau, en
de reacties van de deelnemers op de afhankelijke variabelen te meten.

De onderzoeker voorspelt dat het gemiddelde van de afhankelijke variabele significant zal verschillen tussen de groepen, zolang de onafhankelijke variabele een effect heeft op de afhankelijke variabele. De reden hiervoor is dat de verschillen in het niveau van de onafhankelijke variabele tussen de verschillende groepen dan van invloed zou moeten zijn op het gemiddelde niveau van de afhankelijke variabele in elke groep. Dit noemen we variantie tussen groepen. Het vinden van een significant verschil tussen groepen hoeft niet te betekenen dat de onafhankelijke variabele verantwoordelijk is voor het effect. Het betekent alleen dat er systematische effecten zijn die ervoor zorgen dat de gemiddelden van elkaar verschillen. Er zijn twee bronnen van deze systematische effecten: het effect van de onafhankelijke variabele (experimentele variantie) en het effect van verstorende variabelen (uitwendige variantie). De optelsom van deze effecten noemen we systematische variantie tussen groepen. Sampling error draagt ook een beetje bij aan de variabiliteit tussen de gemiddelden. Door sampling error is de kans groot dat er kleine verschillen zijn tussen de groepen, ook als er geen sprake is van systematische effecten. Uitwendige variantie is het effect dat uitwendige variabelen hebben op de resultaten van een onderzoek. Deze variabelen zorgen voor de variabiliteit tussen de gemiddelden. We gebruiken inferentiële statistiek om te bepalen of de verschillen significant zijn. Als er inderdaad sprake is van significantie, betekent dat niet (per se) dat er een causaal verband bestaat tussen de onafhankelijke variabele en de afhankelijke variabele. De hoge variantie tussen groepen kan immers ook veroorzaakt zijn door verstorende variabelen. Statistische toetsen kunnen significante verschillen tussen groepen vaststellen, maar niet bepalen wat daar de oorzaak van is. We mogen geen causale gevolgtrekking doen zolang de mogelijkheid bestaat dat de groepsverschillen veroorzaakt worden door verstorende variabelen. Dit brengt ons bij een basisprincipe in de wetenschap: onderzoekers dienen experimentele variantie te maximaliseren en uitwendige variantie te beperken.

Niet-systematische variantie binnen groepen

De term foutenvariantie duidt op de niet-systematische variantie binnen groepen. Foutenvariantie wordt veroorzaakt door factoren die een deel van de groep beïnvloeden en een ander deel niet. Dit staat in contrast met systematische variantie, waarbij alle deelnemers in een groep worden beïnvloed door een factor. Foutenvariantie kan groter worden door zowel instabiele factoren (de toestand van een deelnemer) als stabiele factoren (individuele verschillen). Niet-systematische variantie binnen groepen is een willekeurig verschijnsel. We verwachten daarom net zoveel deelnemers die te hoog scoren als deelnemers die te laag scoren. Deze willekeurige uitschieters kunnen we tegen elkaar wegstrepen, waardoor het gemiddelde van de groep ongeveer gelijk blijft. De variabiliteit wordt echter wel beïnvloed, doordat er een grotere spreiding is tussen de scores. Bij systematische variantie tussen groepen zijn de effecten niet willekeurig. Er is dan sprake van uitschieters in één richting, waardoor we ze niet meer tegen elkaar kunnen wegstrepen. De systematische factoren zorgen er dan voor dat het gemiddelde omhoog of omlaag gaat (afhankelijk van de richting van de invloed).

Samenvattend maken we onderscheid tussen:

Systematische variantie tussen groepen, wat het volgende bevat:
experimentele variantie (door onafhankelijke variabelen)
uitwendige variantie (door verstorende variabelen)
niet-systematische foutenvariantie binnen groepen
Niet-systematische foutenvariantie binnen groepen (door instabiele factoren en individuele verschillen)

Om een causaal effect aan te tonen van de onafhankelijke variabele op de afhankelijke variabele, moet de variantie hoog zijn en niet verstoord worden door uitwendige variantie of foutenvariantie. Hoe groter deze varianties zijn, hoe moeilijker het wordt om de causale effecten van een onafhankelijke variabele op een afhankelijke variabele aan te tonen. Hiermee kunnen we het eerder genoemde basisprincipe uitbreiden: experimentele onderzoeken zijn ontworpen om experimentele variantie te maximaliseren, uitwendige variantie te beperken en foutenvariantie te minimaliseren.

Experimentele variantie maximaliseren

Experimentele variantie wordt veroorzaakt door de effecten van de onafhankelijke variabele op de afhankelijke variabele. Er moeten minstens twee niveaus van de onafhankelijke variabele zijn. Vaak is het echter zinvol om meer dan twee niveaus te gebruiken, omdat dat meer informatie verschaft over het verband tussen de onafhankelijke variabele en de afhankelijke variabele. Om een effect aan te tonen, moet de onderzoeker er zeker van zijn dat de onafhankelijke variabele daadwerkelijk varieert. Het is daarom vaak nuttig om een manipulatiecheck te implementeren in het onderzoek, om zo te bepalen of de manipulatie daadwerkelijk het bedoelde effect had op de deelnemers.

Uitwendige variantie beperken

Uitwendige variabelen zijn variabelen, anders dan de onafhankelijke variabele, die invloed hebben op groepen als geheel. Daardoor kunnen ze de resultaten verstoren. We kunnen dat voorkomen door de variabelen te controleren. We stellen daarbij twee belangrijke doelen. We moeten ervoor zorgen dat de experimentele groep en controlegroep zoveel mogelijk op elkaar lijken zodra het experiment begint. Daarnaast moeten we elke groep op precies dezelfde manier behandelen, op de manipulatie van de onafhankelijke variabele na. Om uitwendige variantie te controleren, moeten we verzekeren dat de groepen gelijkwaardig zijn bij aanvang van het onderzoek.

De beste methode om uitwendige variantie te beperken is door deelnemers willekeurig toe te wijzen aan groepen. Dit verkleint de kans dat de groepen verschillen op uitwendige variabelen.
Als een variabele potentieel verstorend is, kunnen we dit controleren door deelnemers te selecteren die op deze factor sterk overeenkomen met elkaar. Het nadeel hiervan is dat we inboeten aan generaliseerbaarheid.
We kunnen een potentieel verstorende variabele controleren door het in het experiment te gebruiken als extra onafhankelijke variabele.
We kunnen uitwendige variantie ook beperken door deelnemers aan elkaar te koppelen.

Om het tweede doel te bereiken, moeten we een aantal dingen doen:

Precies dezelfde meetwijzen gebruiken in elke groep en, waar mogelijk, terugvallen op objectieve meetwijzen.
Blinde procedures en automatisering implementeren om deelnemers- en onderzoekerseffecten te voorkomen.
De algemene controleprocedures hanteren.
Foutenvariantie minimaliseren

Foutenvariantie is een variantie binnen groepen die ontstaat door willekeurige factoren en individuele verschillen. Er zal altijd een beetje foutenvariantie zijn. Als er echter in grote mate foutenvariantie is, kan dit leiden tot vervaging van de verschillen tussen omstandigheden als gevolg van experimentele manipulaties. Een belangrijke bron van foutenvariantie is meetafwijking, wat veroorzaakt wordt door inconsistenties in de manier waarop deelnemers reageren op verschillende situaties. Om de oorzaken van deze foutenvariantie te minimaliseren, moeten we zorgvuldig bepaalde meetwijzen hanteren en ervoor zorgen dat de meetinstrumenten betrouwbaar zijn. We zeggen ook wel: controle in het onderzoek staat gelijk aan controle van de variantie.

Niet-experimentele benaderingen

Om de voordelen van experimenteel onderzoek in te zien, moet je de beperkingen begrijpen van niet-experimenteel onderzoek. Daarom bespreken we nu enkele van zulke benaderingen:

Ex post facto onderzoeken
Single-group, posttest-only onderzoeken
Single-group, pretest-posttest onderzoeken
Pretest-posttest, natural control-group onderzoeken

We bespreken nu enkele voorbeelden van dergelijke onderzoeken, beginnend met niet-experimentele ontwerpen en eindigend met experimentele ontwerpen.

In een ex post facto onderzoek observeert een onderzoeker gedrag in het heden en probeert dat vervolgens te koppelen aan eerdere ervaringen. Er wordt dus geprobeerd conclusies te trekken op basis van gegevens of beschrijvingen over eerdere gebeurtenissen die niet direct waargenomen zijn. Doordat er niets direct geobserveerd is, kunnen we weinig vertrouwen hebben in de geldigheid van de conclusies. Er zijn immers weinig controles voor verstorende factoren. Door het gebrek aan goede controles kunnen we alternatieve hypotheses niet uitsluiten. Daarom kunnen we geen causale gevolgtrekkingen doen over de onafhankelijke en afhankelijke variabelen. Een ex-post facto onderzoek kan wel bepaalde hypotheses opleveren die getoetst kunnen worden in sterker afgebakend onderzoek.

Een single-group, posttest-only onderzoek is een iets sterker afgebakend onderzoek dan een ex post facto onderzoek. Hierin manipuleert de onderzoeker een onafhankelijke variabele in een groep, waarna de reactie van de groep gemeten wordt. We meten dan dus het effect van de behandeling op de groep zonder een meting te doen voorafgaand aan de manipulatie. Ook hierbij hebben we te maken met verstorende variabelen die we niet hebben uitgesloten, waardoor we geen causale conclusies kunnen trekken.

Een single-group, pretest-posttest onderzoek is een verbetering ten opzichte van de posttest-only aanpak, omdat er hierbij wel een evaluatie plaatsvindt voorafgaand aan de behandeling. De laatstgenoemde aanpak houdt geen rekening met bepaalde verstorende variabelen zoals rijping en regressie naar het gemiddelde. In sommige gevallen is het juist de bedoeling dat er rijping plaatsvindt. Een onderzoek dat deelnemers gedurende langere tijd volgt, noemen we een longitudinaal ontwerp. Als er meerdere metingen worden gedaan in zo'n periode, spreken we van een time-series design. Afhankelijk van de onderzoeksopzet kan rijping dus zowel een verstorende variabele als een interessegebied zijn.

Een goede controle om toe te voegen is een controlegroep die geen behandeling ondergaat. In een pretest-posttest, natural controlgroup onderzoek krijgt slechts één van de twee groepen een behandeling. Het toevoegen van een controlegroep versterkt het ontwerp aanzienlijk. Deelnemers worden echter niet willekeurig toegewezen aan de groepen zoals dat bij experimenteel onderzoek wel gebeurt. Daardoor kunnen we er niet zeker van zijn dat de groepen gelijkwaardig zijn wat betreft de afhankelijke variabelen. Voor de rest lijken de twee onderzoeken echter veel op elkaar.

Experimentele ontwerpen

Er zijn twee belangrijke factoren die experimentele ontwerpen onderscheiden van de meeste niet-experimentele ontwerpen: controlegroepen en randomisatie. Deze twee factoren beperken de meeste vormen van verstoring. Door de juiste controles te hanteren, kunnen we rijping en regressie naar het gemiddelde zien te beheersen. Alle experimentele ontwerpen die hier worden besproken, hebben ten minste één controlegroep. Om het gebruik van controlegroepen zinvol te maken, moet de onderzoeker deelnemers willekeurig toewijzen aan de groepen. Het gebruiken van controlegroepen neemt verstorende variabelen niet weg, maar het stelt ons wel in staat om ze te controleren. We verwachten na willekeurige toewijzing van de deelnemers immers dat deze factoren gelijkmatig verspreid zijn over de groepen. Randomisatie is een krachtig middel waarmee we de externe en interne geldigheid kunnen vergroten. Gebruik het dus altijd wanneer het (ethisch gezien) mogelijk is. We kunnen veel variaties maken van experimentele ontwerpen. We beperken ons nu echter tot drie basisontwerpen, die één onafhankelijke variabele toetsen met behulp van onafhankelijke deelnemersgroepen. Deze single-variable, between-subjects designs bevatten:

Randomized, posttest-only, control-group design
Randomized, pretest-posttest, control-group design
Multilevel, completely randomized, between-subjects design

In experimenteel onderzoek willen we een variabele manipuleren en de effecten ervan meten, maar wel op zo'n manier dat uitwendige variantie gecontroleerd wordt. De beste manier om dit te doen is door een experiment uit te voeren. Het simpelste experimentele ontwerp is het randomized, posttest-only, control-group design, waarin we randomisatie en een controlegroep gebruiken. We beginnen door willekeurig deelnemers te selecteren van een accessible population. Vervolgens wijzen we de deelnemers willekeurig toe aan de experimentele groep en de controlegroep. We zeggen dan dat de groepen statistisch gelijkwaardig zijn. Om de hypothese te toetsen, vergelijken we ten slotte de posttest metingen van de groepen. Dit ontwerp beperkt enkele bedreigingen voor de geldigheid. Het willekeurig selecteren van deelnemers beschermt de externe geldigheid. Het willekeurig toewijzen van deelnemers aan groepen en het gebruiken van controlegroepen beschermt de interne geldigheid. Beide zorgen ervoor dat de groepen ongeveer dezelfde eigenschappen bezitten. Ze zijn dan statistisch gelijkwaardig op alle variabelen. Op deze manier zal de vergelijking tussen de experimentele groep en de controlegroep niet beïnvloed worden door deze (potentieel) verstorende variabelen. Een experimenteel ontwerp op zich is echter niet voldoende. We dienen ook de algemene controleprocedures te gebruiken.

In het randomized, pretest-posttest, control-group design worden deelnemers willekeurig toegewezen aan twee groepen: de experimentele groep en de controlegroep. Alle deelnemers worden vooraf getoetst op de afhankelijke variabele. Vervolgens ondergaat de experimentele groep het experiment, waarna de groepen wederom getoetst worden op de afhankelijke variabele. De doorslaggevende vergelijking vindt plaats tussen de experimentele groepen en de controlegroepen na het experiment. Door het toevoegen van een toets voorafgaand aan het experiment, kunnen we bepalen of de groepen inderdaad gelijkwaardig zijn op de afhankelijke variabele. Hierdoor mogen we iets zekerder zijn van de resultaten.

Tot zover hebben we ontwerpen besproken die maar twee niveaus hebben voor de onafhankelijke variabele. Het multilevel, completely randomized, between-subjects design is een simpele uitbreiding van de vorige ontwerpen. In plaats van deelnemers toe te wijzen aan twee omstandigheden, worden deelnemers nu toegewezen aan drie of meer omstandigheden. Verder is het vergelijkbaar met de hierboven besproken ontwerpen.

Hoewel het toevoegen van een pretest de controle van een experimenteel onderzoek vergroot, creëert het ook een nieuw probleem: de mogelijkheid dat de pretest de reacties van de deelnemers zal beïnvloeden. Het is mogelijk dat de pretest inwerkt op de experimentele manipulatie, waardoor verstoring ontstaat. Stel dat een onderzoeker interesse heeft om de mening van adolescenten over roken wil veranderen met behulp van een film over de gevolgen van roken voor de gezondheid. Middelbare scholieren worden willekeurig geselecteerd en krijgen daarna een pretest, waarin ze hun mening moeten geven over roken. Vervolgens worden ze willekeurig verdeeld over de experimentele groepen en de controlegroepen. Door de pretest weten we dat de groepen aan het begin van het onderzoek niet significant verschillen in hun opvattingen over roken. Dan laat de onderzoeker de film zien aan de experimentele groep en worden beide groepen wederom gevraagd naar hun mening over roken. Wat we echter niet mogen vergeten, is dat de pretest sommige deelnemers kan beïnvloeden. Men kan zich bijvoorbeeld al bewuster worden van de risico's die verbonden zijn aan roken. Dat noemen we ook wel een pretest-manipulation interactie-effect. Dit effect kan onbewust van invloed zijn op de manier waarop de deelnemers reageren. De onderzoeker kan dan (onjuist) concluderen dat het waargenomen effect alleen komt door de film.

De basisontwerpen voor experimenteel onderzoek die we besproken hebben in dit hoofdstuk zijn vaak nuttig gebleken. Er zijn echter enkele experimentele ontwerpen die we nog niet besproken hebben. Onderzoekers kunnen op twee manieren onderscheid maken tussen ontwerpen van experimenteel onderzoek. De eerste manier is om onderzoeken in te delen naar independent-groups designs of correlated-groups designs. Bij independent-groups designs komen allerlei soorten deelnemers voor in dezelfde groep. Bij correlated-groups designs is dat anders. Daarbij zitten deelnemers bij elkaar die veel op elkaar lijken. Het tweede onderscheid dat we kunnen maken, is die tussen single-variable designs en multivariable designs (ook wel factorial designs).

Ethische principes

Experimenteel ontwerp benadrukt de controle van variantie om de geldigheid van het onderzoek te vergroten. Een van de krachtigste controleprocedures is randomisatie. Willekeurige selectie vergroot de externe geldigheid, en willekeurige toewijzing vergroot de interne geldigheid. Er zijn echter enkele ethische beperkingen als het gaat om randomisatie. Denk bijvoorbeeld eens aan een medisch onderzoek dat gebruikmaakt van een experimentele groep en een controlegroep. De deelnemers – die allen lijden aan een bepaalde ziekte – worden willekeurig verdeeld over de groepen. De experimentele groep krijgt vervolgens een geneesmiddel toegediend, die de controlegroep onthouden wordt. Er zijn twee ethische problemen met dit ontwerp. De eerste is dat we bepaalde patiënten opzettelijk een behandeling ontnemen. De tweede is dat het ontzien van bepaalde patiënten willekeurig gebeurt. Daardoor is de controlegroep in gevaar, terwijl de onderzoeker ervoor moet zorgen dat het welzijn van de deelnemers gegarandeerd wordt.

De belangrijkste manier om deelnemers te beschermen, is door gebruik te maken van geïnformeerde toestemming. We ontkomen nagenoeg alle ethische problemen als potentiële deelnemers op de hoogte zijn van de werkwijzen van het onderzoek en zelf besluiten mee te doen. Zelfs dan zijn we echter verantwoordelijk voor de gezondheid van de deelnemers. Als achteraf blijkt dat het middel dat de experimentele groep kreeg goed werkte, of beter werkte dan bestaande middelen, moet de onderzoeker ervoor zorgen dat ook de controlegroep het middel toegediend krijgt.

Wat valt onder correlated-groups en single-subject designs? - Chapter 11

Deelnemers willekeurig toewijzen aan bepaalde omstandigheden is een belangrijk onderdeel van experimenteel onderzoek. Het garandeert dat de groepen statistisch gelijkwaardig zijn zodra het onderzoek begint, waardoor we de groepen kunnen vergelijken in verschillende experimentele omstandigheden. Randomisatie is de simpelste en de op-een-na-belangrijkste controleprocedure. Het reduceert bedreigingen voor de interne en externe geldigheid en we dienen het altijd te gebruiken als dat mogelijk is.

Er zijn alternatieven voor het willekeurig toewijzen van deelnemers aan groepen. Een voorbeeld daarvan is om een correlated-groups ontwerp te gebruiken. Dat ontwerp verzekert dat de groepen gelijkwaardig zijn door dezelfde deelnemers (of deelnemers die sterk op elkaar lijken) te gebruiken in alle groepen.

In dit hoofdstuk bespreken we drie verschillende correlated-groups designs. Within-subjects designs toetsen alle deelnemers onder alle omstandigheden. Matched-subjects designs koppelen deelnemers voorafgaand aan de studie op basis van relevante variabelen, waarna we de koppels scheiden en willekeurig verdelen over de groepen. We behandelen ook single-subject experimental designs: uitbreidingen van het within-subjects design.

Within-subjects designs

De kenmerken van within-subjects designs zijn:

elke deelnemer wordt blootgesteld aan alle experimentele omstandigheden;
er is daardoor sprake van correlatie tussen de verschillende omstandigheden;
we vergelijken uiteindelijk de metingen van de afhankelijke variabele in de verschillende omstandigheden.

Volgorde-effecten kunnen verstorende factoren zijn voor within-subjects designs. Deelnemers kunnen langzamerhand beter worden in een opdracht, doordat ze meerdere malen worden blootgesteld aan vergelijkbare omstandigheden. Deze volgorde ligt echter niet vast, zoals dat wel het geval is bij een single-group, pretest-posttest design. De twee belangrijkste volgorde-effecten zijn practice-effecten en carryover-effecten. Practice-effecten ontstaan als gevolg van het feit dat deelnemers steeds vertrouwder raken met de omstandigheden en beter worden in een opdracht. Er is sprake van positieve practice-effecten als een deelnemer beter presteert naarmate het onderzoek vordert. Bij negatieve practice-effecten verminderen de prestaties als gevolg van uitputting of verslapping van de concentratie. Beide effecten kunnen een onderzoek verstoren.

Carryover-effecten ontstaan als gevolg van de invloed van bepaalde omstandigheden op de antwoorden die deelnemers geven in andere omstandigheden, later in het onderzoek. Het maakt in dit geval niet uit wanneer de eerste omstandigheid voorkomt in het onderzoek. Bij een carryover-effect zou het in alle gevallen invloed hebben op de volgende situatie.

We kunnen volgorde-effecten op twee manieren controleren: door uitwendige variabelen constant te houden, en door de volgorde van de verschillende omstandigheden af te wisselen. Positieve practice-effecten kunnen we beperken door de variabele bij het oefenen constant te houden. Negatieve practice-effecten (zoals vermoeidheid) kunnen we bestrijden door pauzes in te lassen tussen de verschillende fases van het onderzoek. De beste manier om practice-effecten te controleren is echter door de volgorde van de verschillende omstandigheden te blijven verwisselen. Bovendien is het verwisselen van de volgorde de enige manier om carryover-effecten te bestrijden.

Bij random order of presentation wijzen we elke deelnemer willekeurig toe aan bepaalde omstandigheden. Dit is vooral effectief als we te maken hebben met een grote steekproef. De beste controle voor volgorde-effecten is counterbalancing, waarbij de volgorde van de verschillende omstandigheden systematisch wordt gevarieerd. Bij complete counterbalancing komen alle mogelijke volgordes van omstandigheden precies even vaak voor. Dit zorgt ervoor dat:

elke deelnemer aan alle verschillende omstandigheden van het onderzoek wordt blootgesteld;
alle omstandigheden even vaak voorkomen;
elke omstandigheid even vaak voor en na elke andere omstandigheid komt.

Complete counterbalancing is alleen functioneel als het aantal omstandigheden beperkt is. Als we meer omstandigheden invoeren, neemt het aantal volgordes waarin we het experiment kunnen uitvoeren snel toe. Partial counterbalancing kan in dat geval uitkomst bieden.

Within-subjects designs hebben belangrijke voordelen. Ten eerste is er geen sprake van sampling error, omdat alle deelnemers aan alle toestanden worden toegewezen. De groepen zijn aan het begin van het onderzoek sowieso gelijkwaardig, waardoor er geen verstoring door selectie kan optreden. Een ander voordeel is dat within-subjects designs relatief weinig deelnemers vereisen vanwege de grote gevoeligheid van de methode. Dit gaat bovendien niet ten koste van het onderscheidend vermogen. Een belangrijk nadeel van dit ontwerp is dat er veel verstoring plaatsvindt door volgorde-effecten. Within-subjects designs dienen niet te worden gebruikt als de volgorde-effecten permanent of langdurig zijn.

Matched-subjects designs

Matched-subjects designs hebben veel van de voordelen die within-subjects designs ook hebben, naast een aantal eigen voordelen. In plaats van alle deelnemers in alle omstandigheden te toetsen, gebruikt dit ontwerp verschillende deelnemers in elke fase van het onderzoek. De deelnemers worden gekoppeld voordat ze toegewezen worden aan bepaalde omstandigheden. Dit noemen we matched random assignment. De kenmerken van matched-subjects designs zijn:

elke deelnemer wordt maar aan één niveau van de onafhankelijke variabele blootgesteld;
voor elke deelnemer is er een statistisch gelijkwaardige deelnemer in alle andere omstandigheden, waardoor de groepen gecorreleerd zijn;
de statistische analyse houdt rekening met de manier waarop deelnemers gekoppeld zijn;
we vergelijken uiteindelijk de verschillen in de metingen van de gecorreleerde groepen.

Hoewel matched-subjects designs niet vaak gebruikt worden, kunnen ze wel waardevol zijn. Ze worden meestal gebruikt wanneer within-subjects designs niet geschikt blijken te zijn vanwege grote volgorde-effecten. Denk hierbij aan de situatie dat blootstelling aan een bepaalde situatie voor lange termijn veranderingen zorgt, waardoor de deelnemer niet meer getoetst kan worden in andere omstandigheden. Onderzoekers gebruiken matched-subjects designs als ze dezelfde (grote) gevoeligheid willen behalen als within-subjects designs, maar ze within-subjects designs niet kunnen of willen gebruiken. Within-subjects designs kunnen ook omzeild worden door een independent-groups design te gebruiken en deelnemers willekeurig toe te wijzen aan de verschillende experimentele omstandigheden. We zijn daarbij wel van het toeval afhankelijk dat de groepen statistisch gelijkwaardig worden.

Bij het koppelen van deelnemers moeten we eerst bepalen welke variabelen relevant zijn. Een variabele is relevant als de kans groot is dat het een effect zal hebben op de afhankelijke variabele in het onderzoek. Om een matched-subjects design goed uit te voeren, dienen we eerst de relevante variabelen te herkennen. Op basis daarvan koppelen we deelnemers vervolgens deelnemer voor deelnemer aan elkaar. Door het koppelen van deelnemers lijken de deelnemersgroepen sterk op elkaar. Daardoor hebben we nauwelijks te maken met verstoring. We kunnen deelnemers ook koppelen op basis van meer dan één variabele. Dit is vanzelfsprekend wel moeilijker en leidt vaak tot het verliezen van deelnemers die niet goed gekoppeld kunnen worden.

De volgende regels zijn belangrijk bij het koppelen van deelnemers:

Koppel slechts een of twee belangrijke en significante variabelen aan elkaar.
Kies variabelen die sterk samenhangen met de waarde van de afhankelijke variabele.
Koppel variabelen aan elkaar die de grootste variantie vertonen in de populatie.
Ga de literatuur na om vast te stellen welke variabelen geschikt zijn om aan elkaar te koppelen.
Wijs de gekoppelde deelnemers willekeurig toe aan de verschillende omstandigheden.

De voordelen van matched-subjects designs zijn te vergelijken met die van within-subjects designs, maar de nadelen zijn anders. Beide ontwerpen zijn gevoelig voor kleine verschillen tussen omstandigheden. Door de grote gevoeligheid hoeven we bovendien niet veel deelnemers te gebruiken om resultaten te mogen generaliseren. Beide ontwerpen gebruiken methoden die ervoor zorgen dat de groepen gelijkwaardig zijn. Als we zeker weten dat de groepen gelijkwaardig zijn, kan een klein verschil in de metingen al voldoende zijn om te concluderen dat er een significant resultaat is. Een matched-subjects design kent echter ook een nadeel. Zo kost het veel tijd en moeite om deelnemers te koppelen. Er zijn weliswaar andere manieren om het onderscheidend vermogen te vergroten (zoals het vergroten van de steekproef), maar vaak zijn die alternatieven duur of moeilijk te realiseren.

Single-subject experimental designs

Single-subject experimental designs liggen in het verlengde van within-subjects designs, aangezien elke deelnemer wordt blootgesteld aan alle experimentele omstandigheden. Single-subject experimental designs zijn bovendien variaties op time-series designs, waarbij metingen worden herhaald op verschillende momenten na de eerste meting. Ze zijn uitgegroeid tot ver ontwikkelde alternatieven voor (traditionele) ontwerpen die werken met groepen. In dit ontwerp manipuleert de onderzoeker onafhankelijke variabelen en observeert vervolgens de effecten ervan op de afhankelijke variabelen. De kracht van een dergelijk ontwerp ligt in het feit dat onafhankelijke variabelen worden gecontroleerd, waardoor de kans op verstoring afneemt en de interne geldigheid groot is. We verkiezen single-subject experimental designs in twee gevallen boven vergelijkingen van groepen: wanneer we de veranderingen in een deelnemer willen beoordelen, en wanneer we informatie willen verkrijgen die anders mogelijk verloren zou zijn gegaan. Een single-subject experiment heeft een beperkte externe geldigheid, omdat er maar één deelnemer (per keer) wordt onderzocht. Het bezit daarentegen wel interne geldigheid en verschaft betrouwbare informatie over een individu. Er wordt niet gebruik gemaakt van een controlegroep. In plaats daarvan toont de onderzoeker geldigheid aan met behulp van een gecontroleerde manipulatie van de onafhankelijke variabele. De onderzoeker vergelijkt uiteindelijk het gedrag van de deelnemer voorafgaand en na afloop van de behandeling. We mogen pas causale gevolgtrekkingen doen als het gedrag van de deelnemer op voorspelbare wijze verandert in de verwachte richting en we verstorende factoren uit kunnen sluiten. De eerste stap is om te definiëren welk gedrag we willen meten en hoe we dat gaan doen. Vervolgens kiest de onderzoeker een baseline period. De baseline period is de tijdspanne waarin de deelnemer wordt waargenomen, voorafgaand aan een behandeling. De benodigde lengte van de baseline period is afhankelijk van het soort gedrag dat wordt waargenomen. Het is belangrijk om een representatieve baseline period te selecteren. In geval van twijfel is het beter om een langere baseline period te hanteren, omdat we er dan zekerder van kunnen zijn dat het waargenomen gedrag representatief is. Zodra de baseline data vastgelegd zijn, kan de behandeling worden uitgevoerd. Ook tijdens de behandeling wordt het gedrag van de deelnemer waargenomen en vastgelegd. Uiteindelijk worden de scores van voor en na de behandeling vergeleken.

Het ABA reversal design onderzoekt de effecten van een onafhankelijke variabele op een afhankelijke variabele door een behandeling te beginnen en later stop te zetten. De afhankelijke variabele wordt tijdens dat proces meerdere keren gemeten. We onderscheiden minstens drie verschillende periodes: een baseline period waarin de deelnemer wordt geobserveerd (A), een periode waarin de behandeling wordt uitgevoerd (B), en een terugkeer naar de uitgangssituatie (A). In de meeste gevallen wordt daarna nog een behandeling uitgevoerd (ABAB). Het ABA reversal design kan behandelprogramma's beoordelen die bepaald gedrag willen bevorderen of voorkomen. In sommige gevallen kan het ABA reversal design onethisch zijn.

In een multiple-baseline design worden de effecten van een behandeling aangetoond op verschillende vormen van gedrag. Er zijn drie verschillende variaties:

Across behaviors: het bestuderen van verschillende gedragingen van hetzelfde individu.
Across individuals: het bestuderen van hetzelfde gedrag in verschillende deelnemers, waarbij alle deelnemers dezelfde behandeling krijgen.
Across settings and time: het herhaaldelijk uitvoeren van een behandeling voor bepaald gedrag van een individu in verschillende omstandigheden.

Een single-subject, randomized, time-series design is een time-series design voor een individu, met een extra element: het beginpunt van de behandeling wordt willekeurig bepaald. In time-series designs wordt een afhankelijke variabele meerdere keren gemeten gedurende een lange periode. Doordat de behandeling op een willekeurig tijdstip wordt gestart, is de kans klein dat een significant resultaat voortkomt uit toeval. Dat is vooral zo als er geen verstorende variabelen zijn.

We mogen meer vertrouwen hebben in onderzoeksresultaten als we die kunnen nabootsen. Nabootsing in single-subject experimenten adresseert vragen over:

Generaliseren naar tijd: verkrijgen we dezelfde resultaten als we de behandeling later nog eens uitvoeren?
Generaliseren naar personen: zal de behandeling werken voor andere mensen met hetzelfde probleem?
Generaliseren naar omstandigheden: zal de behandeling werken in andere omstandigheden?
Generaliseren naar vraagstukken: zal de behandeling werken voor andere gedragsproblemen?

Deze vragen over generalisatie zijn bestudeerd door gebruik te maken van directe nabootsing, systematische nabootsing en klinische nabootsing. Single-subject directe nabootsing betekent dat het experiment herhaald wordt met dezelfde deelnemer of met een groep deelnemers met een vergelijkbare diagnose. Single-subject systematische nabootsing gaat een stap verder. Daarbij wordt de nabootsing uitgebreid door meerdere single-subject experimenten uit te voeren met verschillende deelnemers in verschillende omstandigheden. Deze experimenten bepalen de effectiviteit en de betrouwbaarheid van de procedure. Het is waarschijnlijk dat dergelijke systematische nabootsing de beperkingen van generalisatie zal aantonen. Single-subject klinische nabootsing gaat nog een stap verder. De directe en systematische nabootsingen toetsen dan hoe effectief één behandeling is op bepaald gedrag. Samenvattend kunnen we zeggen:

directe nabootsing bepaalt de geldigheid en effectiviteit van een behandeling voor bepaald gedrag van een individu.
systematische nabootsing bepaalt vervolgens de geldigheid en effectiviteit van de behandeling voor andere mensen en in omstandigheden.
klinische nabootsing combineert twee of meer elementen van een behandeling om tot een behandelpakket te komen en de geldigheid en effectiviteit ervan te toetsen voor verwant gedrag.

Ethische principes

De ontwerpen die zijn besproken in dit hoofdstuk zijn vooral nuttig voor het beoordelen van klinische en educatieve behandelprogramma's. De onderzoeksvraag richt zich op de vraag of een behandeling effectief is voor een bepaald persoon. Een onderzoeker heeft niet alleen de verantwoordelijkheid om deelnemers niet te schaden; hij/zij moet ook proberen een positief resultaat te behalen voor de deelnemers. Als een behandeling in een ABA reversal design effectief blijkt te zijn, draagt de onderzoeker de verantwoordelijkheid om de behandeling ook na het onderzoek beschikbaar te stellen. Dit ethische principe blijft niet beperkt tot psychologisch onderzoek.

Wat valt onder factorial designs? - Chapter 12

Factorial designs

Stel dat we een behandelprogramma ontwikkelen voor kinderen die bang zijn in het donker. Door de kinderen en hun ouders te ondervragen, komen we erachter dat de mate waarin de kinderen bang zijn, sterk verandert van nacht tot nacht. Het lijkt er dus op dat in het donker zijn niet de enige factor is die van invloed is op de kinderen. Verder melden veel kinderen dat ze enge belden zien van monsters, geesten en inbrekers als ze in bed liggen. Het zou kunnen dat de angst veroorzaakt wordt door een combinatie van de twee factoren. In dat geval zouden alleen de enge beelden of het donker niet voldoende zijn om de angst te veroorzaken, maar een interactie tussen de twee wel. Een interactie-effect vindt plaats wanneer het effect van de ene onafhankelijke variabele afhankelijk is van het niveau van de andere onafhankelijke variabele. Een interactie-effect is groter dan simpelweg het optellen van de effecten van de variabelen; het is een uitbreiding. In het voorbeeld van het onderzoek naar angst voor het donker kunnen we een factorial design gebruiken om de twee onafhankelijke variabelen en hun interactie te bestuderen. De onafhankelijke variabelen in factorial design heten factoren. In dit voorbeeld meten we de afhankelijke variabele (de angst van de kinderen) door de hartslag te meten. We meten de hartslag in twee omstandigheden van verlichting (licht en donker), en twee omstandigheden van afbeeldingen (enge afbeeldingen en neutrale afbeeldingen). Beide factoren hebben dus twee niveaus, waardoor er vier (twee maal twee) verschillende combinaties van de omstandigheden mogelijk zijn. Uit de metingen blijkt dat de hartslag in de verlichte kamer constant blijft, ondanks het tonen van enge beelden. In de donkere kamer is de hartslag normaal bij het tonen van neutrale beelden, maar veel hoger bij het tonen van de enge beelden. Dit soort resultaten kunnen we weergeven in een matrix. In dit geval hebben we te maken met een twee-bij-twee matrix. De ontwerp notatie (2 x 2) laat zien hoeveel onafhankelijke variabelen er zijn en hoeveel niveaus ze hebben. De notatie 2 x 3 x 2 geeft aan dat het ontwerp drie onafhankelijke variabelen heeft, met respectievelijk twee, drie en twee niveaus. Complexere ontwerpen gebruiken meer cellen in de matrix, vereisen meer deelnemers en zijn moeilijker te interpreteren.

Een factorial design toetst twee soorten hypotheses: hypotheses over de impact van elke onafhankelijke variabele op de afhankelijke variabele (hoofdeffecten), en hypotheses over de effecten van combinaties van onafhankelijke variabelen op de afhankelijke variabelen (interacties). Net zoals single-variable designs kunnen ook factorial designs ingedeeld worden naar between-subjects designs en within-subjects designs. Eigenlijk bestaat het hierboven beschreven onderzoek uit twee single-variable designs, die de effecten van licht en de effecten van enge beelden afzonderlijk onderzoeken. Echter, om vragen over interactie tussen de twee onafhankelijke variabelen te beantwoorden, moeten we ze eerst tot één onderzoek zien te combineren. Hierdoor kunnen we niet alleen de hoofdeffecten analyseren, maar ook een complexere vraag beantwoorden: zijn de effecten van de ene variabele afhankelijk van het niveau van de andere variabele? Deze interactie is de belangrijkste vraag in de meeste onderzoeken die gebruikmaken van factorial designs. Deze onderzoeken lijken op single-variable onderzoeken, maar zijn wel complexer. Doordat er in feite twee (of meer) ontwerpen worden gecombineerd tot één onderzoek, zijn er ook meerdere nulhypotheses. In de regel geldt: hoe meer factoren er zijn in een onderzoek, hoe meer nulhypotheses er moeten worden opgesteld. Doordat factorial designs complex zijn, zijn de bedreigingen voor de interne geldigheid ook complex. Zodra we op het punt staan om één of meer nulhypotheses te verwerpen, moeten we bepalen of er mogelijk verstoring heeft plaatsgevonden. Zolang we deelnemers willekeurig verdelen over de verschillende cellen, mogen we er zeker van zijn dat er geen verstoring plaatsvindt. Het toetsen van hypotheses gebeurt op dezelfde manier als in single-variable onderzoeken, maar de interpretatie van interacties is ingewikkelder doordat er meer kans is op verstoring. Ondanks dat zijn de redeneringen vergelijkbaar.

We gaan terug naar het voorbeeld. Stel dat we 40 kinderen (20 jongens en 20 meisjes) die bang zijn in het donker willekeurig toewijzen aan de vier verschillende omstandigheden. Door de willekeurige toewijzing mogen we ervan uitgaan dat de groepen gelijkwaardig zijn. We stellen de volgende onderzoekshypotheses op:

de hartslag zal hoger zijn in donkere omstandigheden dan in verlichte omstandigheden;
de hartslag zal hoger zijn bij het tonen van enge beelden dan bij het tonen van neutrale beelden;
de hartslag zal het hoogst zijn als de enge beelden worden getoond in donkere omstandigheden.

(De laatste hypothese kunnen we ook anders verwoorden door te zeggen dat we een significante interactie verwachten tussen de enge beelden en de donkere omstandigheden.)

Uit de data die we verkrijgen uit het doen van de tests blijkt dat de hartslag in de verlichte kamer niet noemenswaardig verandert bij het zien van de enge beelden. In de donkere kamer is er echter wel een effect; daar is de hartslag aanzienlijk hoger bij het tonen van de enge beelden. Om na te gaan of er hoofdeffecten zijn, vergelijken we de gemiddelden van de twee niveaus van de factoren. Door de gemiddelden van de vier cellen in een grafiek te weergeven, worden de verbanden in één oogopslag duidelijk. Uit de grafiek blijkt dat de combinatie van enge beelden in het donker de oorzaak is van het angstgevoel van de kinderen. Op deze manier hebben we een interactie aangetoond.

Er zijn veel mogelijke uitkomsten van onderzoeken die gebruikmaken van een factorial design. Er kunnen

geen hoofdeffecten en geen interacties zijn;
één of meer hoofdeffecten zijn, maar geen interactie;
één of meer interacties zijn, maar geen hoofdeffecten;
zowel interacties als hoofdeffecten zijn.

In het geval dat er zowel een hoofdeffect als een interactie is, beginnen we altijd met het interpreteren van de interactie.

ANOVA

Variantieanalyse is een van de meest flexibele statistische middelen om data mee te evalueren. ANOVA vergelijkt de variabiliteit van de gemiddelden met een standaard die gebaseerd is op de variabiliteit van scores binnen een groep. Als de gemiddelden variabeler zijn dan je zou verwachten op basis van sampling error, concluderen we dat de onafhankelijke variabele een effect heeft gehad (ervan uitgaande dat er geen verstoring heeft plaatsgevonden). Dit gebeurt altijd op dezelfde manier, ongeacht hoe ingewikkeld het wordt. In factorial designs wordt ANOVA gebruikt om de effecten van elke onafhankelijke variabele te onderzoeken, en de interactie-effecten te bepalen van gecombineerde onafhankelijke variabelen. Als er twee factoren zijn (A en B), zijn er drie mogelijkheden, namelijk: dat A het hoofdeffect is, dat B het hoofdeffect is, of dat er een interactie plaatsvindt tussen A en B. Met drie factoren zijn er al zeven effecten mogelijk: drie hoofdeffecten(A, B en C), drie tweezijdige interacties (AB, AC en BC) en één driezijdige interactie (ABC). Hoewel ANOVA ingewikkelder wordt naarmate er meer factoren voorkomen in een onderzoek, is het niet moeilijk om de gebruikte redeneringen en berekeningen uit te breiden. Hoewel sommige formules behoorlijk complex kunnen worden, vormt dit nauwelijks een belemmering, omdat onderzoekers de berekeningen over kunnen laten aan computers. De consistentie in het analyseren van data van tal van verschillende ontwerpen maakt ANOVA tot de meestgebruikte vorm van statistische analyse in de psychologie.

Een waardevolle uitbreiding van variantieanalyse is covariantieanalyse (ook wel ANCOVA genoemd). ANCOVA wordt op dezelfde manier gebruikt als ANOVA, maar met een toevoeging: de effecten van een in theorie onbelangrijke, maar toch krachtige variabele. Hierdoor is ANCOVA gevoeliger voor groepsverschillen. ANCOVA is een behoorlijk ingewikkelde methode met veel potentiële valkuilen.

Een andere uitbreiding van variantieanalyse is multivariate variantieanalyse (ook wel MANOVA genoemd). Het verschil tussen ANOVA en MANOVA zit hem in de onafhankelijke variabele. Een ANOVA heeft maar één afhankelijke variabele, daar waar MANOVA meerdere onafhankelijke variabelen heeft. Net zoals ANCOVA is het een vrij ingewikkelde analyse, waar we nog steeds de mogelijkheden van aan het ontdekken zijn. ANOVA technieken zijn flexibele en krachtige procedures waarmee we data van nagenoeg elk ontwerp kunnen analyseren. Met behulp van een computer kunnen we snel en gemakkelijk berekeningen uitvoeren. Ondanks dat moeten onderzoekers wel degelijk de onderzoeksopzet begrijpen, weten wanneer ANOVA procedures geschikt zijn en hoe ze werken. Tot slot benadrukken we dat het uitvoeren van de juiste statistische analyse slechts de eerste stap is in het evalueren van de data. De volgende stap is om de resultaten te interpreteren en ze betekenis te geven. Ondanks de vele mogelijkheden die ANOVA kent, moet een onderzoeker inzicht hebben in het onderzoek en wetenschappelijk getraind zijn om deze laatste stap te zetten.

Ethische principes

We weten inmiddels dat de belangrijkste ethische kwestie in het doen van onderzoek het beschermen van de deelnemers is. Denk hierbij aan geïnformeerde toestemming, privacy, vertrouwelijkheid en eventueel debriefing. Kinderen kunnen nog niet officieel toestemming geven voor het deelnemen aan een onderzoek. Het is gebruikelijk dat een ouder of verzorger in dat geval toestemming geeft om het kind te betrekken bij het onderzoek. Vanzelfsprekend moeten we ouders en verzorgers voldoende informatie geven zodat ze een afgewogen beslissing kunnen nemen. Ze moeten ook de gelegenheid krijgen om vragen te stellen, of om hun kind op elk moment terug te trekken van het onderzoek. Daarnaast moeten we onthouden dat kinderen met net zoveel respect dienen te worden behandeld als volwassenen. Ook kinderen moeten dus worden ingelicht over het onderzoek, zij het met simpeler taalgebruik. Ondanks het feit dat kinderen wettelijk gezien nog niet kunnen instemmen met deelname, is het belangrijk om formele toestemming te krijgen van het kind, zodat we weten dat het kind snapt wat er staat te gebeuren. Onthoud dat we strikt genomen nooit een volledig willekeurige steekproef kunnen krijgen, omdat we alleen te maken hebben met deelnemers die toestemming geven tot deelname. Daardoor moeten we voorzichtig zijn met het doen van generaliserende uitspraken.

Wat is de methodiek achter veldexperimenten, programma-evaluatie en enquête-onderzoeks (een tweede kijk op veldwerk)? - Chapter 13

Het veldwerk dat we hebben besproken in hoofdstuk 6 bestond uit zwak afgebakende onderzoeksmethoden, zoals naturalistische observatie, casusonderzoek en archivale metingen. Deze methoden zijn nuttig voor het verzamelen van feiten, het vaststellen van mogelijkheden en het formuleren van hypotheses voor sterker afgebakend onderzoek. Onderzoek in natuurlijke omstandigheden kan echter ook sterk afgebakend zijn. Denk hierbij aan veldexperimenten, programma-evaluatie en enquête-onderzoek.

Veldwerk uitvoeren

Zwak afgebakend onderzoek kan vragen over causaliteit niet adequaat beantwoorden, omdat het alternatieve hypotheses niet kan uitsluiten. Experimenteel onderzoek uitvoeren in natuurlijke omstandigheden is moeilijk, omdat de omgeving beperkingen kan opleggen aan het onderzoek. Ondanks dat wordt er vaak een beroep gedaan op hoogwaardig veldwerk om vragen te beantwoorden die van belang zijn voor de maatschappij.

Er zijn drie belangrijke redenen om experimenten uit te voeren in natuurlijke omstandigheden:

Om de externe geldigheid van laboratoriumresultaten te toetsen
Om de effecten te onderzoeken van gebeurtenissen in natuurlijke omstandigheden
Om beter te kunnen generaliseren naar omstandigheden
Externe geldigheid toetsen

Experimenteel onderzoek in een laboratorium toetst causale hypotheses onder natuurlijke omstandigheden, zodat de interne geldigheid gemaximaliseerd wordt. Dit kan echter ten koste gaan van de externe geldigheid. Immers, hoe nauwkeuriger en geforceerder een onderzoek is, hoe minder natuurlijk de procedures zullen zijn. Dit vormt beperkingen voor de ecologische geldigheid (de mate waarin laboratoriumresultaten doorgetrokken mogen worden naar alledaagse situaties). Ondanks de voordelen van labonderzoek kunnen we er dus niet altijd vanuit gaan dat de resultaten van toepassing zijn op de werkelijkheid. Dat betekent niet dat labonderzoek geen waarde heeft. Zolang een onderzoek goed ontworpen is, kan het geldige informatie opleveren over de werkelijkheid, óók als we te maken hebben met labonderzoek.

Effecten onderzoeken van gebeurtenissen in natuurlijke omstandigheden

De tweede reden om veldwerkonderzoek te doen is om te bepalen hoe groot de impact is van alledaagse gebeurtenissen. Er is een groeiende vraag naar het bepalen van de effectiviteit van beleidspakketten en campagnes. Deze pakketten en campagnes gaan vaak gepaard met uitspraken over de waarde die ze zouden hebben voor de maatschappij, maar vaak worden die aannames helemaal niet getoetst. Politiek gezien kan het immers risicovol zijn om een programma door te laten rekenen, aangezien dan kan blijken dat het programma niet effectief is. Ontwikkelde landen zouden programma's eerst experimenteel moeten toetsen met objectieve data, voordat er uitspraken worden gedaan over de effectiviteit van deze pakketten.

Generaliseerbaarheid vergroten

De derde toepassing van veldwerkonderzoek is om de generaliseerbaarheid te vergroten. Er zijn drie vormen van generaliseerbaarheid:

Generalisatie van de resultaten van de steekproef naar de populatie
Generalisatie van de resultaten van het onderzoek na verloop van tijd
Generalisatie van de resultaten van onderzoeksomstandigheden naar andere omstandigheden

De derde soort generaliseerbaarheid kan vergroot worden door een onderzoek uit te voeren in natuurlijke omstandigheden.

Idealiter wordt veldwerkonderzoek voorzichtig uitgevoerd, zodat de onderzoeker causale gevolgtrekkingen kan doen. Dit kan echter moeilijk zijn, omdat we in veel natuurlijke situaties geen beperkingen kunnen toepassen die wel mogelijk zijn in een laboratorium. Hoe kunnen we dan toch vragen over causaliteit in natuurlijke omstandigheden beantwoorden? In dit hoofdstuk bespreken we twee mogelijkheden: quasi-experimental designs en programma-evaluatie. Quasi-experimental designs zijn onderzoeksontwerpen die ontwikkeld zijn om causale vraagstukken te beantwoorden in natuurlijke omstandigheden. Programma-evaluatie is niet echt een ontwerp, maar wel een steeds belangrijker wordend onderzoeksgebied dat veel ontwerpen en strategieën omvat.

Quasi-experimental designs

Experimenten verschaffen de grootste vorm van controle. Als het echter niet mogelijk is om experimenten uit te voeren, kunnen quasi-experimental designs uitkomst bieden. Een quasi-experiment is bij benadering een experiment, maar is het niet helemaal. Quasi-experimenten hebben een vergelijkbare opzet als experimenten en controleren enkele verstorende variabelen, maar ze bieden niet even veel controle als experimenten. We moeten dus voorzichtig zijn in het trekken van causale conclusies. Quasi-experimental designs dienen te worden gebruikt wanneer experimenten niet kunnen worden uitgevoerd. In de meeste gevallen zal een quasi-experiment nog altijd meer bruikbare informatie opleveren dan wanneer het experiment helemaal niet wordt uitgevoerd. Bedenk bovendien dat quasi-experimental designs experimentele controleprocedures bevatten, en dus heel anders zijn dan zwak afgebakende methoden. Quasi-experimental designs bevatten een vergelijking van minstens twee niveaus van de onafhankelijke variabele, maar de daadwerkelijke manipulatie kan de onderzoeker niet altijd controleren. Denk hierbij bijvoorbeeld aan natuurrampen of andere situaties waarin de onderzoeker de deelnemers niet zelf kan toewijzen aan groepen. De eigenschappen van quasi-experimental design zijn als volgt:

we formuleren causale hypotheses,
we vergelijken minstens twee niveaus van de onafhankelijke variabele, maar we kunnen niet altijd de onafhankelijke variabele manipuleren,
we kunnen deelnemers meestal niet toewijzen aan groepen,
we hanteren specifieke procedures om hypotheses mee te toetsen,
we hanteren controles tegen bedreigingen voor de geldigheid.

Deze eigenschappen lijken sterk op de eigenschappen van experimenten zoals we die in hoofdstuk 9 hebben geformuleerd.

Dit hoofdstuk richt zich op twee quasi-experimental designs: het nonequivalent control-group design en het interrupted time-series design.

De beste manier om causale hypotheses te toetsen is door groepen te vergelijken die je samenstelt door middel van willekeurige toewijzing. Daardoor is de kans groot dat de groepen aan het begin van het onderzoek gelijkwaardig zijn. Deze gelijkwaardigheid is cruciaal in experimenteel onderzoek. In sommige gevallen kunnen we deelnemers echter niet willekeurig toewijzen aan groepen, waardoor de groepen niet gelijkwaardig zijn aan het begin van het onderzoek. Daardoor kunnen we de groepen niet met zekerheid vergelijken. Er zijn verschillende ontwerpen die hiervoor een oplossing (proberen te) bieden. Een van die ontwerpen (het pretest-posttest, natural control-group design) is besproken in hoofdstuk 10. We benadrukten toen dat het ontwerp zwak is vergeleken met experimentele alternatieven. Het ontwerp is echter wel aanzienlijk sterker dan veel niet-experimentele alternatieven. Onderzoekers zijn in veldwerk vaak gedwongen om te werken met al bestaande groepen. Dit betekent dat deelnemers niet willekeurig aan groepen kunnen worden toegewezen, waardoor we niet zeker kunnen weten of de groepen gelijkwaardig zijn. Het nonequivalent control-group design is een ontwerp waarin al bestaande groepen in hun natuurlijke omgeving worden onderzocht. Wellicht zijn deze groepen niet gelijkwaardig aan elkaar, maar ze kunnen toch op een aantal variabelen met elkaar overeenkomen. Hoe beter de groepen met elkaar overeenkomen, hoe beter dit ontwerp een echt experiment benadert. Zelfs in het geval dat groepen op belangrijke (verstorende) variabelen niet overeenkomen, kunnen er soms harde conclusies worden getrokken, zolang de onderzoeker maar zorgvuldig alle bedreigingen voor de geldigheid evalueert.

Er zijn twee belangrijke problemen met ongelijkwaardige groepen. De eerste is dat de groepen kunnen verschillen op de afhankelijke variabele(n) aan het begin van het onderzoek. De tweede is dat er ook nog andere verschillen kunnen bestaan tussen de groepen. De meest gebruikelijke manier om het eerste probleem op te lossen, is door voor beide groepen de onafhankelijke variabele zowel vóór als na de manipulatie te meten. De tweede kwestie kunnen we oplossen door verstorende variabelen uit te sluiten. Onthoud dat een variabele alleen verstorend kan zijn als het de afhankelijke variabele beïnvloedt en als de groepen verschillen op basis van die variabele. Een tweede strategie is om een controlegroep te gebruiken die zoveel mogelijk op de testgroep lijkt. Dit brengt het ontwerp dichterbij een experimenteel ontwerp. Het is dan echter nog altijd een nonequivalent control-group design, omdat de deelnemers niet willekeurig worden toegewezen aan de omstandigheden. Daardoor blijft de mogelijkheid bestaan dat de groepen op één of meer verstorende variabelen verschillen.

Een experiment is de beste aanpak. Als een experiment niet mogelijk is, is een quasi-experiment, waarin groepen ogenschijnlijk gelijkwaardig zijn, het beste alternatief. Pas als ook een quasi-experiment niet uitvoerbaar blijkt te zijn, moet de onderzoeker overwegen om een quasi-experimental design met ongelijkwaardige groepen te gebruiken.

In een interrupted time-series design wordt één groep deelnemers zowel vóór als na een bepaalde manipulatie meerdere keren gemeten. Er worden gedurende een bepaalde periode dus eerst metingen verricht, waarna de manipulatie plaatsvindt. Vervolgens vindt er weer een reeks metingen plaats. Afhankelijk van het soort manipulatie kunnen de metingen ook tijdens de manipulatie nog doorgaan. Laten we een voorbeeld bekijken. Stel dat een overheid het aantal verkeersongelukken in een land wil verminderen door de snelheidslimiet te verlagen van 120 km/u naar 100 km/u. Vanzelfsprekend geldt deze nieuwe snelheidslimiet voor alle bestuurders, waardoor we niet gebruik kunnen maken van een experimentele groep en een controlegroep. Dit zijn ideale omstandigheden om een interrupted time-series design in te gebruiken. Uit een grafiek blijkt dat er in de maanden voorafgaand aan de maatregel steeds meer ongelukken zijn gaan plaatsvinden. Na de maatregel daalt het aantal ongelukken sterk. De daling stabiliseert uiteindelijk bij een veel lager aantal ongelukken dan voorheen. Zijn deze resultaten voldoende om te concluderen dat de verlaging van het snelheidslimiet heeft geleid tot een daling van het aantal ongelukken? Om die vraag te beantwoorden, moeten we nagaan of verstorende variabelen een rol spelen. Selectie is geen punt, aangezien dit een within-subjects design is en de twee groepen dus gelijkwaardig waren aan het begin van het onderzoek. Rijping speelt geen rol, omdat het zeer onwaarschijnlijk is dat alle bestuurders toevallig nét beter werden in autorijden op het moment dat de maatregel werd ingevoerd. Regressie naar het gemiddelde kan ook worden uitgesloten, omdat de daling in het aantal ongelukken scherp en langdurig is, en het nieuwe gemiddelde ver onder de fluctuaties van voorheen ligt. Dit interrupted time-series design controleert nagenoeg alle verstorende variabelen prima. Er blijven echter twee potentieel verstorende variabelen over: historische factoren en instrumentatie. Historische factoren kunnen elk langlopende onderzoek verstoren, omdat bepaalde gebeurtenissen (anders dan de ingevoerde maatregel) de onafhankelijke variabele ook kunnen beïnvloeden. Instrumentatie is ook een potentiële bedreiging voor de geldigheid van een time-series design. Wanneer mensen nieuwe programma's opstellen, kunnen er ook veranderingen plaatsvinden in de manier waarop men besluit metingen te doen. In een time-series design moeten gemeten veranderingen aanzienlijk zijn om niet te worden geïnterpreteerd als een normale fluctuatie. Veranderingen moeten bovendien nagenoeg meteen optreden, tenzij er een goede reden is om daarin een vertraging te verwachten.

Interrupted time-series designs zijn flexibele ontwerpen die in veel situaties gebruikt kunnen worden. Vaak maken ze gebruik van bestaande data om de effecten van nieuw beleid te toetsen.

Programma-evaluatie

Het doel in programma-evaluatie is om te bepalen hoe succesvol een programma is. Programma-evaluatie kan het bewijs leveren dat het bestede geld ervoor zorgt dat het programma haar doelen bereikt. Bovendien verbetert dergelijk bewijs vaak bestaande programma's. Programma-evaluatie omvat complexe natuurlijke omstandigheden waar de onderzoeker weinig controle over heeft. Vaak krijgen we daarin te maken met lastige praktische en ethische zaken, die we niet tegenkomen bij labonderzoek.

Controle in programma-evaluatie is niet minder belangrijk dan controle in andere onderzoeksopzetten. Het is vaak moeilijk om controles toe te passen in natuurlijke omstandigheden. Ondanks dat zijn er veel controles beschikbaar, waarvan we er nu twee bespreken.

Geschikte afhankelijke variabelen kiezen

De meeste programma's worden ontwikkeld om meerdere doelen te realiseren. De beoordelaar dient daarom meerdere onafhankelijke variabelen te gebruiken om de effectiviteit van het programma te bepalen. Sommige metingen richten zich op veranderingen in de deelnemers als gevolg van het programma, terwijl andere metingen zich focussen op veranderingen buiten het programma, zoals veranderingen in economische activiteit.

Bevooroordeeldheid minimaliseren

In elke vorm van onderzoek is het essentieel om bevooroordeeldheid te minimaliseren bij het doen van metingen. Dit is vooral belangrijk bij programma-evaluatie. De kans op bevooroordeeldheid van de onderzoekers is dan groot, omdat zij zowel het programma uitvoeren als de data verzamelen. Men probeert de bevooroordeeldheid te minimaliseren door objectieve meetmethoden te gebruiken wanneer mogelijk, en door mensen die niet betrokken zijn bij het programma de data te laten verzamelen.

Er zijn tal van onderzoeksontwerpen voor programma-evaluaties, maar voor dit moment hebben we aan drie of vier ontwerpen genoeg.

Randomized Control-Group Design

Het ideale programma-evaluatie ontwerp is een ontwerp met een controlegroep, waarbij deelnemers willekeurig worden toegewezen aan de omstandigheden. Dit ontwerp biedt maximale controle. De controlegroep is vaak een groep zijn die helemaal geen behandeling krijgt, maar soms wordt men beloofd de behandeling na het onderzoek alsnog te krijgen. In dat geval spreken we van een wachtlijst controlegroep.

Nonequivalent Control-Group Design

Het beste alternatief voor een randomized control-group design is een nonequivalent control-group design. Het is vaak mogelijk om een natuurlijke controlegroep te selecteren die waarschijnlijk op de experimentele groep lijkt die je evalueert. Hoewel we dan strikt gezien niet spreken van een experiment, komt het er wel bij in de buurt, omdat we verstorende variabelen dan alsnog goed kunnen uitsluiten.

Single-Group, Time-Series Design

Als het niet mogelijk is om een controlegroep te gebruiken, is het beste alternatief een time-series design. We kunnen veel bedreigingen voor de interne geldigheid controleren door de afhankelijke variabelen vóór, tijdens en na het programma herhaaldelijk te meten. Dit is een flexibel en waardevol ontwerp voor veel situaties. Sterker nog, ook als een controlegroep wel degelijk tot de mogelijkheden behoort, kan een time-series design ons vertrouwen in een behandelprogramma vergroten.

Pretest-Posttest Design

Dit ontwerp is zwak. Met slechts twee metingen en geen controlegroep controleert het nauwelijks bedreigingen voor de interne geldigheid. Het wordt helaas nog altijd te vaak gebruikt in programma-evaluaties, terwijl het niet geschikt is.

Samengevat kunnen we zeggen dat programma-evaluaties sterk afgebakend onderzoek doen in naturalistische omstandigheden. Door zorgvuldig de afhankelijke variabelen te selecteren en het krachtigste onderzoeksontwerp te gebruiken, kunnen we bruikbare informatie verkrijgen over de effectiviteit van bepaalde programma's. Programma-evaluatie wordt vaak gebruikt in gebieden waar geld een schaarse factor is, zoals de politiek. Door programma's te evalueren, kan men bepalen of het geld inderdaad nuttig besteed wordt, of dat het geld beter aan andere programma's kan worden uitgegeven.

Enquêtes

Enquêtes vragen deelnemers naar hun ervaringen, houdingen of kennis. Ze toetsen vaak verbanden tussen variabelen, en het is daarmee een variatie op correlationeel onderzoek. Enquêtes kunnen gebruikt worden in nagenoeg alle vormen van onderzoek. Ze hoeven niet altijd ingewikkeld te zijn, hoewel dat in sommige gevallen wel noodzakelijk is. We onderscheiden twee soorten enquêtes: status-enquêtes en enquête-onderzoek.

Status-enquêtes

Een status-enquête beschrijft de kenmerken van een populatie, zoals stemgedrag bij verkiezingen. Ze worden ook veelvuldig gebruikt bij onderzoek naar volksgezondheid.

Enquête-onderzoek

Enquête-onderzoek probeert verbanden tussen variabelen te achterhalen. Deze vorm lijkt in zekere zin op correlationeel onderzoek.

Enquête-onderzoeken zijn de meest gebruikelijke vormen van onderzoek in de sociale wetenschappen. Op het eerste gezicht lijkt het misschien gemakkelijk om een enquête af te nemen, maar meestal is er een zorgvuldige plan van aanpak nodig om enquêtes tot een succes te maken. Het belangrijkste doel van een enquête is om te leren over de ideeën, kennis, gevoelens, meningen, houdingen en het gedrag van een bepaalde populatie. Enquêtes bekijken vaak veel verschillende aspecten van een zaak.

Een enquête kan bestaan uit een vragenlijst of een interview. In een vragenlijst lezen deelnemers zelfstandig de instructies door en schrijven daarna hun antwoorden op de vragen op. Meestal gebeurt dit met pen en papier, maar tegenwoordig kan dit ook op een computer, en eventueel op internet. Een interview vindt plaats over de telefoon of onder vier ogen. Hierbij stelt de onderzoeker vragen aan de deelnemer, en noteert hij/zij de antwoorden. Vragenlijsten en interviews beginnen met een introductie, waarin het doel van de vragenlijst of het interview wordt uitgelegd en overige informatie wordt verschaft aan de deelnemer. De vragen verdelen we in twee categorieën: demografische vragen en inhoudelijke vragen. Demografische vragen verschaffen beschrijvende informatie over de deelnemers, zoals leeftijd, geslacht, beroep en burgerlijke staat. Dit is feitelijke informatie. De meeste vragen op een vragenlijst zijn echter inhoudelijke vragen, die vragen naar de meningen, houdingen, kennis en het gedrag van de deelnemers. Antwoorden op vragen over meningen of houdingen zijn per definitie subjectief, en kunnen daarom niet goed of fout zijn. Indien vragenlijsten de feitenkennis van deelnemers toetsen, spreken we van objectieve vragen. De antwoorden op deze vragen zijn wél goed of fout.

Het ontwikkelen van een enquête gaat in een paar stappen. De onderzoeker moet eerst bepalen welke vragen hij/zij wil stellen, in welke vorm, en in welke volgorde. Ook de manier van afnemen is belangrijk. Vragenlijsten kunnen we afnemen via e-mail, internet, telefoon, of in een persoonlijk interview. Interviews leveren de meeste (en meestal de beste) informatie op, omdat ze de mogelijkheid bieden om dieper in te gaan op een vraag en meer informatie te halen uit de deelnemer. Ze zijn echter ook tijdrovend en duur, omdat ze minder geautomatiseerd zijn dan vragenlijsten via de telefoon. Het ontwikkelen van de enquête is een van de meest tijdrovende stappen van enquête-onderzoek. Enquêtes moeten duidelijke richtlijnen hebben en moeten geleid worden door de hypotheses van de onderzoeker. De vragen moeten duidelijk geformuleerd worden, zodat ze niet op meer dan één manier kunnen worden geïnterpreteerd. De vragen kunnen verschillende vormen aannemen: open vragen, multiple-choice vragen, en Likert-scale vragen. Laatstgenoemde hanteert een continue schaal van antwoorden die aangeven in hoeverre een deelnemer het eens is met een uitspraak.

Een goede steekproef verkrijgen is een van de belangrijkste dingen in het uitvoeren van enquête-onderzoek. Als de populatie groot en divers is, is het onmogelijk om elk persoon te ondervragen. In plaats daarvan onderzoeken we een steekproef en generaliseren we de resultaten naar de populatie. We kunnen alleen overtuigende conclusies trekken als de steekproef representatief is voor de populatie. De populatie is de grotere groep mensen waar we iets van willen weten.

Overwegingen bij sampling

Representatieve steekproeven selecteren is de kern van elk enquête-onderzoek. Zonder een representatief steekproef mogen we de resultaten niet terugvoeren op de populatie. Het kan echter wel moeilijk zijn om een representatieve steekproef te verkrijgen.

Procedures bij sampling

We onderscheiden twee categorieën voor sampling procedures: nonprobability sampling en probability sampling. Nonprobability sampling gebruikt gemakkelijk te verkrijgen deelnemers die direct beschikbaar zijn. Er wordt weinig moeite genomen om de populatie goed te vertegenwoordigen, waardoor de juistheid van de resultaten betwijfelbaar is. Probability sampling geeft ons meer vertrouwen dat de steekproef representatief is voor de populatie. De twee belangrijkste methoden hiervoor zijn random sampling en stratified random sampling. We hebben deze methoden besproken in hoofdstuk 9.

Steekproefgrootte en betrouwbaarheidsintervallen

Onderzoekers moeten ook bepalen hoe groot de steekproef dient te zijn. Over het algemeen vertegenwoordigen grote steekproeven populaties beter dan kleine steekproeven, omdat de kans op sampling error dan afneemt. Daardoor neemt het onderscheidend vermogen toe. De vereiste grootte van de steekproef hangt af van de mate van homogeniteit van die populatie. Een populatie is homogeen als al haar leden veel op elkaar lijken. In dat geval volstaat een kleine steekproef om de populatie goed te vertegenwoordigen. Is de populatie echter heterogeen, dan is er meer diversiteit. In dat geval hebben we een grotere steekproef nodig om de diversiteit van de steekproef goed te representeren.

We kwantificeren de nauwkeurigheid van onze bevindingen met een betrouwbaarheidsinterval. Dit interval bevat een aantal scores waar het populatiegemiddelde meestal ook onder valt.

Ethische principes

Programma-evaluatie brengt twee belangrijke ethische kwesties op. De eerste is dat deelnemers niet gedwongen mogen worden om mee te doen aan de beoordeling van een programma. Het tweede punt is dat we moeten vaststellen of bepaalde controlegroepen ethisch gezien verantwoord zijn om te gebruiken.

Access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant tolerant and sustainable world. Through physical and online platforms, it support personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.