Samenvatting Introduction to Research Methods in the Social and Behavioral Sciences

Deze samenvatting is gebaseerd op het studiejaar 2013-2014.

1. Onderzoek
2. Bladzijde 37-49
3. Benaderingen (H4)
Bladzijde 357-359
Bladzijde 57-61
4. Betrouwbaarheid en validiteit (blz. 61-80)
5. Beschrijvend onderzoek en steekproeven (blz. 111-128)
6. Experimenteel onderzoek
7. Experimentele designs
8. Quasi-experimentele designs
9. Ethische kwesties
10. Effectgrootte

1. Onderzoek

Geschiedenis

Wanneer mensen aan een wetenschapper denken, krijgen ze vaak een beeld in gedachten van iemand die zich bezighoudt met de exacte wetenschappen. Verder denken veel mensen dat psychologen zich alleen bezighouden met het behandelen van mensen met mentale problemen. Dit heeft ermee te maken dat wetenschappelijk gedragsonderzoek nog redelijk recent is, dit is pas ontstaan aan het eind van de 19^e eeuw. Mensen zijn al wel eeuwenlang bezig met het verklaren van gedrag. Figuren uit de oudheid als Aristoteles en Boeddha stelden bijvoorbeeld op systematische wijze vragen over waarom mensen zich op bepaalde manieren gedragen. Vroeger werd het verklaren van menselijk gedrag echter niet op wetenschappelijke wijze gedaan. Verklaringen werden namelijk vaak gegeven op basis van bijvoorbeeld religieuze dogma’s. Het is echter onmogelijk om dingen die je niet kunt zien of die niet logisch beredeneerbaar zijn - zoals het geval is bij religieuze dogma’s - te toetsen. Door wetenschappers als Wundt, James, Watson en Hall begon men in te zien dat psychologische vraagstukken beantwoord kunnen worden met wetenschappelijke methoden die ook gebruikt worden in bijvoorbeeld de biologie of de natuurkunde. Psychologen houden zich dus ook bezig met onderzoek om zo meer te weten te komen over het gedrag en de mentale processen van mensen. Gedragswetenschappers proberen tegenwoordig op wetenschappelijke wijze te verklaren hoe en waarom gedrag verandert.

Soorten onderzoeken

Onderzoekers maken onderscheid tussen twee onderzoekssoorten die gebruikt worden voor verschillende doeleinden:

‘Basic research’: het belangrijkste doel bij basic research is dat de huidige kennis over een bepaald onderwerp wordt uitgebreid. Dit soort onderzoek wordt uitgevoerd om bepaalde processen beter te begrijpen. Het is in dit verband niet van belang of deze kennis direct toepasbaar is.
‘Applied research’: het hoofddoel van applied research is om oplossingen te vinden voor bepaalde problemen die in de huidige samenleving leven. Dit gaat dus een stap verder dan de algemene kennis te vergroten, zoals in basic research gebeurt. Een voorbeeld hiervan is wanneer een psycholoog wordt ingehuurd om problemen op de werkvloer op te merken en deze op te lossen. In dit verband gaat het er dus om dat problemen worden begrepen en weggewerkt.

Sommige wetenschappers spreken naast deze soorten onderzoek ook nog van een derde onderzoekssoort, namelijk ‘evaluation research’ (ook wel ‘program evaluation’ genoemd). Het gaat er bij dit soort onderzoek om dat wetenschappelijke onderzoeksmethoden worden gebruikt om de effecten van programma’s op gedrag te testen. Denk in dit verband bijvoorbeeld aan nieuwe schoolprogramma’s die worden getest op effectiviteit.

Doelen van onderzoek

Soms is het lastig om op basis van het design van een wetenschappelijk onderzoek te weten of dit basic of applied van aard is. Deze onderzoekssoorten sluiten elkaar niet uit en kunnen in elkaar overlopen. Of er nou sprake is van applied of basic research, onderzoek heeft drie doelen waar nadruk op gelegd kan worden:

Beschrijven (‘describe’): sommige onderzoeken worden vooral uitgevoerd om gedragspatronen, gedachtenpatronen of emoties te beschrijven. Denk in dit verband bijvoorbeeld aan opiniepeilingen die net voor de verkiezingen worden gehouden. Een ander voorbeeld is ontwikkelingspsychologen die zich bezighouden met het beschrijven van leeftijdsgerelateerde veranderingen in gedrag.
Voorspellen (‘predict’): in dit geval proberen wetenschappers gedrag te voorspellen. Soms proberen psychologen bijvoorbeeld aan de hand van scores op gestandaardiseerde testen te voorspellen wat de academische prestaties van mensen zullen zijn. Het is van belang dat dit soort testen kritisch geanalyseerd worden en voldoen aan allerlei statistische voorwaarden.
Verklaren (‘explain’): veel wetenschappers stellen dat verklaren het belangrijkste doel is van wetenschappelijk onderzoek. Wetenschappers hebben namelijk pas echt het gevoel dat ze een fenomeen begrijpen als ze dit kunnen verklaren. We kunnen bijvoorbeeld beschrijven hoeveel gevangenen na hun vrijlating weer de fout ingaan. Uiteindelijk willen we dit echter ook kunnen verklaren.

Psychologie en algemene ideeën

De gedragswetenschappen houden zich vaak bezig met het onderzoek naar bekende verschijnselen, waar iedereen in het dagelijks leven mee te maken heeft, in tegenstelling tot de exacte wetenschappen. De gemiddelde persoon weet bijvoorbeeld niet veel van atomen, maar wel van het geheugen, vooroordelen, slaap of emotie. Dit zorgt ervoor dat veel mensen denken dat bevindingen uit de gedragswetenschappen vaak een kwestie zijn van logisch nadenken en dat ze er zelf ook wel achter hadden kunnen komen. Dit is echter niet altijd waar, omdat algemene kennis onjuist kan zijn en alleen bewezen kan worden door wetenschappelijk onderzoek. Algemene ideeën over gedrag worden juist regelmatig ondermijnd door wetenschappelijk onderzoek. Een voorbeeld is dat veel mensen denken dat hele intelligente mensen niet sociaal zijn, terwijl uit onderzoek juist blijkt dat zij vaak sociaal en emotioneel beter aangepast zijn aan hun omgeving.

Het is verder van belang om stil te staan bij het feit dat wetenschappers niet objectief aan een onderzoek beginnen, aangezien ook de onderzoeker beïnvloed kan worden door algemene ideeën of kennis en ervaring uit zijn eigen leven. Dit kan ervoor zorgen dat wetenschappers psychologische processen op onjuiste wijze verklaren. Daarom is het van groot belang dat zij zich hiervan bewust zijn en hun aannamen testen.

De waarde van onderzoek

Het is voor ons van belang om meer te leren over wetenschappelijk onderzoek, en wel om de volgende vier redenen:

Kennis zorgt ervoor dat mensen onderzoeken kunnen begrijpen die van belang zijn voor hun eigen beroep. Dit is van belang omdat we steeds up to date moeten zijn met betrekking tot nieuwe bevindingen. Leraren moeten bijvoorbeeld begrijpen waarom sommige onderwijsmethoden effectief zijn en waarom andere onderwijsmethoden niet effectief zijn.
Kennis over onderzoeksmethodologie zorgt er daarnaast voor dat we wetenschappelijke bevindingen beter kunnen analyseren, wat van belang kan zijn in allerlei alledaagse situaties. Als we bijvoorbeeld een auto willen kopen, dan kunnen we meerdere onderzoeken vergelijken die de voor- en nadelen van een auto beschrijven. Het is van belang dat we deze bevindingen goed en kritisch kunnen analyseren.
Een derde voordeel is dat kennis over onderzoeksmethoden kritische denkers van ons maakt. Wetenschappers stellen kritische vragen, proberen alternatieve mogelijkheden en verklaringen te bedenken, hun methoden te verbeteren en sterk bewijs te vinden.
Een laatste voordeel is dat kennis over onderzoeksmethoden ervoor zorgt dat iemand een expert kan worden met betrekking tot bepaalde onderwerpen. Zo kunnen mensen eerdere onderzoeken in hun onderzoeksveld lezen en begrijpen, leren hoe ze data moeten verzamelen en resultaten op een correcte manier moeten interpreteren.

De wetenschappelijke methode

Een onderzoek moet aan verschillende criteria voldoen om geclassificeerd te kunnen worden als wetenschappelijk. Deze criteria zijn:

Systematisch empirisme: het gebruik van observatie die systematisch van aard is om conclusies over de wereld te trekken. Wetenschappers structureren hun observaties op systematische manier zodat ze valide conclusies kunnen trekken.
Verificatie (‘public verification’): hiermee wordt bedoeld dat de onderzoeksresultaten van de ene onderzoeker moeten kunnen worden geobserveerd, gerepliceerd en geverifieerd door andere onderzoekers. Dit zorgt ervoor dat andere onderzoekers kunnen zien dat datgene dat door de ene onderzoeker bestudeerd is ook echt bestaat en observeerbaar is. Daarnaast zorgt dit proces ervoor dat fouten verbeterd kunnen worden. Vaak gaat verificatie door middel van het publiceren van artikelen in wetenschappelijke tijdschriften. Verder geldt: hoe vaker iets is waargenomen, hoe betrouwbaarder het is. Hoe meer verschillende onderzoekers dus dezelfde uitkomst krijgen, hoe betrouwbaarder deze uitkomst is.
Oplosbare problemen (‘solvable problems’): de wetenschap houdt zich alleen bezig met oplosbare problemen. De vraag of engelen bestaan is bijvoorbeeld niet wetenschappelijk, omdat er geen manier is om engelen op een empirische en systematische manier te bestuderen. Dit betekent niet dat engelen niet bestaan, maar wel dat hier niet door middel van de wetenschappelijke methode uitspraken over gedaan kunnen worden. Een probleem moet bewijsbaar en falsifieerbaar zijn. Dit laatste houdt in dat hypothesen op een zodanige manier moeten worden geformuleerd dat ze ook als onjuist kunnen worden bevonden.

De pseudowetenschap claimt wetenschappelijk te zijn, maar voldoet niet aan bovenstaande criteria en kan dus ook niet wetenschappelijk genoemd worden. Het is ten eerste niet empirisch: het is gebaseerd op mythen of meningen en is ook erg bevooroordeeld in het bewijsmateriaal omdat theorieën al als bewezen worden verklaard na één observatie. Daarnaast zijn de data in pseudowetenschap onverifieerbaar. Ook zijn de hypothesen niet falsifieerbaar. De psychoanalyse van Freud is bijvoorbeeld op dit punt bekritiseerd, omdat het niet mogelijk is om hypothesen uit deze theorie af te leiden die daadwerkelijk getest (en dus ook ontkracht) kunnen worden. Het is bijvoorbeeld onmogelijk om hypothesen over het onderbewuste te bedenken, omdat deze niet getest kunnen worden.

Dit wil niet zeggen dat hypothesen en theorieën in de pseudowetenschap niet waar zijn, ze kunnen alleen niet wetenschappelijk genoemd worden.

Verschijnselen opmerken en verklaren

Wetenschappers ontdekken en beschrijven verschijnselen, patronen en relaties die ze opmerken. Soms is het echter niet mogelijk om een hypothese op te stellen voor een onderzoek, omdat er nog geen theorie bestaat over het verschijnsel dat bestudeerd wordt. Het is in dat geval beter om eerst onderzoeken te ontwerpen om een verschijnsel te beschrijven in plaats van hypothesen over het verschijnsel te testen. Beschrijven komt dus vooral voor bij nieuwe verschijnselen waar nog niet veel over bekend is. Iets moet eerst beschreven worden, voordat het verklaard kan worden. Wanneer het nieuwe verschijnsel eenmaal beschreven is, kan er naar een verklaring worden gezocht. Dit doen wetenschappers door een theorie te bedenken over het onderwerp.

Een theorie bestaat uit een set van voorstellen die de wederzijdse relaties tussen een aantal concepten probeert uit te leggen. Wetenschappelijke theorieën zijn alleen valide als zij worden gesteund door empirische bevindingen. Dit betekent dat een theorie consistent moet zijn met de feiten die door wetenschappers ontdekt worden.

Theorieën en modellen zijn niet hetzelfde. Een model beschrijft alleen hoe concepten gerelateerd aan elkaar zijn, terwijl een theorie beschrijft hoe en waarom concepten gerelateerd aan elkaar zijn. Een model is dus vooral beschrijvend van aard, terwijl een theorie zowel beschrijvend als verklarend van aard is.

Onderzoekshypothesen

Wetenschappers besteden veel tijd aan het testen van theorieën en modellen om te ontdekken of deze wel echt op een juiste manier gedrag beschrijven en verklaren. Mensen kunnen vaak wel verklaringen voor gebeurtenissen vinden nadat deze plaatsgevonden hebben. Dit soort verklaringen worden ook wel ‘post hoc explanations’ genoemd en wetenschappers zijn hier zeer kritisch over. Wanneer een theorie achteraf verschijnselen kan verklaren, dan zegt dit dus bijna niets over de accuraatheid van de theorie. Het zegt echter wel veel over de juistheid van een theorie als deze kan voorspellen wat er zal gebeuren. Om deze reden bedenken wetenschappers hypothesen voordat ze data verzamelen (‘a priori’). Theorieën worden niet in hun geheel (direct) getest, ze worden altijd op een indirecte manier via hypothesen getest. Theorieën zijn namelijk te breed om direct te testen.

Een hypothese is een voorstel dat op logische wijze volgt uit een theorie.
Van deductie wordt gesproken wanneer hypothesen afgeleid worden van een theorie, omdat van een algemeen voorstel (de theorie) een specifiek voorstel (de hypothese) afgeleid wordt. De wetenschapper laat zich in dit proces leiden door de vraag wat ontdekt zou worden als de theorie daadwerkelijk zou kloppen. Hypothesen zijn daarom bijna altijd terug te leiden tot een als-A-dan-B-vorm.
Soms ontstaat een hypothese niet door middel van deductie, maar door middel van inductie. In dat geval wordt een hypothese niet afgeleid uit een theorie maar uit een verzameling feiten, vaak eerder geobserveerde patronen of resultaten. Hypothesen die alleen gebaseerd zijn op eerder geobserveerde resultaten worden ook wel empirische generalisaties genoemd.
Sommige onderzoeken zijn sterker en beter ontworpen dan andere onderzoeken, waardoor ze sterker bewijs voor een hypothese (en dus een theorie) geven. Hoe meer verschillende (meet)methoden in een onderzoek worden gebruikt om een theorie te testen (‘methodological pluralism’) in verschillende experimenten, hoe meer vertrouwen wetenschappers hierin hebben. Dus de sterkte van bewijs hangt af van een goed ontworpen onderzoek, verschillende meetmethoden en verschillende en meerdere experimenten. Soms zijn er twee tegenstrijdige theorieën over een verschijnsel en ontwerpen wetenschappers een onderzoek waarmee ze beide theorieën tegelijkertijd kunnen testen. De data zal dan uitwijzen welke theorie klopt. Deze methode wordt ook wel ‘strategy of strong inference’ genoemd.

Definities

Om een hypothese te kunnen testen moet deze duidelijk geformuleerd zijn. Als een onderzoeker bijvoorbeeld onderzoek doet naar de effecten van honger op onze aandacht, dan moet hij of zij deze begrippen wel goed kunnen definiëren. Wetenschappers maken gebruik van twee soorten definities: conceptuele definities en operationele definities.

De conceptuele definitie van een woord is eigenlijk de definitie die we in een woordenboek zouden kunnen vinden. Honger is in dit verband bijvoorbeeld het verlangen naar eten.
Een operationele definitie is uitgebreider dan de conceptuele definitie. Hierbij wordt een concept gedefinieerd door precies aan te geven hoe het is gemeten of gemanipuleerd in een onderzoek. We kunnen in een onderzoek bijvoorbeeld zeggen dat iemand honger heeft als hij of zij twaalf uur niets gegeten heeft. Er kunnen dus meerdere operationele definities bedacht worden voor hetzelfde concept, omdat je verschillende meetmethoden hiervoor kunt gebruiken. Operationele definities zijn noodzakelijk, omdat wetenschappers elkaars bevindingen door middel van deze definities kunnen repliceren.

Bewijs

Omdat theorieën alleen indirect door middel van hypothesen getest kunnen worden, zijn theorieën nooit te bewijzen. De hypothesen die voortkomen uit de theorie worden bewezen, niet de theorie zelf. Een hypothese is namelijk maar een klein onderdeel van een theorie. Wanneer deze hypothese klopt, hoeven nog niet alle mogelijke hypothesen uit de theorie te kloppen. Een voorbeeld is dat een moord is gepleegd en we een theorie aan het bedenken zijn over wie de dader is. De moord is gepleegd op een strandfeest. Stel je voor dat Piet een verdachte is. Als Piet de moordenaar is (theorie: Piet is de moordenaar), dan moet hij dus wel op het strandfeest aanwezig geweest zijn (hypothese: Piet was op het strandfeest aanwezig). Vervolgens blijkt inderdaad dat hij aanwezig was bij het feest. Betekent dit dat hij de moordenaar is, omdat de hypothese bevestigd is? Uiteraard niet. We kunnen een theorie (‘Piet is de moordenaar’) dus niet bewijzen door de hypothesen die eruit voortvloeien te bevestigen (‘Piet was op het strandfeest’). Daarnaast is het zo dat het ontkrachten van een hypothese (‘Piet was niet op het strandfeest’) niet per definitie hoeft te betekenen dat de theorie (‘Piets is de moordenaar’) onwaar is. Dat we denken dat Piet niet op het feest was, kan komen doordat we fouten hebben gemaakt en zijn alibi bijvoorbeeld onwaar is. Het gebruik van verkeerde meettechnieken kan daarom ook leiden tot de afwijzing van een hypothese terwijl een theorie wel klopt en vice versa. Omdat meettechnieken niet optimaal zijn en er altijd fouten kunnen worden gemaakt, wordt een theorie nooit meteen afgewezen omdat een onderzoek geen bewijs voor de theorie heeft kunnen vinden. De conclusie is dus dat we een theorie nooit kunnen bewijzen, maar ook nooit kunnen bewijzen dat een theorie niet klopt. Om deze reden spreken wetenschappers ook nooit van een bewezen theorie, maar van een ondersteunde theorie. Het is ook om deze reden dat er vaak voor één verschijnsel verschillende theorieën naast elkaar bestaan: alle hypothesen die bij deze theorieën horen blijken te kloppen en daardoor kan niet bewezen worden of de ene theorie beter is dan de andere.

De wetenschap ontwikkelt zich doordat er veel bewijs wordt geleverd voor een theorie, omdat er bijvoorbeeld tientallen studies zijn die deze ondersteunen. De kans neemt dan toe dat deze theorie ook echt klopt.

Onderzoekstechnieken

Gedragswetenschappers kunnen gebruikmaken van vier soorten onderzoekstechnieken om hypothesen te testen:

Beschrijvend onderzoek (‘descriptive research’): bij dit soort onderzoek worden de gedragingen, gedachten en gevoelens van een groep individuen beschreven. Ontwikkelingspsychologen proberen bijvoorbeeld het gedrag van kinderen van verschillende leeftijden te beschrijven. Dit is de basis van de andere onderzoekstechnieken die hieronder worden beschreven.
Correlationeel onderzoek (‘correlational research’): bij dit soort onderzoek wordt de relatie tussen variabelen bestudeerd. Een voorbeeld is een onderzoek naar de relatie tussen zelfvertrouwen en verlegenheid. Er wordt in zo’n geval een correlatie berekend tussen variabelen. Met correlationele onderzoeken kunnen echter geen uitspraken gedaan worden over oorzaak-gevolgrelaties. We weten bijvoorbeeld niet of weinig zelfvertrouwen verlegenheid veroorzaakt of omgekeerd. Er kan alleen een relatie tussen de componenten worden vastgesteld.
Experimenteel onderzoek (‘experimental research’): in dit geval wordt een variabele gemanipuleerd (de onafhankelijke variabele) om te bekijken of dit veranderingen in gedrag veroorzaakt (de afhankelijke variabele). Als dit inderdaad het geval is, dan kunnen we concluderen dat de onafhankelijke variabele hier de oorzaak van is.
Quasi-experimenteel onderzoek (‘quasi-experimental research’): van deze onderzoekstechniek wordt gebruikgemaakt als wetenschappers een variabele niet kunnen manipuleren. Dit kan bijvoorbeeld gebeuren doordat er ethische bezwaren zijn tegen het manipuleren van de variabele. Denk bijvoorbeeld aan een onderzoek naar de effecten van pesten: je kunt kinderen niet gaan indelen in groepen die wel en niet gepest worden. De wetenschapper onderzoekt dan de effecten van een variabele of gebeurtenis die op natuurlijke wijze voorkomt en niet gemanipuleerd kan worden.

Dieren

De meeste onderzoeken in de psychologie worden uitgevoerd met mensen, maar het komt ook voor dat dieren worden gebruikt om meer te weten te komen over psychologische variabelen. Het gaat vaak om muizen, ratten en duiven. Het voordeel aan dieronderzoek is dat zeer gecontroleerde onderzoeken kunnen worden uitgevoerd en dat veel omgevingsinvloeden kunnen worden geëlimineerd, terwijl dit vaak niet mogelijk is bij onderzoek waar mensen aan deelnemen. Daarnaast kunnen medicijnen op dieren worden getest als het onethisch is om deze op mensen te testen. Door dieronderzoek weten we nu veel meer over bijvoorbeeld honger, dorst en seksueel gedrag. Ook weten we meer over processen als klassieke en operante conditionering en over de werking van de hersenen.

Schema’s

Een schema is een cognitieve generalisatie. Informatie wordt hiermee geordend, waardoor je gemakkelijk en snel de informatie kunt vinden die je nodig hebt, wanneer je hiernaar op zoek gaat. Het gaat vaak over een concept, bijvoorbeeld leiderschap. Door ervaringen door je leven heen met verschillende soorten leiderschap wordt er een cognitief concept hiervan ontwikkeld met alles wat hiermee te maken heeft. Door stimuli worden schema’s geactiveerd. De reacties van personen op stimuli worden ook sterk beïnvloed door het soort schema dat zij over een bepaald onderwerp hebben ontwikkeld. Wanneer je bijvoorbeeld een negatief beeld van leiderschap hebt, zul je anders op je baas reageren dan wanneer je een positief beeld hierover hebt.

Een ander belangrijk punt van schema’s is dat informatieverwerking hierdoor sneller gaat. Hoe uitgebreider het bestaande schema is, hoe makkelijker nieuwe informatie georganiseerd en begrepen kan worden. Wanneer we deze eigenschap niet zouden hebben, zouden we elk stukje nieuwe informatie die we binnenkrijgen lange tijd moeten overwegen voordat we hier iets mee kunnen.

Het doel van dit boek is dat lezers een schema aanleren over onderzoeksmethoden. De essentie van dit aan te leren schema is variabiliteit in gedrag.

2. Bladzijde 37-49

Variabiliteit

Het concept variabiliteit is de basis van alle gedragsonderzoek. Het wordt door het hele onderzoek heen gebruikt, van ontwerp tot analyseren. Er zijn vijf proposities te noemen waaruit dit blijkt:

1. Psychologie en andere gedragswetenschappen draaien om het bestuderen van variabiliteit in gedrag. Deze kan aanwezig zijn in verschillen in gedrag per persoon (in verschillende situaties of door tijdsverloop) en in verschillen tussen meerdere individuen. De gedragswetenschap wil onderzoeken waar deze variabiliteit in gedrag door wordt veroorzaakt.

2. Alle onderzoeksvragen zijn in deze wetenschap gericht op variabiliteit. Voorbeelden van zulke vragen zijn: hoe beïnvloedt te weinig slaap de cognitieve prestaties? Hoe kan dit variëren per persoon? Welke therapie werkt het beste?

3. Onderzoek wordt goedgekeurd als het is ontworpen op een manier die de onderzoeker het best toestaat vragen te beantwoorden over variabiliteit in gedrag. Wanneer een onderzoeker hier moeite mee heeft is het onderzoek niet goed genoeg opgezet.

4. Bij het meten van gedrag komt het toetsen van variabiliteit in gedrag kijken. Om bepaalde gedragingen te meten, zoals hartslag of hoe vaak een dier op een knop drukt, worden hier cijfers aan gekoppeld. Onderzoekers willen dat deze cijfers ook echt exact corresponderen met wat er gebeurt, zodat verschillende cijferuitkomsten ook echt variabiliteit aangeven.

5. Het doel van statistische gegevens in de gedragswetenschappen is altijd om de geobserveerde variabiliteit in de verkregen gedragsgegevens te beschrijven en verklaren. Cijfers variëren, en het is de taak van de onderzoeker om erachter te komen waarom dit zo is.

Er bestaan twee soorten statistiek:

Beschrijvende statistiek: om gedrag samen te vatten en te beschrijven
Inferentiële statistiek: om conclusies te trekken over de betrouwbaarheid en generaliseerbaarheid van het onderzoek. Deze statistiek is een hulpmiddel voor onderzoekers om data te interpreteren

Variantie

Om precies te weten hoeveel variabiliteit er is gemeten is een getal nodig. Dit numerieke getal heet de variantie. Hoe kun je dit nou meten? Stel dat je een schaal hebt van 1 tot 5 en je hebt 6 proefpersonen, die gevarieerde antwoorden geven. Je wilt de variantie weten. Je kunt dan het verschil tussen de hoogste en de laagste score berekenen, de range. Het probleem hierbij is dat de scores die in het midden liggen niet mee worden genomen. Een oplossing hiervoor is om te kijken hoeveel de scores variëren rond het gemiddelde. Wanneer alle scores dicht bij het gemiddelde liggen, is de variantie klein. Wanneer ze er ver vandaan liggen, is deze groot.

Om de variantie als getal te vinden moet je vijf stappen ondernemen:

Bereken het gemiddelde: de som van de scores gedeeld door het totaalaantal scores. Hier wordt meestal het symbool ȳ of een andere letter met een streepje erboven.
Nu moet je kijken naar hoeveel de scores variëren van het gemiddelde. Dit doe je door het gemiddelde van elke score af te trekken. Dit verschil heet de deviatiescore. Deze kan ook negatief zijn, wanneer een score onder het gemiddelde ligt. Een deviatie van 0 betekent dat de score gelijk is aan het gemiddelde.
Wanneer je de deviaties bij elkaar optelt kom je altijd uit op 0, vanwege de negatieve getallen. Daarom moeten we de negatieve getallen omzetten in positieve getallen. Dit doen we door de deviatiescores te kwadrateren.
Nu moeten we de gekwadrateerde deviatiescores bij elkaar optellen. Het getal dat hieruit komt heet de totale som van de kwadranten. Dit getal is erg belangrijk bij veel onderzoeksanalyses.
De totale som van de kwadranten hangt af van de hoeveelheid scores die er zijn. Hoe meer scores, hoe hoger dit getal zal zijn. Dit betekent niet dat de variabiliteit groter is. Hierom moeten we de totale som van de kwadranten nog delen door het aantal proefpersonen (het aantal scores) min 1. Dus als je 6 proefpersonen hebt dan deel je het getal door 5 (6-1). Dit geeft de variantie. De variantie wordt meestal aangeduid met s².

We hebben nu de totale variantie berekend. Deze kan worden opgedeeld in systematische variantie en errorvariantie: totale variantie = systematische variantie + errorvariantie.

In een onderzoek worden vaak relaties onderzocht tussen twee of meer variabelen. De systematische variantie is het deel van de totale variantie in gedrag dat ook echt systematisch is gerelateerd aan de variabelen die onderzocht worden in het onderzoek. Deze vallen dus uiteindelijk te voorspellen dankzij het onderzoek.

Naast deze systematische variantie is er ook nog de errorvariantie. Dit is dat deel van de totale variantie dat niet gerelateerd is aan de variabelen die in het onderzoek worden onderzocht. Het gaat dus om variantie in het gedrag van proefpersonen die wordt veroorzaakt door andere variabelen dan de onderzoeker heeft bedacht. Dit hoeft niet veroorzaakt te worden door meetfouten. Het komt bijvoorbeeld vaak doordat er veel variabelen zijn die invloed hebben op de variabele die de onderzoeker bestudeert, terwijl hij zich maar op één van die variabelen concentreert. De overige variabelen horen dan dus bij de errorvariantie.

Het is belangrijk dat je een goed onderscheid kunt maken tussen de systematische- en de errorvariantie. Hiervoor is statistiek essentieel. De systematische variantie moet groot genoeg zijn om van een duidelijke relatie tussen variabelen te kunnen spreken. Hoe meer errorvariantie er is, hoe lastiger het is om te bepalen of dit het geval is. De errorvariantie is nooit helemaal weg te krijgen. Gedrag wordt nu eenmaal niet door één vaste factor bepaald. Het is wel mogelijk en belangrijk om errorvariantie zo minimaal mogelijk te houden.

3. Benaderingen (H4)

Verschillende onderzoeken

Voor elk type onderzoek kan gebruik gemaakt worden van (een combinatie van) observationele methoden, fysiologische methoden, archiefmateriaal en zelfrapportages. In een correlationeel onderzoek kan een wetenschapper bijvoorbeeld de verlegenheid van de proefpersonen observeren, hun fysiologische reacties meten tijdens sociale interactie, van hen verwachten dat ze vragen beantwoorden (zelfrapportage) en een dagboek bijhouden dat later bestudeerd kan worden (archiefmateriaal). In dit deel wordt achtereenvolgens ingegaan op (1) observationele methoden, (2) fysiologische methoden, (3) zelfrapportages en (4) archiefmateriaal.

1. Observationele methoden

Veel wetenschappers observeren gedrag om hun onderzoeksvragen te kunnen beantwoorden. Wetenschappers die deze observationele methoden gebruiken, moeten drie keuzes maken: (1) zal de observatie plaatsvinden in een natuurlijke omgeving (naturalistisch) of in een kunstmatige omgeving, (2) moeten de proefpersonen weten dat ze worden geobserveerd (gemaskeerd/ongemaskeerd) en (3) hoe zal het gedrag van proefpersonen gemeten worden? Deze keuzes worden hieronder uitgebreider omschreven.

De eerste keuze die wetenschappers moeten maken is dus die tussen naturalistische en kunstmatige observatie.

Van naturalistische observatie is sprake wanneer een wetenschapper gedrag observeert wat op een natuurlijke manier is ontstaan, zonder in te grijpen. De wetenschapper ontwerpt dan ook geen kunstmatige situatie om het gedrag te observeren. Wetenschappers die graag willen weten hoe dieren zich in hun natuurlijke omgeving gedragen, doen vaak aan naturalistische observatie. Het wordt ook bij mensen gebruikt, alleen dit is moeilijker dan bij dieren. Dit komt doordat mensen zich ervan bewust kunnen zijn dat ze worden geobserveerd en zich hierdoor anders gaan gedragen. In dit geval vertonen zij geen natuurlijk gedrag meer. Een oplossing hiervoor is gemaskeerde observatie, zie volgend kopje.

Deelnemende observatie (participant observation) is een vorm van naturalistische observatie. In dat geval doet de wetenschapper met de proefpersonen mee in het gedrag dat hij observeert. Een wetenschapper kan zich bijvoorbeeld voor een onderzoek aansluiten bij duivelaanbidders, homo’s en bendes. Meedoen met het gedrag van de groep die door een wetenschapper wordt bestudeerd kan problemen met zich meebrengen. Wanneer wetenschappers zich beginnen de identificeren met de groepsleden, kunnen ze subjectief worden en niet meer op objectieve wijze naar het groepsproces kijken. Daarnaast kan de onderzoeker (ongewild) het gedrag van de proefpersonen beïnvloeden.

Het tegenovergestelde van naturalistische observatie is kunstmatige observatie (‘contrived observation’). In dat geval wordt gedrag geobserveerd in situaties die daar speciaal voor ontworpen zijn. Vaak wordt het gedrag in zo’n geval geobserveerd in een laboratorium. De proefpersonen weten dan ook dat ze geobserveerd worden. Het is echter ook mogelijk om aan kunstmatige observatie buiten het laboratorium te doen. Wetenschappers kunnen bijvoorbeeld op straat een noodgeval in scene zetten en observeren of mensen behulpzaam zijn naar de ‘slachtoffers’ toe.

De tweede keuze die wetenschappers moeten maken is die tussen gemaskeerde en ongemaskeerde observatie.

Wanneer de proefpersonen weten dat ze geobserveerd worden is er sprake van ongemaskeerde observatie (‘undisguised observation’). Het probleem is echter dat mensen vaak niet op een natuurlijke wijze reageren als ze weten dat ze geobserveerd worden. Dit wordt ook wel reactiviteit genoemd.
Er is echter geen sprake van reactiviteit als proefpersonen niet weten dat ze worden geobserveerd. Dit wordt gemaskeerde observatie (‘disguised observation’) genoemd. Dit roept echter ethische problemen op. Deze vorm van observatie kan namelijk staan voor een inbreuk op de privacy van proefpersonen. Ze doen mee aan een onderzoek zonder dat zij dat zelf weten. Ze kunnen dus niet van te voren een contract ondertekenen (‘informed consent’) waarin staat dat ze proefpersoon willen zijn. De proefpersonen hebben niet de vrije keuze om deel te nemen aan het onderzoek.

Een andere optie is de ‘partial concealment strategy’, waarbij de proefpersonen wel weten dat zij worden geobserveerd maar waarbij bepaalde informatie voor hen wordt achtergehouden. Hierbij wordt het probleem van reactiviteit grotendeels vermeden en komen minder ethische problemen kijken.

Omdat mensen zich vaak niet op een natuurlijke wijze gedragen wanneer ze weten dat ze geobserveerd worden, proberen wetenschappers soms niet op directe maar op indirecte wijze het gewenste gedrag te meten. Soms zorgen wetenschappers er bijvoorbeeld voor dat mensen die de proefpersonen goed kennen (‘knowledgeable informants’) hun gedrag observeren en beoordelen. In dit verband valt te denken aan ouders, beste vrienden, collega’s en docenten. Een andere vorm van gemaskeerde observatie zijn onopgemerkte metingen (‘unobtrusive measures’). Dit zijn metingen die uitgevoerd kunnen worden zonder dat proefpersonen weten dat ze worden bestudeerd. Als een onderzoeker bijvoorbeeld bang is dat proefpersonen zullen liegen over hun alcoholgebruik, dan kan hij of zij het aantal lege alcoholflessen tellen dat in de afvalbak ligt voor het huis van een deelnemer.

De derde vraag waar een wetenschapper over na moet denken is hoe gedragingen gemeten en genoteerd moeten worden. Er kan in dit verband gebruikgemaakt worden van een (1) verhaal (‘narrative’), (2) checklist, (3) een tijdsmeting en (4) observationele beoordelingsschalen.

Een verhaal (‘narrative’/’specimen record’) is een volledige beschrijving van het gedrag van een deelnemer. Het doel is om alles wat de deelnemer heeft gezegd en gedaan zo accuraat mogelijk te noteren. Tegenwoordig wordt dat vooral met opname- of videoapparatuur gedaan. Een andere vorm is de ‘field note’: een kortere samenvatting met de belangrijkste observaties. Het is vaak nodig om een inhoudsanalyse (‘content analysis’) te doen voordat een verhaal geanalyseerd kan worden. Hier wordt later op ingegaan.
Een checklist is gestructureerd, terwijl een verhaal niet gestructureerd is. Dit komt doordat een onderzoeker met een verhaal vrij is om er alles in te zetten wat hij of zij wil. Bij een checklist zijn er echter bepaalde gedragingen beschreven en het is dan aan de wetenschapper om in te vullen of deze gedragingen zich voorgedaan hebben. Een checklist klinkt simpel, maar het is vaak lastig om goede operationele definities (zie deel A) te bedenken voor de gedragingen die in de checklist voorkomen. Als er bijvoorbeeld in de checklist ‘is gespannen’ staat, dan kan het moeilijk zijn om precies te definiëren welke gedragingen hieronder vallen.
Soms willen onderzoekers weten wanneer en hoe lang een gedraging uitgevoerd is. Het is in dat geval mogelijk om tijdsmetingen te houden. Vaak zijn wetenschappers geïnteresseerd in de tijd die zit tussen een gebeurtenis en een gedraging of tussen twee gebeurtenissen (‘latency’). Dit kan gemeten worden aan de hand van de reactietijd die staat voor de tijd die verstrijkt tussen het verschijnen van een stimulus en de reactie van een respondent. Latency kan ook gemeten worden aan de hand van de tijd die nodig is om een taak af te maken (‘task completion time’). Een andere manier om latency te meten is ‘interbehavior latency’: de tijd die verstrijkt tussen een eerste gedraging en een gedraging die daarop volgt. Een wetenschapper kan bijvoorbeeld onderzoeken wat voor oogbewegingen iemand vertoont nadat hij of zij heeft gebloosd.

Naast latency kan een onderzoeker ook geïnteresseerd zijn in de duur (‘duration’) van een gedraging. Een onderzoeker kan bijvoorbeeld geïnteresseerd zijn in hoe lang mensen oogcontact hebben tijdens een gesprek.

Soms willen onderzoekers de kwaliteit of de intensiteit van een gedraging bestuderen. Een wetenschapper kan zich bijvoorbeeld afvragen hoe hard een kind huilt wanneer hij of zij gepest wordt. Dit kan gedaan worden door middel van observationele beoordelingsschalen. Het gehuil van een kind kan bijvoorbeeld op een driepuntsschaal beoordeeld worden (1 = huilt niet, 2 = huilt gemiddeld en 3 = huilt hard). Bij dit soort schalen zijn duidelijke definities van groot belang.

Bij observationele observatiesystemen moet sprake zijn van interrater-betrouwbaarheid (‘interrater realiability’). Het gaat hierbij om de mate waarin de observaties van twee onafhankelijke onderzoekers overeenkomen. Als de interrater-betrouwbaarheid laag is, dan betekent dit dat de onderzoekers het observatiesysteem niet op dezelfde manier gebruiken. De betrouwbaarheid van observationele observatiesystemen kan op twee manieren verhoogd worden: door gebruik te maken van duidelijke operationele definities en door van te voren als onderzoekers met elkaar te praten over hoe gedragingen gecodeerd, vergeleken en besproken zullen worden.

2. Fysiologische metingen en neurologische testen

De neurowetenschap is een interdisciplinair veld dat zich bezighoudt met biochemische, anatomische, fysiologische, genetische en ontwikkelingsgerelateerde processen waar het zenuwstelsel invloed op heeft. Veel neurowetenschappers zijn benieuwd naar de vraag hoe veranderingen in de hersenen en het zenuwstelsel gerelateerd zijn aan psychologische verschijnselen zoals perceptie, gedachten en emotie.

Bij fysiologische methoden worden bepaalde aspecten heel precies gemeten, wat niet met het blote oog kan zoals bij observationele methoden. Fysiologische aspecten kunnen onder andere worden gemeten met behulp van fMRI, EEG, bloed- en speekseltesten en metingen van het autonome zenuwstelsel door middel van bijvoorbeeld hartslagmetingen of huidtemperatuurmetingen.

In de gedragswetenschappen gaat het niet om de fysieke meting op zich, maar om wat deze aangeeft. Schaamte kan bijvoorbeeld gemeten worden door met sensoren te meten in hoeverre een persoon bloost.

3. Zelfrapportages

Bij sommige gedragingen is het alleen mogelijk om voor het onderzoek gebruik te maken van zelfrapportage. Als een onderzoeker bijvoorbeeld geïnteresseerd is in emoties of gedachten, dan is zelfrapportage een goede optie. Deze dingen zijn subjectief en dus niet te meten door observaties of fysiologische metingen. Er zijn twee soorten zelfrapportages: vragenlijsten (‘questionnaires’) waarbij vragen op papier worden beantwoord en interviews waarbij de onderzoeker verbaal vragen stelt en de deelnemer deze ook verbaal beantwoordt. Voor het samenstellen van zowel interviews als vragenlijsten is het van belang om op de volgende zaken te letten:

Vragen moeten specifiek zijn en op een precieze manier geformuleerd worden. Dit zorgt ervoor dat elke vraag goed wordt geïnterpreteerd en begrepen.
Vragen moeten zo simpel mogelijk geformuleerd worden en moeilijke woorden moeten dus zo veel mogelijk vermeden worden.
Er moeten geen aannames worden gemaakt over de proefpersonen. Onderzoekers denken vaak dat andere mensen precies zoals zij zijn. De vraag “Hoe is je relatie met je moeder?” kan bijvoorbeeld heel natuurlijk aanvoelen, omdat een onderzoeker zelf een moeder heeft. Andere mensen kunnen echter geadopteerd zijn of zonder moeder opgegroeid zijn.
Voorwaardelijke informatie moet voorafgaan aan het belangrijkste deel van de vraag. Dit betekent dat het beter is om “Als een goede vriend een lange tijd depressief is, zou je hem dan een psycholoog aanraden?” te vragen in plaats van “Zou je een goede vriend een psycholoog aanraden als hij lange tijd depressief is?”
Gebruik niet een vraag waar meer dan één vraag in verwerkt is, zoals “Eet je gezond en sport je regelmatig?”
Kies een goed reactieformaat. Het reactieformaat (‘respons format’) gaat over de manier waarop een deelnemer dient te antwoorden. Er zijn drie soorten reactieformaten. Ten eerste een open vraag (‘free-respons format’), waarbij de deelnemer een ongestructureerd, vrij antwoord mag geven. Dit is echter vaak niet handig, omdat de respondent dan precies moet weten welk soort antwoord de onderzoeker van hem verwacht en dit is meestal niet het geval. Daardoor krijgen onderzoekers antwoorden die voor hen moeilijk te coderen en analyseren zijn.

Daarom zijn er ook gestructureerde reactieformaten: een beoordelingsschaal (‘rating response format’) waarbij antwoordmogelijkheden worden gebruikt die verschillen in intensiteit, bijvoorbeeld vijf antwoordmogelijkheden van ‘helemaal niet mee eens’ tot ‘helemaal mee eens’. Een nadeel hiervan is dat de antwoordmogelijkheden subjectief zijn en verschillend geïnterpreteerd kunnen worden. Een laatste mogelijkheid is de meerkeuzevraag (‘multiple choice/fixed-alternative respons format’), waarbij antwoordmogelijkheden worden gebruikt die duidelijk verschillen en niet alleen in intensiteit (zoals bij een beoordelingsschaal). Een nadeel hiervan is dat de antwoordmogelijkheden respondenten in een bepaalde richting kunnen sturen.

Een waar-onwaar responsformaat (‘true-false response format’) is een variant op de multiple-choice mogelijkheid. Iemand mag dan alleen maar met “waar” en “onwaar” antwoorden. Dit heeft ook weer een nadeel, namelijk dat respondenten zich niet kunnen vinden in één van deze opties maar meer in het midden zitten.

Probeer de vragen eerst uit. Als het mogelijk is dient een onderzoeker de vragen eerst uit te proberen om te zien of ze door respondenten eenduidig worden geïnterpreteerd op de manier zoals dat door hem is bedacht.

Vragenlijsten

Vragenlijsten worden vaak gebruikt, in de psychologie maar ook in allerlei andere werkvelden. Soms moeten onderzoekers nieuwe vragenlijsten ontwerpen, maar vaak kunnen ze eerder gepubliceerde vragenlijsten gebruiken. Dit omdat eerder publiceerde vragenlijsten vaak betrouwbaar en valide zijn en in meerdere onderzoeken gebruikt zijn. Het ontwerpen van nieuwe vragenlijsten neemt daarnaast veel tijd in beslag en is riskant. Er zijn vier belangrijke punten als het aankomt op vragenlijsten: ze zijn vaak gepubliceerd in wetenschappelijke artikelen, er zijn boeken geschreven waarin vragenlijsten en kritische evaluaties daarvan worden beschreven, er zijn databases op het internet te vinden die psychologische meetinstrumenten beschrijven en sommige vragenlijsten zijn te koop bij uitgevers.

Interviews

Een interviewrooster (‘interview schedule’) staat voor de vragen die gebruikt worden in een interview. Hieronder worden een aantal tips gegeven om een interview zo goed mogelijk te laten verlopen.

Zorg voor een fijne sfeer
Wees vriendelijk en geïnteresseerd in de deelnemer
Geef geen (non)verbale reacties op de antwoorden van de deelnemer
Zorg ervoor dat er een logische opbouw in het interview zit en begin met de makkelijke vragen
Stel vragen precies zoals deze op papier staan. Als je dit niet doet, kan dit de betrouwbaarheid van je onderzoek aantasten omdat je verschillende interviews krijgt bij verschillende proefpersonen.
Leid de deelnemer niet in een bepaalde richting.

Zowel vragenlijsten als interviews hebben hun eigen voor- en nadelen. Voor het afnemen van vragenlijsten is minder training nodig, ze zijn goedkoper en nemen minder tijd in beslag dan interviews. Als een onderzoek over een gevoelig onderwerp gaat, dan is een vragenlijst handiger omdat de anonimiteit van de proefpersonen gegarandeerd kan worden.

Interviews zijn juist handiger voor de 10% van de bevolking die ongeletterd is, zoals kinderen en mensen met cognitieve gebreken. Daarnaast kan de onderzoeker bij een interview zeker weten of de deelnemer de vraag begrepen heeft. Ook kan veel dieper worden ingegaan op details.

Fouten in zelfrapportages

Er zijn verschillende soorten fouten (bias) mogelijk bij zelfrapportages:

De sociale wenselijkheidsfout (‘social desirability respons bias’): soms willen mensen niet toegeven dat ze bepaalde gedachten hebben of bepaalde gedragingen uitvoeren, omdat ze weten dat het geen sociaal geaccepteerde gedachten of gedragingen zijn. Sociale wenselijkheid is nooit helemaal te elimineren, maar de kans op dit verschijnsel kan wel verkleind worden. Dit kan bijvoorbeeld door neutrale vragen te stellen of aan proefpersonen duidelijk te maken dat hun antwoorden geheel anoniem worden verwerkt
Ja- en neezeggers (‘acquiescence and nay-saying’): dit is de neiging die sommige mensen hebben om het eens of oneens te zijn met alle stellingen ondanks de inhoud hiervan. Uit onderzoek blijkt dat dit maar een klein effect heeft op de validiteit van zelfrapportages als er maar evenveel stellingen zijn die vóór een bepaald standpunt spreken als die daartegen spreken

Bladzijde 357-359

Het halo-effect: Dit treedt op wanneer een persoon een oordeel moet geven over een ander. Sommige mensen vertonen de neiging om enkele positieve of negatieve karaktereigenschappen die ze over iemand kennen te generaliseren naar het gehele karakter van deze persoon. Wanneer je bijvoorbeeld denkt dat iemand er aantrekkelijk is, dan denk je vaak ook dat diegene erg goed in sport is en erg slim is, etc. Dit effect kan voorkomen als de proefpersoon de persoon die hij moet beoordelen niet goed kent
‘Leniency bias’: hierbij gaat het ook over een oordeel vormen over een ander persoon. Het verschil met het halo-effect is dat het hierbij vaak gaat om iemand die de proefpersoon goed kent, zoals ouders en hun kind. Hierdoor worden er veel minder negatieve dingen gezien
De logische fout: men neemt vaak als vanzelfsprekend aan dat een vraag gekoppeld is aan de vorige vraag en hiermee samenhangt. Wanneer de onderzoeker echter naar twee verschillende concepten vraagt zit hier een probleem, aangezien het antwoord van de deelnemer richting de vorige vraag neigt. Om dit probleem te voorkomen moet de onderzoeker goed nadenken over de begrippen, zodat deze niet teveel op elkaar lijken. Ook moet de onderzoeker vragen die op elkaar lijken en aan elkaar gekoppeld zouden kunnen worden ver uit elkaar zetten
De centrale neiging: men heeft vaak de neiging om op een beoordelingsschaal centrale antwoorden aan te kruisen, omdat de uitersten vaak extreem lijken. Hierdoor denkt de deelnemer dat hij zal overdrijven wanneer hij of zij dit aankruist. Om dit probleem te voorkomen kan de onderzoeker meer antwoordcategorieën toevoegen dan nodig zijn, dus eigenlijk twee uitersten toevoegen. Wanneer je bijvoorbeeld oorspronkelijk zou willen werken met vijf categorieën, moet je er zeven nemen, zodat de middelste vijf (de oorspronkelijke) worden gebruikt

4. Archiefmateriaal

In sommige gevallen maken wetenschappers gebruik van data die verzameld is voordat het onderzoek is ontworpen. Dit archiefmateriaal (‘archival data’) wordt gebruikt door wetenschappers om bestaande data (zoals brieven, rechtbankuitspraken en krantenartikelen) te analyseren. Deze data zijn vaak eerder gebruikt voor andere doeleinden, zoals een psychiatrisch rapport. Archiefmateriaal is handig wanneer psychologische en sociale gebeurtenissen in het verleden bestudeerd moeten worden, sociale en gedragsmatige veranderingen door de jaren heen bestudeerd moeten worden, sommige onderwerpen waar archiefmateriaal noodzakelijk voor is bestudeerd moeten worden en een gebeurtenis bestudeerd wordt waarvan het niet mogelijk is om van tevoren te weten waar en bij welke mensen deze zich weer zal voordoen, zoals bijvoorbeeld suïcide.

Inhoudsanalyse

Vaak moet de inhoud (‘content’) bestudeerd worden van wat proefpersonen zeggen tijdens een interview. Onderzoekers moeten deze verbale reacties echter wel eerst omvormen tot betekenisvolle data. Dit kan door middel van inhoudsanalyse (‘content analysis’). Het gaat hierbij om een set van procedures die ontworpen zijn om tekst om te zetten in duidelijke data. Het doel van inhoudsanalyse is het categoriseren van woorden, zinnen of andere vormen van tekst in een aantal betekenisvolle categorieën. Het is in dit verband niet van belang of de tekst geschreven of gesproken is.

Bij een inhoudsanalyse moeten een aantal stappen gevolgd worden.

De eerste stap is besluiten wat voor soort tekst geanalyseerd moet worden. Gaat het bijvoorbeeld om zinnen of woorden?
De volgende stap is vaststellen hoe de tekst gecodeerd moet worden. De onderzoeker moet een keuze maken tussen twee mogelijkheden: de tekst classificeren in verschillende categorieën of elk stuk tekst beoordelen op bepaalde dimensies, bijvoorbeeld op een vijfpuntsschaal. Er moeten duidelijke regels vastgesteld worden om de tekst te classificeren of te beoordelen, zodat de interrater-betrouwbaarheid zo hoog mogelijk is.

Bladzijde 57-61

Schalen

Metingen kunnen dus verricht worden door middel van observatie, fysiologische metingen en zelfrapportage. Het doel van deze metingen is het analyseren ervan. Om dit te doen is het belangrijk dat de uitkomsten van de metingen in nummers worden omgezet. Niet alle nummers kunnen echter gelijk worden behandeld, aangezien ze verschillende betekenissen hebben. Onderzoekers hebben hierom de verschillende soorten getallen in vier verschillende schalen ondergebracht. Van laag naar hoog zijn dit:

De nominale schaal: dit zijn getallen die voornamelijk zijn toegewezen als label voor een bepaald fenomeen. Het zijn categorieën. Bijvoorbeeld: 1=man, 2=vrouw. Deze cijfers zijn dus eigenlijk labels en kunnen niet echt als cijfer worden behandeld, je kunt hier dus ook geen berekeningen mee uitvoeren. Er zit geen ordening in en de labels zijn willekeurig gekozen
De ordinale schaal: deze schaal bestaat ook uit categorieën, maar er zit wel een ordening in, in tegenstelling tot de nominale schaal. Er is een vaste volgorde. Een voorbeeld hiervan is 1=mee oneens, 2=neutraal, 3=mee eens. Wanneer je een 3 scoort ben je het er meer mee eens dan wanneer je een 1 scoort. Het is wel een relatieve ordening, de afstand tussen de intervallen is niet gelijk. Je kunt bijvoorbeeld niet zeggen dat wanneer iemand 3 invult, deze persoon het 3x zoveel ergens mee eens is dan wanneer hij of zij 1 in zou vullen
De intervalschaal: dit is een numerieke schaal. Er is een ordening in een vaste volgorde, zoals bij de ordinale schaal. Een aanvulling hierop is dat er bij deze schaal wel gelijke afstanden tussen de intervallen zijn. Je zou er dus berekeningen mee kunnen doen, maar er is bij de intervalschaal echter geen echt nulpunt, het nulpunt is in dit geval arbitrair. Een voorbeeld hiervan is de temperatuur in graden Celcius. Als het 0 graden is, wil dat niet zeggen dat er geen temperatuur is. En als het 40 graden is, wil dit niet zeggen dat het twee keer zo warm is als bij 20 graden. Hierdoor kun je niet vermenigvuldigen of delen met deze getallen
De ratioschaal: dit is de hoogste schaal. Er is een ordening in een vaste volgorde, er zijn gelijke afstanden en er is een vast nulpunt. Je kunt hiermee dus ook vermenigvuldigen en delen. Voorbeelden hiervan zijn leeftijd in jaren en lengte in centimeters

Het is belangrijk voor onderzoekers om te weten in welke schaal hun metingen zitten. Hier zijn twee redenen voor. Ten eerste bepaalt de schaal de hoeveelheid informatie die wordt gegeven door een bepaald getal. De nominale of ordinale schaal geeft bijvoorbeeld veel minder informatie dan een interval of ratioschaal. Onderzoekers gebruiken het liefst een zo hoog mogelijke schaal om zoveel mogelijk informatie te krijgen.

Ten tweede bepaalt de schaal de manier waarop analyse plaats kan vinden. Sommige berekeningen kunnen bijvoorbeeld enkel met een ratioschaal worden gedaan.

4. Betrouwbaarheid en validiteit (blz. 61-80)

Het schatten van de betrouwbaarheid

We willen dat de metingen die we uitvoeren op een betekenisvolle manier corresponderen met de werkelijkheid van een kenmerk dat we proberen te meten. Maar hoe weten we of dat ook echt zo is? In dit verband komt de term betrouwbaarheid (‘reliability’) om de hoek kijken. Betrouwbaarheid gaat over de consistentie van een meettechniek. Stel dat je twee keer snel na elkaar op de weegschaal gaat staan en de eerste keer zegt de weegschaal dat je 40 kilo weegt, terwijl er de tweede keer dat 50 staat, dan noemen we de weegschaal onbetrouwbaar (‘unreliable’). Meettechnieken horen betrouwbaar te zijn.

Meetfouten (‘measurement error’)

De score van een proefpersoon op een meting bestaat uit twee onderdelen: (1) de ware score van de proefpersoon en (2) meetfouten. Kortom; geobserveerde score = ware score + meetfouten. De ware score (‘true score’) is de score die een proefpersoon zou hebben als een meettechniek perfect was en er dus geen sprake van meetfouten zou kunnen zijn. De meettechnieken die wetenschappers gebruiken zijn echter nooit helemaal foutloos. Alle meettechnieken bevatten meetfouten (‘measurement error’). Door deze meetfouten komen wetenschappers niet achter de ware score van een proefpersoon. Meetfouten kunnen veroorzaakt worden door verschillende factoren, die in te delen zijn in vijf hoofdcategorieën:

Staat (‘transient states’): in dit verband valt te denken aan stemming, gezondheid, mate van vermoeidheid en angst
Stabiele kenmerken (‘stable attributes’): dit zijn kenmerken die op constante wijze aanwezig zijn bij een proefpersoon. Denk in dit verband bijvoorbeeld aan paranoïde gedachten, motivatie en intelligentie
Situationele factoren (‘situational factors’): dit zijn factoren in de onderzoekssetting die kunnen zorgen voor meetfouten. Als een onderzoeker bijvoorbeeld erg aardig is, dan wil een proefpersoon harder zijn best doen, maar als een onderzoeker onsympathiek is kan een proefpersoon minder goed presteren
Kenmerken van de meting (‘characteristics of the measure’): het gaat hierbij bijvoorbeeld om onduidelijke vragen die proefpersonen moeten beantwoorden of het gebruik van moeilijk taalgebruik in een vragenlijst
Fouten (‘mistakes’): het gaat hierbij om fouten die de onderzoeker maakt tijdens het opslaan van de antwoorden van de proefpersonen. Denk hierbij bijvoorbeeld maar aan het foutief verwerken van de antwoorden op de computer

Meetfouten en betrouwbaarheid

Meetfouten verminderen de betrouwbaarheid van een meting. Als een meting een lage betrouwbaarheid heeft, dan zijn de meetfouten groot en weet de onderzoeker weinig van de ware score van een proefpersoon. Als een meting een hoge betrouwbaarheid heeft, dan is de geobserveerde score van een proefpersoon juist een goede (maar niet perfecte) weerspiegeling van de ware score van een proefpersoon. In dat geval zijn er weinig meetfouten.

Betrouwbaarheid als systematische variantie

Wetenschappers weten nooit precies hoeveel meetfouten er in een studie bestaan en wat de ware scores van proefpersonen precies zijn. Ook weten ze niet precies hoe betrouwbaar hun meting is, maar ze kunnen aan de hand van statistische analyses wel inschatten hoe betrouwbaar hun meting is. Als zij zien dat hun meting niet betrouwbaar genoeg is, dan kunnen ze proberen hun meting meer betrouwbaar te maken. Dit wordt gemeten door middel van variantie.

De totale variantie in een dataset van scores bestaat uit twee onderdelen: (1) variantie door ware scores en (2) variantie door meetfouten. We kunnen ook zeggen dat de proportie totale variantie die samenhangt met de ware scores van de proefpersonen systematische variantie is, omdat de ware scores op systematische wijze gerelateerd zijn aan de meting
De variantie die door meetfouten ontstaat is errorvariantie omdat deze variantie niet gerelateerd is aan wat de wetenschapper onderzoekt
We zeggen daarom dat de betrouwbaarheid wordt berekend door de ware scorevariantie te delen door de totale variantie, dus: betrouwbaarheid = ware scorevariantie/totale variantie. De betrouwbaarheid van een meting ligt tussen de .00 en 1.00. Een betrouwbaarheid van .00 zegt ons dat er helemaal geen ware scorevariantie aanwezig is in de data en dat de scores alleen maar staan voor meetfouten. Bij een betrouwbaarheid van 1.00 is het precies omgekeerd, in dat geval zijn er helemaal van geen meetfouten. De vuistregel is dat een meting betrouwbaar genoeg is als deze minimaal een betrouwbaarheid van .70 heeft. Dit betekent dat 70% van de variantie in de data staat voor ware scorevariantie.

Soorten betrouwbaarheid

Onderzoekers maken gebruik van drie soorten betrouwbaarheid bij het analyseren van hun data: (1) ‘test-retest’ betrouwbaarheid, (2) ‘inter-item’ betrouwbaarheid en (3) ‘interrater’ betrouwbaarheid. Een correlatiecoëfficiënt is een statistisch gegeven dat aangeeft hoe sterk de relatie tussen twee metingen is. Deze ligt tussen de .00 (geen relatie tussen de metingen) en 1.00 (perfecte relatie tussen metingen). Correlatiecoëfficiënten kunnen positief of negatief zijn. Als een correlatiecoëfficient wordt gekwadrateerd, dan zien we in welke mate de proportie van de totale variantie van beide metingen systematisch is. Hoe hoger de correlatie, hoe meer twee variabelen gerelateerd zijn. Hieronder wordt ingegaan op de genoemde drie soorten betrouwbaarheid.

Test-retestbetrouwbaarheid: dit meet de betrouwbaarheid van een test door te kijken naar de correlatie tussen twee metingen van hetzelfde gedrag, attribuut of kenmerk. Bij test-retest betrouwbaarheid gaat het dus om de consistentie van de respons van proefpersonen door de tijd heen. Als we ervan uitgaan dat een kenmerk stabiel is, dan zou iemand twee keer dezelfde score moeten hebben op dezelfde test. Als iemand de eerste keer een score van 110 heeft op een IQ-test, dan is het de bedoeling dat hij de volgende keer ook een score van 110 heeft op dezelfde test. Dit is het geval omdat intelligentie een relatief stabiel kenmerk is, test-retestbetrouwbaarheidsmetingen hebben alleen zin als een stabiel kenmerk wordt gemeten waarvan niet wordt verwacht dat het is veranderd in de tijd tussen verschillende metingen. Toch zullen beide metingen niet hetzelfde zijn, omdat er altijd meetfouten zijn. Een persoon kan de tweede keer bijvoorbeeld erg vermoeid zijn, waardoor hij of zij de test slechter maakt. Of de persoon weet de tweede keer wat hij of zij kan verwachten, en maakt deze test beter dan de eerste. Als beide IQ-scores een hoge correlatie hebben (.70), dan heeft een meting een goede test-retest betrouwbaarheid. We verwachten een hoge test-rest betrouwbaarheid voor intelligentie-, attitude- en persoonlijkheidstesten.

Inter-itembetrouwbaarheid: dit is van belang voor metingen die bestaan uit meer dan één item. Inter-itembetrouwbaarheid gaat dan ook over de mate van consistentie tussen meerdere items op een schaal. Persoonlijkheidsvragenlijsten bestaan bijvoorbeeld vaak uit meerdere items die worden opgeteld tot een score die iets zeggen over bijvoorbeeld de extraversie of het zelfvertrouwen van proefpersonen. Wanneer wetenschappers de antwoorden van proefpersonen optellen om een enkele score te krijgen, moeten ze er wel zeker van zijn dat alle items hetzelfde construct (bijvoorbeeld extraversie) meten. Om te kijken in hoeverre items met elkaar samenhangen, kan voor elke combinatie van items een item-totaal correlatie berekend worden. Dit is de correlatie tussen een item en de rest van alle items bij elkaar. Dit kan bijvoorbeeld gebruikt worden om te kijken hoe sterk de vragen in de vragenlijst hetzelfde aspect meten. Elk item op de schaal zou moeten correleren met de rest van de items. Een item-totaal correlatie van .30 per item wordt als voldoende beschouwd. Naast het feit dat berekend moet worden of elk item samenhangt met alle andere items is het ook nodig om de consistentie van alle items bij elkaar te berekenen. In het verleden werd hiervoor de split-half betrouwbaarheid berekend. Eerst werd met de split-half methode de inter-itembetrouwbaarheid berekend. Hiervoor worden de items eerst in twee groepen verdeeld. Daarna wordt voor elke set een totaalscore berekend en vervolgens wordt een correlatie tussen beide sets berekend. Als de items in beide sets hetzelfde construct meten, dan zou er een hoge correlatie tussen beide sets moeten zijn. Onder een hoge correlatie wordt ook in dit verband .70 verstaan. Het nadeel van de split-half betrouwbaarheid is dat er verschillende manieren zijn om de items in twee groepen te verdelen en dat er verschil in correlatie kan zijn tussen deze manieren. Om deze reden wordt tegenwoordig de ‘Cronbach’s alphacoëfficient’ berekend. Deze gaat uit van het gemiddelde van alle mogelijke split-half betrouwbaarheden. Wetenschappers gaan ervan uit dat de inter-itembetrouwbaarheid goed is als Cronbach’s alpha boven de .70 uitkomt.

Interraterbetrouwbaarheid: dit wordt ook wel ‘interjudge’- of ‘interobserver’-betrouwbaarheid genoemd. Het gaat hierbij om de consistentie tussen twee of meer onderzoekers die het gedrag van proefpersonen observeren en opslaan. Als de ene onderzoeker stelt dat een rat 15 keer een hendeltje heeft ingedrukt en de andere onderzoeker stelt dat dezelfde rat 20 keer een hendeltje heeft ingedrukt, dan is er dus iets mis met de interraterbetrouwbaarheid. Onderzoekers gebruiken vaak twee methoden om de interraterbetrouwbaarheid te berekenen. Als onderzoekers alleen moeten noteren of een gedraging zich heeft voorgedaan, kunnen we een percentage berekenen dat staat voor hoe vaak zij het met elkaar eens zijn. Als de onderzoekers het gedrag van de proefpersonen echter moeten beoordelen op een schaal (bijvoorbeeld een score op angst tussen de 1 en 5), dan kunnen we per proefpersoon kijken of de onderzoekers dezelfde beoordeling geven. Als de onderzoekers soortgelijke beoordelingen maken, dan zou de interraterbetrouwbaarheid minstens .70 moeten zijn.

De betrouwbaarheid van metingen vergroten

Het is van belang dat een onderzoeker probeert de betrouwbaarheid van een meting zo groot mogelijk te maken. Dit kan op vier manieren:

Het standaardiseren van de administratie van een meting. Elke proefpersoon moet onder precies dezelfde omstandigheden getest worden. De ene proefpersoon kan dus beter niet in de avond onderzocht worden, terwijl de ander in de ochtend aan de beurt is geweest. Dan zou deze proefpersoon veel vermoeider kunnen zijn en zou de uitslag niet betrouwbaar zijn. Verschillen in hoe de meting wordt afgenomen kunnen leiden tot meetfouten
Het verduidelijken van instructies en vragen. Meetfouten ontstaan wanneer proefpersonen instructies of vragen niet helemaal goed begrijpen. Het is goed om van te voren te testen of de vragen begrijpelijk zijn voor proefpersonen
Het trainen van onderzoekers. Als het gedrag van proefpersonen moet worden geobserveerd en beoordeeld, dan is het nodig om onderzoekers goed te trainen, en om te proberen de onderzoekers overeen te laten stemmen in hoe zij iets observeren
Het minimaliseren van fouten in het coderen van data. Hoe betrouwbaar een meettechniek ook is, meetfouten ontstaan wanneer onderzoekers fouten maken in het coderen of verwerken van data. Bij het invoeren van de data moet er dus goed opgelet en gecontroleerd worden

Validiteit

Meettechnieken moeten niet alleen betrouwbaar, maar ook valide zijn. Validiteit staat voor de mate waarin een meettechniek meet wat die hoort te meten. Het is belangrijk om op te merken dat een meettechniek tegelijkertijd betrouwbaar en niet valide kan zijn. Vroeger maten psychologen bijvoorbeeld intelligentie door de schedelomvang te meten. Deze metingen hadden een hoge betrouwbaarheid: verschillende onderzoekers kwamen op dezelfde antwoorden en ook als de tests werden herhaald door de tijd heen kwamen er dezelfde antwoorden uit. Deze test was echter niet valide, want schedelomvangmetingen zeggen niets over intelligentie, terwijl het wel de bedoeling was om dit te meten. Een meting kan dus ook voor het ene doel valide zijn, terwijl deze niet valide is voor een ander doel. Onderzoekers maken onderscheid tussen drie soorten validiteit: (1) ‘face’validiteit, (2) constructvaliditeit en (3) ‘criterion-related’ validiteit.

Facevaliditeit: dit gaat over de mate waarin een meting lijkt te meten wat deze hoort te meten. Een meting heeft dus face validiteit als mensen denken dat die meet wat hij hoort te meten. Deze vorm van validiteit kan dus niet statistisch berekend worden, maar is meer een oordeel van mensen die de meting gevoelsmatig beoordelen. Als een meting geen facevaliditeit heeft, dan vinden proefpersonen het niet van belang om echt mee te doen. Als een persoonlijkheidstest geen facevaliditeit heeft en proefpersonen moeten deze test wel invullen, dan nemen zij het onderzoek minder serieus. Het is van belang om drie dingen te onthouden: (1) dat een meting face validiteit heeft, betekent niet dat deze ook echt valide is, (2) veel metingen zijn wel valide terwijl ze geen face validiteit hebben en (3) soms willen onderzoekers hun doelen maskeren. Als ze bijvoorbeeld bang zijn dat proefpersonen gevoelige vragen niet eerlijk zullen beantwoorden, kunnen zij meetinstrumenten ontwerpen die geen facevaliditeit hebben om zo het doel van de test te verbergen

Constructvaliditeit: vaak zijn onderzoekers geïnteresseerd in hypothetische constructen. Dit zijn constructen die niet direct geobserveerd kunnen worden op basis van empirisch bewijs. In dit verband valt te denken aan constructen als intelligentie, status, zelfconcept, moraliteit en motivatie. Het is de vraag hoe we kunnen weten of de meting van een hypothetisch construct dat niet waarneembaar is valide is. Cronbach en Meehl stellen dat de validiteit van een meting die een hypothetisch construct meet bepaald kan worden door te kijken wat de relatie is tussen zo’n meting en scores op andere metingen. Scores op een meetinstrument voor zelfvertrouwen zouden bijvoorbeeld positief gecorreleerd moeten zijn met metingen op optimisme, maar negatief gecorreleerd moeten zijn met meetinstrumenten die onzekerheid en angst meten. We berekenen de constructvaliditeit dus door te analyseren in hoeverre een meetinstrument gerelateerd is aan andere meetinstrumenten. Dit wordt vaak gedaan door middel van correlatiecoëfficiënten. In tegenstelling tot betrouwbaarheid (waarbij de correlaties boven de .70 moeten liggen) is er geen regel voor hoe groot de correlaties moeten zijn die berekend worden om de constructvaliditeit vast te stellen. Een meetinstrument heeft constructvaliditeit als dit (1) in hoge mate correleert met meetinstrumenten waar het mee zou moeten correleren (convergente validiteit) en (2) niet correleert met meetinstrumenten waar het niet mee zou moeten correleren (discriminante validiteit)

Criterion-related validiteit: dit gaat over de mate waarin een meetinstrument ervoor zorgt dat we onderscheid kunnen maken tussen proefpersonen op basis van een bepaald gedragscriterium. Een vraag is bijvoorbeeld of verschillende scores op een motivatietest op het VWO iets zeggen over wie het wel en niet goed zullen doen tijdens een universitaire studie. Het gedragscriterium is in dit geval de universitaire studie. Onderzoekers maken onderscheid tussen twee primaire soorten van criterion validiteit: (1) concurrente en (2) predictieve validiteit.

Van concurrente validiteit is sprake wanneer twee meetinstrumenten ongeveer op hetzelfde moment worden gebruikt. De vraag is of het meetinstrument op een goede manier onderscheid kan maken tussen mensen die hoog en laag scoren op het gedragscriterium op dat specifieke moment. Wanneer scores op het meetinstrument gerelateerd zijn aan gedragingen waar ze op dat moment zelf aan gerelateerd zouden moeten zijn, dan heeft het meetinstrument dus concurrente validiteit.

We spreken van predictieve validiteit wanneer een meetinstrument onderscheid kan maken tussen mensen op een gedragscriterium in de toekomst (bijvoorbeeld de motivatietest op het VWO en een prestatietest tijdens het studeren aan de universiteit). Het gaat er hier dus om of een score op de motivatietest op het VWO kan voorspellen hoe iemand het zal doen tijdens een universitaire studie. Criterion-related validiteit is vooral van belang voor onderzoeken die uitgevoerd worden in een onderwijssetting

Bias

In de afgelopen jaren is veel aandacht geweest voor het idee dat sommige meetinstrumenten biased zijn ten opzichte van bepaalde bevolkingsgroepen. Dit zou in het bijzonder gelden voor intelligentesten en testen die academische vermogens meten. Deze testbias ontstaat wanneer een specifiek meetinstrument niet even valide is voor iedereen die de test invult. Een test is dan ook biased als testscores de ware capaciteiten bij de ene groep beter reflecteren dan bij de andere groep. Bij intelligentietesten kunnen bijvoorbeeld vragen gesteld worden waarbij enige kennis nodig is van de taal. Iemand die deze taal als moedertaal bezit, maakt deze vragen beter dan iemand die de taal minder goed beheerst. Dit zegt echter niets over het verschil in intelligentie tussen de twee proefpersonen, terwijl de één toch hoger scoort dan de ander. Het is echter vaak lastig om testbias vast te stellen, want dat de ene groep slechter op een test presteert dan de andere groep zegt niet per definitie dat er sprake is van testbias. Er kan namelijk ook werkelijk een verschil in prestatie tussen de twee groepen zijn; er is alleen sprake van testbias als de test verschillende uitkomsten geeft terwijl er in werkelijkheid geen verschil tussen de groepen is. Het is mogelijk om testbias vast te stellen door de predictieve validiteit van een meetinstrument voor verschillende groepen vast te stellen. Als er sprake is van bias, dan zullen de toekomstige uitkomsten beter voorspeld worden voor de ene groep dan voor de andere groep.

5. Beschrijvend onderzoek en steekproeven (blz. 111-128)

Beschrijvend onderzoek

Het doel van beschrijvend onderzoek (‘descriptive research’) is om de eigenschappen of gedragingen van een bepaalde populatie te beschrijven op een systematische en accurate manier. Deze soort onderzoek is vaak niet op hypotheses gebaseerd, maar is bedoeld om informatie te verstrekken over een bepaalde groep mensen. Beschrijvend onderzoek vormt vaak een fundament voor de hypothesen waarop verder correlationeel of experimenteel onderzoek gebaseerd zijn. Er zijn drie veelgebruikte vormen van beschrijvend onderzoek:

Surveys: veel mensen verwarren surveys met vragenlijsten, maar surveys kunnen zowel uit vragenlijsten als uit interviews bestaan. Surveys zijn de meest gebruikte vorm van beschrijvend onderzoek.

Er kan gebruik worden gemaakt van een cross-sectional survey design, waarbij één groep respondenten op één moment wordt onderzocht. Ook kan een successive independent samples survey design worden gebruikt, waarbij twee of meer groepen respondenten dezelfde vragen meerdere beantwoorden, waarbij elke groep dit op een ander moment in de tijd doet. Dit design is geschikt als onderzocht wordt of er verandering optreedt bij mensen. Voorwaarde daarvoor is wel dat de groepen respondenten, ofwel de steekproeven of samples, vergelijkbaar zijn en dus op precies dezelfde manier worden getrokken.

Verder is een longitudinaal of panel survey design een mogelijkheid. Hierbij wordt één enkele groep respondenten ondervraagd op verschillende momenten door de tijd heen. Dit is een meer betrouwbare manier om onderzoek te doen naar verandering bij mensen. Een nadeel hiervan is echter dat er kans is dat er respondenten niet meer meedoen met vervolgonderzoek, waardoor het sample verandert en het onderzoek dus ook minder betrouwbaar is.

Demografisch onderzoek: deze soort onderzoek richt zich op het beschrijven van patronen in levensgebeurtenissen zoals geboorte, huwelijk, scheiding, werk, migratie en sterfte
Epidemiologisch onderzoek: deze soort onderzoek onderzoekt het voorkomen van lichamelijke en geestelijke aandoeningen bij verschillende groepen mensen. Hierdoor kunnen bijvoorbeeld risicofactoren voor een bepaalde ziekte worden geïdentificeerd, waardoor vroegtijdige interventie mogelijk wordt gemaakt. Ook kan de prevalentie (het vóórkomen) van verschillende psychologische stoornissen worden beschreven.

Sampling

Eén van de beslissingen die onderzoekers maken bij het design van een onderzoek is de manier waarop zij proefpersonen selecteren. Aangezien het bijna altijd onmogelijk is om de hele populatie te onderzoeken door beperkingen in tijd en geld, is deze selectie noodzakelijk. Een subgroep van de populatie waarover een onderzoeker data verzamelt, wordt een steekproef (‘sample’) genoemd. Het proces waarin een onderzoeker dit sample selecteert wordt sampling genoemd. Om met behulp van zo’n sample zinvolle uitspraken te doen over de populatie, is het heel belangrijk dat het een representatief sample is. Dat wil zeggen dat het sample dezelfde kenmerken heeft als de populatie, waardoor er accurate en foutloze schattingen gemaakt kunnen worden van de populatie.

Kanssteekproeven

Vaak is een steekproef echter geen perfecte weerspiegeling van de populatie. Het verschil tussen een steekproef en de bijbehorende populatie wordt ‘sampling error’ genoemd. Er is bijna altijd wel een kleine mate van sampling error, maar bij een goed sample zal deze zo klein mogelijk zijn en zullen de resultaten van het sample dus dichtbij de kenmerken van de gehele populatie liggen. Gelukkig kunnen onderzoekers inschatten in hoeverre hun steekproefresultaten beïnvloed zullen worden door sampling error. De foutenmarge (‘error of estimation’/ ‘margin of error’) staat voor de mate waarin verwacht wordt dat de data van een sample afwijkt van de gehele populatie. In een verkiezingspoll kan het foutenmarge dat hoort bij het kiezen van president X (45%) bijvoorbeeld 3% zijn, wat betekent dat we met 95% zekerheid kunnen stellen dat president X tussen de 42% en 48% van de stemmen zal krijgen. Hoe kleiner het foutenmarge, hoe meer de resultaten uit het sample lijken op de populatiegegevens. De foutenmarge wordt beïnvloed door drie factoren: (1) de grootte van de steekproef, (2) de grootte van de populatie en (3) de spreiding in de data.

Hoe groter een probability sample is, hoe meer deze lijkt op de populatie en hoe representatiever deze dus is voor de populatie. Wetenschappers kiezen echter niet voor de grootst mogelijke steekproef, ze kiezen voor een economische steekproef (‘economic sample’): deze geeft een redelijk accuraat beeld van de populatie en kost zo min mogelijk inspanning en geld
De grootte van de populatie is natuurlijk ook van belang. Een steekproef van 100 man uit een populatie van 500 mensen is representatiever dan een steekproef van 100 man uit een populatie van 10.000 mensen.
Tot slot geldt dat hoe meer spreiding er in de data bestaat, hoe moeilijker het wordt om op accurate wijze de populatiewaarden te schatten. Daarom geldt ook: hoe groter de spreiding, hoe groter het sample moet zijn om accurate conclusies te kunnen trekken over de populatie

Een foutenmarge is alleen betekenisvol wanneer we een kanssteekproef (‘probability sample’) gebruiken. Dit is een steekproef waarvan de onderzoeker weet wat de rekenkundige kans is dat elk individu uit de populatie voor de steekproef geselecteerd zal worden. Als er geen probability sample gebruikt wordt, dan is het niet duidelijk of de data van het sample echt iets zegt over de populatie. Onderzoekers kiezen proefpersonen vaak door een zogenaamd ‘epsem design’ te gebruiken. Een dergelijk design zorgt ervoor dat alle mensen in een populatie een even grote kans hebben om gekozen te worden voor de steekproef.

Kanssteekproeven kunnen op drie manieren geselecteerd worden: (1) ‘simple random sampling’, (2) ‘stratified random sampling’ en (3) ‘cluster sampling’.

Simple random sampling: wanneer een steekproef zo gekozen wordt dat elke steekproef van dezelfde grootte dezelfde kans heeft om gevormd te worden, dan is er sprake van simple random sampling. Dit is bijvoorbeeld het geval als een onderzoeker bijvoorbeeld een sample van 100 man wil selecteren uit een populatie van 5000 man en elke combinatie van 100 man heeft dezelfde kans om geselecteerd te worden. Om zo’n sample te selecteren, moet een onderzoeker een ‘sampling frame’ gebruiken. Dit is een lijst van de populatie waaruit de steekproef getrokken zal worden. Vervolgens worden proefpersonen willekeurig gekozen op basis van de lijst. Met grote populaties is het lastig om een lijst te maken van alle mogelijke proefpersonen. In dat geval kan gebruikgemaakt worden van een tabel met willekeurige getallen (‘table of random numbers’). Ieder persoon uit de populatie krijgt dan een nummer toegewezen.

Stratified random sampling: dit is eigenlijk een variatie op simple random sampling. In dit geval worden mensen echter niet direct uit de populatie geselecteerd, maar wordt de populatie eerst verdeeld in meerdere strata. Een stratum is een deel van de populatie dat overeenkomt op een bepaald kenmerk. We kunnen de populatie bijvoorbeeld verdelen in mannen en vrouwen of in verschillende leeftijdsgroepen. Door deze procedure kunnen onderzoekers er zeker van zijn dat er evenveel mensen uit elk stratum geselecteerd worden. Vaak gebruiken onderzoekers een ‘proportionate sampling method’ waarbij individuen geselecteerd worden uit elk stratum op een proportionele manier in relatie tot hoe vaak deze mensen in de populatie voorkomen. Als 55% van de mensen in een populatie man is en 45% vrouw is, dan is het de bedoeling dat het sample er ook zo uitziet.

Cluster sampling: het grote nadeel van simple en stratified random sampling is dat eerst informatie moet bestaan over hoeveel (en welke) individuen in een populatie voorkomen voordat een selectie gemaakt kan worden. Voor populaties die ontzettend groot zijn (bijvoorbeeld als je onderzoek doet naar ‘de Nederlandse burger’) is dit echter niet te doen. Ook kan het zijn dat niet iedereen uit de populatie benaderd kan worden, of dat er geen sampling frame bestaat. In zulke gevallen wordt aan cluster sampling gedaan. In dit geval trekt de onderzoeker niet eerst individuen uit de populatie, maar juist clusters van mogelijke proefpersonen. Deze clusters zijn vaak gebaseerd op natuurlijk bestaande clusters, zoals gebieden in een land. Vaak wordt bij cluster sampling ook gebruikgemaakt van ‘multistage sampling’. Dit betekent dat eerst grote clusters geselecteerd worden, daarna kleinere clusters binnen de grote clusters totdat er een steekproef ontstaat. Cluster sampling heeft twee voordelen: (1) er is geen sampling frame voor nodig en (2) elk cluster bestaat uit een groep van proefpersonen die geografisch gezien dicht bij elkaar leven, waardoor het minder moeite kost om de proefpersonen te bereiken.

Non-respons en misgeneralisatie

Het non-responsprobleem ontstaat wanneer individuen die voor een steekproef geselecteerd zijn niet reageren. Dit komt bijvoorbeeld vaak voor als mensen gebeld worden voor een onderzoek. Vaak weigert een deel van de proefpersonen om deel te nemen. Het non-responsprobleem kan op twee manieren opgelost worden: (1) ervoor zorgen dat de respons toeneemt; dit kan bijvoorbeeld doordat onderzoekers na een eerste onderzoek de proefpersoon bellen om door te gaan met de volgende serie vragen. Ook kan de onderzoeker langs gaan bij huizen, waardoor er niet opgehangen kan worden, nog voordat het doel van het onderzoek is uitgelegd en (2) onderzoeken of de mensen die wel en niet reageren op systematische manieren van elkaar verschillen. Als dit niet het geval is, blijft het sample even betrouwbaar, zelfs als een aantal proefpersonen niet willen deelnemen.

Zelfs wanneer een probability sample gebruikt is, kunnen de resultaten misleidend zijn en kan de onderzoeker dus foutieve uitspraken doen. In zo een geval is sprake van misgeneralisatie. Als een onderzoeker voor zijn onderzoek bijvoorbeeld alleen kinderen heeft gekozen die op privéscholen zitten en hij doet een uitspraak over alle kinderen, dan is er sprake van misgeneralisatie.

Andere steekproeven

In veel situaties is het onhandig of onmogelijk om een probability sample te selecteren. In dat geval wordt een ‘nonprobability sample’ getrokken: de onderzoekers weten dan niet wat de kans is dat een individu voor de steekproef wordt gekozen. Om deze reden kan de foutenmarge ook niet berekend worden en weten ze ook niet hoe representatief hun steekproef is. Wanneer een onderzoeker het gedrag van een populatie wil beschrijven (zoals dat gedaan wordt bij beschrijvend onderzoek) is een probability sample noodzakelijk. Deze zijn echter vaak duur, tijdrovend en lastig. Veel psychologisch onderzoek wordt daarom gedaan aan de hand van nonprobability samples. Dit soort samples is namelijk goed te gebruiken voor experimentele onderzoeken, waarbij het toetsen van hypothesen van belang is en niet het beschrijven van een populatie. Hypothesen zijn van theorieën afgeleid en er worden onderzoeken uitgevoerd om te bekijken of de voorspelde effecten van de onafhankelijke variabele op de afhankelijke variabele ook echt voorkomen. De generaliseerbaarheid van nonprobability samples kan bij deze experimentele studies ontdekt worden door onderzoeken steeds te repliceren. Hetzelfde experiment kan uitgevoerd worden met individuen die verschillen in leeftijd, opleidingsniveau of sociaal-economische status. Als de resultaten dan met elkaar overeen komen, weten we dat de samples representatief waren. Daarom is een probability sample dus niet nodig. Bovendien is het om uitspraken te doen over psychologische processen vaak niet nodig om steeds een ander sample te gebruiken, omdat deze processen vaak heel universeel zijn. De kans dat er veel verschillen zijn tussen verschillende samples is hierdoor klein.

Er zijn drie soorten nonprobability steekproeven: (1) ‘convenience sampling’, (2) ‘quota sampling’ en (3) ‘purposive sampling’.

Convenience sampling: een ‘convenience sample’ is een steekproef waarbij onderzoekers gebruikmaken van de proefpersonen die meteen beschikbaar zijn. Een onderzoeker kan bijvoorbeeld de eerste 150 mensen op straat aanspreken en vragen of ze mee willen doen aan zijn of haar onderzoek. Het is dus zeker niet zo dat iedereen op straat dezelfde kans heeft om geselecteerd te worden. Deze vorm is gemakkelijk, en kost niet veel geld of tijd
Quota sampling: een ‘quota sample’ is een soort convenience sample, waarbij de onderzoeker echter wel van tevoren bedenkt dat hij proefpersonen met bepaalde kenmerken in bepaalde proporties in zijn steekproef wil hebben. Een onderzoeker kan bijvoorbeeld zeggen dat hij precies 20 mannen en 20 vrouwen voor het onderzoek wil selecteren (quota sample) in plaats van willekeurig 40 mensen te selecteren zonder te letten op sekse (convenience sample).
Purposive sampling: bij een ‘purposive sample’ proberen onderzoekers op basis van hun eigen oordeel proefpersonen te selecteren die volgens hen typisch zijn voor de populatie. Het probleem is echter dat dit proces erg subjectief is en er dan vaak ook niet gegeneraliseerd kan worden naar de populatie.

6. Experimenteel onderzoek

Drie voorwaarden

Naast beschrijvend en correlationeel onderzoek bestaat er ook experimenteel onderzoek. Bij dit soort onderzoek is men geïnteresseerd in het blootleggen van oorzaak-gevolgrelaties, en dus in causaliteit. Een goed ontworpen experiment voldoet aan drie voorwaarden: (1) de onderzoeker moet minstens één van de onafhankelijke variabelen manipuleren om te zien wat voor effect dit heeft op het gedrag van de proefpersoon. Daarnaast (2) moet de onderzoeker de proefpersonen op gelijke wijze toewijzen aan verschillende experimentele condities en tot slot (3) moet de onderzoeker controle hebben over externe variabelen die het gedrag van de proefpersonen zouden kunnen beïnvloeden.

De onafhankelijke variabele manipuleren

In een experiment manipuleert een onderzoeker één of meer onafhankelijke variabelen om te zien hoe dit effect heeft op de afhankelijke variabele. Een onderzoeker die wil weten wat het effect van cafeïne op het geheugen is, kan er bijvoorbeeld voor kiezen om proefpersonen in de ene groep 100 mg cafeïne te geven, proefpersonen uit de andere groep 150 mg cafeïne en proefpersonen uit de laatste groep 200 mg cafeïne. Een onafhankelijke variabele heeft dan ook meerdere niveaus (‘levels’). In dit onderzoek zijn er bijvoorbeeld drie niveaus van de onafhankelijke variabele: 100, 150 en 200 mg. Deze niveaus worden ook wel experimentele condities genoemd. Soms zijn condities het gevolg van kwantitatieve verschillen. Dit zijn verschillen in hoeveelheid, wat ook het geval is in het voorbeeld van het cafeïne-experiment. In andere gevallen zijn er kwalitatieve verschillen tussen de condities. In dat geval krijgen proefpersonen onder de ene conditie bijvoorbeeld betere instructies dan onder de andere. Er zijn meerdere soorten manipulaties van de onafhankelijke variabele mogelijk:

Omgevingsmanipulaties (‘environmental manipulations’): in dit geval wordt de fysieke of sociale omgeving van de proefpersoon gemanipuleerd. Een onderzoeker kan de hoeveelheid licht bijvoorbeeld manipuleren in een onderzoek om te kijken hoe dit invloed heeft op de proefpersonen
Instructie-manipulaties (‘instructional manipulations’): in dit geval wordt de mate waarin proefpersonen verbale instructies krijgen gemanipuleerd. Een onderzoeker die geïnteresseerd is in het effect van motivatie op prestatie kan bijvoorbeeld de mate bepalen waarin hij of zij tegen de proefpersonen zegt dat de uit te voeren taak lastig is
Invasieve manipulaties (‘invasive manipulations’): in dit geval worden veranderingen aangebracht in het lichaam van de proefpersoon. Dit kan bijvoorbeeld door mensen middeltjes te laten innemen om te zien hoe dit hun emoties of gedrag beïnvloedt

Experimentele groepen en controlegroepen

In sommige onderzoeken wordt een conditie toegevoegd waarbij de onafhankelijke variabele helemaal niet wordt gemanipuleerd. Dit heet een controlegroep. In het eerder besproken onderzoek waarbij het effect van cafeïne op gedrag is gemeten, kan er bijvoorbeeld voor gekozen worden om proefpersonen uit de ene conditie helemaal geen cafeïne te geven. Proefpersonen die in ieder geval de onafhankelijke variabele in bepaalde mate krijgen, zitten in een experimentele groep. Proefpersonen die niets van de onafhankelijke variabele krijgen, zitten in de controlegroep. Onderzoekers moeten zelf de keuze maken of ze een controlegroep willen inzetten. Vaak wordt voor een controlegroep gekozen om het basisniveau (‘baseline’) van een gedraging vast te stellen. Het basisniveau is dus de normale gedraging, nog voordat er iets gemanipuleerd wordt.

Het komt vaak voor dat de onderzoekshypothesen van een onderzoeker correct zijn, maar dat de gewenste resultaten niet gevonden worden omdat de onafhankelijke variabele niet goed genoeg gemanipuleerd is. Als de onafhankelijke variabele niet sterk genoeg is om de voorspelde effecten te vinden, dan is het onderzoek bij voorbaat al problematisch. Vaak proberen wetenschappers hun onderzoek eerst uit op een aantal proefpersonen om te zien of de onafhankelijke variabele wel echt goed gemanipuleerd is. In dit geval spreken we ook wel van een pilot test. Daarnaast maken wetenschappers tijdens hun onderzoek ook gebruik van manipulatiechecks. Een manipulatiecheck is een vraag die ontworpen is om te bepalen of de onafhankelijke variabele op succesvolle wijze gemanipuleerd is. Zo kan aan proefpersonen in verschillende condities gevraagd worden om het lichtniveau in de ruimte te beoordelen. Als deze beoordelingen tussen condities verschillen, dan geeft dit bewijs voor het feit dat de onafhankelijke variabele goed genoeg gemanipuleerd is. De proefpersonen merken dan dat er een verandering is, hoe klein ook.

Soms kunnen wetenschappers bepaalde variabelen niet manipuleren, omdat deze variabelen niet veranderd kunnen worden. Voorbeelden van deze variabelen zijn sekse, leeftijd en intelligentieniveau. Dit soort onveranderlijke variabelen noemen we ook wel subjectvariabelen.

Afhankelijke variabelen in een onderzoek zijn variabelen waarvan de onderzoekers de invloed willen meten die de onafhankelijke variabelen hierop hebben. Vaak wordt iemands score op de afhankelijke variabelen geobserveerd, lichamelijk gemeten of via zelfrapportage verkregen.

Proefpersonen toewijzen aan condities

Het is belangrijk dat proefpersonen op een goede manier worden toegewezen aan condities, zodat proefpersonen die op elkaar lijken niet systematisch in de ene conditie terechtkomen. Er zijn drie verschillende manieren om proefpersonen toe te wijzen aan condities.

Simpele willekeurige toewijzing (‘simple random assignment’): in dit geval heeft elke proefpersoon evenveel kans om toegewezen te worden aan elke conditie. Dit kan bijvoorbeeld door te tossen. Simpele willekeurige toewijzing zorgt ervoor dat proefpersonen in de groepen gemiddeld niet van elkaar verschillen
Gematchte willekeurige toewijzing (‘matched random assignment’): van deze methode is sprake wanneer de onderzoeker de proefpersonen eerst test op een variabele die relevant is voor het onderzoek. Dit zou bijvoorbeeld intelligentieniveau kunnen zijn. Vervolgens worden de scores van de proefpersonen bekeken en worden proefpersonen die op elkaar lijken gematched. Zo ontstaat er een aantal clusters. Vervolgens worden alle proefpersonen per cluster willekeurig toegewezen aan de verschillende condities.
Herhaalde metingen-design (‘repeated measures design’): dit design wordt ook wel een ‘within-subjects design’ genoemd, terwijl de voorgaande twee designs ook wel ‘randomized groups design’ of ‘between-subjects design’ genoemd worden. Van herhaalde metingen is sprake wanneer dezelfde groep proefpersonen deelneemt aan alle experimentele condities, in plaats van dat verschillende groepen proefpersonen worden toegewezen aan de verschillende condities. Het herhaalde metingen-design kan bijvoorbeeld nuttig zijn om bij één groep gedrag in verschillende condities te onderzoeken. Dit design elimineert de noodzakelijkheid van willekeurige toewijzing, omdat je op deze manier zeker weet dat alle onderzoeksgroepen exact hetzelfde zijn; je gebruikt immers dezelfde proefpersonen

Voor- en nadelen van herhaalde metingen

Het grootste voordeel van het herhaalde metingen-design is dat de power groter is dan bij de hierboven genoemde twee designs. Power gaat over de mate waarin een onderzoek de effecten van een onafhankelijke variabele kan opmerken, mochten deze in werkelijkheid bestaan. Een tweede voordeel is dat er minder proefpersonen voor het onderzoek nodig zijn, omdat elke participant deelneemt aan alle experimentele condities. Dit design heeft echter ook een aantal nadelen. Het design zorgt namelijk voor volgorde-effecten (‘order effects’): het gedrag van de proefpersonen wordt beïnvloed door de volgorde waarin ze worden blootgesteld aan de condities. Er wordt onderscheid gemaakt tussen vier soorten volgorde-effecten:

Oefening (‘practice effects’): proefpersonen presteren steeds beter, omdat ze de afhankelijke variabele meerdere keren meemaken
Vermoeidheid (‘fatigue effects’): proefpersonen hebben minder zin of raken vermoeid naarmate het onderzoek vordert

Sensitisatie (‘sensitization’): proefpersonen kunnen de onderzoekshypothesen raden omdat ze al aan zoveel condities deelgenomen hebben. Omdat ze weten waar de onderzoeker naar op zoek is, kunnen zij zich onnatuurlijk gaan gedragen
Overdracht (‘carryover effects’): het effect van een conditie kan als het ware blijven hangen nadat een proefpersoon de volgende conditie moet proberen. Dit is problematisch, omdat de onderzoeker dan geen onderscheid meer kan maken tussen de effecten van verschillende condities.

Om volgorde-effecten tegen te gaan kunnen onderzoekers gebruikmaken van een methode die ‘counterbalancing’ wordt genoemd. In dit geval worden verschillende proefpersonen in alle mogelijke verschillende volgorden blootgesteld aan de verschillende condities. Een ‘Latin Square design’ is een vorm van counterbalancing waarbij een meer beperkt aantal volgordes wordt gebruikt. Als een design bijvoorbeeld vier condities heeft, dan kunnen proefpersonen aan de hand van vier verschillende volgorden blootgesteld worden aan de condities.

Experimentele controle

Experimentele controle staat voor het elimineren of constant houden van externe factoren die de uitkomsten van een onderzoek zouden kunnen beïnvloeden. Als er geen controle over externe factoren is, dan is het niet duidelijk of de afhankelijke variabele beïnvloed is door de onafhankelijke variabele(n) of door andere factoren.

Systematische variantie

Systematische variantie (ook wel ‘between-groups variance’ genoemd) is dat deel van de totale variantie dat staat voor echte verschillen tussen experimentele groepen. De vraag in een onderzoek is of de spreiding in de scores van proefpersonen systematisch is en dus veroorzaakt wordt door de onafhankelijke variabele. We zouden dan dus systematische verschillen moeten vinden tussen de scores die horen bij verschillende condities. Systematische variantie kan het gevolg zijn van twee bronnen: (1) de onafhankelijke variabele (‘treatment variance’/‘primary variance’) of (2) externe variabelen (‘confound variance’/’secondary variance’).

Als niets anders dan de onafhankelijke variabele de reacties van de proefpersonen heeft beïnvloed, dan is er alleen sprake van treatmentvariantie. Dit is echter zelden het geval. Er zijn namelijk ook twee andere bronnen van variantie: (1) externe variabelen en (2) errorvariantie. Externe variabelen kunnen de onderzoeksresultaten beïnvloeden wanneer de groepen proefpersonen niet alleen van elkaar verschillen op het gebied van de onafhankelijke variabele, maar ook op het gebied van andere variabelen. Dat zorgt eigenlijk meteen al voor een oneerlijk onderzoek. Wanneer de groepen behalve de onafhankelijke variabele ook verschillen op een andere variabele, dan spreken we ook wel van ‘confound variance’. Het is belangrijk dat onderzoekers deze vorm van variantie elimineren, anders kunnen ze niet weten of de afhankelijke variabele wordt beïnvloed door de onafhankelijke variabele of door één of meerdere andere variabelen.

Errorvariantie

Errorvariantie wordt ook wel ‘within-groups variance’ genoemd en is het resultaat van onsystematische verschillen tussen proefpersonen. Het kan hierbij gaan om verschillen in persoonlijkheid, humeur en capaciteit, maar ook om verschillen in de manier waarop de onderzoeker omgaat met verschillende proefpersonen. Errorvariantie is minder problematisch dan confoundvariantie omdat we op statistische wijze onderscheid kunnen maken tussen systematische (‘treatment’) variantie en errorvariantie.

Kortom, de totale variantie in een dataset bestaat uit (1) ‘treatment variance’, (2) ‘confound variance’ (samen systematische variantie) en (3) errorvariantie (onsystematische variantie). Onderzoekers staan voor de taak om de treatmentvariantie zo hoog mogelijk te maken, de confoundvariantie te elimineren en de errorvariantie zo laag mogelijk te maken. Dit noemen we experimentele controle. Experimentele controle zorgt ervoor dat niets anders op systematische wijze kan verschillen tussen de condities dan de onafhankelijke variabele.

Interne validiteit

Interne validiteit gaat over de mate waarin een onderzoeker de juiste conclusies trekt over de effecten van de onafhankelijke variabele. Een experiment heeft interne validiteit wanneer alle bronnen van confoundvariantie worden geëlimineerd die invloed zouden kunnen hebben op de afhankelijke variabele. Interne validiteit ontstaat vaak door experimentele controle. Als proefpersonen in verschillende groepen systematisch van elkaar verschillen op meer dan alleen de onafhankelijke variabele, dan spreken we van ‘confounding’. Het is erg belangrijk om dit tegen te gaan.

Gevaren voor de interne validiteit

De interne validiteit van een experiment kan door meerdere factoren bedreigd worden:

Foutieve toewijzing (‘biased assignment’): hier is sprake van wanneer proefpersonen niet willekeurig over de condities verdeeld zijn en er dus voor het onderzoek al systematische verschillen tussen de groepen bestaan. De gevonden resultaten kunnen dan het gevolg zijn van deze verschillen in plaats van de onafhankelijke variabele
Uitval (‘differential attrition’): van uitval (‘attrition’) is sprake wanneer proefpersonen in de loop van het onderzoek stoppen met deelnemen. Wanneer uitval op willekeurige wijze voorkomt en alle experimentele condities in dezelfde mate treft, dan is dit niet gevaarlijk voor de interne validiteit. Het is echter een ander verhaal wanneer in sommige condities meer proefpersonen uitvallen dan in andere condities (‘differential attrition’). In dat geval loopt de interne validiteit van een onderzoek wel gevaar
Voortestsensitisatie (‘pretest sensitization’): in sommige experimenten worden proefpersonen van tevoren getest zodat de onderzoeker een idee krijgt van hun gedrag nog voordat de onafhankelijke variabele in het spel komt. Het kan echter voorkomen dat ze door deze eerste test later anders reageren op de onafhankelijke variabele. In dit geval spreken we van voortestsensitisatie
Geschiedenis (‘history’): de resultaten van sommige onderzoeken worden beïnvloed door externe gebeurtenissen die buiten de onderzoekssetting voorkomen. In dit geval zijn de gevonden resultaten niet het gevolg van de onafhankelijke variabele, maar door een interactie tussen de onafhankelijke variabele en geschiedeniseffecten (‘history effects’)
Ontwikkeling (‘maturation’): als een experiment lang duurt dan kan de leeftijdsgerelateerde ontwikkeling (‘maturation’) van de proefpersonen de oorzaak zijn van de afhankelijke variabele in plaats van de onafhankelijke variabele. Dit vormt sneller een probleem bij onderzoek met kinderen dan bij onderzoek met volwassenen, omdat kinderen veel meer leeftijdsgerelateerde ontwikkelingen doormaken
Designfouten (‘miscellaneos design confounds’): het gaat hierbij om fouten die voor kunnen komen in het onderzoeksdesign zelf. Zo kan een onderzoeker bijvoorbeeld op een andere manier omgaan met verschillende proefpersonen. Het is erg belangrijk dat een onderzoeker er altijd op let dat dit niet gebeurt

Verwachtingen

De interne validiteit van een onderzoek wordt ook bepaald door de verwachtingen van de proefpersonen en onderzoeker met betrekking tot wat zou moeten gebeuren in het experiment.

In dit verband wordt onderscheid gemaakt tussen drie problemen:

Verwachtingen van de onderzoeker (‘experimenter expectancy effects’): vaak hebben onderzoekers al een vermoeden van hoe de proefpersonen zullen reageren. De verwachtingen van een onderzoeker zijn dan gebaseerd op de onderzoekshypothesen. Vooraf aanwezige verwachtingen van onderzoekers kunnen ervoor zorgen dat ze de onderzoeksresultaten verkeerd interpreteren. Onderzoekers zijn immers ook menselijk, en dus subjectief
Verwachtingen van proefpersonen (‘demand characteristics’): proefpersonen kunnen zich op een specifieke manier gedragen omdat ze bijvoorbeeld vermoeden wat de onderzoekshypothesen zijn of omdat ze de onderzoeker willen plezieren. Ze gedragen zich dan niet meer op een natuurlijke manier.

Door een dubbel-blinde procedure (‘double-blind procedure’) te gebruiken kan zowel de invloed van de verwachtingen van de onderzoeker als de invloed van de verwachtingen van de proefpersoon geëlimineerd worden, omdat dan zowel de proefpersonen als de onderzoekers niet weten aan welke condities proefpersonen toegewezen zijn.

Placebo-effecten: in dit geval ontstaat er een lichamelijke of mentale verandering alleen omdat een onderzoeker zegt dat er verandering zal ontstaan. Mensen denken bijvoorbeeld vaak dat een pilletje gewerkt heeft, terwijl er geen werkzame stoffen in het pilletje zaten. Wanneer een placebo-effect mogelijk is, maken onderzoekers vaak gebruik van een ‘placebo control group’. Proefpersonen in deze groep krijgen een behandeling die eigenlijk niet werkt. De effecten van een placebocontrolegroep kunnen worden vastgesteld door ook een echte controlegroep toe te voegen. De echte controlegroep krijgt dan helemaal geen pilletje, terwijl de placebocontrolegroep een pilletje krijgt dat geen effect heeft. Als blijkt dat proefpersonen in de placebocontrolegroep het beter doen dan proefpersonen in de echte controlegroep, dan is er sprake van een placebo-effect.

Oorzaken van errorvariantie

Errorvariantie kan vijf oorzaken hebben.

Individuele verschillen: er zijn vaak individuele verschillen tussen proefpersonen nog voordat zij deelnemen aan een onderzoek. Dit kan ervoor zorgen dat proefpersonen uit verschillende groepen op verschillende manieren reageren op de onafhankelijke variabele. Daarom is het belangrijk om samples zo homogeen mogelijk te maken, want hoe minder individuele verschillen er zijn tussen proefperosnen, hoe minder errorvariantie er is
Tijdelijke stemmingen (‘transient states’): het gaat hierbij om factoren die steeds kunnen veranderen. Voorbeelden zijn attitudes en humeur. Het enige wat onderzoekers kunnen doen is proberen om zelf zo min mogelijk te zorgen voor tijdelijke stemmingen bij proefpersonen. De onderzoeker kan het best neutraal blijven, en er moet sprake zijn van een neutrale omgeving, wat ervoor zorgt dat de stemming van de proefpersonen gelijk blijft
Omgevingsfactoren: voorbeelden zijn afleidende geluiden in de onderzoekssetting en het testen van proefpersonen in verschillende situaties. Het is van belang om alle proefpersonen in dezelfde situatie te onderzoeken
Verschillende manieren van behandeling (‘diferential treatment’): hier is sprake van wanneer een onderzoeker verschillende proefpersonen op een andere manier behandelt. Een onderzoeker kan bijvoorbeeld erg aardig zijn ten opzichte van vrolijke en spontane proefpersonen, terwijl hij of zij minder aardig is ten opzichte van andere proefpersonen. Zelfs kleine verschillen in de manier waarop proefpersonen worden behandeld kunnen leiden tot errorvariantie. De onderzoeker moet dus neutraal blijven
Meetfouten (‘measurement error’): elk onderzoek bevat meetfouten die bijdragen aan de errorvariantie. Om meetfouten te verminderen is het belangrijk om betrouwbare meetinstrumenten te gebruiken. Er zullen altijd meetfouten blijven bestaan, maar deze dienen zo beperkt mogelijk gemaakt te worden

Het dilemma van de onderzoeker

We hebben gezien dat het belangrijk is om experimentele controle uit te oefenen om zo de interne validiteit te verhogen. Een te hoge mate van deze controle kan echter leiden tot kunstmatige situaties tijdens onderzoek, die de generaliseerbaarheid van het onderzoek niet ten goede komen. Externe validiteit gaat over de mate waarin gevonden onderzoeksresultaten generaliseerbaar zijn naar andere steekproeven toe, terwijl interne validiteit gaat over de zekerheid waarmee een onderzoeker kan stellen dat de afhankelijke variabele beïnvloed is door de onafhankelijke variabele in plaats van door andere variabelen. Vaak gaat een hogere mate van interne validiteit samen met minder externe validiteit en vice versa. De discrepantie tussen interne en externe validiteit wordt ook wel het onderszoekersdilemma (‘experimenter’s dilemma’) genoemd. Experimentele onderzoeken worden echter zelden uitgevoerd om te kunnen generaliseren. Het doel is juist vaak het toetsen van hypothesen. Het is zelfs zo dat de resultaten van één experiment nooit moeten worden gegeneraliseerd, hoe goed het onderzoek ook is. Dit mag pas gebeuren wanneer er meerdere experimenten zijn uitgevoerd, waarbij dezelfde resultaten gemeten zijn.

Voordelen van het internet

Veel wetenschappers gebruiken het internet om onderzoeken uit te voeren. Ze proberen dan ook de validiteit van internetonderzoeken (‘web-based research’) te vergroten. Het uitvoeren van onderzoeken middels het internet heeft zowel voor- als nadelen. De voordelen van dit soort onderzoeken zijn hieronder beschreven.

Door het internet te gebruiken kunnen onderzoekers aan veel grotere steekproeven komen. Daarnaast hoeven ze minder tijd en geld in hun onderzoeken te investeren
De steekproeven die op het internet worden samengesteld zijn vaak meer divers dan steekproeven die op een andere manier worden samengesteld
Onderzoekers die op internet op zoek gaan naar proefpersonen vinden het vaak gemakkelijk om daar proefpersonen met specifieke kenmerken en eigenschappen te vinden.
Omdat proefpersonen op internet vaak anoniem zijn, worden hun reacties minder beïnvloed door sociale wenselijkheid

Nadelen van het internet

De nadelen van internetonderzoeken worden hieronder beschreven.

Onderzoekers vinden het vaak lastig om controle uit te oefenen op een steekproef die via het internet is samengesteld.
Proefpersonen die op het internet meedoen aan onderzoeken, verschillen vaak erg veel van elkaar. Ze kunnen de vragen bijvoorbeeld allemaal op een andere locatie invullen, waardoor de omgevingsfactoren de antwoorden beïnvloeden, of ze kunnen een totaal verschillende achtergrond hebben
Vaak maken proefpersonen op internet een onderzoek niet af
Internetonderzoeken kunnen alleen gebruikt worden als proefpersonen vragen in moeten vullen of moeten reageren op geschreven stimuli. Het is vaak niet mogelijk om bijvoorbeeld het effect van medicijnen te testen door middel van het internet. Het is ook niet mogelijk om experimenten met meerdere sessies uit te voeren of als onderzoeker één-op-één contact te hebben met een proefpersoon.

7. Experimentele designs

Een experiment waarbij één onafhankelijke variabele wordt gemanipuleerd, is een one way design. De simpelste vorm daarvan is een two-group experimental design waarbij er slechts twee levels van de onafhankelijke variabele zijn. Vaak zijn er meer dan twee. Er zijn drie vormen van one way designs:

– Randomized groups design: participanten worden random toegewezen aan één, twee, of meer condities.

– Matched subjects design: participanten worden ingedeeld in groepen, op basis van een variabele die de onderzoeker van belang acht voor het experiment. Vervolgens worden de participanten random toegewezen aan de condities.

– Repeated measures design: alle participanten worden blootgesteld aan alle condities.

In een posttest-only design wordt de afhankelijke variabele gemeten na het experiment. In een pretest-posttest design wordt de afhankelijke variabele ook voor het experiment gemeten. In de meeste experimenten wordt een posttest-only design gebruikt. Een pretest is niet nodig als de experimentele groep en de controlegroep gelijkwaardig zijn. Dit bereik je met random toewijzing.

Een pretest heeft als voordeel dat er van tevoren vastgesteld kan worden dat de groepen niet wezenlijk van elkaar verschillen, er gekeken kan worden hoeveel de verandering is en ze zijn krachtiger in het bepalen van het effect van de onafhankelijke variabele op de afhankelijke variabele.

Een nadeel van een pretest is dat het kan zorgen voor pretest sensitization, waarbij participanten op een andere manier reageren dan zonder pretest.

In een factorial design worden twee of meer onafhankelijke variabelen, of factors, gemanipuleerd. Dit wordt bijvoorbeeld gebruikt bij consumentenonderzoek. Wanneer je twee onafhankelijke variabelen hebt met elk twee levels, zijn er vier mogelijke condities. Dit wordt omschreven als een 2 x 2 factorial design. Er kunnen ook meer dan twee onafhankelijke variabelen zijn. Deze factors worden weergegeven in de hokjes van een tabel.

Er zijn verschillende soorten factorial designs.

- Randomized groups factorial design: participanten worden random aan een van de mogelijk combinaties blootgesteld.

- Matched-subjects factorial design: participanten worden eerst ingedeeld in groepen op basis van een variabele die correleert met de afhankelijke variabele. Er zijn even veel groepen als condities. Uit elke groep wordt vervolgens steeds één iemand blootgesteld aan één conditie.

- Repeated measures factorial design: alle participanten worden blootgesteld aan alle condities. Dit kan alleen als er weinig condities zijn.

- Mixed factorial design: de participanten worden aan verschillende condities blootgesteld. De ene conditie wordt random toegewezen, de andere conditie wordt iedereen aan blootgesteld.

Het effect van één onafhankelijke variabele in een factorial design heet een main effect. Hierbij wordt de invloed van de andere onafhankelijke variabele(n) genegeerd. Soms heeft het experiment meerdere onafhankelijke variabelen, maar blijkt de afhankelijke variabele slechts afhankelijk te zijn van een van die onafhankelijke variabelen.

Een factorial design geeft informatie over de interacties tussen onafhankelijke variabelen. Er is interactie als het effect van de ene variabele anders is op verschillende levels van de andere variabele.

Wanneer er meer dan twee onafhankelijke variabelen aanwezig zijn in een factorial design, worden het experiment, de statische analyse en de resultaten complexer. Er worden meestal nier meer dan drie of vier variabelen gebruikt omdat er al snel veel participanten nodig zijn en het steeds ingewikkelder wordt om conclusies te trekken.

Variabelen als leeftijd, geslacht, intelligentie, vaardigheden, persoonlijkheid en attitudes hebben invloed op het gedrag van participanten. Ook zijn er situationele factoren die een rol spelen. Soms worden experimenten gedaan waarbij een of meerdere variabelen worden gemanipuleer en een participant variabele wordt gemeten. Dit soort experimenten worden expericorr factorial designs genoemd. Het is een combinatie van een experiment en een correlationeel onderzoek. Het wordt gebruikt om te bepalen of een bepaald effect van een bepaalde variabele aanwezig is bij alle participanten, of alleen bij participanten met bepaalde kenmerken. Dit is bijvoorbeeld het geval als er onderscheid wordt gemaakt tussen mannen en vrouwen. Daarnaast kan dit type onderzoek meer duidelijkheid geven over hoe bepaalde persoonlijke eigenschappen te maken hebben met gedrag onder bepaalde condities.

Er zijn verschillende manieren om participanten in groepen te verdelen. Bij de median-split procedure wordt de mediaan gebruikt om lage en hoge scores te verdelen. Op deze manier kan ook met behulp van andere percentielen verschillende groepen worden gevormd. Een andere manier om groepen in te delen is de extreme groups procedure. Er wordt een pretest gedaan en alleen de mensen bijvoorbeeld in de onderste 25% en de bovenste 25% zitten mogen meedoen. Deze twee manieren van groepen indelen zijn problematisch omdat effecten makkelijk gemist kunnen worden.

8. Quasi-experimentele designs

Soms is het door bijvoorbeeld ethische overwegingen niet mogelijk om een echt experiment te doen. In die gevallen wordt gebruik gemaakt van een quasi-experiment, waarbij de onderzoeker niet zelf de participanten toewijst aan bepaalde condities en/of geen causale variabele manipuleert. De term quasi-onafhankelijke variabele wordt gebruikt om te wijzen op een variabele die niet door de onderzoeker wordt gemanipuleerd, maar die voor verschillende proefpersonen gewoon anders is.

Een quasi-experiment heeft minder interne validiteit dan een gewoon experiment doordat de proefpersonen niet random zijn toegewezen en er geen controle is over de onafhankelijke variabele. Met een goed design zijn deze problemen op te lossen.

Een voorbeeld van een slecht design is een one-group pretest-posttest design: een onderzoeksdesign waarbij één groep wordt getest, een interventie krijgt en vervolgens weer wordt getest. Er is geen controlegroep en er niet met zekerheid te zeggen of een eventueel gevonden verschil veroorzaakt wordt door de interventie. Deze manier van testen moet je nooit gebruiken.
In een nonequivalent control group design wordt een groep vergeleken met de experimentgroep. De controlegroep lijkt op de groep die de interventie krijgt, maar is zelf ook al bestaand en niet samengesteld door de onderzoeker. De controlegroep kan alleen een posttest krijgen (dus alleen getest worden na de interventie in de experimentele groep) of zowel een pretest als een posttest. Deze laatste manier van testen is het best, omdat je dan ook duidelijk hebt op welke manier de twee groepen voor de interventie van elkaar verschilden. Er kunnen echter nog steeds tijdens het testen verschillen ontstaan tussen de twee groepen.

In time series designs worden afhankelijke variabelen gemeten op verschillende momenten voor en na de quasi-onafhankelijke variabele. Op die manier worden bedreigingen voor de interne validiteit verkleind. Er zijn verschillende soorten van deze designs:

- Simple interrupted time series design: je meet van tevoren een aantal keer, dan wordt de quasi-onafhankelijke variabele geïntroduceerd, en je meet daarna nog een aantal keer. Zo krijg je een beter beeld van het effect van de onafhankelijke variabele. We kunnen echter niet met zekerheid zeggen of een verandering wordt veroorzaakt door de onafhankelijke variabele of dat er nog een andere variabele meespeelt.

- Interrupted time series with a reversal: je meet een aantal keer, introduceert de quasi-onafhankelijke variabele, meet nog een aantal keer, haalt de quasi-onafhankelijke variabele weer weg en meet nog een paar laatste keer. Op deze manier zie je dus ook of het effect weer afneemt als je de onafhankelijke variabele weer wegneemt. Als je hem na het wegnemen nog een keer toevoegt en weer wegneemt, spreken we van een interrupted time series design with multiple replications. In veel gevallen is het niet mogelijk om de onafhankelijke variabele weg te nemen. In andere gevallen is het wegnemen van de onafhankelijke variabele geen voorspeller voor het afnemen van het effect, omdat het het effect al heeft veroorzaakt of doordat het wegnemen van de onafhankelijke variabele een positief of negatief effect heeft voor de participanten.

- Control group interrupted time series design: je neemt een interrupted time series design af, en doet dit ook voor een controle groep die niet wordt blootgesteld aan de toevoeging of afname van de onafhankelijke variabele.

- Comparative time series design: twee of meer variabelen worden onderzocht door de tijd heen om te zien of veranderingen bij de ene variabele invloed hebben op de andere.

Longitudinale designs lijken op time series designs. Het verschil is dat in een longitudinaal design, de quasi-onafhankelijke variabele de tijd is. Er wordt gekeken hoe bepaalde dingen veranderen door de tijd heen. De bedoeling is om veranderingen te vinden die worden veroorzaakt door een hogere leeftijd, maar er kunnen allerlei andere dingen meespelen. Een longitudinaal onderzoek kan heel nuttig zijn maar is lastig uit te voeren door de kosten, de participanten die mee willen blijven doen en de interesse van de onderzoeker.

Een cross-sectioneel onderzoek vergelijkt mensen van verschillende leeftijden. In een cross-sequential cohort designs worden twee of meer verschillende leeftijdsgroepen op twee of meer momenten gemeten. Het gaat hier dus om een combinatie van een cross-sectioneel en een longitudinaal onderzoek. Dit zorgt ervoor dat er een verschil kan worden gemaakt tussen veranderingen door leeftijd en veranderingen door generatieverschillen.

Program evaluation gebruikt onderzoeksmethoden om te bepalen of interventies of programma’s daadwerkelijk een effect hebben op gedrag. Dit zijn van die onderzoeken waarvan je aanneemt dat iedereen het wel weet. Ze dragen weinig bij aan de wetenschap, maar zijn meer praktisch bedoeld voor de mensen die voor bepaalde interventies of programma’s moeten kiezen.

Kiezen voor een quasi-experiment brengt allerlei bedreigingen voor de interne validiteit met zich mee, maar in veel gevallen is er geen andere optie. Door de bedreigingen voor de interne validiteit zoveel mogelijk in te perken, kunnen we met een quasi-experiment alsnog beslissingen maken gebaseerd op de best beschikbare bewijzen.

9. Ethische kwesties

Benaderingen

Het is belangrijk om ethische regels in acht te nemen bij het ontwerpen en uitvoeren van experimenten. Vaak ontstaan ethische problemen wanneer onderzoekers verplichtingen hebben die met elkaar in conflict zijn. Onderzoekers hebben aan de ene kant de plicht om de kennis over een fenomeen te vergroten en hier informatie over te krijgen. Aan de andere kant hebben zij de plicht om de rechten van proefpersonen te waarborgen. Deze twee dingen gaan vaak niet samen. Om zo betrouwbaar mogelijke informatie te krijgen over een onderwerp is het vaak niet mogelijk om ten volste rekening te houden met de proefpersoon. Denk hierbij bijvoorbeeld aan de plicht om mensen te laten kiezen om deel te nemen aan het onderzoek. In sommige gevallen is het zo dat wanneer mensen weten dat ze ergens aan mee doen, de resultaten van het onderzoek worden beïnvloed. Als een wetenschapper een fenomeen op een manier wil onderzoeken waarbij de rechten van proefpersonen in het geding kunnen komen, dan is er sprake van een ethisch dilemma. Er zijn drie zienswijzen over ethische dilemma’s:

Deontologische benadering (‘deontology’): mensen die deze benadering aanhangen, stellen dat ethiek volgens een universele morele code moet worden beoordeeld. Sommige handelingen zouden daarom altijd onethisch zijn en nooit uitgevoerd mogen worden, in welke situatie dan ook. Andere handelingen zouden altijd ethisch verantwoord zijn
Ethische scepsis (‘ethical skepticism’): mensen die deze benadering aanhangen, stellen dat morele codes niet universeel kunnen zijn en per cultuur, moment en persoon beoordeeld moeten worden. Volgens deze benadering moeten mensen doen wat ze zelf vinden dat goed is. Onderzoeksethiek is volgens deze benadering persoonlijk en mag dan ook niet opgedrongen worden aan andere mensen
Utilitarische benadering (‘utilitarian’): deze benadering stelt dat de juistheid van morele regels beoordeeld moet worden op basis van de gevolgen van een handeling. Iemand die deze benadering aanhangt stelt dat de kosten en baten van een handeling eerst afgewogen moeten worden. Als de baten groter zijn dan de kosten, dan is een handeling ethisch verantwoord. De richtlijnen van de APA (‘American Psychological Association’) zijn gebaseerd op deze benadering

Ethische richtlijnen

Alle gedragswetenschappers zijn gebonden aan twee soorten ethische richtlijnen. De eerste zijn de principes van de APA en worden ‘Ethical Principles of Psychologists and Code of Conduct’ genoemd. De APA-richtlijnen beschrijven hoe onderzoekers om moeten gaan met mensen en dieren en hoe ze zich moeten gedragen tijdens therapie, evaluatie en onderzoek. Daarnaast zijn wetenschappers gebonden aan richtlijnen die door de overheid van een land zijn vastgesteld. Vaak maken ook overheden gebruik van de utilitarische benadering bij het bedenken van richtlijnen. Zowel de richtlijnen van de APA als de richtlijnen van overheden zijn dus zo gemaakt dat onderzoekers de kosten en baten van hun voorstel moeten afwegen. Dit wordt ook wel een kosten-batenanalyse (‘cost-benefit analysis’) genoemd.

Baten

Er zijn vijf voordelen waar rekening mee gehouden moet worden bij het maken van een kosten-batenanalyse.

Basiskennis (‘basic knowledge’): onderzoek zorgt ervoor dat we gedragsprocessen beter kunnen begrijpen, omdat we er meer kennis over krijgen. Een onderzoek moet dus altijd toegevoegde waarde hebben en ons iets kunnen leren
Vooruitgang van onderzoek of meetinstrumenten (‘improvement of research or assessment techniques’): soms wordt onderzoek uitgevoerd om de instrumenten te verbeteren die onderzoekers gebruiken om gedrag te meten en te bestuderen. Zo kunnen onderzoekers hun meetinstrumenten steeds meer valide en betrouwbaar maken
Praktische uitkomsten (‘practical outcomes’): sommige onderzoeken leveren ons informatie die ons welzijn bevorderen. Zo zijn er bijvoorbeeld onderzoeken over leerprocessen waarvan de onderzoeksresultaten gebruikt kunnen worden om het leren op school gemakkelijker te maken
Voordelen voor onderzoekers (‘benefits for researchers’): door onderzoek uit te voeren leren onderzoekers hoe ze studies moeten ontwerpen. Dit geldt bijvoorbeeld voor beginnende wetenschappers. Ervaren wetenschappers moeten ook onderzoek uit blijven voeren om hun baan te behouden en verder te komen in hun carrière
Voordelen voor proefpersonen (‘benefits for research participants’): experimenten kunnen voordelen met zich meebrengen voor proefpersonen. Ze kunnen bijvoorbeeld in een experiment therapie krijgen waar ze iets aan hebben, ze leren over onderzoeksmethoden en ze kunnen plezier hebben in experimenten

Kosten

Sommige kosten zijn relatief onbelangrijk. Denk in dit verband maar aan de tijd die door proefpersonen in het onderzoek gestoken moet worden. Serieuzer zijn de kosten die te maken hebben met het mentale of fysieke welzijn van proefpersonen. Zo kan het voorkomen dat proefpersonen zich tijdens het onderzoek (sociaal) niet op hun gemak voelen, dat hun zelfvertrouwen wordt verminderd of dat ze stress, pijn of angst ervaren. De meest serieuze kosten worden gevormd wanneer een onderzoek mensen (of dieren) blootstelt aan zaken die hun gezondheid of leven kunnen bedreigen.

Bij de kosten-batenanalyse wordt rekening gehouden met hoeveel een onderzoek ons zou kunnen leren. Er worden grotere kosten geaccepteerd naarmate het onderzoeksvoorstel waardevoller wordt.

Beoordeling

In de VS bestaan er beoordelingscommissies (‘institutional review boards’, IRB’s). Alle instituten die door de overheid worden gesponsord dienen zo’n beoordelingscommissie te hebben en elk onderzoeksvoorstel binnen deze instituten moet aan deze commissie worden voorgelegd. Een beoordelingscommissie let op zes ethische kwesties bij het beoordelen van een voorstel. Dit kan dus gezien worden als de mogelijke kosten van een onderzoek.

1. Toestemmingsverklaring

Proefpersonen moeten een toestemmingsverklaring (‘informed consent form’) ondertekenen voordat ze meewerken aan het onderzoek. In deze verklaring staat alle informatie over het onderzoek die invloed kan hebben op hun beslissing om wel of niet deel te nemen. Proefpersonen moeten deze informatie kennen alvorens ze meedoen. Bepaalde informatie die niet van invloed is op hun beslissing mag dus eventueel wel worden achtergehouden. Soms kan het bijvoorbeeld voorkomen dat wetenschappers niet helemaal eerlijk willen zijn en niet alles over het onderzoek in de toestemmingsverklaring willen zetten. Hier is bijvoorbeeld sprake van wanneer de onderzoeker bang is dat proefpersonen niet meer op een natuurlijke wijze zullen reageren wanneer ze weten dat de onderzoeker let op een specifieke gedraging. Dit zou ten koste van de validiteit van het onderzoek gaan. In dat geval zet de onderzoeker niet heel specifiek in de toestemmingsverklaring op welke gedraging hij of zij zal letten.

Het kan daarnaast voorkomen dat een onderzoeker kinderen of mensen met een IQ-achterstand voor het onderzoek wil selecteren. In dit soort gevallen is het belangrijk dat een ouder, verzorger of voogd toestemming geeft voor deelname.

Er zijn drie situaties waarin een wetenschapper een onderzoek mag uitvoeren zonder dat proefpersonen hun toestemming hebben gegeven. Het gaat om situaties waarin:

er maar een minimaal risico is voor de proefpersonen
de rechten en het welzijn van de proefpersonen niet in het geding komen als er geen toestemmingsverklaring wordt getekend
het onderzoek niet op een goede manier uitgevoerd kan worden als de proefpersonen wel een toestemmingsverklaring zouden ondertekenen

Een voorbeeld hiervan is als een onderzoeker zou bestuderen op welke plaats mensen in een bus gaan zitten. Hierbij is er een minimaal risico, worden de rechten en het welzijn van de proefpersonen niet aangetast als er geen toestemmingsverklaring wordt verkregen en zou het onderzoek niet op een goede manier kunnen worden uitgevoerd als de proefpersonen van tevoren zouden weten dat ze worden bestudeerd.

2. Privacy

Het recht op privacy houdt in dat een individu het recht heeft om te besluiten wanneer, waar, aan wie en in welke mate informatie over de eigen gedragingen, attitudes, overtuigingen en gedrag wordt doorgegeven. In de APA staan geen specifieke richtlijnen met betrekking tot inbreuk op privacy (‘invasion of privacy’). Er staat alleen dat een onderzoeker op zeer verantwoorde wijze onderzoek moet doen naar privésituaties. De onderzoeker mag echter zelf beoordelen in welke omstandigheden hij of zij zonder medeweten van de deelnemer onderzoek kan doen. Op publieke plaatsen waar de proefpersoon privacy verwacht kan onderzoeksobservatie bijvoorbeeld tot inbreuk op privacy leiden.

3. Dwang tot deelnemen

Proefpersonen moeten nooit gedwongen worden tot deelname. Van dwang tot deelname (‘coercion to participate’) is sprake wanneer proefpersonen deelnemen aan een onderzoek omdat ze zich onder druk gezet voelen, vaak door iemand met een hogere functie. In dit verband valt bijvoorbeeld te denken aan een universiteit die studenten verplicht deel te nemen aan onderzoek. Onderzoekers moeten respect hebben voor de keuzevrijheid van potentiële proefpersonen en ze moeten het ook accepteren als proefpersonen tijdens het onderzoek willen stoppen.

4. Lichamelijke of mentale stress

Onderzoekers mogen hun proefpersonen niet op lichamelijke of mentale wijze onder druk zetten (‘physical and mental stress’). Het probleem is dat onderzoekers wel vaak geïnteresseerd zijn in menselijke reacties als stress, angst en pijn. Het is lastig te beoordelen wanneer onderzoek hierin te ver gaat. Het is bijvoorbeeld onethisch om onderzoeken uit te voeren waarbij mensen denken dat ze zullen doodgaan, dit geeft een enorme stress. Velen vinden het wel ethisch verantwoord om onderzoeken uit te voeren waarbij er sprake is van minimaal risico (‘minimal risk’). Hiervan is sprake wanneer een risico niet groter of ernstiger is dan iemand zou kunnen ervaren in het dagelijks leven.

5. Misleiding

In de jaren ’60 is het gebruik van misleiding (‘deception’) in onderzoeken toegenomen. Wetenschappers maken om verschillende redenen gebruik van misleiding als onderzoekstechniek. De grootste reden is vaak dat ze willen vermijden dat proefpersonen het doel van het onderzoek doorkrijgen en zich op basis daarvan onnatuurlijk gaan gedragen. Veelgebruikte vormen van misleiding zijn:

Het gebruik van een handlanger die zich voordoet als medeproefpersoon
Verkeerde feedback geven aan de proefpersonen
Twee gerelateerde onderzoeken als niet-gerelateerd presenteren
Verkeerde informatie geven over de stimuli die tijdens het onderzoek gebruikt worden

Sommige wetenschappers zijn het niet eens met het gebruik van misleiding tijdens onderzoeken. Er zijn twee soorten redenen om tegen misleiding te zijn. De eerste reden is dat het onethisch is om mensen voor te liegen, al is dat voor het onderzoek wel nodig. De tweede reden om het gebruik van misleiding af te wijzen is dat het negatieve gevolgen kan hebben. Als misleiding vaak gebruikt wordt door onderzoekers, dan zullen proefpersonen bijvoorbeeld altijd wantrouwig zijn als ze deelnemen aan een onderzoek en misschien zelfs een negatieve houding krijgen tegenover de gedragswetenschappen. Uit onderzoek blijkt echter dat veel proefpersonen na afloop van een onderzoek begrijpen dat de onderzoeker hen moest misleiden. Een extreem voorbeeld hiervan is het onderzoek van Milgram (1963). Hierin werd mensen opgedragen een andere proefpersoon schokken te geven wanneer deze een fout antwoord gaf in een quiz. De schokken werden steeds erger en zouden uiteindelijk zelfs dodelijk zijn. De andere proefpersoon die zogenaamd schokken kreeg was eigenlijk een handlanger van de onderzoeker en speelde een rol. Er werd gesuggereerd dat er na een hoge schok iets ernstigs gebeurd was, door geen geluiden meer te laten horen. Toch gingen veel proefpersonen alsnog door met schokken geven omdat de onderzoeker hen dit opdroeg. Zij ervoeren hier erg grote stress, aangezien ze een ander mens pijn deden. Bij dit onderzoek was er dus sprake van misleiding. Toch bleek dat de proefpersonen het achteraf niet erg vonden dat ze misleid waren. Vaak vertelden ze zelfs dat ze er veel van hadden geleerd.

Verder is gebleken dat onderzoekers zich vaak meer zorgen maken over het gebruik van misleiding dan proefpersonen. Proefpersonen zien misleiding niet als liegen en snappen dat het gebruik ervan nodig is. Zij hebben zelfs meer positieve gevoelens over hun deelname wanneer zij te maken hebben gehad met misleiding, maar alleen als ze achteraf alle details van het onderzoek hebben gekregen. Dit wil niet zeggen dat het gebruik misleiding altijd acceptabel is. Dit is alleen geoorloofd wanneer de onderzoeker niet tot de gewenste resultaten kan komen zonder misleiding te gebruiken. Onderzoekers mogen echter nooit gebruikmaken van misleiding om individuen zover te krijgen om deel te nemen aan hun onderzoek.

Na het onderzoek is er een ‘debriefing’: hierbij wordt onder andere verteld dat er sprake was van misleiding. Een goede debriefing heeft vier doelen:

Het onderzoek verduidelijken aan de proefpersonen
Stress of negatieve emoties wegnemen die door het onderzoek zouden kunnen zijn ontstaan
Reacties van de proefpersonen op het onderzoek verkrijgen
Zorgen dat de proefpersonen met een fijn gevoel terugkijken naar hun deelname door waardering uit te spreken en aan te geven dat hun deelname een belangrijke rol speelt

6. Vertrouwelijkheid

Vertrouwelijkheid (‘confidentiality’) betekent dat de data die proefpersonen leveren alleen voor de doelen van onderzoek gebruikt mogen worden en niet aan derden mogen worden gegeven. Als anderen toegang hebben tot de gegevens van de proefpersonen, dan is er sprake van inbreuk op hun privacy. Vaak gaat vertrouwelijkheid samen met de anonimiteit van proefpersonen. Vertrouwelijkheid is namelijk geen probleem meer als de data niet meer herleid kunnen worden tot individuen die hebben deelgenomen aan het onderzoek. Voor anonimiteit kan gezorgd worden door proefpersonen bijvoorbeeld allemaal een code te geven.

Fatsoenlijk gedrag

Proefpersonen klagen eigenlijk nooit over ethische zaken na afloop van een onderzoek. Ze klagen over hoe ze als mens zijn behandeld. De meest voorkomende klachten zijn namelijk dat de onderzoeker niet op tijd komt opdagen, dat de onderzoeker niet goed voorbereid is, dat de onderzoeker onbeschoft is en dat de onderzoeker niet dankbaar is naar de proefpersoon toe. Deze zaken zijn dus vaak belangrijker dan ethische kwesties.

Ethische kwesties en dieronderzoek

De APA heeft richtlijnen ontwikkeld voor het omgaan met dieren tijdens onderzoeken. De beschreven richtlijnen voor dieren zijn wel minder gedetailleerd dan de richtlijnen voor onderzoek met mensen. De APA stelt dat het van belang is dat het onderzoek met dieren wordt uitgevoerd door iemand die ervaring heeft met de verzorging van dieren. De plaatsen waar dieren moeten worden ondergebracht worden bepaald door overheidsinstanties en wetten. Het is belangrijk dat dieren op een fatsoenlijke manier worden behandeld. Om dit te garanderen moet minstens twee keer per jaar een dierenarts langsgaan bij het laboratorium waar de dieren zijn ondergebracht. Vaak worden dieren gebruikt voor experimentele onderzoeken. Het is van belang dat de dieren zo min mogelijk ongemak ervaren, zo min mogelijk infecties en ziekten oplopen en zo min mogelijk lijden. Lijden bij dieren tijdens onderzoek is alleen toegestaan wanneer er geen alternatieve procedure mogelijk is en dit lijden wordt gerechtvaardigd door de waarde die het onderzoek heeft.

Wangedrag

Veel wetenschappelijke organisaties hebben ethische richtlijnen ontwikkeld om hun leden te beschermen tegen wangedrag (‘scientific misconduct’). Er zijn drie categorieën van wangedrag te onderscheiden.

De eerste categorie gaat over ernstig wangedrag. Voorbeelden zijn plagiaat en valse of verzonnen informatie. Uit onderzoek blijkt dat een deel van de studenten op universiteiten weten dat faculteitsdocenten aan plagiaat doen. Iedereen is het erover eens dat het fout is om data te verzinnen als onderzoeker. Het komt echter wel vaak voor dat een onderzoeker de data negeert van een deel van de proefpersonen. Of dit verkeerd is hangt af van de vraag of de validiteit van het onderzoek omlaag gaat door het negeren van een deel van de data. Soms is het nodig om een deel van de data te negeren om de validiteit van de resultaten te garanderen. Dit is bijvoorbeeld het geval wanneer sommige proefpersonen de instructies niet goed begrepen hebben en dit uit hun scores blijkt. Het is echter nooit gerechtvaardigd dat een onderzoeker een deel van de data negeert omdat dit niet overeenkomt met zijn of haar onderzoekshypothesen
Een tweede categorie van wangedrag gaat over gedragingen die problematisch zijn. Onderzoekers mogen bijvoorbeeld niet doen alsof ze meer tijd en energie in het onderzoek hebben gestoken dan daadwerkelijk het geval is. Op wetenschappelijke artikelen staat vaak op volgorde wie er allemaal hebben meegewerkt aan het onderzoek. Het is van belang dat deze volgorde precies klopt en dat de mensen die het meest hebben meegewerkt aan het onderzoek ook echt als eerst worden genoemd. Een andere fout in deze categorie is het op een onduidelijke manier verwerken van de onderzoeksdata zodat deze niet goed gecontroleerd kunnen worden door andere wetenschappers. Onderzoeken moeten transparant zijn
De laatste categorie van wangedrag gaat over gedragingen die ook op andere werkgebieden kunnen voorkomen. Voorbeelden zijn seksuele intimidatie, discriminatie en machtsmisbruik

Het negeren van onderzoeksresultaten

Er zijn tientallen onderzoeken te noemen die belachelijk zijn gemaakt, genegeerd zijn of bestraft zijn door politieke en religieuze figuren. Toen Copernicus stelde dat de aarde rond was en om de zon draaide, werd hij uitgelachen. In veel steden in Amerika zijn zelfs wetten aangenomen die het onderzoeken en aanleren van de evolutietheorie moeilijk maken. Ondanks het feit dat we verder zijn dan vroeger, komt het toch nog vaak voor dat wetenschappers bepaalde onderzoeksonderwerpen niet willen onderzoeken en bepaalde controversiële resultaten niet willen publiceren omdat ze bang zijn dat deze kunnen leiden tot bijvoorbeeld discriminatie. Het is echter in de ogen van velen juist onethisch om mensen te onthouden van bepaalde onderzoeksresultaten uit angst voor negatieve reacties uit de maatschappij.

10. Effectgrootte

Veel statistische analyses eindigen met bepalen of het verschil significant is, ook al weten we nog niets over hoe groot het verschil is en is de conclusie nog sterk afhankelijk van de steekproefgrootte. Om dit soort problemen op te lossen zijn er maten om de effectgrootte te meten.

Cohen’s d is een maat die niet afhankelijk is van de steekproefgrootte en niet van de meetschaal. Cohen’s d bereken je door het verschil van de twee populatiegemiddelden te delen door de standaarddeviatie:

Als de populatiegemiddelden onbekend zijn, kun je gebruik maken van de steekproefgemiddelden en . Als de standaarddeviatie onbekend is, zijn er meerdere opties mogelijk. Bij onafhankelijke steekproeven (bijvoorbeeld een experimentele groep en een controle groep) kun je de standaarddeviatie vervangen door .

Voor afhankelijke steekproeven (bijvoorbeeld matched pairs) wordt niet gebruikt. In plaats daarvan wordt gebruikt. is de standaarddeviatie van het verschil in een paired sample t-test en r is de correlatie tussen de steekproefgemiddelden.

Cohen’s d is een manier om het gedeelte te meten dat niet overlapt wanneer je de verdelingen over elkaar heen zou leggen. Hoe groter de waarde, hoe minder overlap er is. Een waarde die tussen 0.2 en 0.5 ligt, is een klein effect, tussen 0.5 en 0.8 is het een medium effect en 0.8 of groter wordt een groot effect genoemd. Als een waarde kleiner is dan 0.2 wordt hij als niet relevant beschouwd, ook al is hij significant bevonden. Het is afhankelijk van de onderzoeksvraag of je een klein, medium of groot effect wilt vinden.

Join World Supporter

for free to follow other supporters, see more content and use the tools
for €10,- by becoming a member to see all content

Why create an account?

Your WorldSupporter account gives you access to all functionalities of the platform
Once you are logged in, you can:
- Save pages to your favorites
- Give feedback or share contributions
- participate in discussions
- share your own contributions through the 7 WorldSupporter tools

Follow the author: Vintage Supporter

Vintage Supporter

Promotions

Ga jij binnenkort studeren in het buitenland?
Regel je zorg- en reisverzekering via JoHo!

Content is used in

Study guide with Introduction to Research Methods in the Social and Behavioral Sciences by Linting et al. - 2023/2024

Content is used in bundle

Onderzoekspracticum 2: Samenvattingen, uittreksels, aantekeningen en oefenvragen - UL

Literatuursamenvattingen bij Onderzoekspracticum 1 - UL

Access level of this page

Public
WorldSupporters only
JoHo members
Private

Statistics

[totalcount]

Content categories

Learn & Study

Universiteit Leiden

Studievereniging Pedagogiek: Emile

Research methods & Research design

Comments, Compliments & Kudos

Add new contribution

More contributions of WorldSupporter author: Vintage Supporter

WorldSupporter Resources

Onderzoekspracticum 1: Samenvattingen, uittreksels, aantekeningen en oefenvragen - UL

In deze bundel worden collegeaantekeningen en tentamentests gedeeld voor het vak Onderzoekspracticum 1 voor de opleiding Pedagogiek, jaar 1 aan de Universiteit Leiden.
Voor een compleet overzicht van de door JoHo aangeboden samenvattingen & studiehulp en de beschikbare geprinte samenvattingen voor dit vak ga je naar de Startpagina Samenvattingen Pedagogiek - UL - jaar 1 op WorldSupporter.org