Research Methods for the Behavioral Sciences - Stangor - 5e druk - BulletPoints
- 1324 reads
De huidige samenleving staat gekenmerkt als innovatief door tal van technologische ontwikkelingen. Hoewel slechts honderd jaar geleden de eerste mensen een vlucht in een vliegtuig maakten, is vliegen tegenwoordig een veelvoorkomende manier van op vakantie gaan. Waar vijfhonderd jaar geleden de eerste pagina’s van een boek werden geprint, leest men boeken en het nieuws tegenwoordig vaak digitaal via bijvoorbeeld computers, iPads, en e-readers. Ondanks de voordelen die deze technologische ontwikkelingen teweeg hebben gebracht, heeft de mensheid nog steeds te maken met vele problemen, zoals: fysiek geweld, scheidingen, immuunsysteem ziekten, etnische conflicten, en terrorisme. Hoewel mensen tegenwoordig langer leven en het leven makkelijker is geworden door deze technologische ontwikkelen, is de kwaliteit van het interpersoonlijke en sociale gedrag niet per se even sterk toegenomen. Dit gedrag, zowel tussen mensen als tussen dieren, en het wetenschappelijk onderzoek dat hiermee verbonden is, vormen de focus van dit boek.
Gedragswetenschappelijk onderzoek richt zich op het gedrag tussen zowel mensen als dieren. Het doel van gedragswetenschappelijk onderzoek is om dit gedrag (bijvoorbeeld hoe mensen denken, voelen, zich ontwikkelen, en beslissingen nemen) beter te begrijpen. Gedragswetenschappers bestuderen dergelijk gedrag om het beter te begrijpen en, waar mogelijk, om methoden te ontwikkelen om de kwaliteit van leven te verbeteren. Gedragswetenschappen wordt in veel verschillende vakgebieden uitgevoerd, zoals: psychologie, sociologie, onderwijskunde, criminologie, en geneeskunde. Hoewel anderen, bijvoorbeeld politici, filosofen, en religieuze leiders, zich ook bekommeren om het menselijk gedrag, is er een belangrijk verschil met gedragswetenschappelijke onderzoekers. Waar de eerstgenoemden zich vooral baseren op persoonlijke overtuigingen, geloof, of intuïtie, zijn de beweringen van sociale gedragswetenschappers empirisch, wat betekent dat deze beweringen gebaseerd zijn op basis van een systematische verzameling en analyse van data. Data zijn gegevens die zijn verzameld door bijvoorbeeld observaties of metingen. Dus in plaats van het klakkeloos overnemen van de mening van een politicus of religieus leider, zal een gedragswetenschappelijk onderzoeker proberen bewijs te vinden voor een bepaalde bewering door middel van het (systematisch) verzamelen en analyseren van data. Hoewel gedragswetenschappelijk onderzoek een belangrijke bijdrage levert aan het vergroten van onze kennis over sociale problemen en het menselijk gedrag, heeft het ook beperkingen. Probeer tijdens het lezen van dit boek kritisch te blijven. Stel jezelf regelmatig de vraag wat gedragswetenschappelijke methoden kunnen bieden, maar ook wat de beperkingen en nadelen zijn van gedragswetenschappelijk onderzoek.
Mensen zijn van nature nieuwsgierig. Wanneer de relatie tussen Jan en Christina verbroken wordt, is men nieuwsgierig. Wie heeft het uitgemaakt? Was er ruzie? Is één van de twee vreemdgegaan? Of het nou gaat om een relatiebreuk, een kabinetscrisis, of een terroristische aanslag, mensen zijn geïnteresseerd in wat er om ons heen gebeurt, waarom dingen gebeuren, en hoe we dat kunnen herhalen of juist voorkomen. Er wordt wel gezegd dat mensen ‘dagelijkse onderzoekers’ zijn. Veel mensen geloven dat de antwoorden op vragen over het menselijk gedrag kunnen worden gevonden door ervaring en intuïtie. Ze denken dat, omdat we ons hele leven met mensen leven, we toch zeker wel weten waarom mensen doen wat ze doen. Toch is onze intuïtie niet feilloos en kan het leiden tot foutieve conclusies. Een voorbeeld hiervan is wanneer je de uitkomst van een onderzoek leest, bijvoorbeeld dat tegenpolen elkaar aantrekken (‘opposites attract’). Vaak klinkt het zo logisch dat je denkt dat je dat ook vooraf wel had kunnen voorspellen. Het probleem is dat je bij het lezen van zo’n uitkomst gaat denken aan alle gevallen waarin dat inderdaad opgaat. Daardoor lijkt die uitkomst heel geloofwaardig. De neiging te denken dat je iets had kunnen voorspellen, terwijl je dat waarschijnlijk niet had kunnen voorspellen, wordt ook wel hindsight bias (achteraf bias) genoemd.
Alle wetenschappers, of het nou psychologen, scheikundigen, of biologen zijn, maken gebruik van de wetenschappelijke methode. De wetenschappelijke methode is een set van assumpties, regels, en procedures die wetenschappers hanteren bij het doen van onderzoek. Het is een raamwerk voor het verzamelen, analyseren, en interpreteren van data. Onderdeel van de wetenschappelijke methode is bijvoorbeeld dat onderzoek empirisch moet zijn, dus gebaseerd op observaties of metingen. Een ander voorbeeld is dat onderzoek objectief moet zijn, dus (zo veel mogelijk) vrij van de voorkeur, opinie, of emoties van de onderzoeker(s). Een derde voorbeeld is dat onderzoek transparant (helder) en repliceerbaar (te herhalen) moet zijn. Het opschrijven van de procedure en resultaten moet zo gebeuren dat een andere onderzoeker precies snapt welke stappen er zijn genomen en hoe dit leidt tot de conclusie van het onderzoek. Idealiter moet een andere onderzoeker het onderzoek kunnen herhalen en op hetzelfde uitkomen. Al is dit natuurlijk lastig bij onderzoeken waarbij gebruik wordt gemaakt van proefpersonen, omdat ieder mens uniek is en (net) even anders reageert of handelt. De wetenschappelijke methode resulteert in een accumulatie (opeenstapeling) van wetenschappelijke kennis. Resultaten van het ene onderzoek worden gepubliceerd en vervolgonderzoek bouwt daarop voort door het onderzoek te herhalen, eventueel deels te wijzigen of iets toe te voegen, en dat vervolgens weer te publiceren.
Hoewel wetenschappelijk onderzoek een belangrijke methode is om het menselijk gedrag te bestuderen, kunnen niet alle vragen hiermee worden opgelost. Om dit verder uit te leggen, maken we eerst een onderscheid tussen waarden en feiten. Waarden zijn persoonlijke beweringen zoals “Het is belangrijk om iedereen gelijk te behandelen” of “Abortus zou verboden moeten worden”. Feiten zijn objectieve beweringen die zijn vastgesteld door middel van empirisch onderzoek. Een voorbeeld hiervan is: er zijn 16.000 moorden gepleegd in de Verenigde Staten in 2002. Omdat waarden niet kunnen worden beschouwd als ‘goed’ of ‘fout’, kan wetenschappelijk onderzoek ze niet bewijzen of ontkrachten. De wetenschap kan wel feiten aandragen, die mensen kunnen helpen bij het (her)vormen van hun waarden. Bijvoorbeeld een feit als “Roken verhoogt de kans op longkanker. Van de mensen met longkanker, rookt 86%” kan eraan bijdragen dat iemand de waarde “Het is belangrijk om te stoppen met roken” vormt.
Het onderscheid tussen waarden en feiten is niet altijd heel duidelijk. Dit heeft ermee te maken dat data, zeker in gedragswetenschappelijk onderzoek, geïnterpreteerd moet worden en vaak voor meerdere interpretaties vatbaar is. Een bekend voorbeeld is onderzoek naar etniciteit en IQ. Data van de Verenigde Staten tonen dat, gemiddeld genomen, blanke leerlingen beter scoren op gestandaardiseerde toetsen dan Afrikaans-Amerikaanse studenten. Verschillende onderzoekers hebben verschillende conclusies hieruit getrokken. Sommigen beweren dat dit verschil aantoont dat er genetische verschillen in intelligentie zijn tussen verschillende etnische groepen. Anderen beweren dat dit aantoont dat de verschillen veroorzaakt worden door verschillen in voeding, interesse, en scholing. Weer anderen beweren dat de gestandaardiseerde tests ‘partijdig’ is en daardoor makkelijker voor bepaalde etnische groepen dan voor anderen. Het interpreteren van de data speelt een grote rol in de gedragswetenschapper. Dit is minder belangrijk in bijvoorbeeld de natuur- of scheikunde. Desalniettemin is gedragswetenschappelijk onderzoek, net als natuur- en scheikunde, wetenschap. Gedragswetenschappelijke onderzoekers dienen dezelfde procedures te volgen als onderzoekers in andere velden. De wetenschappelijke methode vormt een raamwerk hiervoor.
Hoewel objectiviteit onderdeel is van de wetenschappelijke methode, is het belangrijk om je te realiseren dat er altijd een bepaalde mate van subjectiviteit aan verbonden is en dat waarden een rol spelen in het proces. Zo spelen waarden bijvoorbeeld een rol bij het bepalen van het wie (participanten), wat (onderwerp), en hoe (procedure) van een wetenschappelijke studie. De wetenschappelijke bevindingen worden gerapporteerd in een onderzoeksrapport, ook wel publicatie genoemd. Een onderzoeksrapport is een document dat de bevindingen van een onderzoek presenteert aan de hand van een gestandaardiseerd format. In verschillende vakgebieden wordt gebruikt gemaakt van verschillende formats. In de gedragswetenschappen wordt meestal gebruik gemaakt van de APA: American Psychological Association. Dit format geeft aan onder andere aan wat er per sectie gerapporteerd moet worden. Verder geeft het ook aan hoe het opgeschreven moet worden aan de hand van bijvoorbeeld regels over citeren, spelling, en opmaak van tabellen en figuren. Terugkomend op de rol van waarden in wetenschappelijk onderzoek, kunnen we stellen dat twee onderdelen van een onderzoeksrapport over het algemeen relatief subjectief zijn: de introductie en de discussie. Zoals hierboven al werd genoemd spelen bij het selecteren van het wie, wat, en hoe, de waarden van een onderzoeker een rol. In de discussie worden de resultaten geïnterpreteerd, wat ook een bepaalde mate van subjectiviteit met zich meebrengt. Twee andere onderdelen daarentegen horen objectief te zijn: de methode en resultaten. Hierbij komt geen interpretatie of waardeoordeel aan bod.
Er zijn grofweg twee typen van onderzoek te onderscheiden: basis en toegepast onderzoek. Basis onderzoek richt zich op het beantwoorden van fundamentele vragen over gedrag, waarbij er geen speciaal doel is anders dan het verwerven van meer kennis (intellectueel). Toegepast onderzoek daarentegen heeft als doel het verwerven van praktische kennis om oplossingen te kunnen bieden aan het probleem van de studie. Een voorbeeld is een interventiestudie, waarbij de effectiviteit van een interventie (een trainingsprogramma), bijvoorbeeld een bepaalde gedragstherapie wordt bestudeerd. Hoewel er een theoretisch onderscheid is tussen deze twee typen van onderzoek, blijkt dit onderscheid in de praktijk niet zo duidelijk te zijn. Basisonderzoek wordt vaak gestuurd door praktische problemen en toegepast onderzoek heeft meestal een sterke theoretische basis. Deze twee typen van onderzoek kunnen elkaar dan ook goed aanvullen en samen leiden tot meer kennis en verbetering van de kwaliteit van leven.
Het overkoepelende doel van dit boek is dat je kritisch leert nadenken over onderzoek. Je leert vragen beantwoorden als: “Hoe werd het onderzoek uitgevoerd?” “Hoe werden de data geanalyseerd?” en “Zijn de conclusies een objectieve weerspiegeling van de data?” Daarnaast ga je leren hoe je zelf een onderzoek kunt opzetten en uitvoeren. Zowel bij het zelf opzetten van onderzoek als bij het lezen of beoordelen van het onderzoek van anderen is het belangrijk dat je kritisch blijft nadenken. Thema’s als objectiviteit, transparantie, en repliceerbaarheid vormen hierbij een rode draad.
Een onderzoeksdesignis een specifieke methode om data te verzamelen, te analyseren, en te interpreteren. Er zijn grofweg drie soorten onderzoeksdesigns te onderscheiden: beschrijvend, correlationeel, en experimenteel. Ieder design is geschikt voor het beantwoorden van een ander type onderzoeksvraag en heeft andere voor- en nadelen. Een veelgebruikte methode is dan ook om de verschillende designs te combineren. De drie designs zullen hieronder kort worden toegelicht.
Beschrijvend onderzoek heeft als doel om vragen te beantwoorden over de huidige ‘stand van zaken’. Dit type onderzoek biedt een inkijk in gedachten, gevoelens, of gedrag op een gegeven moment en een gegeven plaats. Het geeft een beschrijving van een momentopname. Voorbeelden van beschrijvend onderzoek zijn surveys (vragenlijsten), interviews, en natuurlijke observaties. Natuurlijke observaties zijn observaties in de natuurlijke context, bijvoorbeeld het bestuderen van kinderen die in de speeltuin aan het spelen zijn. Bij beschrijvend onderzoek staat de onderzoeker ‘aan de zijlijn’ en grijpt niet in. Beschrijvend onderzoek kan zowel kwalitatief als kwantitatief zijn of een combinatie van beide. Bij kwalitatief onderzoek worden de resultaten weergegeven in woorden. Dit onderzoek richt zich meestal op interpretaties, ervaringen en betekenis. Dit heeft als voordeel dat het levendig is en gedrag in de originele vorm beschrijft. Het nadeel echter is dat het vaak meer subjectief is en de interpretatie en waarden van de onderzoeker een grote rol spelen. Bij kwantitatief onderzoek worden de resultaten uitgedrukt in cijfers middels statistische toetsen. Hoewel het over het algemeen objectiever is dan kwalitatief onderzoek, zijn de resultaten vaak minder levendig voor de lezer en kan het voelen alsof het verder van de werkelijkheid afstaat. Vaak wordt daarom ook een combinatie van beiden aangeraden. Terugkomend op beschrijvend onderzoek kunnen we stellen dat het als voordeel heeft dat een beeld geeft van gedrag op dat moment. Het nadeel is dat het geen inzicht geeft in de ontwikkeling of invloed van dat gedrag op een later moment. Beschrijvend onderzoek beperkt zich tot een momentopname.
Correlationeel onderzoek heeft als doel om de relatie tussen twee of meer variabelen onderzoeken. Een variabele is een eigenschap die verschillende waarden kan aannemen tussen de studieobjecten (mensen, dieren, tijden, plaatsen). Voorbeelden zijn geslacht, leeftijd, opleidingsniveau, en inkomen. De meest gebruikte maat om verbanden tussen variabelen te kwantificeren (in een getal uit te drukken) is de Pearson product-moment correlatie coëfficiënt, aangegeven met het symbool r. Deze coëfficiënt heeft een range (bereik) van -1 tot 1. Dit wordt ook wel genoteerd als [-1; 1]. Negatieve waarden duiden op een negatief verband. Bijvoorbeeld: als X groter wordt, dan wordt Y kleiner. Positieve waarden duiden op een positief verband: als X groter wordt, dan wordt Y ook groter. Waarden dichter bij -1 of 1 geven een sterker verband aan. Als de correlatiecoëfficiënt 0 is, dan is er een verband tussen de variabelen. Het is heel belangrijk om te onthouden dat een correlatie niets zegt over oorzaak en gevolg. Ook al is de relatie tussen X (opleidingsniveau) en Y (inkomen) heel sterk, bijvoorbeeld 0.95, dan wil dit niet zeggen dat opleidingsniveau de oorzaak is van de hoogte van het inkomen. Het kan andersom zijn. Het kan zijn dat andere variabelen de hoogte van het inkomen veroorzaken. Correlationeel onderzoek kan gebruikt worden om het verband tussen twee of meer eigenschappen uit te drukken in een getal, maar zegt niets over de oorzaak van deze relatie. Daarvoor is experimenteel onderzoek nodig.
Experimenteel onderzoek wordt gebruikt om onderzoeksvragen over causale relaties (oorzaak-gevolg) tussen variabelen te kunnen beantwoorden. Een voorbeeld van zo’n vraag is: “Leidt het kijken van gewelddadige films tot meer agressie?” Met andere woorden, experimenteel onderzoek richt zich op de oorzaak van bepaald gedrag. In tegenstelling tot beschrijvend onderzoek, heeft de onderzoeker bij experimenteel onderzoek een actieve rol. Er vindt een actieve manipulatie plaats van een gegeven situatie voor twee of meer groepen van individuen. Het is hierbij belangrijk dat deze groepen voor de manipulatie (zo) gelijk (mogelijk) zijn, zodat een eventueel gemeten verandering niet kan worden toegeschreven aan een andere oorzaak. Om de hierboven gestelde vraag over agressiviteit te kunnen beantwoorden, zou een onderzoeker bijvoorbeeld honderd kinderen kunnen selecteren die in groep 6 van de basisschool zitten. Deze honderd kinderen worden vervolgens willekeurig verdeeld in twee groepen van elk vijftig kinderen. Beide groepen worden gemeten op agressiviteit. Vervolgens krijgt de ene groep elke dag een gewelddadige film te zien. De andere groep kijkt elke dag naar een niet-gewelddadige film. Aan het einde van de week worden de kinderen weer gemeten op agressiviteit, waarbij de verwachting zou kunnen zijn dat de groep die gewelddadige films keek meer agressiviteit toont dan de andere groep. Een nadeel van experimenteel onderzoek is dat, vanwege praktische of ethische redenen, niet al het gedrag hiermee geobserveerd kan worden. Voorbeelden hiervan zijn: kindermishandeling, zwerven (daklozen), en racisme.
Het ontwikkelen van de onderzoekshypotheses is een proces dat bestaat uit drie stappen. In hoofdstuk 2 worden deze drie stappen besproken.
Er zijn zoveel onderwerpen om te bestuderen: welke factoren leiden tot terrorisme, welke factoren dragen aan een succesvolle schoolloopbaan bij, hoe vogels elkaar herkennen, hoe en waarom kinderen gedragsproblemen ontwikkelen, enzovoort. Het opdoen van onderzoeksideeën is een voortschrijdend proces. Een onderzoeker is in zijn of haar hoofd continu hiermee bezig, bijvoorbeeld tijdens gesprekken met studenten, het geven van colleges, het lezen van artikelen, het luisteren naar de radio, het kijken van televisie. Aldoende ontwikkelen deze ideeën dan verder. Twee veelvoorkomende bronnen die kunnen bijdragen aan opdoen van ideeën zijn observaties en intuïtie. Het opdoen van ideeën door het observeren van dagelijks gedrag of problemen wordt ook wel de inductieve methode genoemd. Bij de inductieve methode vormen observaties en jouw eigen nieuwsgierigheid de bron van inspiratie. Hoewel intuïtie en observatie belangrijke bronnen van inspiratie zijn, is het belangrijk om je te realiseren dat deze bronnen alleen niet voldoende zijn. Het is ook belangrijk om bevindingen van eerder onderzoek mee te nemen bij het opdoen van ideeën en het opstellen van jouw onderzoek. Het leggen van een verband tussen jouw onderzoek en eerder gedaan onderzoek is erg belangrijk. Bij het analyseren van bestaand onderzoek zijn met name de volgende twee punten belangrijk: 1. Wat zijn de beperkingen van eerder gedaan onderzoek? En, in het verlengde hiervan, hoe zorg jij ervoor dat deze beperkingen jouw onderzoek juist niet belemmeren? 2. Zijn er tegenstrijdige resultaten te vinden in reeds gedane studies? In dat geval, bij welke bevindingen sluiten jouw resultaten aan? Het hebben van een 'open mind' en een voorzichtige en creatieve analyse van bestaand onderzoek zijn indicatoren voor goed onderzoek.
Na het opdoen van ideeën voor onderzoek is het belangrijk om een goed beeld te krijgen van de bestaande kennis over dat onderwerp en het eerder gedane onderzoek. Stap 2 in het proces is dan ook het uitvoeren van een literatuurstudie door het lezen van (wetenschappelijke) artikelen en boeken over het onderwerp. Dit zijn primaire bronnen. Soms zijn er ook literatuurstudies over jouw onderwerp, of gerelateerd daaraan, gepubliceerd die al veel informatie hebben samengevoegd. Dit zijn secundaire bronnen. Secundaire bronnen bevatten dus alleen samenvattingen of interpretaties van andere onderzoeken. Over het algemeen is de meest efficiënte zoekstrategie om eerst secundaire bronnen te bestuderen voor algemene kennis en daarna te zoeken naar de meest recente, specifieke, bevindingen via primaire bronnen. Er zijn verschillende manieren om literatuur te verzamelen: online (via bijvoorbeeld Google Scholar of online databases zoals ERIC, PsycINFO, and SSCI: Social Science Citation Index), via de bibliotheek, en via docenten of experts op dat gebied. Wanneer je zoekt in online databases, zijn sleutelwoorden (keywords) nodig. Dit zijn zoektermen die de basis van je interesse vormen, bijvoorbeeld: autisme, geheugen, of stress. Daarnaast kan je ook andere zoekcriteria gebruiken, zoals een bepaalde tijdsperiode (bijvoorbeeld 2008-2018), auteurs, of bepaalde tijdschriften. Een handig hulpmiddel bij het opstellen van zoektermen is de thesaurus. De thesaurus is een index met alle zoektermen die de database beschikbaar heeft. De thesaurus biedt suggesties voor synoniemen (andere woorden met dezelfde betekenis), bredere zoektermen (algemener), en smallere zoektermen (specifieker).
Houd tijdens het lezen van literatuur de volgende drie principes in gedachten: wetten, theorie, en onderzoekshypothesen.
Wetten zijn algemene principes die in elke situatie geldig zijn. Dit zijn vaak natuurkundige principes, zoals de zwaartekracht. Wetten zijn minder voorkomend in de sociale wetenschappen.
Een theorie is een set van principes die veel, maar niet alle, relaties binnen een bepaald domein kunnen verlaren en voorspellen. Theorieën kunnen helpen bij het ontwikkelen van ideeën en opstellen van hypothesen. Dit wordt ook wel de deductieve methode genoemd. Een goede theorie bestaat uit de volgende vier componenten:
Niet elke theorie bevat alle vier componenten. Neem als voorbeeld de theorie van sociale versterking (social reinforcement). Deze theorie stelt dat gedrag wordt versterkt als het is beloond. Bijvoorbeeld: wanneer een kind een snoepje krijgt, omdat het zijn of haar speelgoed deelt met een ander kind, dan zal het kind de volgende keer waarschijnlijk weer zijn of haar speelgoed delen. De definitie van beloning in deze theorie kan zowel betrekking hebben op externe factoren (bijvoorbeeld geld of snoep) als interne factoren (bijvoorbeeld motivatie en schuldgevoelens). Interne factoren zijn niet of moeilijk te meten. Een theorie waarin variabelen kunnen voorkomen die niet gemeten kunnen worden, of waarin de variabelen zo vaag zijn geformuleerd dat ze niet genoeg informatie verschaffen om de theorie mogelijk te falsifiëren, wordt een tautologische theorie genoemd. Geen enkele theorie is in staat om al het gedrag in alle gevallen te verklaren. Een theorie kan dus alleen goed genoeg zijn voor dat moment. Wanneer een betere theorie wordt gevonden, wordt de oude theorie vervangen door de nieuwe theorie.
Een goede theorie is falsifieerbaar. Toch is een theorie vaak te breed om met één enkel onderzoek te worden ontkracht. Daarom stellen onderzoekers meer precieze beweringen op over de relatie tussen specifieke onderdelen (variabelen) van de theorie. Zo'n specifieke bewering of verwachting wordt ook wel onderzoekshypothese, kortweg hypothese genoemd. Een hypothese vormt de basis voor correlationeel en experimenteel onderzoek (niet voor beschrijvend onderzoek, daarin worden geen hypothesen getest). Een hypothese is een specifieke, falsifieerbare voorspelling over het verband tussen twee of meer variabelen. Een voorbeeld is: Het kijken naar gewelddadige films leidt tot meer agressie. In dit voorbeeld is het kijken naar gewelddadige films de onafhankelijke variabele (de voorspeller, de variabele die wordt gemanipuleerd, de mogelijke oorzaak). Agressie is de afhankelijke variabele (de uitkomst, de variabele die mogelijk verandert als gevolg van de manipulatie van de onafhankelijke variabele). De onafhankelijke variabele wordt in het Engels independent variable genoemd en ook wel aangeduid als IV. De afhankelijke variabele wordt in het Engels dependent variable genoemd en ook wel aangeduid als DV. In zowel correlationele als experimentele designs spreekt men van afhankelijke en onafhankelijke variabelen, maar alleen bij experimentele designs mag je spreken van voorspellers (predictors) en uitkomst variabelen (outcomes). Immers, in correlationele studies mogen geen uitspraken worden gedaan over oorzaak en gevolg, alleen over een verband (correlatie) tussen variabelen.
Het ontwikkelen van de onderzoekshypotheses is een proces dat bestaat uit drie stappen. In hoofdstuk 2 worden deze drie stappen besproken.
Een veelvoorkomend probleem binnen gedragswetenschappen is dat mensen (en dieren) vaak anders reageren, wanneer ze weten dat ze worden bestudeerd. Een mogelijke oplossing hiervoor is om de participanten van het onderzoek niet te vertellen dat ze meedoen aan een onderzoek en ze onbewust te observeren. Dit brengt echter ethische vraagstukken mee. Mag je participanten ontzien van informatie over deelname aan een onderzoek? Mag je het doel van het onderzoek verborgen houden tot na de dataverzameling? En hoe zit het met bijvoorbeeld pijn of ongemak toebrengen aan de participanten? Hoofdstuk 3 gaat over ethische kwesties en de rol van de onderzoeker daarin.
Ethiek gaat over meer dan alleen zorgen over het welzijn van de onderzoeksparticipanten. Ethisch onderzoek doen heeft ook betrekking op het uitvoeren en rapporteren van onderzoek. Worden bijvoorbeeld alle resultaten gerapporteerd, of wordt een deel (bewust) weggelaten? Heel af en toe wordt een onderzoeker (denk aan Diederik Stapel) betrapt op het bewust wijzigen of fabriceren van data. Dit wordt ook wel wetenschappelijke fraude genoemd. Worden resultaten eerlijk gerapporteerd? Er zijn verschillende richtlijnen en protocollen opgesteld voor het uitvoeren van ethisch onderzoek. De American Psychological Association (APA) is een voorbeeld van een organisatie die dergelijke richtlijnen heeft opgesteld. Welke richtlijnen men ook volgt, ethisch onderzoek kent de volgende vier basisprincipes:
Deze vier basisprincipes worden hieronder stuk voor stuk besproken. Ook worden de mogelijke bedreigingen voor deze principes uitgelegd. Het is belangrijk om bij het lezen van deze punten te onthouden dat ethische kwesties betrekking hebben op waarden en niet op feiten. Er is daarom vaak ook geen goed of fout antwoord voor ethische dilemma's.
Je kent vast wel de experimenten van Stanley Milgram uit 1974 waarin de relatie tussen autoriteit en gehoorzaamheid werd onderzocht. Participanten kregen elektrische schokken toegediend om te testen in welke mate dit tot gehoorzaamheid zou leiden. Veel participanten ervoeren, niet verrassend, veel stress tijdens deze experimenten. Tegenwoordig zou een dergelijk experiment niet meer worden toegestaan. De wetenschappelijke gemeenschap is nu veel gevoeliger voor mogelijke fysieke en psychologische schade aan participanten. Desalniettemin blijft het bij nieuwe onderzoeksvoorstellen soms een lastige afweging tussen de meerwaarde van het onderzoek en de mogelijke schade die het kan opleveren bij de participanten. Een goed voorbeeld hiervan is bijvoorbeeld het doen van onderzoek naar discriminatie. Dit kan soms leiden tot pijnlijke zelfinzichten bij participanten. Iemand kan er bijvoorbeeld achter komen dat hij of zij toch meer discrimineert dan in eerste instantie gedacht. Dit kan gevoelens van schaamte en schuld opleveren. Is de verwachting dat deze gevoelens slechts even aan houden? Of zijn er serieuze lange termijn gevolgen te verwachten? En is het dan nog wel ethisch verantwoord? Het is belangrijk om bij het opstellen van een onderzoek altijd vooraf na te denken wat de mogelijke gevolgen kunnen zijn voor de onderzoeksparticipanten.
Het tweede principe van ethisch onderzoek is dat participanten keuzevrijheid hebben. Participanten moeten zelf kunnen kiezen of ze mee willen doen aan het onderzoek én om eventueel voortijdig te stoppen. Hoewel dit principe in theorie vrij duidelijk is, blijkt het in de praktijk vaak iets gecompliceerder. Wanneer participanten bijvoorbeeld een (kleine) financiële vergoeding krijgen voor deelname aan een onderzoek, dan is iemand die in financiële nood is, waarschijnlijk minder geneigd om deelname aan een onderzoek te weigeren. Daarnaast is het soms belangrijk dat de participanten vooraf nog niet op de hoogte zijn van het (precieze) doel van de studie. Maar als de onderzoeker vooraf geen openheid van zaken kan geven, hoe kan een participant dan weten waar hij of zij mee instemt? Centraal bij het principe van keuzevrijheid staat het informed consent. Dat is een beschrijving van het onderzoek, waarin de participant (zo veel mogelijk) wordt verteld over het onderzoek en waarin toestemming wordt gevraagd voor deelname aan het onderzoek. Ieder onderzoek waarbij mensen betrokken zijn, moet een informed consent opstellen. Dit wordt beoordeeld en goedgekeurd (of afgekeurd) door een ethische commissie. Pas dan mag het onderzoek beginnen. Een informed consent moet in ieder geval de volgende acht onderdelen bevatten:
Nog voordat de informed consent aan een participant wordt gegeven, wordt een formulier verstrekt waarmee enkele demografische eigenschappen over de participant worden verzameld, zoals leeftijd en geslacht. Deze informatie zorgt ervoor dat de onderzoeker er zeker van kan zijn dat de participant bijvoorbeeld oud genoeg is en voldoet aan de criteria voor deelname aan het onderzoek. Na het invullen van dit formulier en het doornemen van de informed consent volgt nog een korte (mondelinge) toelichting over de rechten van de participant tijdens het onderzoek. Nadat de participant het formulier zorgvuldig heeft gelezen en ondertekend, kan het onderzoek dan echt beginnen. Binnen bijvoorbeeld de studie psychologie komt het vaak voor dat studenten studiepunten kunnen verdienen door deel te nemen aan een onderzoek. Hoewel het niet vaak voorkomt, kan het gebeuren dat een participant na het lezen van de informed consent besluit niet deel te nemen aan het onderzoek. Wat doe je dan? In het geval van de student, die naar het lab kwam met goede bedoelingen om deel te nemen aan het onderzoek, maar uiteindelijk besloot toch niet (tot het einde van het experiment) mee te doen, is het wellicht beter om toch de studiepunten toe te kennen. Een ander gevaar van het principe van keuzevrijheid en openheid van zaken, is dat de participant te goed op de hoogte is van het doel van de studie en daardoor zijn of haar antwoorden of gedrag aanpast. In zo'n geval moet de onderzoeker een bewuste afweging maken van de hoeveelheid informatie die vooraf aan de participanten wordt verschaft.
Er is van nature sprake van een machtsverschil tussen de onderzoeker en de participant. De onderzoeker heeft in deze relatie een hogere status en is in staat (en wordt verwacht) om het gedrag van de participant, de dataverzameling, en de dataverspreiding te controleren. De onderzoeker bepaalt wat de participant doet. Desalniettemin zijn er wel ethische procedures die ervoor zorgen dat de onderzoeker zijn machtspositie niet gebruikt om de participant te belemmeren in zijn keuze om deel te nemen of te stoppen met het onderzoek. Naast bewustzijn van de machtsverschillen zijn er twee punten waar de onderzoeker zich aan dient te houden.
Er zijn meerdere manieren om de privacy van de participant te respecteren. Ten eerste kan de onderzoeker ervoor kiezen om de data te anonimiseren, dat wil zeggen te ontdoen van alle identificeerbare gegevens. Wanneer volledige anonimiteit niet mogelijk is, is een tweede optie om de data vertrouwelijk te bewaren (en te behandelen). In het geval van vertrouwelijke databehandeling kan bijvoorbeeld de naam van iedere participant worden vervangen door een persoonlijke code. Aan de hand van die persoonlijke code kan de onderzoeker dan alsnog achterhalen welke gegevens bij welk individu horen en op die manier de analyses uitvoeren.
Het vierde en laatste principe is het eerlijk beschrijven van de aard en het gebruik van het onderzoek. De grootste ethische zorg is deceptie: bedrog of misleiding. Dit vindt plaats wanneer de participanten niet volledig worden geïnformeerd over de aard van het onderzoek. Dit kan zowel actief (voorliegen, beweren dat het onderzoek een ander doel heeft of de data voor iets anders wordt gebruikt) als passief (niet informeren over de hypotheses of het mogelijke gebruik van de data) plaatsvinden. Beide vormen van bedrog kunnen problematisch zijn. Aan de andere kant is het soms ook nodig. Voor sommige experimenten is het cruciaal dat de participant niet (volledig) op de hoogte is van het doel van het experiment. Een mogelijke alternatief voor misleiding is het uitvoeren van een simulatiestudie. In een simulatiestudie worden de participanten wel volledig geïnformeerd over het doel van de studie en wordt hen gevraagd om te reageren alsof ze zich in de gewenste (of gevraagde) situatie bevonden. Een nadeel van deze methode is dat het vaak geen goede weerspiegeling vormt van wat mensen daadwerkelijk doen of zouden doen. Zoals met veel ethische kwesties zijn ook bij deceptie voor- en tegenstanders te onderscheiden. Sommigen vinden misleiding in geen enkel geval ethisch verantwoord. Anderen beweren dat de wetenschap niet zonder kan. Hoe dan ook, een cruciaal onderdeel wordt gevormd door de debriefing meteen na het onderzoek. Hierin legt de onderzoeker het doel en de procedure volledig uit. Wanneer de participanten in eerste instantie niet (volledig) zijn geïnformeerd, is het heel belangrijk om dit na afloop van het onderzoek zo snel en zo volledig te doen. Dit kan eventueel gepaard gaan met een postexperimenteel interview waarin de reacties van de participanten worden vastgesteld. Ook kan de onderzoeker een 'verdelingscheck' uitvoeren en achterhalen of de participant de manipulatie of hypothese(s) kon raden. Een voorbeeld hiervan is: "Er zat meer achter het experiment dan ik je heb verteld. Ik ben nieuwsgierig of je weet wat dat is?" Natuurlijk moet de onderzoeker, ongeacht het antwoord van de participant, de echte reden, procedure, enzovoort over het onderzoek daarna vertellen. Een onderdeel van dit debriefing proces kan ook zijn om (te proberen om) mogelijk nare gevoelens of nadelige effecten bij de participanten weg te nemen.
Naast ethische kwesties bij het onderzoek met mensen, zijn er natuurlijk ook ethische kwesties bij dierproeven. Niet alle experimenten kunnen met mensen worden uitgevoerd. Daarom worden er ook experimenten gedaan met bijvoorbeeld ratten, muizen, en vogels. Ook wat betreft dierproeven zijn er duidelijk voor- en tegenstanders te onderscheiden. Tegenstanders van dierproeven, bijvoorbeeld dierenrechtenactivisten, vinden dat je nooit mag experimenten op dieren. Voorstanders van dierproeven vinden dierproeven, onder bepaalde omstandigheden, wel acceptabel. De APA heeft ook voor ethische onderzoeksprojecten met dieren richtlijnen gepubliceerd. Een voorbeeld hiervan is dat alle individuen die met de dieren in contact komen zijn getraind in het verzorgen en omgaan met de dieren. Een ander voorbeeld is dat, wanneer het nodig is dat het leven van een dier wordt beëindigd, dit snel en met minimale pijn wordt gedaan, middels geaccepteerde procedures.
Samengevat komt het erop neer dat de ethiek van een onderzoeksproject wordt bepaald door een afweging van de kosten en baten van het onderzoek. Wat zijn de kosten, dat wil zeggen, gevaren/risico's/nadelen voor de participanten? En wat zijn de baten, dat wil zeggen, de mogelijke winst in kennis, kwaliteit van leven, en wetenschap? Wanneer de (mogelijke) kosten niet opwegen tegen de baten van het onderzoek, dient het onderzoek te worden beëindigd. Hoewel dit in theorie logisch klinkt is het, opnieuw, lastiger in de praktijk. Want hoe bepaal je nou hoe zwaar iets weegt? De waarden die hierbij een rol spelen kunnen ook veranderen door de tijd heen, denk bijvoorbeeld aan het experiment van Milgram. Ook zijn er waardeverschillen tussen verschillende culturen. Wat in de ene cultuur als heel belangrijk wordt beschouwd, is misschien minder van belang in een andere cultuur. Een mogelijkheid is om de mogelijke kosten en baten van het onderzoek voor te leggen aan individuen die gelijk zijn aan potentiële participanten en te vragen of zij mee zouden doen aan het onderzoek. Dit geeft een indicatie van de waardering van de kosten en baten. Tot slot moet ieder onderzoek waarbij mensen of dieren betrokken zijn worden goedgekeurd door de ethische commissie. De ethische commissie heeft als taak om onderzoek te toetsen op criteria van wetenschappelijk verantwoord handelen.
Een veelvoorkomend probleem binnen gedragswetenschappen is dat mensen (en dieren) vaak anders reageren, wanneer ze weten dat ze worden bestudeerd. Een mogelijke oplossing hiervoor is om de participanten van het onderzoek niet te vertellen dat ze meedoen aan een onderzoek en ze onbewust te observeren. Dit brengt echter ethische vraagstukken mee. Mag je participanten ontzien van informatie over deelname aan een onderzoek? Mag je het doel van het onderzoek verborgen houden tot na de dataverzameling? En hoe zit het met bijvoorbeeld pijn of ongemak toebrengen aan de participanten? Hoofdstuk 3 gaat over ethische kwesties en de rol van de onderzoeker daarin.
Hoofdstuk 4 gaat over meten: wat te meten, hoe te meten, en hoe te bepalen of de meting geschikt en effectief is.
Conceptuele variabelen zijn de variabelen die de basis vormen van een onderzoekshypothese. Voorbeelden hiervan zijn: depressie, gedragsproblemen, en cognitieve ontwikkeling. Meten is een proces, waarbij de conceptuele variabelen worden omgezet in gemeten variabelen. Een meting is het toewijzen van getallen aan een object, subject (bijvoorbeeld een leerling), of een gebeurtenis. De gemeten variabelen zijn dus metingen van de conceptuele variabele. Soms is die transformatie direct, bijvoorbeeld wanneer de conceptuele variabele 'studietijd' wordt gemeten door het aantal minuten dat iemand studeert te meten. Soms is een conceptuele variabele niet direct observeerbaar. Voorbeelden hiervan zijn 'woede', 'verdriet', en 'populariteit'. Dergelijke variabelen worden ook wel latente variabelen genoemd. Ze zijn niet rechtstreeks te meten. Populariteit kun je bijvoorbeeld (indirect) meten door klasgenoten te vragen in hoeverre ze iemand aardig vinden op een schaal van 1 tot 10. De somscore of het gemiddelde van die metingen geeft je dan een indirecte indicatie van de populariteit van die leerling. Latente variabelen komen met name in de gedragswetenschappen veel voor.
Een operationele definitie beschrijft hoe een conceptuele variabele wordt omgezet in een meetbare variabele. Met andere woorden, de operationale definitie omschrijft hoe de (vage) conceptuele variabele wordt omgezet in een (specifiek) meetbare variabele. Een voorbeeld van een operationele definitie bij de conceptuele variabele 'besluitvorming' is: het aantal goed beantwoorde vragen. Een andere operationale definitie bij dezelfde variabele kan zijn: de tijd in seconden die iemand nodig heeft om de vraag goed te beantwoorden. Beide zijn correcte operationele definities van de conceptuele variabele besluitvorming. Zoals je ziet zijn er vaak veel mogelijke operationele definities op te stellen voor één conceptuele variabele. Er is meestal geen sprake van 'de beste' operationele definitie. Verschillende metingen zijn in meer of mindere mate geschikt in een bepaalde context en voor een bepaald onderzoeksdoel. Het combineren van verschillende metingen kan helpen om een beter beeld te krijgen van de conceptuele variabele. Wanneer meerdere operationele definities en dus meerdere metingen worden gecombineerd, worden deze operationele definities ook wel convergerende definities genoemd. Tot slot is het nog belangrijk om te onthouden dat in een correlationeel design zowel de afhankelijke als onafhankelijke variabelen worden gemeten en dus geoperationaliseerd. In experimentele studies wordt alleen de afhankelijke variabele gemeten. In de afbeelding wordt een voorbeeld gegeven van een correlationeel onderzoeksdesigns met de begrippen die tot nu toe zijn behandeld.
Zoals je ziet is er sprake van een correlationeel (en geen experimenteel) onderzoeksdesign. De onderzoeker wil weten of er een verband is tussen studeren en schoolprestatie. Studeren wordt gemeten aan de hand van het aantal minuten dat iemand huiswerk maakt. Schoolprestatie wordt gemeten aan de hand van het cijfer op de toets. Wanneer (a) de hypothese dat er een verband tussen studeren en schoolprestatie juist is, en (b) de meetbare variabelen representatief zijn voor de conceptuele variabelen, dan zal er een verband worden geobserveerd tussen de meetbare variabelen. In het algemeen kunnen we stellen dat een onderzoeker geïnteresseerd in de relatie tussen conceptuele variabelen en daar een hypothese over opstelt, maar dat deze door middel van operationele definities omgezet moet worden in meetbare variabelen. De adequaatheid van de hypothese test hangt dus altijd af van de accuraatheid van de operationele definitie van de conceptuele variabelen.
Er zijn grofweg twee typen meetbare variabelen te onderscheiden: nominaal en kwantitatief. Een nominale variabele bestaat uit categorieën (die niet zijn uit te drukken in getallen). Een voorbeeld is geslacht, een nominale variabele met de categorieën man en vrouw. Een ander voorbeeld is 'diersoort' met onder andere de categorieën zoogdieren, reptielen, amfibieën, vissen, en vogels. Hoewel soms getallen worden gebruikt bij nominale variabelen om categorieën aan te duiden (bijvoorbeeld man = 1, vrouw = 2) zijn getallen bij nominale variabelen niet betekenisvol. Daartegenover staan kwantitatieve variabelen, die juist wel worden uitgedrukt in getallen. Schalen is het specificeren van de relatie tussen de getalen van een kwantitatieve variabele en de bijbehorende waarde van de conceptuele variabele. Er zijn binnen het proces van schalen drie vormen te onderscheiden: interval, ratio, en ordinaal. Bij een interval schaal is de afstand tussen twee punten op de schaal gelijk voor de hele schaal. Een voorbeeld is temperatuur in graden Celcius. Het verschil tussen 10 en 20 graden Fahrenheit is exact hetzelfde als tussen 20 en 30 graden Celcius. Maar we kunnen niet zeggen dat 20 graden Cecius twee keer zo warm is als 10 graden Celcius (omdat de 0 niet een absoluut nulpunt is). Een ratio schaal heeft die eigenschap van een absoluut nulpunt wel. Een voorbeeld is temperatuur in Kelvin, waarbij 0 het absolute nulpunt is (0 Kelvin = -273.15 graden Celcius). Nu kunnen we wel zeggen dat bijvoorbeeld 10 K (K = Kelvin) de helft is van 20 K. Een ander voorbeeld is gewicht. Ook gewicht kent een absoluut nulpunt, waardoor we kunnen zeggen dat 60 kilogram het dubbele is van 30 kilogram. In de gedragswetenschappen is het schalen van variabelen vaak niet zo eenduidig en wordt er vaak gebruikt gemaakt van ordinale schalen. De getallen van een ordinale schaal geven een rangorde aan, maar het verschil tussen twee waarden is niet (per definitie) gelijk over de hele schaal. Een voorbeeld is schooltype: vmbo (= 1), havo (= 2), vwo (= 3). Er zit wel een rangorde in deze drie typen, maar de getallen zeggen ons niets over de afstand tussen vmbo en havo, en havo en vwo. Die afstand is niet per definitie gelijk.
Eén van de mogelijke typen metingen (die veel wordt gebruikt in de gedragswetenschappen) is zelf-rapportage. Zelf-rapportage metingen zijn indirecte metingen (van gedrag), waarbij de respondent vragen beantwoord via bijvoorbeeld een vragenlijst of interview. Er zijn verschillende vormen van zelf-rapportage, vrije opzet en vaste opzet, die in de onderstaande paragrafen kort worden toegelicht.
In een vrije opzet (free format) is de respondent helemaal vrij en kan zijn of haar gedachten en gevoelens over het onderzoeksonderwerp uiten. Binnen de vrije opzet zijn verschillende soorten te onderscheiden: projectieve metingen, associatieve lijsten, en hardop-denken protocollen. Een projectieve meting is een meting waarbij de participant iets te zijn krijgt, bijvoorbeeld een straat met overal vuilnis en een muur vol graffiti en vervolgens wordt gevraagd om alles of op te schrijven wat in hem of haar opkomt. De associateve lijst is een vergelijkbare vorm, waarbij de participanten een lijst krijgen met variabelen en worden gevraagd om op te schrijven welke gedachten per item opkomen. Een voorbeeld is een lijst van de vijf diertypen (zoorgdieren, amfibieën, reptielen, vissen, en vogels). Iemand kan dan bijvoorbeeld bij zoogdieren opschrijven: melk, behaard, mensen. En bij vogels: vliegen, eieren, veren. Bij een hardop-denken protocol wordt een participant gevraagd om zijn of haar gedachten uit te spreken bij het doen van een opdracht. Dit wordt vervolgens opgenomen. Welke soort je ook kiest, vrije opzet zelfrapportages zijn over het algemeen lastig te analyseren. Het is moeilijk om de gegevens om te zetten in meetbare (kwantiatieve) en vergelijkbare data. Een mogelijkheid is om bijvoorbeeld het aantal keren dat iemand een bepaald woord zegt te tellen. Een nadeel van die methode is dat je daarmee veel informatie verliest, wat juist het grootste pluspunt is van deze vorm van dataverzameling. Een andere optie is inhoudsanalyse. Dit wordt verder besproken in Chapter 7.
Om het probleem van coderen en analyseren van de data te voorkomen kun je ook gebruiken maken van een vaste opzet (fixed format). Hierbij wordt een gestructureerd, van te voren bepaalde, set vragen gespecificeerd. De vragen worden ook wel items genoemd. De antwoorden op deze vragen zijn gestructureerder dan in een vrije opzet. Het belangrijkste voordeel is dat het daardoor makkelijker is om de data te coderen en te vergelijken (analyseren). Het belangrijkste nadeel is dat je met een gestructureerde, vaste opzet interessante data verliest. Je weet bijvoorbeeld niet waarom iemand antwoord A kiest, terwijl je dat met een hardop-denken protocol wel zou kunnen registreren. Ook binnen de vaste opzet zijn verschillende schalen te onderscheiden. De bekendste is de Likert schaal, die veel wordt gebruikt om opinies en overtuigingen te meten. Een Likert schaal bestaat uit een serie items (vragen) waarbij de mate van instemming wordt gemeten. Een voorbeeld is de Rosenberg self-esteem (zelfvertrouwen) schaal. Deze schaalt bestaat uit tien items (beweringen). De respondent geeft voor ieder item aan in hoeverre hij of zij het daarmee eens is op een schaal van 1 tot 4, waarbij 1 betekent 'zeer oneens', 2 'oneens', 3 'eens', en 4 'zeer eens'. Zoals je ziet is er geen neutrale categorie en wordt de respondent bij deze schaal dus gedwongen om een kant te kiezen. In een 5-punts schaal is de categorie 'neutraal' wel opgenomen. Zoals eerder gezegd kun je met een vaste opzet niet alle informatie achterhalen. Het kan bijvoorbeeld voorkomen dat iemand bij het invullen van de vragenlijst overal 'zeer eens' kiest. Is diegene het dan ook echt eens met alle beweringen? Of heeft diegene de vragen helemaal niet gelezen en gewoon iets ingevuld om er snel vanaf te zijn? Een andere optie is het gebruik van een semantisch differentieel. Hierbij staat het onderwerp of de stelling bovenaan, gevolgd door twee adjectieven (tegenstellingen). De respondent wordt gevraagd de categorie te selecteren die het beste zijn of haar gevoelens vertegenwoordigd. Een voorbeeld:
Sporten is voor mij:
-3 | -2 | -1 | 0 | +1 | +2 | +3 | ||
---|---|---|---|---|---|---|---|---|
Belangrijk | - | - | - | - | - | - | - | Onbelangrijk |
Een beloning | - | - | - | - | - | - | - | Een verplichting |
Leuk | - | - | - | - | - | - | - | Vervelend |
Wat zijn (directe) gedragsmetingen?
Een derde optie is de Guttman schaal. De Guttman schaal is een schaal waarbij de items geordend zijn op basis van 'moeilijkheid'. Het idee hierachter is dat als iemand een (hoger/moeilijker) item bevestigd, alle daaropvolgende (lagere) items ook zal bevestigen. Een Guttman schaal wordt gebruikt om de mate van een conceptuele variabele te meten.
Een alternatief voor indirecte zelf-rapportage metingen zijn directe gedragsmetingen. Directe gedragsmetingen kunnen gebaseerd zijn op bijvoorbeeld: frequentie, duur, intensiteit, latentheid, en snelheid. Een aantal voorbeelden:
Over het algemeen zijn gedragsmetingen minder reactief dan zelf-rapportage metingen, met name wanneer (a) de participant niet doorheeft dat hij of zij wordt gemeten, (b) niet weet wat er precies wordt gemeten, en (c) zijn of haar reactie niet kan veranderen, zelfs al zou diegene dat willen. Dat laatste punt geldt met name voor psychofysiologische metingen waarbij fysiologische metingen, zoals EEG, MRI, en hartslag worden gebruikt om psychologische constructen te meten, zoals nervositeit, stress, en angst.
Hoofdstuk 4 gaat over meten: wat te meten, hoe te meten, en hoe te bepalen of de meting geschikt en effectief is.
In het vorige hoofdstuk is behandeld hoe conceptuele variabelen worden geoperationaliseerd tot meetbare variabelen. Maar hoe bepaal je of die meetbare variabelen ook daadwerkelijk meten wat jij beoogt te meten? In hoofdstuk 5 worden verschillende technieken besproken om de relatie tussen de conceptuele variabele en de gemeten variabele te evalueren.
Iedere meting kent fluctuaties (schommelingen). Deze fluctuaties worden ook wel random error genoemd. De Nederlandse vertaling, willekeurige fouten, geeft al een goed beeld van wat het begrip inhoudt. Random errors zijn willekeurige fluctuaties die bijvoorbeeld worden veroorzaakt doordat de respondent een vraag verkeerd leest of verkeerd begrijpt. Ook kan het voorkomen dat de codeur een fout maakt en per ongeluk een vraag goed (of juist fout) rekent. Kenmerkend voor random error is dat deze fluctuaties elkaar opheffen. Ter illustratie: de ene keer rekent de codeur een antwoord foutief goed en even later rekent de codeur een goed antwoord fout. Het netto resultaat, de somscore op de test, blijft gelijk. De twee fouten heffen elkaar dus op. Hier tegenover staat systematische error, waarbij de fluctuaties elkaar niet opheffen. Dit komt doordat een andere variabele (buiten het onderzoeksdesign) invloed uitoefent op de meetbare variabele. Deze variabele(n) zorgen daardoor voor een systematische stijging of daling van de scores op de meetbare variabele. Stel je wilt angst meten onder brugklassers. Een mogelijke factor van systematische error kan ontstaan door zelfvertrouwen: individuen met meer zelfvertrouwen scoren systematisch lager op angst dan individuen met weinig zelfvertrouwen. Wanneer je zelfvertrouwen dus niet opneemt in het onderzoeksdesign, kan dat tot systematische error leiden. Hoewel er geen waterdichte methode is om te bepalen of de gemeten variabelen vrij zijn van random en systematische error, zijn er wel bepaalde technieken die een beeld kunnen schetsen van de accuraatheid van de meting. Verschillende van deze technieken worden in de volgende paragrafen besproken.
De betrouwbaarheid is de mate waarin een meting vrij is van random error. Bij het berekenen van de betrouwbaarheid kunnen, in theorie, de volgende formules worden opgesteld.
Gemeten score = ware score + random error
De betrouwbaarheid is dan de proportie van de gemeten score die de ware score reflecteert:
Betrouwbaarheid = ware score / gemeten score
Aangezien de random error zichzelf opheft, hoef je die dus niet mee te nemen bij de bepaling van de betrouwbaarheid. Wanneer er geen enkele sprake is van systematische error, dan is de ware score identiek aan de gemeten score en is de betrouwbaarheid dus 1. Hoewel dit in theorie een niet al te ingewikkelde som is om de betrouwbaarheid te berekenen, weet je in de praktijk natuurlijk nooit echt wat de 'ware' score is. Je weet alleen de gemeten score. Daarom zijn er verschilende manieren om de betrouwbaarheid van een meting te schatten. In het boek worden vier verschillende manieren besproken om de betrouwbaarheid te bepalen:
Deze vier worden hieronder stuk voor stuk behandeld.
De test-hertest betrouwbaarheid geeft aan in welke mate de scores op dezelfde variabele, op twee verschillende momenten met elkaar correleren (samenhangen). In het ideale geval, wanneer de test volledig betrouwbaar is en de conceptuele variabele niet veranderd met de tijd, zou de correlatie tussen twee verschillende metingen r = 1.00 moeten zijn. In de praktijk is dit natuurlijk bijna nooit het geval, omdat er (bijna) altijd sprake is van random error. Iemand kan bijvoorbeeld door vermoeidheid of slecht lezen net een (ander) foutje maken. Een andere beperking van deze methode wordt gevormd door het leereffect. Vaak onthouden participanten (een deel van) de vragen. Ze hebben dus geleerd van de eerste test en de tweede meting is daarmee beïnvloedt door de eerste. Dit kan zich zowel uiten in hogere testsscores op bijvoorbeeld een schooltoets, als ook bijvoorbeeld het aannemen van een heel ander standpunt bij een opinie vragenlijst (want waarom zou de interviewer anders twee keer dezelde vraag stellen?). Een manier om het leereffect te beperken is door het tijdsinterval tussen de twee meting langer te maken, zodat de respondenten zich hopelijk niet zoveel meer herinneren van de eerste meting. Echter weet je nooit zeker wat ze zich nog wel herinneren van de eerste meting. Daarnaast is het om praktische redenen ook niet altijd haalbaar om een lange periode tussen de metingen te hebben ('tijd is geld').
Om een deel van de problemen van de test-hertest op te vangen, kan men ook gebruik maken van de equivalente vormen methode. Hierbij worden op twee verschillende momenten, twee verschillende maar equivalente (gelijkwaardige) versies van dezelfde meting gegeven. Ook hier wordt de correlatie tussen de twee metingen beschouwd als een mate van betrouwbaarheid van het instrument. Door gelijkwaardige, maar dus niet identieke versies toe te passen, verklein je het risico op een leereffect en kan je de tijd tussen de twee metingen mogelijk verkorten.
Bij zowel de test-hertest als equivalente vormen methode is de onderliggende assumptie dat de conceptuele variabele niet veranderd over de tijd. Voor sommige variabelen is dit inderdaad een realistische verwachting. Met name karaktertrekken zijn over het algemeen vrij stabiel over de tijd. Karaktertrekken of -eigenschappen zijn bijvoorbeeld optimisme, intelligentie, en vriendelijkheid. Iemand die op dinsdag optimistisch is, is dat waarschijnlijk op vrijdag ook. Andere conceptuele variabelen zijn minder stabiel. Dit zijn vaak persoonlijkheids variabelen die binnen een individu in een korte periode kunnen wisselen. Een voorbeeld hiervan is stresslevel. Iemand die woensdag het laatste tentamen heeft, zal op vrijdag waarschijnlijk een veel lager stressniveau hebben dan op dinsdag (de dag voor het tentamen). Omdat binnen gedragswetenschappelijk onderzoek vaak dergelijke persoonlijkheidsvariabelen worden onderzocht, zijn altenatieve vormen van betrouwbaarheid nodig, die rekening houden met deze fluctuaties over de tijd. Een manier om dan de betrouwbaarheid te beoordelen is aan de hand van de interne consistentie.
Interne consistentie is de mate waarin de scores op de items -van hetzelfde instrument- correleren (met elkaar samenhangen). In andere woorden, het geeft aan in welke mate de items de ware score (true score) meten in plaats van random error. Terugkomend op de Rosenberg self-esteem scale betekent het dat iemand die op vraag 1 bovengemiddeld scoort (dus veel zelfvertrouwen heeft), ook op de andere vragen bovengemiddeld zal scoren. In dat geval is de correlatie in theorie perfect, dus r = 1.00. Wanneer de correlatie (beduidend) lager is dan 1.00, dan geeft dat aan dat er of sprake is van random error, of dat de items niet hetzelfde meten. Er zijn verschillende manieren om de interne consistentie te meten.
De eerste procedure wordt ook wel split-half betrouwbaarheid genoemd. Dit is de simpelste procedure, waarbij de items op een vragenlijst worden verdeeld in twee groepen. Met andere woorden, voor iedere participant worden de antwoorden dus verdeeld in twee groepen. Dit kan bijvoorbeeld door alle even items te scheiden van alle oneven items. Vervolgens wordt de correlatie tussen deze twee helften berekend. Wanneer de schaal betrouwbaar is, zal de correlatie bij benadering 1 zijn. Een nadeel van deze methode is dat het alleen maar een beperkt aantal van de mogelijke correlaties tussen items gebruikt.
De meest gebruikte methode is dan de Chronbach's coefficient alpha, ook wel aangeduid als α. Dit is een index van interne consistentie waarbij alle mogelijke combinaties tussen items zijn meegenomen. Chronbach's alfa is een schatting van de gemiddelde correlatie tussen alle items van het instrument. Het is een gemiddelde van alle mogelijke split-half betrouwbaarheden. Chronbach's alfa heeft een range van [0; 1], waarin 0 betekent dat de meting volledig uit error bestaat en een 1 betekent dat de meting helemaal vrij is van error (dus gemeten score = ware score; betrouwbaarheid = 1).
De derde methode is het berekenen van de item-totaal correlaties. Dit zijn de correlaties tussen een individueel item en de totaalscore op de schaal zonder dat item. Items die laag correleren met de totaalscore meten waarschijnlijk iets anders en kunnen worden verwijderd. Deze procedure resulteert dan ook vaak in een kortere schaal (minder items), maar met een hogere betrouwbaarheid.
De bovenstaande drie methoden worden vooral toegepast bij zelfrapportage metingen. Een andere belangrijke component in gedragswetenschappelijk onderzoek zijn gedragsmetingen. Hierbij komen vaak codeurs kijken, die het gedrag van participanten scoren op een bepaalde schaal. Ook hier is het belangrijk dat de meting betrouwbaar is. Een maat om de interne consistentie tussen verschillende codeurs te berekenen is de interrater betrouwbaarheid. Wanneer de scores kwantitatief zijn, bijvoorbeeld op een schaal van 0 tot 10, dan kan Chronbach's alfa worden gebruikt. Wanneer de variabelen nominaal zijn, dan is een andere index nodig. De meest gebruikte index in het geval van nominale variabelen (bijvoorbeeld goed - matig - slecht) is de kappa (κ). Net als de alfa, heeft de kappa een range van 0 tot 1, waarbij 0 aangeeft dat het oordeel van de codeurs volledig willekeurig is en 1 aangeeft dat er een perfecte overeenkomst is tussen de codeurs. Let hierbij op dat de waarde 0 dus niet betekent dat er geen enkele overeenstemming is tussen codeur A en codeur B. Op basis van toeval zal altijd een bepaald percentage van de codes met elkaar overeestemmen (afhankelijk van het aantal categorieën). De kappa houdt rekening mee deze kans op toeval en corrigeert daarvoor (corrected for chance of agreement).
In de voorgaande paragrafen is de betrouwbaarheid behandeld: de mate waarin een meting vrij is van (random) error. Maar zelfs al is een meting 100% betrouwbaar, dan zegt dit nog niet dat de meting ook daadwerkelijk meet wat je wilt meten. Bijvoorbeeld: een onderzoeker meet de snelheid waarmee kleuters hun veters kunnen strikken. De onderzoeker herhaalt deze meting een week later en vindt een 100% overeenkomst met de eerste meting. De onderzoeker concludeert hieruit dat de meting betrouwbaar is. Stel nu dat de onderzoeker hiermee beweert de conceptuele variabele intelligentie te hebben gemeten. Ben je het daar mee eens? Dit is een voorbeeld van een meting die hoog scoort op betrouwbaarheid, maar laag op construct valditeit. Construct validiteit is de mate waarin de gemeten variabele daadwerkelijk de conceptuele variabele (het construct) meet. In andere woorden, het zegt iets over of de meting meet wat je beoogt te meten. Zoals je in het voorbeeld over veters strikken kon lezen, is een hoge betrouwbaarheid geen garantie voor een hoge constructvaliditeit. Dat een meting betrouwbaar is, wil dus niet zeggen dat het valide is (dat het meet wat je wilt meten). Er zijn vier verschillende manieren om de construct validiteit te bepalen:
Indruksvaliditeit (face validity) is de mate waarin een gemeten variabele een adequate meting van de conceptuele variabele lijkt te zijn. Het gaat dus om een subjectief oordeel. Als je terugdenkt aan het voorbeeld over veters strikken, dan zul je waarschijnlijk bij het lezen al gedacht hebben dat veters strikken niet een goede maat lijkt te zijn voor intelligentie. Op basis van deze indruk kun je dus beweren dat de meting een lage indruksvaliditeit heeft. Toch is indruksvaliditeit niet altijd noodzakelijk voor een meting. Soms is het zelfs beter om een lage indruksvaliditeit te hebben. Stel, je wilt racisme onder Nederlandse studenten meten. Twee van de items uit de vragenlijst zijn:
Ik heb een hekel aan uitwisselingsstudenten:
Sterk mee oneens | 1 | 2 | 3 | 4 | 5 | 6 | 7 | Sterk mee eens |
Nederlandse studenten zijn slimmer dan uitwisselingsstudenten:
Sterk mee oneens | 1 | 2 | 3 | 4 | 5 | 6 | 7 | Sterk mee eens |
Deze items lijken op het eerste gezicht een hoge indruksvaliditeit te hebben. Echter is er een reeële kans dat studenten deze items niet eerlijk durven in te vullen, omdat ze een bepaalde sociale druk voelen, helemaal wanneer de onderzoeker of andere studenten meekijken. In zo'n geval is het misschien juist beter als de items een lage indruksvaliditeit hebben en de respondent dus niet meteen doorheeft wat er wordt gemeten. In dat geval is de respondent waarschijnlijk eerder geneigd om een eerlijk antwoord in te vullen. Kortom, niet alle metingen die een hoge indruksvaliditeit hebben zullen ook een hoge construct validiteit hebben.
Inhoudsvaliditeit (content validity) is de mate waarin een gemeten variabele een goede dekking van het volledige domein van de conceptuele variabele lijkt te zijn. Een voorbeeld is de Cito toets (de gemeten variabele), waarmee men de schoolse vaardigheden (conceptuele variabele) beoogt te meten. De cito toets bevat vragen over spelling, grammatica, begrijpend lezen, rekenen, geschiedenis, aardrijksunde enzovoort. Dit instrument lijkt veel domeinen van schoolse vaardigheden te dekken en heeft daarmee een hoge inhoudsvaliditeit. Wanneer een test bijvoorbeeld alleen maar vragen over geschiedenis en rekenen bevat, en de conceptuele variabele is nog steeds (algemene) schoolse vaardigheden, dan dekt de meting slechts een deel van het domein. De inhoudsvaliditeit is dan lager.
Convergente en discriminatie (divergente) validiteit zijn gebaseerd op basis van onderstaande logica:
Als een gemeten variabele x daadwerkelijk de conceptuele variabele X meet, dan zou het moeten correleren met andere variabelen die ook zijn ontworpen om X te meten. Bovendien zou x juist niet moeten correleren met variabelen die zijn ontworpen om andere, niet-gerelateerde conceptuele variabelen te meten.
Convergente validiteit (convergent validity) is de mate waarin een gemeten variabele gerelateerd is aan andere gemeten variabelen die zijn ontworpen om dezelfde conceptuele variabele te meten. In tegenstelling tot indruks- en inhoudsvaliditeit, wordt convergente validiteit niet bepaald op basis van een oordeel, maar op basis van data. Convergente validiteit is daarmee een meer objectieve methode om de validiteit te bepalen. Stel, je wilt zelfwaardering meten. Je hebt hiervoor zelf een vragenlijst ontworpen bestaande uit tien vragen. Een manier om de convergente validiteit te meten is door zowel deze vragenlijst af te nemen als ook een andere vragenlijst die zelfwaarding beoogt te meten (bijvoorbeeld de Rosenberg self-esteem scale). Wanneer de correlatie tussen deze twee instrumenten hoog is, dan kun je zeggen dat jouw instrument een goede convergente validiteit heeft.
In tegenstelling tot convergente validiteit, is discriminatie validiteit (discriminant validity) de mate waarin een gemeten variabele ongerelateerd is aan andere gemeten variabelen die zijn ontworpen om andere conceptuele variabelen te meten. Discriminatie validiteit wordt ook wel divergerende validiteit genoemd. Terugkomend op het voorbeeld met de zelf-ontwikkelde vragenlijst om zelfwaarding te meten, kun je de discriminatie validiteit testen door een andere vragenlijst af te nemen die iets (heel) anders beoogt te meten, bijvoorbeeld een vragenlijst over angst. Wanneer de correlatie tussen deze twee vragenlijsten laag is, dan is de discriminatie validiteit van de zelf-ontwikkelde vragenlijst hoog.
Convergente en discriminatie validiteit zijn geen 'alles of niets' vormen van validiteit. In de praktijk is er bijna altijd wel een bepaalde mate van samenhang tussen twee metingen, zelfs als die niets met elkaar te maken hebben. Een correlatie van nul komt zelden voor. Omgekeerd komt een perfecte correlatie (r = 1) ook bijna nooit voor in de praktijk. Je kunt deze vormen dus niet gebruiken om een 100% garantie te geven van de construct validiteit van een gemeten variabele. Daarnaast moet je er ook rekening mee houden dat de gemeten variabele die je gebruikt als criterium (benchmark) wellicht ook niet een perfecte construct validiteit heeft. Samengevat kunnen we dus stellen dat de construct validiteit niet perfect kan worden bepaald, maar dat de vier besproken methoden (indruk, inhoud, convergentie, discriminatie) een schatting geven van de construct validiteit.
Criterium validiteit is een maat om de construct validiteit te bepalen aan de hand van de correlatie tussen een zelf-rapportage meting en een gedragsmeting. Een voorbeeld hiervan is het meten van de correlatie tussen de score op een vragenlijst over angst (met items zoals 'hoe vaak voelde jij je angstig de afgelopen week?') en de score op een gedragsmeting (bijvoorbeeld een observatie of het meten van de hartslag). Wanneer de correlatie tussen deze twee verschillende typen metingen hoog is, dan is de criterium validiteit hoog. Binnen criterium validiteit zijn twee typen te onderscheiden: predictieve en concurrente validiteit.
Predictieve validiteit is een vorm van criterium validiteit waarbij geprobeerd wordt om toekomstig gedrag te voorspellen. De Cito toets is bijvoorbeeld niet alleen een toets om de huidige schoolprestaties te bepalen, maar het probeert ook te voorspellen hoe kinderen op de middelbare school zullen presteren. Wanneer er een hoge samenhang is tussen de Cito toets en de cijfers op de middelbare school, dan is er dus sprake van een hoge predicteive validiteit.
Concurrente validiteit is een vorm van criterium validiteit waarbij de zelf-rapportage meting en de gedragsmeting op hetzelfde moment worden gemeten. Een voorbeeld hiervan is het invullen van een vragenlijst over angst, terwijl op datzelfde moment de respondent een hartslagmeter draagt om de hartslag te bepalen.
In de paragrafen hierboven hebben we verschillende manieren behandeld om de betrouwbaarheid en validiteit van een meting te bepalen. Daarbij zijn al verschillende bedreigingen voor de betrouwbaarheid en validiteit voorbij gekomen, zoals bijvoorbeeld sociale wenselijkheid (bij indruksvaliditeit), subjectiviteit (bij indruks- en inhoudsvaliditeit) en afhankelijkheid van de validiteit van de vergelijkende variabelen (bij convergente en discriminatie validiteit). Bij het ontwerpen van een onderzoek is het belangrijk om op de hoogte te zijn van mogelijke bedreigingen voor de betrouwbaarheid en validiteit. Gelukkig zijn er verschillende manieren om de betrouwbaarheid en validiteit van een meting te verhogen:
De overeenkomst tussen betrouwbaarheid en validiteit is dat beiden worden bepaald aan de hand van correlaties tussen gemeten variabelen. Het verschil is dat betrouwbaarheid gaat over de correlatie tussen verschillende variabelen die de onderzoeker wil combineren tot één meting om de conceptuele variabele te meten, terwijl validiteit gaat over de correlatie met andere metingen voor andere conceptuele variabelen. Aan het begin van het hoofdstuk werd al besproken dat een betrouwbaar instrument niet per definitie valide is. Daarbij komt nog dat betrouwbaarheid een voorwaarde is voor validiteit. Het is dus belangrijk om eerst de betrouwbaarheid te bepalen en pas als een instrument betrouwbaar wordt bevonden te kijken naar de validiteit. In andere woorden: betrouwbaarheid is geen garantie voor validiteit, maar wel een noodzakelijke voorwaarde. Vaak wordt als algemene richtlijn aangenomen dat een schaal een betrouwbaarheid moet hebben van minstens α = .70 (hoewel in de praktijk de meeste tests een alfa hebben van minstens .80).Over het algemeen is het bepalen van de betrouwbaarheid makkelijker dan het bepalen van de construct validiteit. Bij de betrouwbaarheid hoef je in principe alleen maar een correlatie te meten tussen items die hetzelfde meten, terwijl je bij construct validiteit ook kijkt naar de correlatie tussen variabelen die iets anders beogen te meten (discriminatie validiteit).
In het vorige hoofdstuk is behandeld hoe conceptuele variabelen worden geoperationaliseerd tot meetbare variabelen. Maar hoe bepaal je of die meetbare variabelen ook daadwerkelijk meten wat jij beoogt te meten? In hoofdstuk 5 worden verschillende technieken besproken om de relatie tussen de conceptuele variabele en de gemeten variabele te evalueren.
In de eerste hoofdstukken van dit boek hebben we besproken welke typen variabelen er zijn en hoe we de effectiviteit van een gemeten variabelen kunnen bepalen. In de komende hoofdstukken gaan we bespreken hoe we deze variabelen kunnen gebruiken in beschrijvend onderzoek. Beschrijvend onderzoek heeft als doel om de huidige stand van zaken te beschrijven zonder dat het een directe methode biedt voor het testen van onderzoekshypothesen.
Een survey is een reeks van zelf-rapportage metingen die worden afgenomen middels een interview of geschreven vragenlijst. Surveys zijn de meestgebruikte methode om beschrijvende informatie over een groep mensen te verzamelen. Denk bijvoorbeed maar eens aan alle mails en telefoontjes die je hebt ontvangen, waarin wordt gevraagd of je deel wilt nemen aan een survey. Het doel van een survey is, net als bij beschrijvend onderzoek in het algemeen, om een beeld te krijgen van de huidige stand van zaken (bijvoorbeeld opinies, attitudes, gedrag van een groep).
De eerste, en meest gebruikte, vorm van surveys zijn interviews. Een interview kan worden afgenomen in direct contact met de respondent (face-to-face) of via de telefoon. Een face-to-face interview waarbij de vragen rechtstreeks aan de respondent worden gesteld, heeft als voordeel dat de interviewer lichaamssignalen kan opvangen en daardoor een indicatie krijgt van de openheid en eerlijkheid van de respondent. Het grootste nadeel is de prijs van face-to-face interviews: dit is een erg dure en tijdrovende methode om uit te voeren. Een alternatief daarvoor zijn telefonische interviews. Dit scheelt enorm veel tijd en geld, maar verhindert een direct, fysiek contact met de respondent.
Los van de methode van uitvoeren is er ook nog een onderscheid tussen het format (de opzet) van het interview. Een onderzoeker kan kiezen voor een gestructureerd interview waarbij de vragen van tevoren worden opgesteld. Het belangrijkste voordeel hiervan is dat antwoorden tussen respondenten vergelijkbaar zijn, omdat de vragen, de duur, en het antwoord format gelijk zijn voor alle respondenten. Aan de andere kant kan een ongestructureerd interview, waarbij de interviewer vrij praat met de respondent, meer de diepte in gaan op bepaalde onderwerpen. Bij een ongestructureerd interview is er vooraf wel een lijst met onderwerpen gemaakt, maar de vragen en tijdsduur per vraag/onderwerp staan niet vast. Hiervoor zijn goed getrainde interviewers nodig. Een voorbeeld van een ongestructureerd face-to-face interview is een focus groep. Een focus groep bestaat uit een groep mensen die allemaal tegelijkertijd worden geïnterviewd. ZIj delen ideeën met elkaar en met de interviewer.
De tweede vorm van surveys zijn vragenlijsten. Een vragenlijst bestaat uit een vaste vorm met zelf-rapportage items. Respondenten kunnen dit vaak op hun eigen tempo invullen zonder supervisie van een onderzoeker. Ten opzichte van interviews zijn vragenlijsten (1) goedkoper (2) minder gevoelig voor eigenschappen van de onderzoeker (3) minder gevoelig voor sociale wenselijkheid. Bij een gevoelig onderwerp zal een respondent waarschijnlijk eerder een vragenlijst eerlijk invullen dan een survey. Een nadeel van de vragenlijsten is de vaak lage response rate (het percentage mensen dat de vragenlijst invult en inlevert). Manieren om de response rate te verhogen zijn het aanbieden van beloningen of prijzen en het sturen van een herinnering. Tot slot is een nadeel van vragenlijsten dat respondenten de vragen in een andere volgorde kunnen invullen en daardoor bepaalde termen of vragen anders interpreteren en dus anders invullen.
Het is zelden mogelijk om een census (volkstelling) uit te voeren waarbij alle personen worden gemeten waarover we wat willen zeggen. Vrijwel altijd moet de onderzoeker zich beperken tot een bepaalde subset (sample) van de grote groep (populatie) waarover hij of zij uitspraken wil doen. De procedure waarbij een subset van individuen wordt geselecteerd, wordt ook wel sampling of steekproeftrekking genoemd. Het is belangrijk dat zo'n steekproef een goede representatie vormt van de populatie. Met andere woorden, een representatieve sample (steekproef) is een steekproef die bij benadering op ieder aspect gelijk is aan de populatie. Wanneer de populatie bijvoorbeeld 'universitteitsstudenten' is, dan heeft een representatieve steekproef bij benadering dezelfde proportie mannen, eerstejaars studenten, psychologie studenten enzovoort. Om zo'n representatieve steekproef te krijgen zijn er verschillende technieken van sampling mogelijk. Deze verschillende technieken zullen we hieronder stuk voor stuk bespreken.
In een aselecte (willekeurige, kans) steekproeftrekking heeft iedere persoon in de populatie een evengrote kans om in de steekproef terecht te komen. Dit vergroot de kans op een representatieve steekproef en de mogelijkheid om gevolgtrekkingen (inferenties) op te stellen over de populatie.
De enkelvoudige aselecte steekproeftrekking wordt in het Engels ook wel Simple Random Sampling (SRS) genoemd. Iedere persoon uit de populatie heeft een even grote kans om te worden geselecteerd. Voor deze methode is een sampling frame nodig: een lijst met alle mensen in de populatie. Vervolgens trekt de onderzoeker hier random een X aantal personen uit. DIt kan bijvoorbeeld met een random (willekeurige) getallen generator op de computer.
Wanneer je weet dat een sampling frame zelf al willekeurig is (dus niet bijvoorbeeld op alfabetische volgorde), dan kun je gebruik maken van een systematische steekproeftrekking met aselect begin. Hierbij selecteer je willekeurig een begin getal. Stel, je wilt 100 studenten selecteren uit de populatie van 5000 studenten. Dat betekent dat je één op de 50 studenten wilt selecteren. Dan kies je willekerig een getal tussen de 1 en de 50 en neemt vervolgens steeds stappen van 50. Stel, het eerste willekeurige nummer is 15, dan selecteer je dus persoon 15, 65, 115, 165 enzovoort. In tegenstelling tot een enkelvoudige aselecte steekproeftrekking, hoef je bij deze methode dus maar één willekeurig getal te kiezen.
Binnen een populatie kunnen er subgroepen bestaan met andere eigenschappen. Binnen de populatie psychologie studenten zullen er bijvoorbeeld meer vrouwen dan mannen zijn. Deze subgroepen binnen een populatie worden strata (enkelvoud: stratum) genoemd. Wanneer de indeling in subgroepen wordt meegenomen in de steekproeftrekking, dan spreekt men van een gestratificeerde steekproeftrekking. Hiervan zijn twee varianten. Bij een proportionele gestratificieerde steekproeftrekking wordt eerst voor iedere subgroep een frame (lijst) opgesteld van alle mensen in die subgroep (stratum). Vervolgens wordt er een willekeurige steekproef getrokken voor ieder stratum. Een voorbeeld is wanneer je een lijst maakt van alle psychologiestudenten en die opsplitst aan de hand van welke minor de studenten hebben gevolgd. Vervolgens trek je een willekeurige steekproef van studenten voor iedere minor, waarbij je rekening houdt met de relatieve grootte van de subgroep. Wanneer bijvoorbeeld 50% van de studenten de minor sportpsychologie volgt, zul je dus ook (bij benadering) 50% van de totale steekproef uit dit stratum trekken. Hoewel dit de kans op een representatieve steekproef vergroot, is het niet altijd wenselijk. Wanneer bijvoorbeeld maar 1% van de studenten de minor psychometrie en statistiek volgt, dan is deze groep te klein om betekenisvolle conclusies over te kunnen trekken. De onderzoeker kan er dan bewust voor kiezen voor oversampling door middel van een disproportionele gestratificeerde steekproef. Hierbij wordt dus niet de proportie als criterium gehanteert, maar meer een absoluut aantal. Terugkomend over het voorbeeld van psychologiestudenten, zou je er bijvoorbeeld voor kunnen kiezen om minstens 100 studenten per minor te selecteren.
Er is niet altijd een lijst beschikbaar van alle personen in de populatie. Er is bijvoorbeeld geen lijst van alle wiskunde studenten in de Verenigde Staten beschikbaar. In zo'n geval kun je gebruik maken van cluster steekproeftrekking. Dit wordt ook wel twee- of meertrapsstreekproeftrekking genoemd. Eerst wordt de populatie in kleine groepen (clusters) verdeeld. Vervolgens wordt er een steekproef van clusters getrokken uit alle mogelijke clusters. Daarna wordt er binnen ieder cluster een steekproef getrokken. Bijvoorbeeld: eerst worden er willekeurig tien staten gekozen. Daarna worden er binnen die tien staten willekeurig 10 scholen geselecteerd (dus 100 scholen in totaal). Vervolgens worden er binnen die scholen willekeurig 10 klassen geselecteerd per school en worden alle leerlingen van die klassen geselecteerd voor de steekproef. Een cluster steekproeftrekking bestaat dus uit meerdere lagen van steekproeftrekkingen.
In theorie is een aselecte steekproeftrekking de beste methode om een representatieve steekproef te krijgen. In de praktijk zitten er enkele nadelen aan deze methode. Allereerst is er niet altijd een lijst beschikbaar van alle personen in de populatie. Ten tweede is het lastig om er zeker van te zijn dat de steekproef daadwerkelijk representatief is voor de populatie. Er kan sampling bias optreden, wanneer de kans om in de steekproef terecht te komen onbeked is of anders is dan verwacht. Dit kan gebeuren wanneer de lijst bijvoorbeeld niet volledig is of wanneer er fouten in staan. Bijvoorbeeld wanneer nieuwe studenten nog niet op de lijst staan of wanneer studenten die recentelijk zijn verhuisd nog wel op de lijst staan. In andere gevallen is er simpelweg helemaal geen lijst beschikbaar, denk bijvoorbeeld aan daklozen. In zo'n geval moet de onderzoeker zich richten tot een selecte steekproef, waarbij personen uit de populatie een onbekende of ongelijke kans heben om te worden geselecteerd voor de steekproef. Twee bekende vormen van selecte steekproeftrekking zijn de sneeuwbal methode en de gemakssteekproeftrekking. Bij de sneeuwbalsteekproeftrekking begint de onderzoeker met één persoon. Daarna vraagt de onderzoeker aan deze persoon of hij of zij nog andere personen kent binnen de doelpopulatie. Deze personen worden gecontacteerd om deel te nemen aan het onderzoek. Vervolgens wordt ook aan deze personen gevraagd of zij nog anderen kennen binnen de doelgroep. De onderzoeker gaat net zo lang door tot er voldoende participanten zijn. De tweede methode is de gemakssteekproef. Hierbij worden participanten geselecteerd die direct (gemakkelijk) bereikbaar zijn. Een voorbeeld is wanneer een onderzoeker een onderzoek afneemt bij de studenten die hij of zij lesgeeft, of een verzoek tot deelname aan een onderzoek stuurt naar alle personen in zijn of haar contactlijst. Bij deze manier van steekproeftrekking kan er serieus getwijfeld worden aan de representativiteit van de steekproef. Deze manier van steekproeftrekking mag dan ook niet worden gebruikt om gevolgtrekkingen op te stellen voor de populatie.
Na het trekken van een steekproef en het verzamelen van data, is het tijd om de data te analyseren en samen te vatten. Stel je hebt 500 personen geïnterviewd. Iedere persoon heeft 40 vragen beantwoord. Dat betekent dat je 20,000 items beschikbaar hebt om te onderzoeken. De verzamelde gegevens (ruwe data) op zichzelf zijn niet direct betekenisvol te interpreteren. De ruwe data moet eerst worden omgezet in samengevatte maten. Hiervoor zijn verschillende procedures beschikbaar. We zullen er een aantal bespreken.
Een frequentie distributie (verdeling) is een tabel waarin staat hoeveel (en/of welk percentage) individuen in een bepaalde categorie vallen. Een voorbeeld staat hieronder:
Karakteristiek | Frequentie (n) | Percentage |
man | 150 | 37.5 |
vrouw | 250 | 62.5 |
Totaal | 400 | 100 |
Een variant hierop is de gegroepeerde frequentie distributie, waarbij meerdere waardes gecombineerd zijn in één categorie en vervolgens de frequenties voor iedere (nieuwe) categorie worden gegeven. Een voorbeeld:
Leeftijdsgroep | Frequentie (n) | Percentage |
< 21 jaar | 25 | 35.7 |
21-30 jaar | 10 | 14.3 |
31-40 jaar | 10 | 14.3 |
41-50 jaar | 5 | 7.1 |
> 50 jaar | 20 | 28.6 |
Totaal | 70 | 100 |
Een frequentie distributie kan ook met plaatjes worden weergegeven, bijvoorbeeld in een staafdiagram. Wanneer er sprake is van ee gegroepeerde frequentie distributie, dan kun je gebruik aken van eeen histogram. Een histogram lijkt op een staafdiagram, maar is anders doordat de 'stafen' elkaar raken. Dit geeft aan dat de originele variabele kwantitatief is. Kijk maar naar het voorbeeld in de tabel hierboven. De categorieën lopen precies in elkaar over. Andere voorbeelden van grafische weergaven zijn: frequentie curve en steel en blad diagram. Een voorbeeld van een stam en blad diagram voor leeftijden staat hieronder.
Stam | Blad |
10 | 1367 |
20 | 472 |
30 | 28499 |
40 | 007 |
In dit voorbeeld staan de leeftijden van 15 personen. Links staat de stam, het tiental in dit geval. Rechts staan de eenheden. De jongste persoon is bijvoorbeeld 11 jaar oud. De oudste persoon is 47 jaar oud.
Beschrijvende statistieken zijn getallen die patronen van gemeten variabelen samenvatten. Zo'n patroon wordt ook wel de distributie of verdeling genoemd. Er zijn verschillende maten om de centrale tendens (het punt waar de distributie zich centreert) en de spreiding samen te vatten.
Voorbeelden van centrummaten zijn: het gemiddelde, de mediaan en de modus. Het gemiddelde is de meest gebruikte centrummaat. Het gemiddelde kun je berekenen door de som van alle scores te delen door het aantal participanten (N). Stel, de scores van 5 studenten op het tentamen statistiek zijn: 6.0, 6.0, 6.5, 7.0, 8.0 dan is het gemiddelde (6.0 + 6.0 + 6.5 + 7.0 + 8.0)/5 = 6.7. De modus is het meest voorkomende getal. In het voorbeeld is de modus 6. De mediaan is het middelste getal. In het voorbeeld is de mediaan 6.5.
Het gemiddelde, de mediaan en de modus geven een indicatie van de verdeling van de variabele. Wanneer deze drie maten (ongeveer) gelijk zijn, dan is de variabele hoogstwaarschijnlijk normaal verdeeld. In het geval van een normaalverdeling liggen de meeste punten rond het centrum, is de verdeling symmetrisch en 'klokvormig' (bell shaped). In sommige gevallen zijn er uitbijters (outliers). Uitbijters zijn extreme scores aan de uiteinden van de distributie. Uitbijters kunnen ervoor zorgen dat de distributie minder normaal verdeeld is. Een scheve distributie kan zowel positief (rechts) als negatief (links) scheef verdeeld zijn. Een rechtsscheve verdeling heeft (meer) uitbijters aan de rechterkant van de verdeling. Hierdoor trekt het gemiddelde naar de rechterkant. De volgorde van links naar rechts is dan: modus, mediaan, gemiddelde. Wanneer er (meer) uitbijters aan de linkerkant zijn, dan is de verdeling linksscheef (negatief) verdeeld. Het gemiddelde trekt dan naar de linkerkant. De volgorde van links naar rechts is dan: gemiddelde, mediaan, modus.
Naast het samenvatten van het centrum van de verdeling, zijn er ook verschillende maten om de spreiding van de verdeling aan te geven. Een verdeling met een kleine spreiding zal dus een hoge, smalle piek hebben. Een verdeling met een grote spreiding heeft een brede, langgerekte vorm. Er zijn verschillende spreidingsmaten. De simpelste is de range. De range is het bereik van de scores en krijg je door de maximale waarde minus de minimale waarde. In het voorbeeld van de tentamenscores is de range dus 8.0 - 6.0 = 2.0. Een andere, veel gebruikte maat is de gemiddelde standaarddeviatie. De gemiddelde standaarddeviatie is de score op een variabele min het gemiddelde. De vijfde persoon heeft bijvoorbeeld een positieve gemiddelde standaarddeviatie van 8.0 - 6.7 = 1.3. Wanneer je de gemiddelde standaarddeviaties kwadrateert en bij elkaar optelt, krijg je de sum of squares. Wanneer je dit vervolgens deelt door het aantal personen (N), dan krijg je de variantie (s2). Vervolgens kun je hier nog weer de wortel van nemen. Dan krijg je de standaarddeviatie (SD of s).
In het voorbeeld van de tentamenscores zijn de spreidingsmaten als volgt:
Sum of squares = (6.0 - 6.7)2 + (6.0 - 6.7)2 + (6.5 - 6.7)2 + (7.0 - 6.7)2 + (8.0 - 6.7)2 = 0.49 + 0.49 + 0.04 + 0.09 + 1.69 = 2.80
Variantie = 2.80/5 = 0.56
Standaarddeviatie = √0.56 = 0.75
In de voorgaande paragrafen hebben we besproken hoe je beschrijvende statistieken kunt gebruiken om de verdeling van de ruwe data van de steekproef samen te vatten. Hoewel dit natuurlijk interessant is, wil je uiteindelijk uitspraken doen over de populatie. Zoals we eerder hebben besproken zit er altijd een bepaalde foutenmarge of onzekerheid in metingen. Dit kan je in kaart brengen met een betrouwbaarheidsinterval of margin of error. Een betrouwbaarheidsinterval geeft aan welk percentage van de scores binnen een bepaalde range valt. Je wilt het betrouwbaarheidsinterval het liefst zo smal mogelijk hebben, omdat de 'ware' score van de populatie met een bepaalde mate van zekerheid in dat gebied valt. Een vuistregel bij betrouwbaarheidsintervallen is:
Dit heeft twee implicaties. Het betekent dat 68% van de scores van de steekproef binnen 1 standdaarddeviatie van het gemiddelde ligt (zowel links als rechts van het gemiddelde). Het betekent ook dat je met 68% zekerheid kunt zeggen dat het populatiegemiddelde in dit interval ligt. Let hierbij op dat het steekproefgemiddelde natuurlijk altijd in het betrouwbaarheidsinterval ligt, omdat het betrouwbaarheidsinterval is opgebouwd rondom het steekproefgemiddelde. Het steekproefgemiddelde op zichzelf is niet zo interessant. Je bent uiteindelijk geïnteresseerd in het populatiegemiddelde en om daar uitspraken over te kunnen doen wil je dus met zo'n hoog mogelijke zekerheid iets zeggen over de waarde van dat populatiegemiddelde.
In de eerste hoofdstukken van dit boek hebben we besproken welke typen variabelen er zijn en hoe we de effectiviteit van een gemeten variabelen kunnen bepalen. In de komende hoofdstukken gaan we bespreken hoe we deze variabelen kunnen gebruiken in beschrijvend onderzoek. Beschrijvend onderzoek heeft als doel om de huidige stand van zaken te beschrijven zonder dat het een directe methode biedt voor het testen van onderzoekshypothesen.
Naturalistisch onderzoek beschrijft en meet het dagelijks gedrag van mensen en dieren. Het kan gaan om het meten van gedrag op het moment dat het plaatsvindt, maar het kan ook gaan om gedrag dat eerder al (door anderen) is opgenomen en pas later gecodeerd. Zulke observaties leveren complexe data op, die lastig te analyseren zijn. In dit hoofdstuk worden een aantal methoden besproken om observaties van dagelijks voorkomend gedrag om te zetten in meetbare variabelen: observationeel onderzoek, case studies en archiefstudies.
Het grote voordeel van naturalistisch onderzoek is de hoge ecologische validiteit. Ecologische validiteit is de mate waarin het onderzoek is uitgevoerd in situaties die gelijkwaardig zijn aan alledaagse levensgebeurtenissen en ervaringen. Aangezien in naturalistisch onderzoek het alledaagse gedrag van mensen of dieren wordt beoordeeld en ze soms niet eens weten dat ze worden geobserveerd, is de ecologische validiteit bij dit type onderzoek dus erg hoog. Als gevolg is de reactiviteit van de participanten lager en de construct validiteit waarschijnlijk hoger.
Observationeel onderzoek is de oudste methode van onderzoek doen. Observationeel onderzoek heeft betrekking op het observeren van gedrag en het objectief vastleggen van die observaties. Binnen observationeel onderzoek kan de onderzoeker ervoor kiezen om onderdeel van de setting zelf te worden door bijvoorbeeld als werknemer tussen de fabrieksmedewekers te gaan staan die worden geobserveerd. De onderzoeker kan er ook voor kiezen om juist 'achter de schermen' te blijven, waarbij de participanten wel of niet weten dat ze geobserveerd worden. Wanneer de participant niet weet dat hij of zij wordt geobserveerd, dan kan dat interessante informatie opleveren. De kans op reactiviteit van de participanten is lager. Een nadeel is dat het ethische vragen oplevert. Wanneer participanten wel van te voren wordt verteld dat ze worden geobserveerd, dan is dit ethisch verantwoord, maar kan het leiden tot reactiviteit (een verandering in gedrag) bij participanten.
In tegenstelling tot observationeel onderzoek dat zich vaak op grote groepen mensen (of dieren) richt, gaat een case studie vaak over één of twee individuen. Case studies zijn kwalitatieve onderzoeksdesigns waarbij het gedrag en de ervaringen van één of meer individuen worden vastgelegd. Case studies worden voornamelijk toegepast bij individuen met afwijkende of abnormale ervaringen of eigenschappen. Het achterliggende idee is dat we door het zorgvuldig bestuderen van individuen die in een unieke situatie zitten of door een moeilijke fase gaan, we meer leren over de menselijke aard. Case studies worden bijvoorbeeld veel toegepast bij kinderen met (aangeboren) doofblindheid. Er zijn maar weinig kinderen die aangeboren doof en blind zijn. Daarnaast heeft ieder kind een uniek patroon van oorzaken, gevolgen, en behandeingen. Een case studie biedt dan uitkomst. Hoewel een case studie ontzettend interessante informatie kan opleveren, is de generaliseerbaarheid van een dergelijke studie vaak laag. Omdat het om zo'n specifieke situatie en uniek individu gaat, zegt het vaak niet veel over andere individuen. Het gevolg is dat case studies dus hoogstens zwak bewijs kunnen bieden voor het trekken van wetenschappelijke conclusies. Aan de andere kant kunnen ze wel interessante aankopingspunten bieden voor toekomstig, meer gecontroleerd, onderzoek.
Observationeel onderzoek en case studies bieden interessante, gedetailleerde, en vaak kwalitatieve informatie. Een nadeel echter is dat deze kwalitatieve data vaak minder objectief is dan het lijkt, zeker wanneer de data door één onderzoeker wordt verzameld en gecodeerd. De observator bepaalt wie er worden geobserveerd, hoe bepaald gedrag wordt opgenomen (of genegeerd), en hoe het wordt geïnterpreteerd. Het probleem van objectiviteit kan (deels) worden verholpen door gebruik te maken van systematische observatie waarbij kwantitatieve gemeten variabelen worden gecreëerd. Bij een systematische observatie wordt van te voren gespecificeerd (1) wat, (2) wie, (3) wanneer, en (4) waar wordt geobserveerd. Deze keuzes worden vaak gemaakt op basis van theoretische verwachtingen over mogelijke gebeurtenissen die van interesse zijn voor het onderzoek. Er zijn drie belangrijke voordelen voor systematische observatie. Ten eerste zorgt het ervoor dat de onderzoeker weet waar hij of zij de aandacht op moet richten. Ten tweede reduceert het de hoeveelheid data die verzameld wordt, omdat de onderzoeker niet hoeft te proberen om alles te registreren wat hij of zij gezien heeft. Ten derde biedt het de mogelijkheid om meerdere observatoren (en codeurs) erbij te betrekken. Dit verhoogt de betrouwbaarheid van de metingen.
Naast het specificeren van wat, wie, wanneer, en waar geobserveerd wordt, moet je bepalen hoe je de observaties gaat opnemen. Welke codeercategorieën maak je? Een mogelijkheid is om bijvoorbeeld de event frequenties te coderen: het aantal keren dat een bepaald gedrag voorkomt. Bijvoorbeeld het aantal keren dat een kind vloekt op een dag. Een andere mogelijkheid is om de event duur te coderen. Bijvoorbeeld de tijd die een kind spendeert aan het oplossen van een puzzel.
Tot slot zijn er nog verschillende strategieën om de steekproef te selecteren. Er worden drie strategieën besproken: 1. event steekproeftrekking, 2. individu steekproeftrekking, 3. tijdssteekproeftrekking. Bij de eerste richt de aandacht zich op het voorkomen van bepaald gedrag. Voorbeelden zijn hierboven besproken met het coderen van de frequentie of duur van bepaalde gedragingen. Bij de tweede strategie proberen de onderzoekers niet het gedrag van alle personen (in een groep) te coderen, maar richten zij zich op één participant voor een bepaalde periode. Het gedrag van de andere personen wordt tijdens dat tijdsinterval dan genegeerd. Voor het volgende tijdsinterval wordt dan weer een andere participant geselecteerd, waar alle onderzoekers (observatoren) zich dan op focussen. De derde variant, tijdssteekproeftrekking, lijkt hierop. Ook hier is één persoon gdurende een bepaald tijdsinterval, bijvoorbeeld vier minuten, de focus. Het verschil is dat iedere observator op een ander kind let tijdens het interval. Soms wordt de data direct gecodeerd, maar soms wordt ook gebruik gemaakt van een tussenperiode, waarin de observator de tijd heeft om het gedrag te noteren. Door steekproeven te trekken observeer je misschien wel minder gedrag (of personen), maar wordt het gedrag waarschijnijk wel nauwkeuriger en gedetailleerder opgenomen.
De laatste variant van naturalistisch onderzoek die wordt besproken in het boek is archief onderzoek. Archief onderzoek is gebaseerd op reeds bestaande data, zoals krantenartikelen, toespraken, brieven, en televisieopnamen. Een voorbeeld van archief onderzoek is het onderzoek van Emile Durkheim (1951) naar de oorzaken van zelfmoord. Hij gebruikte gegevens van mensen uit zeven Europese landen die zelfmoord hadden gepleegd tussen 1841 en 1872. Een ander voorbeeld van een archief onderzoek werd recentelijk besproken in de talkshow van Jinek. Onderzoekers vonden de geboortegegevens van een grote groep mensen die waren geboren tijdens of net na de hongerwinter. Aan de hand van deze archiefgegevens kon worden vastgesteld dat de eerste 1000 dagen van een baby cruciaal zijn voor het verdere verloop. Ze vonden bijvoorbeeld een duidelijk verband tussen een slechte start van kinderen (door honger en vitaminegebrek) en een verhoogd risico op hart- en vaatziekten op middelbare leeftijd. Archief onderzoek biedt vaak ontzettend veel informatie. Er zijn oneindig veel archieven en er wordt van alles bewaard. Om deze enorme hoeveelheid informatie systematisch te coderen, wordt gebruik gemaakt van een inhoudsanalyse. Een inhoudsanalyse is in feite hetzelfde als het systematisch coderen van observaties. Ook hier worden categorieën gespecificeerd voor het coderen en wijzen (bij voorkeur) meerdere observatoren de data toe aan bepaalde categorieën. Ook hier geldt dat de voorkeur uitgaat naar meerdere codeurs. Dit verhoogt naar alle waarschijnlijk de betrouwbaarheid en inhoudsvaliditeit van de 'meting'.
Naturalistisch onderzoek beschrijft en meet het dagelijks gedrag van mensen en dieren. Het kan gaan om het meten van gedrag op het moment dat het plaatsvindt, maar het kan ook gaan om gedrag dat eerder al (door anderen) is opgenomen en pas later gecodeerd. Zulke observaties leveren complexe data op, die lastig te analyseren zijn. In dit hoofdstuk worden een aantal methoden besproken om observaties van dagelijks voorkomend gedrag om te zetten in meetbare variabelen: observationeel onderzoek, case studies en archiefstudies.
In het vorige hoofdstuk hebben we beschrijvende onderzoeksdesigns (naturalistisch en survey onderzoek) besproken. In de volgende hoofdstukken gaan we de andere twee typen onderzoeksdesigns bespreken: correlationeel (hoofdstuk 9) en experimenteel (hoofdstukken 10, 11, en 12). Deze typen onderzoeksdesigns zijn ontworpen om de relatie tussen variabelen te toetsen. Maar voordat we dieper ingaan op deze onderzoeksdesigns, is het zinvol om eerst te bespreken welke gestandaardiseerde methoden onderzoekers vaak gebruiken om te toetsen of de data de hypothese ondersteunen. Deze gestandaardiseerde methoden vormen een belangrijk onderdeel van de wetenschappelijke methode en staan centraal in dit hoofdstuk.
Stel, een vriend beweert dat hij een zesde zintuig heeft en jouw gedachten kan lezen. Jij vraagt je af of dit echt zo is en besluit een testje uit te voeren. Je gooit tien keer een muntje op en kijkt of het kop of munt is. Je zorgt ervoor dat die vriend de munt niet kan zien. Vervolgens vraag je hem of het kop of munt was. Als hij echt jouw gedachten kan lezen, dan zou hij dat goed moeten kunnen raden. Misschien niet perfect, want iedereen maakt fouten, maar toch zeker een heel aantal keren. Je verwacht dat hij, wanneer hij helemaal geen zesde zintuig heeft, alsnog vijf van de tien keer goed gokt omdat je dat zou verwachten op basis van kans. Maar hij kan ook vier of zes keer goed gokken. Wanneer ben je ervan overtuigd dat hij echt jouw gedachten kan lezen? Bij 8 keer? Bij 9 keer? En als hij het tien van de tien keer goed heeft, weet je dan zeker dat hij jouw gedachten kan lezen? Of is er nog steeds een kans dat dit geluk was?
Wetenschappers zitten in een soortgelijke positie als in het voorbeeld dat hierboven is besproken. Ze stellen een hypothese op (in het voorbeeld: jouw vriend kan gedachten lezen) en zetten een onderzoek op om deze hypothese te toetsen. Het dilemma echter is dat je nooit zeker kan weten of de geobserveerde data zijn veroorzaakt door random error. Aangezien alle data, in meer of mindere mate, random error bevat, kan elk patroon dat veroorzaakt zou kunnen worden door een verband tussen de variabelen ook veroorzaakt zijn door kans. Dit is één van de redenen waarom onderzoek nooit een hypothese of theorie kan bewijzen.
De wetenschappelijke methode is een set van procedures die onderzoekers gebruiken om te schatten of de data de onderzoekshypothese onderstenen. Omdat deze procedures gebruiken maken van steekproefdata om inferenties (gevolgtrekkingen, conclusies) op te stellen over de populatie, worden deze procedures ook wel inferentiële statistiek genoemd. In grote lijnen zijn de volgende stappen te onderscheiden bij het testen van een hypothese:
Deze stappen en begrippen worden in de volgende paragrafen besproken.
Hoewel het logish lijkt om te testen of een hypothese waar of niet waar is, kan je dit in werkelijkheid niet doen. Zoals we net al bespraken, kun je een hypothese nooit bewijzen, maar alleen verwerpen (en zelfs dat doe je altijd met een bepaalde mate van onzekerheid). Je weet van tevoren immers niet hoe de geobserveerde data eruit zou zien als de hypothese waar is. Wat je wel weet, is hoe de verdeling van de data eruit ziet onder de nulhypothese (H0), dat is de situatie waarin de geobserveerde data niet verschilt van de situatie op basis van kans. We kunnen voor deze situatie een steekproevenverdeling opstellen. Een steekproevenverdeling is een verdeling van alle mogelijke waarde van de statistic (de steekproefwaarde). In het voorbeeld van de vriend met het zesde zintuig zijn er maar twee mogelijke uitkomsten: goed of fout. In zo'n geval kun je een binomiale verdeling opstellen.
Deze binomiale verdeling is gebaseerd op het tien keer werpen van een munt. Voor deze situatie is de nulhypothese als volgt: De kans op een correct antwoord is 0.5. De kans op vijf correcte antwoorden het grootsts (wanneer er dus alleen maar sprake is van toeval en de vriend jouw gedachten niet kan lezen). De kan op vijf correcte antwoorden is 24.6%. De kans op vier of zes correcte antwoorden is 20.5%. En de kans op tien correcte antwoorden is slechts 0.1%. Hoewel de kans klein is, is er dus altijd een kans dat de vriend alle antwoorden goed (of fout) heeft.
Na het opstellen van de nulhypothese, ga je bepalen wanneer een verschil statistisch significant is en je de nulhypothese dus verwerpt. In de gedragswetenschappen wordt heel vaak een significantieniveau, ook wel alfa (α) van .05 gehanteerd. Dit betekent dat je de nulhypothese verwerpt wanneer de uitkomst zo ongebruikelijk is dat je die op basis van kans in maximiaal 5% van de gevallen had gevonden. In andere woorden, je accepteert een kans van 5% dat je de nulhypothese ten onrechte verwerpt. Soms wordt er een nog strikter significantie niveau gehanteerd, bijvoorbeeld .01 of zelfs .001 (dus 0.1%). Hoe dan ook, het significant niveau kan nooit nul zijn. Er blijft altijd een bepaalde kans dat het gevonden verschil, hoe extreem ook, is gebaseerd op toeval. Er blijft dus ook altijd een bepaalde mate van onzekerheid bij verwerpen van een nulhypothese.
Na het opstellen van het significantieniveau, voer je de test uit en bereken je de p-waarde. De p-waarde is de kans (een getal tussen 0 en 1) dat je het huidige effect vindt, terwijl er in werkelijkheid geen effect is (dus wanneer het puur op basis van toeval is). Wanneer de p-waarde lager is dan de alfa (het significantieniveau), spreek je van een significant verschil en verwerp je de nulhypothese. Wanneer de p-waarde groter is dan de alfa, is het verschil niet signficant en mag je de nulhypothese niet verwerpen.
Laten we dit eens toepassen op het voorbeeld van de vriend die beweert gedachten te kunnen lezen. De nulhypothese is dus dat hij geen gedachten kan lezen, dus dat p = 0.5 voor elke worp. Je zet het significantieniveau op 5%, dus α = .05. Vervolgens werp je tien keer de munt. De p-waarden zijn:
Jouw vriend raadt 8 keer het juiste antwoord. De kans dat hij 8 of meer keer goed gokt op basis van toeval is .044 + .01 + .001 = .055. De p-waarde van .055 is hoger dan de alfa en dus verwerpen we de nulhypothese niet. In het geval dat de vriend 10 keer juist gokt, dan is de p-waarde .001. Omdat p = .001 kleiner is dan α = .05, verwerpen we in dit geval de nulhypothese dus wel. In dit geval is er dus sprake van een significant verschil.
In het voorbeeld hierboven keken we naar de kans dat de vriend 8 keer of vaker goed zou gokken. In dit voorbeeld is er sprake van een eenzijdige toets omdat je alleen geïnteresseerd bent in de situatie waarin hij vaker goed gokt dan je op basis van toeval zou verwachten. Wanneer je iets onderzoekt waarbij je een goed onderbouwde verwachting hebt, dan kan je zo'n eenzijdige hypothese opstellen en een eenzijdige test uitvoeren. Maar lang niet altijd is er genoeg achtergrondkennis om een eenzijdige test uit te mogen voeren. In zo'n geval is het beter om tweezijdig te toetsen, dat wil zeggen dat je naar het effect links en rechts van de nulsituatie kijkt. In zo'n geval gebruik je een tweezijdige p-waarde. In ons voorbeeld levert dat de volgende p-waarden op:
Als we nu weer een alfa van .05 aannemen, dan betekent het dat we alleen de nulhypothese verwerpen wanneer de vriend 9 of 10 juiste antwoorden geeft. Hoewel we bij een eenzijdige toets de nulhypothese wel verworpen bij 8 juiste antwoorden, doen we dat bij een tweezijdige toets niet! Het is belangrijk om te onthouden dat je met dezelfde data dus verschillende conclusies kunt trekken (onder andere doordat de onderzoeker zelf een significantieniveau specificeert en bepaalt om één- of tweezijdig te toetsen).
Inferentiële statistiek is gebaseerd op kansen. Dit betekent ook dat er altijd een kans is dat je een fout maakt. De conclusies die je trekt bevatten altijd een bepaalde mate van onzekerheid. Hoewel de wetenschappelijke methode helpt om deze kans zo klein mogelijk te maken, kun je het nooit helemaal elimineren. Er zijn verschilende typen fouten die een onderzoeker kan maken. Deze zijn samengevat in onderstaande tabel:
H0 verwerpen | H0 niet verwerpen | |
H0 is waar | Type 1 fout | Juist 1 - α |
H0 is niet waar | Juist | Type 2 fout β |
Zoals we eerder al bespraken, bepaalt de onderzoeker van te voren het significantieniveau, oftewel de α. De onderzoeker bepaalt dus zelf de kans op een type 1 fout. Maar hoe zit dat met de β? Ook hier heeft de onderzoeker invloed op. De onderzoeker kan namelijk een inschatting maken van de power, dat is de 1 - β. Power is het onderscheidend vermogen van de test: de kans dat een significant verschil ook als dusdanig wordt herkend. Hoewel de alfa precies kan worden gespecificeerd door de onderzoeker, geldt dat niet voor de beta (en dus de power). Dit komt omdat de power onder andere bepaald wordt door de effectgrootte (Engels: effect size): de sterkte van het verband tussen variabelen. Omdat de onderzoeker van tevoren niet weet hoe sterk het effect is, kan hij of zij alleen een schatting maken van de power van de test. Er zijn verschilende maten om de effectgrootte aan te duiden, zoals de proportie verklaarde variantie (de variantie van de afhankelijke variabele die verklaard wordt door de onafhankelijke variabele) en Cohen's d. Vaak wordt de verwachte effectgrootte geschat aan de hand van de richtlijnen van Cohen (1977):
Hoe groter de effectgrootte, des te groter de power. De richtlijnen van Cohen worden dus gebruikt om een inschatting te maken van de te verwachten effectgrootte. Wanneer je een kleine effectgrootte verwacht, is de power lager en heb je een grotere steekproef nodig om een significant verschil te vinden. Dit verband kan worden samengevat als:
Het is erg belangrijk om te onthouden dat een significant effect niet hetzelfde is als een groot effect! P-waarden en effect sizes zijn twee verschillende begrippen. Een significant effect betekent niets meer dan dat de kans op het gevonden resultaat kleiner is dan een bepaald significantieniveau (vaak α = .05). Omdat het significantieniveau van tevoren door de onderzoeker wordt vastgesteld, heeft de onderzoeker dus invloed op de conclusie of iets significant is of niet. Denk maar eens terug aan het voorbeeld over de vriend die beweerde gedachten te lezen. Afhankelijk van wat voor significantieniveau je specificeert, is een effect significant of niet. Om die reden wordt er tegenwoordig in de gedragswetenschappen meer nadruk gelegd op de effectgrootte dan op het significantieniveau.
In het vorige hoofdstuk hebben we beschrijvende onderzoeksdesigns (naturalistisch en survey onderzoek) besproken. In de volgende hoofdstukken gaan we de andere twee typen onderzoeksdesigns bespreken: correlationeel (hoofdstuk 9) en experimenteel (hoofdstukken 10, 11, en 12). Deze typen onderzoeksdesigns zijn ontworpen om de relatie tussen variabelen te toetsen. Maar voordat we dieper ingaan op deze onderzoeksdesigns, is het zinvol om eerst te bespreken welke gestandaardiseerde methoden onderzoekers vaak gebruiken om te toetsen of de data de hypothese ondersteunen. Deze gestandaardiseerde methoden vormen een belangrijk onderdeel van de wetenschappelijke methode en staan centraal in dit hoofdstuk.
Correlationele onderzoeksdesigns worden gebruikt om verbanden tussen variabelen op te sporen en te beschrijven. Correlationeel onderzoek kan worden uitgevoerd om het verband tussen twee variabelen te onderzoeken, bijvoorbeeld tussen geslacht en schoolresultaten, maar kan ook worden gebruikt bij meer dan twee variabelen. Er zijn vele patronen van verbanden mogelijk tussen twee variabelen, en er zijn zelfs nog veel meer patronen mogelijk wanneer er meer dan twee variabelen zijn opgenomen in het design. In dit hoofdstuk worden eerst de mogelijke patronen tussen twee variabelen besproken. Daarna worden technieken besproken om de patronen van relaties tussen meer dan twee variabelen te onderzoeken.
Stel, je bent geïnteresseerd in de relatie tussen sport en optimisme. Je neemt een steekproef van 20 studenten en meet van iedere student het aantal uren sporten per week en optimisme (met een bepaalde vragenlijst) op een schaal van 1 tot 10. Je verzamelt de volgende gegevens:
Participant | Aantal uren sport per week | Optimisme |
1 | 3 | 6 |
2 | 1 | 5 |
3 | 5 | 8 |
4 | 5 | 7 |
5 | 7 | 9 |
6 | 3 | 7 |
7 | 0 | 6 |
8 | 2 | 3 |
9 | 5 | 5 |
10 | 7 | 9 |
11 | 0 | 4 |
12 | 6 | 7 |
13 | 7 | 9 |
14 | 5 | 9 |
15 | 4 | 8 |
16 | 6 | 5 |
17 | 5 | 6 |
18 | 3 | 6 |
19 | 6 | 8 |
20 | 1 | 4 |
Het is lastig om aan de hand van de rauwe data het verband nauwkeurig in kaart te brengen, omdat er veel datapunten zijn. Daarom zijn er verschillende methoden om de sterkte en richting van het verband uit te drukken. Een eerste manier is door het maken van een scatterplot. Een scatterplot is een grafische weergave van de data met op de x-as de voorspeller (predictor) en op de y-as de uitkomst variabele. Voor iedere persoon wordt een punt geplot op de intersectie van de scores van die persoon op de twee variabelen. Een scatterplot behorend bij het voorbeeld over sporten en optimisme is hieronder afgebeeld.
Een scatterplot geeft een visuele weergave van het verband tussen twee kwantitatieve variabelen. Zoals je ziet is er ook een regressielijn tussen de punten getekend, waaruit je kunt opmaken dat er een redelijk positief verband tussen de variabelen is. De regressielijn wordt ook wel aangeduid als 'best fit', omdat deze wordt getekend op basis van de minimale som van gekwadrateerde afstandent tussen de punten en de lijn. In andere woorden, de lijn wordt zo getekend dat de som van de verticale afstand tussen alle losse punten en de lijn (en dat in het kwadraat) zo klein mogelijk is.
In het voorbeeld van sporten en optimisme spreken we van een lineair verband, omdat de relatie tussen de twee variabelen redelijk kan worden geschat met een rechte lijn. Alle punten liggen relatief in de buurt van deze lijn. Daarnaast is er sprake van een positief lineair verband, omdat hogere scores op de ene variabele over het algemeen ook hogere scores op de andere variabele betekenen. Wanneer dit andersom is, dus wanneer een hogere score op de ene variabele verband houdt met een lagere score op de andere variabele, dan spreken we van een negatieve lineaire relatie. In zo'n geval zul je een dalende regressielijn zien in een scatterplot.
Niet altijd is de relatie tussen twee variabelen te beschrijven met een rechte lijn. In zo'n geval spreken we van een niet-lineaire relatie. Kijk bijvoorbeeld maar eens naar het volgende scatterplot:
In dit geval lijken de datapunten redelijk willekeurig verdeeld te zijn en is er geen duidelijk verband te observeren tussen x en y. In dit geval is er dus geen sprake van een relatie tussen de twee variabelen. De variabelen zijn onafhankelijk van elkaar, wat betekent dat we de ene variabele niet kunnen gebruiken om de andere variabele te voorspellen.
Tot slot zijn er nog verbanden mogelijk tussen variabelen die niet met een rechte lijn te beschrijven zijn. Verbanden die in richting veranderen en dus niet met één rechte lijn te beschrijven zijn noemen we curvilineaire verbanden.
Hoewel een scatterplot een indicatie geeft van het verband tussen variabelen, is er wel een bepaalde mate van subjectiviteit verbonden aan het oordeel over de sterkte van het verband. Een figuur alleen is dus niet voldoende voor een objectieve indicatie van de sterkte van een verband tussen twee variabelen. Om die reden zijn er meerdere manieren om de sterkte en richting van het verband in een getal uit te drukken. De meest bekende index is de Pearson product-moment correlate coëfficient, ook wel Pearson's r of simpelweg de correlatie coëfficient genoemd. De correlatie coëfficient heeft een range van -1 tot +1 en geeft dus zowel de sterkte as de richting van het verband aan. Een positief verband wordt aangeduid met een positieve r. Een negatief verband wordt aangeduid met een negatieve r. Waardes dichter bij +1 (of -1) geven een sterker verband aan. Waardes dichter bij 0 geven een zwakker verband aan. Een 0 betekent dat er geen verband is tussen de twee variabelen.
Wanneer een heel aantal variabelen worden onderzocht in een onderzoek en de correlaties tussen al die variabelen worden berekend, is het overzichtelijk om deze weer te geven in een correlatiematrix. Een voorbeeld staat hieronder.
1 | 2 | 3 | 4 | |
1. Sociale steun | - | -.72 | .25 | .02 |
2. Depressie | - | -.38 | -.15 | |
3. Schoolprestaties | - | .88 | ||
4. Aantal uren huiswerk | - |
In deze correlatiematrix worden de correlaties tussen vier variabelen weergegeven. Zoals je kunt zien is er een sterk, negatief verband tussen sociale steun en depressie. Hoe hoger iemand scoort op sociale steun, des te lager scoort diegene op depressie. Er is een sterk positief verband tussen schoolprestaties en aantal uren huiswerk. Hoe meer iemand studeert, des te hoger scoort diegene op school. Er is nagenoeg geen verband tussen sociale steun en aantal uren huiswerk.
De effectgrootte (de sterkte) van het verband kan ook worden aangeduid met de gekwadrateerde correlatie coefficient, oftwel de r2. Dit is de proportie verklaarde varantie. Deze determinantie coëfficient geeft aan hoeveel variantie van de ene variabele wordt verspeld door de andere variabele. De proportie verklaarde variantie loopt van 0 tot 1.
Een beperking van de correlatiecoëfficient is dat deze alleen gebruikt kan worden om de mate van een lineair verband uit te drukken. Wanneer een relatie curvilineair is, zoals in Figuur 3, dan is de r = 0. De Pearson correlatie coëfficient kan dus niet gebruikt worden om een curvilineaire relatie uit te drukken (terwijl de ene variabele wel gebruikt kan worden om de andere variabele te voorspellen).
Een tweede beperking doet zich voor wanneer er een beperkte range van scores wordt bekeken. Een voorbeeld is wanneer het verband tussen toetsscore (0-10) en optimisme wordt bestudeerd en alleen de studenten die minstens een 7.0 scoorden op de toets worden geanalyseerd. Het kan dan voorkomen dat binnen deze beperkte range de correlatie bijvoorbeeld maar r = .30 is, terwijl als je alle studenten had meegenomen de correlatie r = .80 zou zijn. Samengevat, de correlatie coëfficient kan dus lager uitvallen wanneer er maar een beperkte range van scores wordt bekeken.
In tegenstelling tot de correlatie coëfficient, die meestal wordt gebruikt om het verband tussen twee kwantitatieve variabelen uit te drukken, wordt de Chi-kwadraat statistiek gebruikt om het verband tussen twee kwalitatieve (categorische) variabelen uit te drukken. De Chi-kwadraat statisitiek kan bijvoorbeeld worden gebruikt om het verband tussen geslacht (man/vrouw) en sociaal-economische status (laag/midden/hoog), kortweg SES, uit te drukken. Om de Chi-kwadraat statistiek te berekenen, stelt een onderzoeker eerst een frequentie tabel op, waarin de frequenties per categorie staan. Een voorbeeld van een frequentie tabel staat hieronder weergegeven.
D | ||||
Laag | Midden | Hoog | Totaal | |
Man | 20 | 20 | 10 | 50 |
Vrouw | 10 | 30 | 10 | 50 |
Totaal | 30 | 50 | 20 | 100 |
Aan de hand van een frequentie tabel kan de Chi-kwadraat statistiek berekend worden. Deze wordt berekend door voor iedere cel het verschil te berekenen tussen de geobserveerde en de verwachte frequentie. Dat verschil kwadrateer je en deel je vervolgs door de verwachte celfrequentie. Dit doe je voor iedere cel. De som hiervan is de Chi-kwadraat. In formule vorm is dit:
χ2 = Σ (geobserveerd - verwacht)2
verwacht
De geobserveerde celfrequenties in het voorbeeld zijn: 20, 20, 10, 10, 30, 10. De verwachte celfrequenties reken je uit aan de hand van de marginale verdelingen. Een voorbeeld voor cel 1 (mannen met lage SES): 30*50/100 = 15. In andere woorden, op basis van de verdeling man/vrouw en de verdeling hoog/midden/laag SES, zou je 15 mannen verwachten met een lage SES. Jij vindt er 20. De bijdrage van deze cel aan de Chi-kwadraat statistiek is dan: (20-15)2 / 15 = 52/15 = 25/15 = 1.67. Dit doe je dus voor iedere cel. Vervolgens tel je alle waardes op en heb je de Chi-kwadraat. De waarde van de Chi-kwadraat zet je vervolgens af tegen de Chi-kwadraat verdeling met het bijbehorende aantal vrijheidsgraden. De p-waarde die daaruit komt rollen vertelt je dan of het verschil statistisch significant is (ten opzichte van de waarde die je zou verwachten op basis van de marginale verdeling). Wanneer het verschil significant is, dan betekent het dat de nulhypothese van geen verband tussen de twee variabelen wordt verworpen.
Tot nu toe hebben we met name de relatie tussen twee variabelen besproken, maar het is ook mogelijk om de relatie tussen meer dan twee variabelen te onderzoeken. In zo'n onderzoeksdesign, waarbij het verband tussen meerdere onafhankelijke variabelen op een uitkomstvariabele wordt bekeken, kunnen we gebruik maken van een meervoudige regressie analyse. Hierbij wordt de Pearson correlatie coëfficient tussen zowel alle onafhankelijke variabelen (predictoren) met de uitkomstvariabele, als tussen ale onafhankelijke variabelen zelf wordt meegenomen. Een voorbeeld staat hieronder afgebeeld.
In het voorbeeld is de uitkost variabele het tentamencijfer op statistiek. Er zijn drie onafhankelijke variabelen opgenomen in het onderzoeksdesign: het cijfer op het deeltentamen, het aantal uur studeren en het aantal uur sporten. Zoals je kunt zien in de figuur zijn er twee significante voorspellers: het cijfer op het deeltentamen en het aantal uur studeren. Het aantal uur sporten is geen (univariate) significante voorspeller voor het tentamencijfer op statistiek. De univariate (enkelvoudige) relaties worden aangegeven met regressie coëfficienten, oftewel beta's. In dit voorbeeld zijn de beta's .25, .21 en .04. De beta's hebben een interpretatie die erg lijkt op die van de correlatie coëfficient. Hogere waardes geven een sterker verband aan. Zo is het cijfer op het deeltentamen bijvoorbeeld een iets sterkere voorspeller dan het aantal uur studeren. Hoewel de enkelvoudige relaties natuurlijk al informatie opleveren, is het interessante van een meervoudige regressie analyse dat je kunt bepalen wat de gezamenlijke invloed is van meerdere predictoren op een uitkomst variabele. Hiervoor kun je gebruik maken van de multipele correlatie coëfficient, gesymboliseerd met de letter R. In het voorbeeld hierboven is de R = .34. De statistische significantie van R kan je testen aan de hand van de F-verdeling. In het voorbeeld is de R significant, want de bijbehorende p-waarde is kleiner dan .05. De R is direct vergelijkbaar met de r2 die we eerder bespraken. Het is de variantie die verklaard kan worden door de drie predictoren gezamenlijk. Zoals je ziet is de proportie verklaarde variantie van de drie predictoren gezamenlijk hoger dan de proportie verklaarde variantie van een enkele predictor.
Hoewel correlationeel onderzoek interessante informatie oplevert over de relatie tussen twee of meer variabelen, is dit design niet ontworpen om uitspraken te kunnen doen over causale (oorzaak-gevolg) verbanden. Het kan namelijk zo zijn dat het verband tussen twee variabelen in de andere richting gaat dan jij voorspelt (reverse causation, oftwel omgekeerde oorzakelijkheid), of dat er sprake is van een wederzijdse oorzakelijkheid (beide beïnvloeden elkaar). Het kan ook zo zijn dat er sprake is van een spurieuze relatie waarbij een andere variabele van invloed is op zowel de onafhankelijke als de afhankelijke variabele. Een voorbeeld van een spurieuze relatie staat hieronder afgebeeld.
In dit voorbeeld is er een gemeenschappelijke, onderliggende voorspeller. Het blijkt dat de opvoedingsstijl van de ouders veroorzaakt of kinderen gewelddadige series kijken en of ze agressief gedrag vertonen. Een spurieus verband tussen twee variabelen heeft als gevolg dat, wanneer je de gemeenschappelijke oorzaak weg zou halen (of constant houdt) er geen verband meer is tussen de onafhankelijke en afhankelijke variabele.
Het kan zelfs zo zijn dat de veranderingen in de uitkomstvariabele helemaal niet door de predictor wordt veroorzaakt, maar dat andere variabelen zorgen voor deze variantie. Deze andere variabelen (die dus niet zijn opgenomen in het design) worden ook wel vreemde variabelen (in het Engels: extraneous variables) genoemd. Tot slot is het nog mogelijk dat er wél een verband is tussen de onafhankelijke en afhankelijke variabelen, maar dat dit verband stand houdt via derde variabelen. Er zijn twee typen derde variabelen te onderscheiden: mediatoren en moderatoren. Een moderator heeft invloed op de sterkte van het verband tussen de onafhankelijke en afhankelijke variabele. Een voorbeeld staat hieronder weergegeven.
Zoals je kunt zien is er wel een relatie tussen het kijken van gewelddadige films en agressief gedrag, maar de sterkte van deze relatie wordt gewijzigd door de discipline in de thuissituatie. In het geval van een negatief moderator verband, betekent dat in dit geval dus: hoe meer discipline thuis, des te sterker het verband tussen gewelddadige series kijken en agressief gedrag. Een moderator kan ook in de positieve richting werken (in dat geval betekent een hogere waarde op de moderator variabele dus een sterker verband).
Het tweede type derde variabele is de mediator. In het geval van een mediator betekent het dat het verband tussen de onafhankelijke en afhankelijke variabele via de mediator loopt. In het onderstaande voorbeeld is dit afgebeeld. Het kijken van gewelddadige films (onafhankelijke variabele) zorgt voor meer spanning/opwinding (moderator). En een hoger niveau van spanning/opwinding zorgt voor agressiever gedrag (afhankelijke variabele). Als je dus alleen de onafhankelijke en afhankelijke variabele opneemt in het onderzoeksdesign, dan kun je wel een verband aanduiden, maar mis je dus de reden van het verband.
Al deze voorbeelden duiden er dus op dat correlationeel onderzoek niet geschikt is om causale relaties aan te duiden. Vaak komt dit doordat je dus een deel van het verband niet kunt onderzoeken door alleen naar correlaties te kijken. Toch is het niet zo dat je helemaal niks kan zeggen over oorzaak-gevolg relaties. Er zijn wel een aantal methoden om de kans op derde variabelen, omgekeerde causaliteit en dergelijke zo veel mogelijk te beperken (waardoor je dus voorzichtig iets mag zeggen over mogelijke causale verbanden).
Ten eerste kun je longitudinaal onderzoek doen, waarbij op verschillende momenten een meting wordt uitgevoerd. Hiermee kun je de kans op omgekeerde causaliteit beperken (je weet immers wat de situatie in een eerder stadium was). Longitudinaal onderzoek wordt vaak uitgevoerd met een path analysis, die visueel kan worden weergegeven met een path diagram. In zo'n figuur worden, net als in meervoudige regressie analyse, de correlaties tussen verschillende variabelen (in dit geval meetmomenten) weergegeven. Daarnaast worden de correlaties tussen ieder meetmoment en de afhankelijke variabele weergegeven. Zo kun je dus zien of er een verandering is in (de richting en/of sterkte van) het verband over de tijd heen. Hoewel longitudinaal onderzoek helpt om de kans op omgekeerde causaliteit te minimaliseren, is het geen geschikte methode om spurieuze verbanden te elimineren. Een ander nadeel van longitudinaal onderzoek is dat het lang duurt. Soms zit er wel jaren tussen twee meetmomenten! Wanneer de tijd beperkt is en alle data op één moment worden verzameld, spreken we van een cross-sectioneel design. Hoewel je bijvoorbeeld wel meerdere leeftijdsgroepen kunt opnemen, is dit natuurlijk lang zo informatief niet als een longitudinaal onderzoek.
Ten tweede is het mogelijk om met correlationeel onderzoek de invloed van een gemeenschappelijke predictor zo veel mogelijk te minimaliseren. Wanneer je vermoedt dat er een onderliggende, gemeenschappelijke predictor is, dan kun je deze meenemen in je design en ervoor controleren. Wanneer je deze common cause variabele constant houdt en er is nog steeds een verband tussen de onafhankelijke en afhankelijke variabele, dan heb je dus iets meer zekerheid (of minder onzekerheid) dat dit wordt veroorzaakt door een spurieus verband. Hetzelfde geldt voor mediatoren. Door deze op te nemen en te controleren (constant te houden), kun je dit effect zo veel mogelijk minimaliseren.
Een recent ontwikkelde nieuwe statische procedure die erg populair is bij het testen van meerdere variabelen is structural equation modelling (SEM). Een voordeel van deze methode is dat zowel de conceptuele variabelen als de gemeten variabelen worden opgenomen in het design. De conceptuele variabelen worden ook wel latente variabelen genoemd in SEM en de analyse is zo ontworpen dat het zowel het verband tussen de gemeten variabelen als ook het verband tussen de latente variabelen schat. In een SEM analyse worden alle relaties tegelijkertijd getest. Hoewel de exacte analyse buiten de stof van dit boek valt, is het wel nuttig om te weten dat er dus volop ontwikkelingen gaande zijn om steeds complexere modellen te analyseren (waarmee we hopelijk dichter bij de waarheid kunnen komen).
Correlationele onderzoeksdesigns worden gebruikt om verbanden tussen variabelen op te sporen en te beschrijven. Correlationeel onderzoek kan worden uitgevoerd om het verband tussen twee variabelen te onderzoeken, bijvoorbeeld tussen geslacht en schoolresultaten, maar kan ook worden gebruikt bij meer dan twee variabelen. Er zijn vele patronen van verbanden mogelijk tussen twee variabelen, en er zijn zelfs nog veel meer patronen mogelijk wanneer er meer dan twee variabelen zijn opgenomen in het design. In dit hoofdstuk worden eerst de mogelijke patronen tussen twee variabelen besproken. Daarna worden technieken besproken om de patronen van relaties tussen meer dan twee variabelen te onderzoeken.
Meestal zijn onderzoekers geïnteresseerd in vragen als hoe en waarom veranderingen in de onafhankelijke variabele zorgen voor veranderingen in de afhankelijke variabele. Dit gaat verder dan alleen het aantonen van een verband, zoals bij correlationeel onderzoek wordt gedaan. Om dergelijke oorzaak-gevolg uitspraken te kunnen doen, is een experimenteel onderzoeksdesign nodig. In een experimenteel onderzoek manipuleert de onderzoeker de onafhankelijke variabele om de invloed daarvan op de afhankelijke variabele te kunnen bepalen. In hoofdstuk 10 en 11 bespreken we verschillende varianten van experimenteel onderzoek. In hoofdstuk 12 bespreken we mogelijke risico's van experimenteel onderzoek en hoe de onderzoeker deze kan beperken.
Om uitspraken te kunnen doen over oorzaak en gevolg, zijn er drie factoren die je moet overwegen: (empirische) assocciatie, temporele voorrang, en controle van gezamenlijke oorzaken. Deze drie factoren vormen de basis van experimenteel onderzoek.
Voordat we kunnen afleiden of de ene variabele de andere variabele beïnvloedt, moeten we eerst een associatie (correlatie, verband) aantonen tussen de onafhankelijke en afhankelijke variabele. Een causale relatie is vrijwel nooit perfect, maar probabilistisch. Dat wil zeggen dat het verband een waarschijnlijkheidswaarde heeft, maar dat de absolute waarheid niet kenbaar is. Een bekend voorbeeld is "het roken van sigaretten veroorzaakt longkanker". Aangezien er ook veel andere oorzaken van (long)kanker zijn, en omdat de precieze specificatie van deze oorzaken (nog) niet mogelijk is, is deze causale bewering probabilistisch. We kunnen wel zeggen dat rokers meer kans hebben op longkanker, maar we kunnen niet exact zeggen voor wie en wanneer roken longkanker veroorzaakt. Dit geldt voor alle causale beweringen in de gedragswetenschappen.
Een tweede factor die belangrijk is bij het aantonen van oorzaak-gevolg relaties in temporele voorrang tussen de twee geassocieerde variabelen. Wanneer gebeurtenis A plaatsvindt voor gebeurtenis B, dan kan het zo zijn dat gebeurtenis A gebeurtenis B veroorzaakt. Maar, wanneer gebeurtenis A plaatsvindt na gebeurtenis B, dan kan A niet de oorzaak zijn van B. De temporele ordening van de gebeurtenissen moet dus in kaart worden gebracht alvorens valide uitspraken te kunnen doen over oorzaak en gevolg.
Het aantonen van een verband en de temporele ordening alleen is niet voldoende om uitspraken te kunnen doen over oorzaak en gevolg. Zoals we in hoofdstuk 9 bespraken, zijn er vele mogelijkheden waarop gezamenlijk, oorzakelijke variabelen leiden tot spurieuze relaties. In een experimenteel onderzoek is het belangrijk dat deze gezamenlijke oorzaken (zo veel mogelijk) worden gecontroleerd, om hun effect op de relatie tussen X en Y te elimineren (of in ieder geval te minimaliseren).
Een eenwegs (one-way) experimenteel design heeft één onafhankelijke variabele (predictor). Een voorbeeld van een eenwegsexperiment design is een onderzoek naar de invloed van het kijken van gewelddadige films op de agressiviteit van kinderen. De onderzoeker selecteert willekeurig 40 basisschoolkinderen en verdeeld deze kinderen in twee gelijke groepen. Beide groepen worden voorafgaand aan het experiment gemeten op (beginstaat van) agressiviteit. Vervolgens krijgt de ene groep een week lang iedere dag een gewelddadige film te zien. De andere groep kijkt elke dag naar niet-gewelddadige films. Aan het einde van de week meet de onderzoeker de agressiviteit van de kinderen. Vervolgens vergelijkt de onderzoeker de agressiviteit van de ene groep met de andere groep om te bepalen of het kijken van gewelddadige films meer agressiviteit heeft veroorzaakt. In dit voorbeeld wordt de onafhankelijke variabele (het kijken van gewelddadige films) gemanipuleerd. De specieke situaties binnen deze manipulatie (hier: kijken van gewelddadige films en kijken van niet-gewelddadige films) worden de levels of experimentele condities genoemd.
Er zijn verschillende manieren om potentiële gemeenschappelijke oorzaken te minimaliseren. De eerste methode is door participanten in elke groep te selecteren die zo gelijk mogelijk aan elkaar zijn (between-participants design). Wanneer je bijvoorbeeld verwacht dat geslacht een mogelijk gemeenschappelijke veroorzaker is, dan kun je dus bijvoorbeeld in elke groep 10 jongens en 10 meisjes selecteren. Een tweede methode is door dezelfde participanten in iedere experimentele conditie te testen middels een repeated-measures design (herhaalde metingen). Omdat je dezelfde participanten meerdere keren meet, is er (waarschijnlijk) geen veranderingen in de waardes van mogelijke derde of vreemde variabelen. De derde, meest gebruikte methode om gelijke groepen te creëren, is random assignment to conditions, oftewel willekeurige toewijzing van participanten aan de condities. Dit betekent dat participanten willekeurig worden toegewezen aan de experimentele groep of controle groep, bijvoorbeeld door het gooien van een munt of het gebruiken van een tabel met willekeurige getallen. Hoewel deze methode niet garandeert dat de groepen exact gelijk zijn, zorgt het er wel voor dat de kans op verschillen tussen de groepen wordt verlaagd.
In een experimenteel onderzoek meet je de afhankelijke variabele(n) twee keer: voor en na de manipulatie van de onafhankelijke variabele. Om een verschil aan te kunnen tonen dat wordt veroorzaakt door deze manipulatie is het wel belangrijk dat de afhankelijke variabele(n) betrouwbaar en valide indicatoren zijn van de conceptuele variabele. Wanneer er naast random error ook sprake is van systematische error, dan weet je dus alsnog niet of en in welke mate de onafhankelijke variabele de verandering in de afhankelijke variabele heeft veroorzaakt.
Experimentele onderzoeksdesigns kunnen verschillende in het aantal levels (experimentele condities) van de onafhankelijke variabele en het type manipulatie. In het meest simpele expimentele design zijn er twee groepen: een experimentele groep en een controlegroep. Een nadeel van maar twee groepen opnemen in het design, is dat het soms lastig is om te schatten welke van de twee levels leidde tot een verandering in de afhankelijke variabele. Wanneer het onderzoek aantoont dat kinderen agressiever zijn na het kijken van gewelddadige films dan na het kijken van niet-gewelddadige films, dan zouden we wellicht ook kunnen concluderen dat het kijken van niet-gewelddadige films leidde tot een daling van agressie. Misschien waren de kinderen die naar films als Frozen en Pippi Langkous keken wel zo verveeld, dat ze te moe waren om agressief gedrag te tonen. Een optie in dit geval is door een derde level toe te voegen: een groep kinderen die helemaal geen films kijken.
Een tweede nadeel van het hebben van twee groepen is dat een curvilineaire relatie moeilijker is op te sporen. Laten we als voorbeeld het verband tussen prestatie en angst nemen. Wanneer angst stijgt van een laag naar middelmatig niveau, dan stijgt het prestatieniveau ook. Maar wanneer het angstniveau te hoog wordt, dan daalt de prestatie weer. De relatie tussen prestatie en angst is (in dit voorbeeld) dus curvilineair. Een experiment met twee groepen zou kunnen concluderen dat angst leidt tot verbeterde prestaties, of juist dat angst leidt tot verslechterde prestaties, afhankelijk van het specifieke niveau van angst dat is gemanipuleerd. Een experiment met twee groepen kan dus niet zo'n curvilineair verband aantonen. Een experiment met drie (of zelfs meer) groepen is hier beter toe in staat.
De statistische procedure die wordt gebruikt om oorzaak-gevolg relaties in experimenteel designs aan te tonen, is de analysis of variance, kortweg ANOVA. De ANOVA is ontworpen om het gemiddelde van de afhankelijke variabele tssen verschillende levels van het experiment te vergelijken. De nulhypothese bij deze toets is dat er geen verschil is tussen de experimentele condities. In het voorbeeld van de gewelddadige films en agressiviteit, betekent dat dus:
De alternatieve hypothese kan tweezijdig of éénzijdig geformuleerd worden. In het geval van een tweezijdige alternatieve hypothese, betekent het dat er een verschil is in agressiviteit tussen het wel en niet kijken van gewelddadige films, maar specificeer je niet welke condities leidt tot hogere niveaus van agressiviteit. In het geval van een eenzijdige hypothese geef je ook de richting van het verband aan. In het voorbeeld is de rechtszijdige hypothese dat het kijken van gewelddadige films meer agressiviteit veroorzaakt. Oftewel:
Na het opstellen van de hypothesen, ga je de F-statistiek berekenen. De F-statistiek is de ratio van de variantie tussen groepen en de variantie binnen groepen.
Een F-waarde hoger dan 1 betekent dat er meer variantie is tussen groepen dan binnen groepen. Hoe meer de condities verschillen, des te hoger de F-waarde. Iedere F-waarde heeft een bijbehorende p-waarde, om het verschil in termen van statistische significantie uit te drukken. Deze p-waarde kun je opzoeken in Tabel F aan de hand van het aantal vrijheidsgraden (degrees of freedom, df). Je hebt zowel de vrijheidsgraden voor de variantie tussen groepen nodig (teller), als de vrijheidsgraden voor de variantie binnen groepen (noemer). De eerste bereken je door het aantal condities minus 1 te doen. In formule: dfbetween groups = k -1. In het geval van de gewelddadige films en niet-gewelddadige films is het aantal vrijheidsgraden voor de tussengroepsvariantie dus 2 -1 = 1. De vrijheidsgraden voor de binnengroepsvariantie bereken je door het aantal participanten minus het aantal experimentele condities te doen. In formule vorm: dfwithin groups = N - k. Stel je hebt 40 kinderen en twee groepen, dan geldt: dfwithinn groups = 40 - 2 = 38. Wanneer je aan de hand van de vrijheidsgraden de bijbehorende p-waarde hebt opgezocht, en de p-waarde geeft een statistisch significant verschil aan, dan verwerp je dus de nulhypothese dat er geen verschil is tussen de experimentele condities. Wanneer er meer dan twee groepen zijn, is een vervolganalyse nodig (post-hoc analysis) om te bepalen welke groepen dan van elkaar verschillen (en in welke richting).
De effectgrootte (effect size) van de F-statistiek wordt uitgedrukt met de eta (η) en de proportie van de variantie in de afhankelijke variabele die wordt verklaard door de experimentele manipulatie wordt uitgedrukt met η2.
Aan het begin van dit hoofdstuk beschreven we dat het belangrijk is om participanten te selecteren in de verschillende groepen die zo min mogelijk van elkaar verschillen. Maar wat is er nou beter dan dezelfde participanten in iedere conditie van het experiment te meten? Zo'n design wordt ook wel within-participants (within-subjects) design genoemd. Elke participant wordt in iedere experimentele condities gemeten. De afhankelijke variabele wordt op meerdere momenten gemeten (voor iedere conditie). Dit design wordt daarom ook wel repeated measures (herhaalde metingen) design genoemd. Terugkomend op het eerdere voorbeeld zou je bijvoorbeeld ieder kind eerst een week lang niet-gewelddadige films kunnen laten kijken en vervolgens hetzelfde kind een week lang gewelddadige films laten kijken.
Twee voordelen van herhaalde metingen ten opzichte van between-participants designs zijn (1) een verhooge statistische power, en (2) efficiëntie, omdat er minder participanten nodig zijn.
Er zijn echter ook nadelen van herhaalde metingen. Allereerst, het kan een carry-over effect veroorzaken. Dat betekent dat de eerste conditie van invloed is op de tweede conditie. Een manier om dit effect te minimaliseren is door de volgorde van de condities af te wisselen voor verschillende participanten. Dit wordt ook wel counterbalancing (tegenwicht) genoemd. Wanneer er veel condities zijn, dan levert dit echter (te) veel mogelijke volgordes op. Bij zes condities, zijn er bijvoorbeeld al 720 mogelijke combinaties mogelijk! In zo'n geval kan een Latin square design uitkomst bieden. Hierbij krijgt iedere conditie een letter, in het geval van zes condities krijg je dus ABCDEF. Vervolgens maak je een (willekeurige) ordening, bijvoorbeeld A,B,L,C,L-1,D,L-2,E ..) waarbij L de eerste letter is van de laatste conditie. In dit geval krijg je dus de volgorde A,B,F,C,E,D. Daarna maak je de rest van de rijen door elke letter +1 te nemen (voor F geldt dat +1 weer een A wordt). Je krijgt dan:
Een tweede nadeel van herhaalde metingen is dat participant vermoeid kunnen raken. Ook kan er een leereffect optreden. Wanneer bijvoorbeeld een variabele wordt gemeten die veel lichamelijke inspanning vraagt van de participant, dan kan het zijn dat de participant moe is en daardoor slechter presteert op latere metingen. In een ander geval kan het zijn dat de participant al heeft geleerd van eerdere metingen en daardoor juist beter scoort op latere metingen. Dit effect kan worden verlaagd door meer tijd tussen de metingen te nemen. Echter kan meer tijd tussen metingen ook weer zorgen voor veranderingen in de participanten zelf (jonge kinderen ontwikkelen zich bijvoorbeeld snel, ongeacht de manipulatie of het onderzoek).
In vergelijking met correlationeel onderzoek, heeft experimenteel onderzoek een aantal voordelen, maar ook een aantal nadelen. Het belangrijkste voordeel van experimenteel onderzoek is dat het gebruikt kan worden om causale relaties tussen variabelen (met meer zekerheid) aan te tonen. De invloed van derde variabelen en spurieuze relaties kan met beter worden gecontroleerd en daardoor worden geminimaliseerd. Een belangrijk nadeel van experimenteel onderzoek is echter dat veel interessante gedragingen en eigenschappen in de gedragswetenschappen niet kunnen worden gemanipuleerd. Je kunt bijvoorbeeld niet iemand geslacht, etniciteit, of intelligentie veranderen. Daarnaast worden veel experimenten uitgevoerd in een laboratium, waarbij de kans groot is dat participanten zich anders gedragen dan ze 'in het echt' zouden doen. Daarnaast wordt de situatie is experimenteel onderzoek vaak geoversimplificeerd. Mogelijke derde variabelen worden zoveel mogelijk gecontroleerd (gelijk gehouden) om hun effect te minimaliseren, terwijl dit in de werkelijkheid vaak helemaal niet zo constant is.
Meestal zijn onderzoekers geïnteresseerd in vragen als hoe en waarom veranderingen in de onafhankelijke variabele zorgen voor veranderingen in de afhankelijke variabele. Dit gaat verder dan alleen het aantonen van een verband, zoals bij correlationeel onderzoek wordt gedaan. Om dergelijke oorzaak-gevolg uitspraken te kunnen doen, is een experimenteel onderzoeksdesign nodig. In een experimenteel onderzoek manipuleert de onderzoeker de onafhankelijke variabele om de invloed daarvan op de afhankelijke variabele te kunnen bepalen. In hoofdstuk 10 en 11 bespreken we verschillende varianten van experimenteel onderzoek. In hoofdstuk 12 bespreken we mogelijke risico's van experimenteel onderzoek en hoe de onderzoeker deze kan beperken.
In hoofdstuk 10 is het enkelvoudige (eenweg) experimenteel design besproken. In zo'n enkelvoudig experimenteel design wordt de relatie tussen één onafhankelijke en één of meer afhankelijke variabele(n)getoetst. Alle andere variabelen worden (zoveel mogelijk) constant gehouden. Dit is echter een vrij kunstmatige situatie, omdat in het dagelijks leven vele verschillende variabelen met elkaar verband houden en elkaar beïnvloeden. Om deze complexiteit beter in kaart te brengen, zijn dus uitgebreidere designs nodig. In dit hoofdstuk bespreken we factorieel experimentele designs, die zijn ontworpen om meer dan één onafhankelijke variabele te toetsen.
Een factorieel experimenteel design is een experimenteel design waarbij meer dan één onafhankelijke variabele is opgenomen. Iedere onafhankelijke variabele wordt ook wel factor genoemd. In hoofdstuk 10 bespraken we al een eenweg experimentele designs (one-way designs). Deze worden zo genoemd, omdat er één onafhankelijke variabele wordt gemanipuleerd. Bij factoriele designs wordt er gesproken over tweeweg designs (two-way designs) bij twee onafhankelijke variabelen, drieweg designs (three-way designs) bij drie onafhankelijke variabelen, enzovoort. Het aantal condities in factorieel experimentele designs worden ook wel cellen (cells) genoemd. Deze worden aangegeven met een vast notatie systeem. Een experiment met bijvoorbeeld twee factoren (= onafhankelijke variabelen), waarbij iedere factor twee condities heeft, wordt aangeduid als: 2 x 2. Een experiment met drie factoren, waarbij de eerste factor twee condities heeft, de tweede drie condities, en de derde weer twee condities, wordt aangeduid als: 2 x 3 x 2. In vergelijking met een eenweg experimenteel design, is een factorieel experimenteel design 'goedkoper' in termen van aantal participanten. Omdat je met een factorieel design meerdere onafhankelijke variabelen tegelijk toetst, die je anders met aparte experimenten zou moeten toetsen, zijn er minder participanten nodig.
In factoriële designs worden de condities zo geordend dat ieder level van iedere onafhankelijke variabele voorkomt met ieder level van iedere andere onafhankelijke variabele. Dit wordt ook wel crossing the factors genoemd. Laten we het voorbeeld van het kijken naar gewelddadige films en agressief gedrag er weer eens bij halen. Dit keer voegen we er een tweede onafhankelijke variabele aan toe: frustratie. Beide onafhankelijke variabelen hebben twee condities. De eerste bestaat uit (1) gewelddadige films, en (2) niet-gewelddadige films. De tweede bestaat uit (1) gefrustreerd en (2) niet gefrustreerd. Deze laatste variabele wordt als volgt gemanipuleerd: de onderzoeker laat de kinderen voor het experiment spelen met relatief oninteressant speelgoed. Maar, in de eerste groep (de frustratie conditie) voegt de onderzoeker heel leuk speelgoed toe en instrueert de kinderen vervolgens dat ze niet met dat speelgoed mogen spelen. Ze mogen alleen met het saaie speelgoed spelen. De andere groep krijgt helemaal geen leuk speelgoed te zien. Dit design wordt genoteerd als 2 x 2. Wanneer je de factoren kruist, zijn er dus vier groepen:
1. Gewelddadige films + frustratie
2. Gewelddadige films + geen frustratie
3. Niet-gewelddadige films + frustratie
4. Niet-gewelddadige films + geen frustratie
Met zo'n type design kun je ook specifiekere hypothesen opstellen. Bijvoorbeeld: 'Voor niet gefrustreerde kinderen leidt het kijken van gewelddadige films tot meer agressie' en 'Voor gefrustreerde kinderen leidt het kijken van gewelddadige films tot minder agressie.' Je kunt een schematisch diagram opstellen bij dit factorieel design. In een schematisch diagram gebruik je de tekens '>' en '<' om de verwachte relatieve waardes van de gemiddelden aan te duiden.
Wanneer in een tweeweg design de twee hoofdeffecten van beide onafhankelijke variabelen worden gemeten, levert dit dezelfde informatie op als het uitvoeren van twee losse eenweg design. Maar, het voordeel van een tweeweg design is dat je meer informatie uit het experiment kan halen. Naast de hoofdeffecten (in het voorbeeld: invloed van gewelddadidge films op agressie en invloed van frustratie op agressie) kun je namelijk ook de interacties tussen de factoren in kaart brengen. Een interactie is een patroon van gemiddelden waarbij de invloed van de ene onafhankelijke variabele op de afhankelijke variabele verschillend is voor verschillende levels van de andere onafhankelijke variabele(n). In het voorbeeld dat we hierboven bespraken was al sprake van een interactie effect: de hypothesen bevatte de verwachting dat het effect van gewelddadige films anders is voor gefrustreerde kinderen dan voor niet-gefrustreerde kinderen. Het effect van één factor binnen een level van een andere factor wordt ook wel het simpele effect van de eerste factor genoemd.
Terugkomend op het voorbeeld over het verband tussen frustratie + gewelddadige films en agressie. Stel, we vinden de volgende gemiddelden per cel:
Films | |||
Gewelddadig | Niet-gewelddadig | ||
Gemoed | Frustratie | x̄=2.68 n=10 | x̄=3.25 n=10 |
Geen frustratue | x̄=5.62 n=10 | x̄=2.17 n=10 |
In dit voorbeeld is er inderdaad sprake van een interactie effect. Voor kinderen die niet gefrustreerd zijn, is het simpele effect van gewelddadige films dat ze meer agressie laten zien (M = 5.62) dan de kinderen die niet-gewelddadige films hebben gezien (M = 2.17). Maar, het simpele effect voor kinderen die gefrustreerd zijn, is het simpele effect van gewelddadige films dat ze, na het kijken van gewelddadige films, minder agressie laten zien (M = 2.68), dan de kinderen die niet-gewelddadige films hebben gezien (M = 3.25).
In een factorieel experimenteel design kunnen zowel de hoofdeffecten als de interactie effecten worden getoetst. De F-waarden en significantie testen van factoriële designs worden vaak gepresenteerd in een ANOVA samenvattingstabel. Een voorbeeld van zo'n tabel staat hieronder.
Zoals je in de ANOVA tabel kunt zien, heeft ieder hoofdeffect en ieder interactie effect een eigen F-test, eigen vrijheidsgraden, en een eigen p-waarde. Voor ieder effect zijn er twee vrijheidsgraden. De eerste staat in dezelfde rij als het effect en vormt de vrijheidsgraden voor de teller. De tweede wordt altijd gevormd foor de vrijheidsgraden van het residu. Ter illustratie: het hoofdeffect voor het kijken van gewelddadige films is significant, F(1,36) = 4.56, p < .05, terwijl het hoofdeffect van gemoed niet significant is, F(1,36) = 2.00, p > .05. Het interactie effect tussen films en gemoed is wel weer significant, F(1,36) = 5.87, p < .05. Voor ieder effect kan, net als in een eenweg design, ook een effect size worden berekend met de eta (η).
Naast het weergeven van de effecten in een tabel, is het vaak inzichtelijk(er) om de effecten grafisch weer te geven. Voor dit doeleinde wordt vaak gebruikt gemaakt van line charts (lijnplots). In een tweeweg experimenteel design worden de levels van de ene factor op de horizontale as (x-as) geplot en de levels van de andere factor op de verticale as (y-as). Ter verduidelijking worden lijnen tussen de punten getekend. Wanneer het gemiddelde voor de ene conditie hoger of lager is dan het gemiddelde op de andere conditie, en er dus een stijgende of dalende lijn te zien is, dan is er sprake van een hoofdeffect van de variabele op de x-as. Wanneer de lijnen parallel lopen, maar de ene lijn ligt hoger dan de andere lijn, dan is er sprake van een hoofdeffect van de variabele op de y-as. Wanneer de lijnen van verschillende condities parallel lopen, dan is er geen interactie effect. Wanneer de lijnen convergeren (naar elkaar toe gaan), divergeren (uit elkaar gaan), of kruisen, dan is er sprake van een interactie effect.
Naast het standaard 2x2 factoriële design, zijn er verschillende andere vormen van factorieel experimentele designs mogelijk. De eerste variant is een drieweg design. In een drieweg experimenteel design zijn drie onafhankelijke variabelen opgenomen. Een voorbeeld hiervan is het uitbreiden van de studie over gewelddadige films en frustratie met een derde onafhankelijke variabele, namelijk geslacht. Er is nu sprake van een 2x2x2 design. Er zijn dus acht condities in totaal. De gemiddelde kunnen als volgt in een tabel worden weergegeven:
Jongens | Meisjes | |
Gewelddadige films | 2.91 4.39 | 2.45 2.11 |
De bijbehorende ANOVA tabel ziet er dan als volgt uit:
Er zijn nu acht gemiddelden (een gemiddelde voor iedere conditie). Daarnaast zijn er nu drie hoofdeffecten, drie tweeweg interactie effecten, en één drieweg interactie effect. Bij een tweeweg interactie wordt het interactie effect tussen twee onafhankelijke variabelen bekeken, waarbij de derde variabele constant wordt gehouden. Bij een drieweg interactie wordt het interactie effect tussen alle drie de onafhankelijke variabelen bekeken. Zoals je in de ANOVA tabel kunt zien, zijn de hoofdeffecten voor films en geslacht (marginaal) significant. Het hoofdeffect voor gemoed is niet significant. Wanneer je -in de tabel met gemiddelden- de bovenste vier gemiddelden en onderste vier gemiddelden samenvoegt, zul je zien dat het hoofdeffect van films als volgt geïnterpreteerd kan worden: er is meer agressie na het kijken van gewelddadige films dan na het kijken van niet-geweldadige films. Op eenzelfde manier kan je het hoofdeffect van geslacht bekijken door de gemiddelden voor gewelddadige films en gemoed samen te voegen en de gemiddelden voor niet-gewelddadige films en gemoed samen te voegen. De nulhypothese bij een drieweg interactie is dat de twee weg interactie effecten hetzelfde zijn voor verschillende levels van de derde onafhankelijke variabele. In het voorbeeld is het drieweg interactie effect significant, F(1,32) = 32.11, p < .05, wat betekent dat de interactie tussen gemoed en films anders is voor jongens dan voor meisjes. In dit specifieke geval betekent het dat er wel een crossover interactie is tussen films en gemoed voor jongens, maar niet voor meisjes.
Een tweede variant op het standaard 2x2 factoriële design is een factorieel design met herhaalde metingen. In een herhaalde metingen design worden dezelfde participanten op meerdere momenten gemeten. Dus, een factorieel design kan volledig tussen verschillende participanten zijn, waarbij willekeurige toewijzing aan de condities wordt gebruikt, maar het kan ook volledig binnen participanten zijn, waarbij de verschillende condities van de factoren allemaal bij dezelfde personen worden gemeten, op verschillende meetmomenten. Daarnaast is een combinatie van beiden ook nog mogelijk. In een gemixt factorieel design worden sommige factoren tussen participanten gemeten en andere factoren binnen participanten.
Het vergelijken van twee groepen is niet zo moeilijk: de groepen scoren gelijk, of de ene groep scoort hoger dan de andere. Maar wanneer er meerdere groepen zijn en meerdere onafhankelijke variabelen, dan wordt de interpretatie van de verschillen steeds lastiger. Een significante F-toets zegt je alleen dat er een verschil is tussen groepen, maar het vertelt je niet welke groepen significant verschillen van welke andere groepen. Om de effecten beter te begrijpen, is het nuttig om naar de simpele effecten te kijken. Daarnaast kunnen er ook statistische toetsen worden gebruikt om de gemiddelden van verschillende groepen tegen elkaar af te zetten. De meestgebruikte toets is de pairwise comparison (paarsgewijse test), waarbij steeds één conditie tegen één andere conditie wordt getoetst. Binnen een 2x2 factorieel design krijg je bijvoorbeeld zes paarsgewijse toetsen:
In een drieweg experimenteel design, met 2x2x3, zijn er zelfs 28 paarsgewijse toetsen mogelijk. Toch is het geen goed idee om alle toetsen uit te voeren. Een groot aantal toetsen zorgt namelijk voor een inflatie van de alfa. Iedere toets heeft namelijk een bepaalde kans op een type-1 fout, de alfa. Wanneer je heel veel toetsen uitvoert, dan stapelt dit risico zich als het ware op. Ter illustratie, wanneer je 6 paarsgewijze toetsen uitvoert, ieder met een alfa van .05, dan is de totale alfa .05*6 = .30! Wanneer 20 toetsen worden uitgevoerd, dan is de alfa zelfs 1.00. Dit betekent dat, op basis van kans (puur toeval) de onderzoeker waarschijnlijk al één significant effect vindt. Dus, zelfs wanneer er in werkelijkheid geen enkel effect is, zal de onderzoeker waarschijnlijk een significant effect vinden. Om die reden is het belangrijk om niet te veel paarsgewijze toetsen uit te voeren. Er zijn drie manieren op het aantal toetsen te beperken. Ten eerste kan de onderzoeker ervoor kiezen op, bijvoorbeeld op basis van theorie, alleen bepaalde hypothesen te testen. Er wordt dan gebruik gemaakt van geplande vergelijkingen, ook wel a priori vergelijkingen genoemd. Wanneer er van tevoren geen specifieke hypothesen zijn opgesteld, kan de onderzoeker gebruik maken van post hoc verglijkingen. Een voorbeeld van een post hoc test is dat bepaalde testen bijvoorbeeld alleen mogen worden uitgevoerd als de F test significant is. Populaire post hoc toetsen zijn de least significant difference (LSD) test, de Tukey honestly significant difference (HSD) test, en de Scheffé test. De derde manier om een inflatie van de alfa te beperken is door gebruik te maken van complexe vergelijkingen, waarbij meer dan twee gemiddelen tegelijkertijd worden vergeleken. Complexe vergelijkingen voor vaak uitgevoerd met contrast testen.
In hoofdstuk 10 is het enkelvoudige (eenweg) experimenteel design besproken. In zo'n enkelvoudig experimenteel design wordt de relatie tussen één onafhankelijke en één of meer afhankelijke variabele(n)getoetst. Alle andere variabelen worden (zoveel mogelijk) constant gehouden. Dit is echter een vrij kunstmatige situatie, omdat in het dagelijks leven vele verschillende variabelen met elkaar verband houden en elkaar beïnvloeden. Om deze complexiteit beter in kaart te brengen, zijn dus uitgebreidere designs nodig. In dit hoofdstuk bespreken we factorieel experimentele designs, die zijn ontworpen om meer dan één onafhankelijke variabele te toetsen.
Op dit punt in het boek zijn we klaar met het bespreken van de doelen en eigenschappen van beschrijvend, correlationeel, en experimenteel onderzoek. Het begrijpen van de voor- en nadelen van ieder onderzoeksdesign vormt de basis om een onderzoeker te worden. Maar welk design er ook wordt gebruikt, er zijn altijd potentiële bedreigingen voor de validiteit van het onderzoek. Wanneer deze bedreigingen niet zorgvuldig worden geïdentificeerd en (preventief) behandeld, dan daalt de kwaliteit van het onderzoek enorm. In dit hoofdstuk, en in hoofdstuk 13 en 14, gaan we verschillende potentiële bedreigingen voor de validiteit van onderzoek bespreken. Deze hoofdstukken zijn wellicht het belangrijkste van allemaal, omdat je in deze hoofdstukken leert hoe je de kwaliteit van onderzoek kunt evalueren en hoe je een valide experiment kunt opzetten om jouw onderzoeksvragen te beantwoorden.
Goed onderzoek is valide onderzoek. Met valide wordt bedoeld dat de conclusies die door de onderzoeker worden trokken, gerechtvaardigd zijn. Ter illustratie, wanneer een onderzoeker beweert dat mensen pepsi cola lekkerder vinden dan coca cola, of dat sporten zorgt voor een geluksgevoel, dan is het onderzoek alleen valide als mensen daadwerklijk pepsi lekker vinden, en wanneer sporten daadwerkelijk zorgt voor een gevoel van geluk. Helaas liggen er vele bedreigingen op de loer die de validiteit van het onderzoek kunnen verlagen. Als gevolg van een lage validiteit, worden soms foute conclusies getrokken. Natuurlijk willen onderzoekers geen onjuiste conclusies over de data trekken. Maar vaak, ondanks de beste bedoelingen, wordt invalide onderzoek gerapporteerd. Dit gebeurt zowel in kranten, op het journaal, en zelfs in wetenschappelijke tijdschriften. Het is belangrijk om op de hoogte te zijn van de potentiële bedreigingen voor de validiteit van onderzoek, zodat jij zelf een weloverwogen keuze kan maken om de conclusies van een onderzoek wel of niet te vertrouwen.
Er zijn vier typen validiteitsbedreigingen te onderscheiden:
Bedreigingen voor de constructvaliditeit (hoofdstuk 5 en 12)
Bedreigingen voor de validiteit met betrekking tot statistische conclusies (hoofdstuk 8)
Bedreigingen voor de interne validiteit (hoofdstuk 12)
Bedreigingen voor de externe validiteit (hoofdstuk 13)
In dit hoofdstuk gaan we met name in op bedreigingen voor de constructvaliditeit en bedreigingen voor de interne validiteit. Interne validiteit is de mate waarin we de conclusie over een causaal verband tussen twee variabelen kunnen vertrouwen. Externe validiteit (hoofdstuk 13) is de mate waarin resultaten generaliseerbaar zijn voor situaties, participanten, en momenten buiten de experimentele setting om. In hoofdstuk 8 bespraken we al welke bedreigingen er zijn bij het trekken van invalide statistische conclusies (dat zijn: type-1 en type-2 fouten).
Eén van de belangrijkste eigenschappen van een goed experiment is experimentele controle. Experimentele controle is de mate waarin de effecten van andere variabelen (die niet zijn opgenomen in het onderzoek) op de afhankelijke variabele zijn geëlimineerd. Hoe groter de experimentele controle, des te zekerder zijn we ervan dat de onafhankelijke variabele, in plaats van een andere variabele, veranderingen in de afhankelijke variabele veroorzaakt.
Eén van de grootste teleurstellingen van een onderzoeker is het vinden van een niet significant effect. Maar, omdat hypothese toetsen probabilistisch zijn (op kans gebaseerd) en niet deterministisch, weet je niet precies waarom het resultaat niet significant is. Het zou zo kunnen zijn dat er in werkelijkheid wel een effect (verschil) is en dat de nulhypothese dus eigenlijk verworpen had moeten worden. Er is dan sprake van een type-2 fout. Zo'n type-2 fout kan zijn veroorzaakt door vreemde variabelen. Vreemde variabelen (in het Engels: extraneous variables) zijn variabelen, anders dan de onafhankelijke variabele, die veranderingen in de afhankelijke variabele veroorzaken. Vreemde variabelen kunnen zowel initiële verschillen zijn tussen participanten (zoals kennis, vaardigheden, gemoedstoestand, motivatie), als verschillen in hoe de onderzoeker de participanten behandeld, als ook verschillen in hoe de participanten reageren op de experimentele setting. De aanwezigheid van dergelijke vreemde variabelen zorgt voor meer binnengroepsvariantie, waardoor het moeilijker is om verschillen tussen groepen op te sporen. Vreemde variabelen zorgen voor random error. Daardoor is de power lager, wat leidt tot een verhoogd risico op een type-2 fout.
In tegenstelling tot vreemde variabelen, die random error vormen, zijn verstorende ('confounding') variabelen, variabelen -anders dan de onafhankelijke variabele(n)- waarop de participanten systematisch of gemiddeld verschillen tussen verschillende condities (levels). Verstorende variabelen worden, onbewust, tijdens het experiment zelf gevormd. Stel, je wilt onderzoeken of het samenwerken in een groepje leidt tot betere wiskundeprestaties dan wanneer leerlingen alleen werken. Door een gebrek aan ruimte, ben je genoodzaakt de leerlingen die alleen werken in de kelder van het lab te plaatsen. Deze leerlingen worden in keine hokjes zonder ramen gezet. De kinderen die in een groep werken, worden in een grotere, lichte ruimte gezet, voorzien van grote glazen wanden. Zelfs al scoren de kinderen die in een groep werken beter, dan nog weet je niet waardoor dit verschil wordt veroorzaakt. De twee groepen verschillen namelijk systematisch in termen van grootte van de kamer en aanwezigheid van ramen. Het zou dus zo kunnen zijn dat meer ruimte en licht de betere prestaties veroorzaakte (in plaats van het werken in een groep). Er is hier dus sprake van verstorende variabelen, waardoor het niet mogelijk is om te bepalen of de verandering van de afhankelijke variabele is veroorzaakt door de onafhankelijke variabele(n) of door de verstorende variabele(n). Verstorende variabelen bieden een alternatieve verklaring voor de verandering in de afhankelijke variabele. Verstorende variabelen vormen een bedreiging voor de interne validiteit van een onderzoek. Interne validiteit is pas verzekerd wanneer er geen verstorende variabelen zijn.
Zowel vreemde als verstorende variabelen vormen een bedreiging voor de validiteit van onderzoek. Goed, valide onderzoek controleert zowel vreemde variabelen (extraneous variables) als verstorende variabelen (confounding variables). Hieronder worden vier manieren besproken om de effecten van vreemde variabelen te controleren.
Hierboven hebben we besproken dat initiële verschillen tussen participanten één van de vormen is van vreemde variabelen. Om dit effect te reduceren, kan de onderzoeker participanten selecteren uit een beperkte (en daardoor relatief homogene) populatie. Een bekend voorbeeld hiervan is de populatie studenten. Studenten vormen een relatief homogene populatie en worden daardoor vaak gebruikt als populatie voor onderzoek. Dit is een meer homogene groep dan bijvoorbeeld alle jongeren van 15 tot 30 jaar. Studenten hebben ongeveer dezelfde leeftijd, dezelfde woonsituatie, dezelfde sociaal-economische status, en opleidingsnieveau. Dit betekent niet dat er geen enkele variantie tussen studenten is, maar wel dat veel bronnen van mogelijke verschillen zijn gereduceerd. Een nadeel van het gebruik van een beperkte, relatief homogene populatie, is dat het de externe validiteit (generaliseerbaarheid) verlaagt: je weet niet in hoeverre de resultaten specifiek zijn voor studenten, of dat ze ook voor andere groepen gelden.
Een tweede manier om initiële verschillen tussen participanten te controleren, is door voor-na designs te gebruiken. Stel, je wilt weten hoe goed leerlingen een bepaalde woordenlijst kunnen onthouden. Je geeft leerlingen een lijst met woorden. De ene groep instrueer je om zinnen te maken met de woorden om op die manier meer woorden te onthouden. De andere groep krijgt geen instructies over hoe ze de woorden kunnen onthouden. Na een bepaalde tijd vraag je de leerlingen om alle woorden op te noemen die ze hebben onthouden. Je kunt je voorstellen dat er verschillen zijn tussen leerlingen, zelfs zonder de manipulatie. Kinderen verschillen in intelligentie, verbale vaardigheden, stemming, en motivatie. Om deze verschillen in kaart te brengen, kun je gebruik maken van een voor en na design. Dit betekent simpelweg dat je iedere participant voor en na de manipulatie meet. Je voegt dus een baseline meting toe, voorafgaand aan het experiment, om het beginniveau van iedere leerling te bepalen. Dit lijkt een beetje op een herhaalde metingen design, waarbij ook iedere participant meerdere keren wordt gemeten. Het verschil is echter dat in een voor-na design een participant maar aan één conditie wordt toegewezen. In een herhaalde metingen design wordt iedere participant aan verschillende condities toegwezen (en vindt de meting steeds tussen de verschillende manipulaties plaats). Wel heeft een voor-na design deels dezelfde nadelen. Er is namelijk kans op een retesting effect. Dat betekent dat er een risico is dat de participant anders reageert op de tweede meting als gevolg van vermoeidheid, een leereffect, enzovoort.
Wanneer een tweede meting niet mogelijk is, kan de onderzoeker ook gebruiken maken van een gepaarde groepen design ('matched-group design'). Hierbij worden participanten voorafgaand aan het experiment gemeten op een bepaade variabele van belang en ingedeeld aan de hand van die meting. Stel, je wilt dat experiment met het onthouden van zoveel mogelijk woorden uitvoeren. Voorafgaand aan het experiment neem je bij iedere leerling een intelligentietest af. Vervolgens koppel je de twee leerlingen met de hoogste score. Je plaatst de ene leerling van dat koppel in groep A (instructies) en de andere leerling plaats je in groep B (geen instructies). Hetzelfde doe je voor de twee leerlingen die daarna de hoogste scores hebben. De ene leerling plaats je in groep A. De andere leerling plaats je in groep B. Dit doe je voor alle participanten. Op die manier vorm je twee gepaarde groepen, die bij benadering gelijk zijn wat betreft intelligentie. Op die manier elimineer je de invloed van intelligentie, op groepsniveau althans. Met andere woorden, deze methode minimaliseert initiële verschillen tussen groepen, maar doet dat niet per se voor verschillen binnen groepen.
Naast het minimaliseren van initiële verschillen tussen participanten, moet een onderzoeker er ook voor zorgen dat verschillen tijdens het experiment zoveel mogelijk geminimaliseerd worden. Standaardisatie van condities betekent dat alle participanten in alle condities (levels) van de onafhankelijke variabele zoveel mogelijk hetzelfde worden behandeld, met als enige uitzondering de manipulatie zelf. Het idee is om elke andere variabele die mogelijk de afhankelijke variabele beïnvloedt, constant te houden. Voorbeelden hiervan zijn: alle participanten op dezelfde manier benaderen, de experimenten afnemen in dezelfde ruimte, op hetzelfde moment van de dag, enzovoort. Idealiter krijgt iedere participant exact evenveel tijd, heeft interactie met dezelfde onderzoek, en krijgt dezelfde informatie. Een manier om te zorgen voor standaardisatie van condities is door het opstellen van een experimenteel script of protocol waarin alle informatie over het experiment staat (hoe de participanten te begroeten, te informeren, te behandelen tijdens het experiment enzovoort). Een andere optie is door gebruik te maken van video of audio opnames. De computer geeft alle instructies, neemt de antwoorden op, meet de reactie tijd, en fysiologische reacties. Hoewel geautomatiseerde technieken de standaardisatie van condities verzekeren, heeft deze methode ook nadelen. Wanneer de participant aan het dagdromen is, en daardoor een vraag mist, dan kan een computer de reden voor een fout of gemist antwoord niet achterhalen. Ook kan de participant geen vragen stellen. Om die reden is het verstandig dat de onderzoeker voorafgaand aan het experiment aanwezig is en ervoor zorgt dat de participant nog eventuele vragen kan stellen. Wanneer de participant het onderzoek volledig begrijpt en klaar is om te beginnen, verlaat de onderzoeker de kamer.
In hoofdstuk 5 bespraken we dat construct validiteit betrekking heeft op de mate waarin de operationele definitie van een gemeten variabele een adequate meting is van de conceptuele variabele. Maar construct validiteit kan ook betrekking hebben op de effectiviteit van een experimentele manipulatie. De experimentele manipulatie heeft construct validiteit wanneer het de gehooopte veranderingen in de conceptuele variabele die wordt gemanipuleerd veroorzaakt, terwijl het tegelijkertijd niet zorgt voor veranderingen in andere variabelen (confounding).
De manipulaties in een experiment moeten sterk genoeg zijn om veranderingen in de afhankelijke variabele te veroorzaken, zelfs als er sprake is van vreemde variabelen. Wanneer de manipulatie zorgt voor de voorspelde veranderingen in de afhankelijke variabele, dan zeggen we dat de manipulatie impact heeft. Experimenteel realisme is de mate waarin de experimentele manipulatie betrekking heeft op de participant in het onderzoek. Experimenteel realisme neemt toe wanneer de participanten het onderzoek serieus nemen (waardoor ze gevoeliger zijn voor de invloed van de manipulatie). Het is het beste om de experimentele manipulatie zo sterk mogelijk te maken als mogelijk is binnen de grenzen van ethiek en praktische haalbaarheid.
Vaak wordt er gebruik gemaakt van indruksvaliditeit (face validity) bij het beoordelen van de construct validiteit van een experimentele manipulatie. Dat wil zeggen, lijkt de manipulatie invloed te hebben op de conceptuele variabele van belang? Daarnaast kan de impact van de manipulatie ook direct worden gemeten. Manipulatie checks worden gebruikt om te meten of de manipulatie een effect heeft op de conceptuele variabele. Dergelike manipulatie checks worden vaak uitgevoerd nadat de afhankelijke variabele is gemeten om het onderzoek niet te beïnvloeden. Een onderzoeker kan bijvoorbeeld na afloop van het experiment vragen aan de participant om diens stemming aan te geven met een paar items met een Likert schaal. Ook kan de onderzoeker vragen of de participant door had wat de manipulatie was, wanneer de manipulatie plaatsvondt, enzovoort. Een manipulatie check kan ook worden gebruikt om een interne analyse uit te voeren. Dit kan worden gedaan wanneer er geen significant effect is gevonden tussen de onafhankelijke en afhankelijke variabele. Stel, het experiment over intelligentie en het onthouden van een bepaald aantal woorden levert geen effect op. Uit de manipulatie check blijkt dat een deel van de participant een negatieve stemming had, en een ander deel een positieve stemming. De onderzoeker kan dan testen of er een verband is tussen stemming en de uitslag van het experiment. Dit kan informatie opleveren over waarom er geen effect is gevonden. Wellicht scoorden de participanten met een negatieve stemming lager op de eindmeting, terwijl de participanten met een positieve stemming hoger scoorden. De effecten heffen elkaar dan op, waardoor er geen significant verschil wordt gevonden. Hoewel dit interessante informatie kan opleveren, is het wel belangrijk om te onthouden dat het experimentele design hiermee als het ware wordt omgezet in een correlationeel onderzoek. Deze methode wordt alleen gebruikt wanneer er in eerste instantie geen significant verband is gevonden tussen de experimentele manipulatie en de afhankelijke variabele.
Naast dat de manipulatie impact moet hebben door verschillen op de afhankelijke variabele te veroorzaken, is het ook belangrijk dat de manipulatie geen verschillen op andere, verstorende, variabelen creërt. Om te controleren of de manipulatie geen effect heeft op andere variabelen, kan de onderzoeker één of meerdere confound checks doen. Dat zijn tests om te bepalen of de manipulatie geen onbedoelde effecten op andere variabelen heeft.
Naast het uitvoeren van deze controles, is het ook mogelijk om de verstorende variabelen om te zetten in factoren en dus op te nemen in het onderzoek. Wanneer je bijvoorbeeld alleen maar de beschikking hebt over één kleine kamer zonder ramen en één grote kamer met ramen, dan kun je er voor kiezen om de ruimtes af te wisselen voor de verschillende condities. Door de ene keer de groep in de kleine, donkere kamer te plaatsen, en de andere keer de individuele studenten in die kamer te plaatsen, controleer je de invoed van verstorende variabelen als het ware door ze op te nemen in het design.
Het kost tijd om een manipulatie te creëren die sterk genoeg is (impact heeft) en vrij is van verstorende variabelen. Wanneer je niet zeker weet of de manipulatie al valide is, dan kun je een pilot test uitvoeren. Een pilot test is als het ware een mini-studie. Voor je het echte experiment uit gaat voeren, test je het experiment op een kleine groep participanten. Dit kan helpen te bepalen of de experimentele manipulatie goed wordt geïnterpreteerd door de participanten, of de participanten de manipulatie door hebben, en of de manipulatie sterk genoeg is.
Hoewel er veel potentiële bedreigingen zijn voor de interne validiteit van een onderzoek, zijn er drie bedreigingen die zo vaak voorkomen dat het belangrijk is om deze goed te kennen: 1. placebo effect, 2. vraagkenmerken, en 3. onderzoeker bias.
Stel, een onderzoeker test de hypothese dat het drinken van alcohol ervoor zorgt dat mensen van het andere geslacht er aantrekkelijker uit gaan zien. Participanten worden willekeurig aan twee groepen toegewezen. De ene groep drink sinaasappelsap met wodka. De andere groep drinkt alleen sinaasappelsap. De participanten wordt verteld wat ze te drinken krijgen. Het resultaat van het experiment is, zoals verwacht, dat de alcoholdrinkende groep de foto's van mensen van het andere geslacht significant als meer aantrekkelijker beoordeeld. Maar, het feit dat de participanten wisten of ze wel of niet alcohol dronken, kan een verstorend effect hebben op dit verband. Het feit dat de participanten wisten wat ze dronken, in plaats van het drinken zelf, kan ook het verschil hebben veroorzaakt. Wanneer de verwachtingen van een participant over wat de manipulatie voor effect zou moeten hebben de verandering in de afhankelijke variabele veroorzaakt, dan is er sprake van een placebo effect. Placebo effecten zijn vooral in de medische wetenschappen problematisch, waar participanten vaak een afname in de symptomen laten zien na het nemen van een placebo. Een mogelijkheid is om het onderzoek bind uit voeren. Dat wil zeggen dat de participanten niet weten of ze het medicijn of een placebo krijgen. Wanneer het onderzoek dubbelblind is, weet ook de onderzoeker die de manipulatie (hier: medicijnen) regelt niet wie wat krijgt.
Een andere veelvoorkomende bedreigingen voor de interne validiteit van een onderzoek vindt plaats wanneer de participanten kunnen raden wat de onderzoekshypothese is. De kans hierop wordt verhoogd door de aanwezigheid van vraagkenmerken (in het Engels: demand characteristics). Dat zijn aspecten van het onderzoek die de participanten ertoe in staat stellen omde hypothese te raden. Stel, een experiment is ontworpen om te onderzoeken of stemming van invloed is op het helpen van andere mensen. Een deel van de partipanten krijgt een komedie te zien. Het andere deel van de participanten krijgt een waargebeurde drama film te zien. Daarna wordt de participanten de kans aangeboden om te helpen, bijvoorbeeld door vrijwiliig mee te doen aan een ander experiment. Het zal voor de participanten niet zo moeilijk zijn om te achterhalen dat er wordt getest of stemming van invloed is op het helpende gedrag van mensen. Zulke vraagkenmerken zijn problematisch, omdat participanten zich waarschijnlijk anders zullen gedragen wanneer ze weten wat er wordt onderzocht. De aanwezigheid van vraagkenmerken is dus een bedreiging voor de interne validiteit. Er zijn verschillende manieren om de aanwezigheid van zulke kenmerken te beperken. De onderzoeker kan een cover story geven, een (deels) valse of misleidende bewering van wat er wordt onderzocht. Een andere manier is door de participanten te vertellen dat ze in twee ongerelateerde experimenten zullen deelnemen, die elk door een andere onderzoeker worden uitgevoerd. In werkelijkheid is het eerste 'experiment' de experimentele manipulatie en het tweede experiment is de meting van de afhankelijke variabele. Een andere manier is om non-reactieve variabelen te meten. Een voorbeeld hiervan is bijvoorbeeld om te meten hoe ver participanten weg gaan zitten van de stoel waar een gothic zogenaamd zijn eigendommen had laten liggen. Hiermee wordt een non-reactieve meting van de houding ten opzichte van gothics gemeten.
De laatste veelvoorkomende bedreiging voor de interne validiteit is onderzoeker bias (experimenter bias). Dit wordt vaak veroorzaakt doordat de onderzoeker weet wat de onderoekshypothese is en als gevolg daarvan anders handelt. De onderzoeker zal, onbewust, de experimentele groep vaak anders behandelen dan de controlegroep. Een mogelijke oplossing hiervoor is ervoor te zorgen dat de uitvoerende onderzoeker niet op de hoogte is van de onderzoekshypothese. Er wordt dan ook wel gesproken van een naïeve onderzoekers. Helaas is dit vaak niet mogelijk, omdat de onderzoeker die de hypothese heeft opgesteld vaak ook degene is die het experiment uitvoert. Een andere manier is door 'blind experimenters' (blinde onderzoekers) te gebruiken. In dit geval is de onderzoeker wel op de hoogte van de onderzoekshypothese, maar weet hij of zij niet welke groep de experimentele groep is en welke groep de controle groep is. De onderzoeker wordt dus 'blind gehouden' voor de condities van het experiment. Een computer kan bijvoorbeeld willekeurig participanten toewijzen aan de ene of de andere conditie, zodat de onderzoeker het niet zelf hoeft te doen. De onderzoeker wijst de participanten naar de afnameruimte, geeft instructies, zet de computer aan en verlaat de kamer. De onderzoeker weet dan niet welke conditie van het experiment wordt toegewezen aan die participant. Een andere manier om dit te creëren is door twee onderzoekers te gebruiken. De ene onderzoeker wijst de participanten toe aan een bepaalde conditie De andere onderzoeker verzamelt de metingen van de afhankelijke variabele.
Op dit punt in het boek zijn we klaar met het bespreken van de doelen en eigenschappen van beschrijvend, correlationeel, en experimenteel onderzoek. Het begrijpen van de voor- en nadelen van ieder onderzoeksdesign vormt de basis om een onderzoeker te worden. Maar welk design er ook wordt gebruikt, er zijn altijd potentiële bedreigingen voor de validiteit van het onderzoek. Wanneer deze bedreigingen niet zorgvuldig worden geïdentificeerd en (preventief) behandeld, dan daalt de kwaliteit van het onderzoek enorm. In dit hoofdstuk, en in hoofdstuk 13 en 14, gaan we verschillende potentiële bedreigingen voor de validiteit van onderzoek bespreken. Deze hoofdstukken zijn wellicht het belangrijkste van allemaal, omdat je in deze hoofdstukken leert hoe je de kwaliteit van onderzoek kunt evalueren en hoe je een valide experiment kunt opzetten om jouw onderzoeksvragen te beantwoorden.
Goed onderzoek is valide onderzoek. Met valide wordt bedoeld dat de conclusies die door de onderzoeker worden getrokken, gerechtvaardigd zijn. Ter illustratie, wanneer een onderzoeker beweert dat mensen pepsi cola lekkerder vinden dan coca cola, of dat sporten zorgt voor een geluksgevoel, dan is het onderzoek alleen valide als mensen daadwerklijk pepsi lekker vinden, en wanneer sporten daadwerkelijk zorgt voor een gevoel van geluk. Helaas liggen er vele bedreigingen op de loer die de validiteit van het onderzoek kunnen verlagen. Als gevolg van een lage validiteit, worden soms foute conclusies getrokken. Natuurlijk willen onderzoekers geen onjuiste conclusies over de data trekken. Maar vaak, ondanks de beste bedoelingen, wordt invalide onderzoek gerapporteerd. Dit gebeurt zowel in kranten, op het journaal, en zelfs in wetenschappelijke tijdschriften. Het is belangrijk om op de hoogte te zijn van de potentiële bedreigingen voor de validiteit van onderzoek, zodat jij zelf een weloverwogen keuze kan maken om de conclusies van een onderzoek wel of niet te vertrouwen.
Er zijn vier typen validiteitsbedreigingen te onderscheiden:
In dit hoofdstuk gaan we met name in op bedreigingen voor de constructvaliditeit en bedreigingen voor de interne validiteit. Interne validiteit is de mate waarin we de conclusie over een causaal verband tussen twee variabelen kunnen vertrouwen. Externe validiteit (hoofdstuk 13) is de mate waarin resultaten generaliseerbaar zijn voor situaties, participanten, en momenten buiten de experimentele setting om. In hoofdstuk 8 bespraken we al welke bedreigingen er zijn bij het trekken van invalide statistische conclusies (dat zijn: type-1 en type-2 fouten).
Eén van de belangrijkste eigenschappen van een goed experiment is experimentele controle. Experimentele controle is de mate waarin de effecten van andere variabelen (die niet zijn opgenomen in het onderzoek) op de afhankelijke variabele zijn geëlimineerd. Hoe groter de experimentele controle, des te zekerder zijn we ervan dat de onafhankelijke variabele, in plaats van een andere variabele, veranderingen in de afhankelijke variabele veroorzaakt.
Eén van de grootste teleurstellingen van een onderzoeker is het vinden van een niet significant effect. Maar, omdat hypothese toetsen probabilistisch zijn (op kans gebaseerd) en niet deterministisch, weet je niet precies waarom het resultaat niet significant is. Het zou zo kunnen zijn dat er in werkelijkheid wel een effect (verschil) is en dat de nulhypothese dus eigenlijk verworpen had moeten worden. Er is dan sprake van een type-2 fout. Zo'n type-2 fout kan zijn veroorzaakt door vreemde variabelen. Vreemde variabelen (in het Engels: extraneous variables) zijn variabelen, anders dan de onafhankelijke variabele, die veranderingen in de afhankelijke variabele veroorzaken. Vreemde variabelen kunnen zowel initiële verschillen zijn tussen participanten (zoals kennis, vaardigheden, gemoedstoestand, motivatie), als verschillen in hoe de onderzoeker de participanten behandeld, als ook verschillen in hoe de participanten reageren op de experimentele setting. De aanwezigheid van dergelijke vreemde variabelen zorgt voor meer binnengroepsvariantie, waardoor het moeilijker is om verschillen tussen groepen op te sporen. Vreemde variabelen zorgen voor random error. Daardoor is de power lager, wat leidt tot een verhoogd risico op een type-2 fout.
In tegenstelling tot vreemde variabelen, die random error vormen, zijn verstorende ('confounding') variabelen, variabelen -anders dan de onafhankelijke variabele(n)- waarop de participanten systematisch of gemiddeld verschillen tussen verschillende condities (levels). Verstorende variabelen worden, onbewust, tijdens het experiment zelf gevormd. Stel, je wilt onderzoeken of het samenwerken in een groepje leidt tot betere wiskundeprestaties dan wanneer leerlingen alleen werken. Door een gebrek aan ruimte, ben je genoodzaakt de leerlingen die alleen werken in de kelder van het lab te plaatsen. Deze leerlingen worden in keine hokjes zonder ramen gezet. De kinderen die in een groep werken, worden in een grotere, lichte ruimte gezet, voorzien van grote glazen wanden. Zelfs al scoren de kinderen die in een groep werken beter, dan nog weet je niet waardoor dit verschil wordt veroorzaakt. De twee groepen verschillen namelijk systematisch in termen van grootte van de kamer en aanwezigheid van ramen. Het zou dus zo kunnen zijn dat meer ruimte en licht de betere prestaties veroorzaakte (in plaats van het werken in een groep). Er is hier dus sprake van verstorende variabelen, waardoor het niet mogelijk is om te bepalen of de verandering van de afhankelijke variabele is veroorzaakt door de onafhankelijke variabele(n) of door de verstorende variabele(n). Verstorende variabelen bieden een alternatieve verklaring voor de verandering in de afhankelijke variabele. Verstorende variabelen vormen een bedreiging voor de interne validiteit van een onderzoek. Interne validiteit is pas verzekerd wanneer er geen verstorende variabelen zijn.
Zowel vreemde als verstorende variabelen vormen een bedreiging voor de validiteit van onderzoek. Goed, valide onderzoek controleert zowel vreemde variabelen (extraneous variables) als verstorende variabelen (confounding variables). Hieronder worden vier manieren besproken om de effecten van vreemde variabelen te controleren.
Hierboven hebben we besproken dat initiële verschillen tussen participanten één van de vormen is van vreemde variabelen. Om dit effect te reduceren, kan de onderzoeker participanten selecteren uit een beperkte (en daardoor relatief homogene) populatie. Een bekend voorbeeld hiervan is de populatie studenten. Studenten vormen een relatief homogene populatie en worden daardoor vaak gebruikt als populatie voor onderzoek. Dit is een meer homogene groep dan bijvoorbeeld alle jongeren van 15 tot 30 jaar. Studenten hebben ongeveer dezelfde leeftijd, dezelfde woonsituatie, dezelfde sociaal-economische status, en opleidingsnieveau. Dit betekent niet dat er geen enkele variantie tussen studenten is, maar wel dat veel bronnen van mogelijke verschillen zijn gereduceerd. Een nadeel van het gebruik van een beperkte, relatief homogene populatie, is dat het de externe validiteit (generaliseerbaarheid) verlaagt: je weet niet in hoeverre de resultaten specifiek zijn voor studenten, of dat ze ook voor andere groepen gelden.
Een tweede manier om initiële verschillen tussen participanten te controleren, is door voor-na designs te gebruiken. Stel, je wilt weten hoe goed leerlingen een bepaalde woordenlijst kunnen onthouden. Je geeft leerlingen een lijst met woorden. De ene groep instrueer je om zinnen te maken met de woorden om op die manier meer woorden te onthouden. De andere groep krijgt geen instructies over hoe ze de woorden kunnen onthouden. Na een bepaalde tijd vraag je de leerlingen om alle woorden op te noemen die ze hebben onthouden. Je kunt je voorstellen dat er verschillen zijn tussen leerlingen, zelfs zonder de manipulatie. Kinderen verschillen in intelligentie, verbale vaardigheden, stemming, en motivatie. Om deze verschillen in kaart te brengen, kun je gebruik maken van een voor en na design. Dit betekent simpelweg dat je iedere participant voor en na de manipulatie meet. Je voegt dus een baseline meting toe, voorafgaand aan het experiment, om het beginniveau van iedere leerling te bepalen. Dit lijkt een beetje op een herhaalde metingen design, waarbij ook iedere participant meerdere keren wordt gemeten. Het verschil is echter dat in een voor-na design een participant maar aan één conditie wordt toegewezen. In een herhaalde metingen design wordt iedere participant aan verschillende condities toegwezen (en vindt de meting steeds tussen de verschillende manipulaties plaats). Wel heeft een voor-na design deels dezelfde nadelen. Er is namelijk kans op een retesting effect. Dat betekent dat er een risico is dat de participant anders reageert op de tweede meting als gevolg van vermoeidheid, een leereffect, enzovoort.
Wanneer een tweede meting niet mogelijk is, kan de onderzoeker ook gebruiken maken van een gepaarde groepen design ('matched-group design'). Hierbij worden participanten voorafgaand aan het experiment gemeten op een bepaade variabele van belang en ingedeeld aan de hand van die meting. Stel, je wilt dat experiment met het onthouden van zoveel mogelijk woorden uitvoeren. Voorafgaand aan het experiment neem je bij iedere leerling een intelligentietest af. Vervolgens koppel je de twee leerlingen met de hoogste score. Je plaatst de ene leerling van dat koppel in groep A (instructies) en de andere leerling plaats je in groep B (geen instructies). Hetzelfde doe je voor de twee leerlingen die daarna de hoogste scores hebben. De ene leerling plaats je in groep A. De andere leerling plaats je in groep B. Dit doe je voor alle participanten. Op die manier vorm je twee gepaarde groepen, die bij benadering gelijk zijn wat betreft intelligentie. Op die manier elimineer je de invloed van intelligentie, op groepsniveau althans. Met andere woorden, deze methode minimaliseert initiële verschillen tussen groepen, maar doet dat niet per se voor verschillen binnen groepen.
Naast het minimaliseren van initiële verschillen tussen participanten, moet een onderzoeker er ook voor zorgen dat verschillen tijdens het experiment zoveel mogelijk geminimaliseerd worden. Standaardisatie van condities betekent dat alle participanten in alle condities (levels) van de onafhankelijke variabele zoveel mogelijk hetzelfde worden behandeld, met als enige uitzondering de manipulatie zelf. Het idee is om elke andere variabele die mogelijk de afhankelijke variabele beïnvloedt, constant te houden. Voorbeelden hiervan zijn: alle participanten op dezelfde manier benaderen, de experimenten afnemen in dezelfde ruimte, op hetzelfde moment van de dag, enzovoort. Idealiter krijgt iedere participant exact evenveel tijd, heeft interactie met dezelfde onderzoek, en krijgt dezelfde informatie. Een manier om te zorgen voor standaardisatie van condities is door het opstellen van een experimenteel script of protocol waarin alle informatie over het experiment staat (hoe de participanten te begroeten, te informeren, te behandelen tijdens het experiment enzovoort). Een andere optie is door gebruik te maken van video of audio opnames. De computer geeft alle instructies, neemt de antwoorden op, meet de reactie tijd, en fysiologische reacties. Hoewel geautomatiseerde technieken de standaardisatie van condities verzekeren, heeft deze methode ook nadelen. Wanneer de participant aan het dagdromen is, en daardoor een vraag mist, dan kan een computer de reden voor een fout of gemist antwoord niet achterhalen. Ook kan de participant geen vragen stellen. Om die reden is het verstandig dat de onderzoeker voorafgaand aan het experiment aanwezig is en ervoor zorgt dat de participant nog eventuele vragen kan stellen. Wanneer de participant het onderzoek volledig begrijpt en klaar is om te beginnen, verlaat de onderzoeker de kamer.
In hoofdstuk 5 bespraken we dat construct validiteit betrekking heeft op de mate waarin de operationele definitie van een gemeten variabele een adequate meting is van de conceptuele variabele. Maar construct validiteit kan ook betrekking hebben op de effectiviteit van een experimentele manipulatie. De experimentele manipulatie heeft construct validiteit wanneer het de gehooopte veranderingen in de conceptuele variabele die wordt gemanipuleerd veroorzaakt, terwijl het tegelijkertijd niet zorgt voor veranderingen in andere variabelen (confounding).
De manipulaties in een experiment moeten sterk genoeg zijn om veranderingen in de afhankelijke variabele te veroorzaken, zelfs als er sprake is van vreemde variabelen. Wanneer de manipulatie zorgt voor de voorspelde veranderingen in de afhankelijke variabele, dan zeggen we dat de manipulatie impact heeft. Experimenteel realisme is de mate waarin de experimentele manipulatie betrekking heeft op de participant in het onderzoek. Experimenteel realisme neemt toe wanneer de participanten het onderzoek serieus nemen (waardoor ze gevoeliger zijn voor de invloed van de manipulatie). Het is het beste om de experimentele manipulatie zo sterk mogelijk te maken als mogelijk is binnen de grenzen van ethiek en praktische haalbaarheid.
Vaak wordt er gebruik gemaakt van indruksvaliditeit (face validity) bij het beoordelen van de construct validiteit van een experimentele manipulatie. Dat wil zeggen, lijkt de manipulatie invloed te hebben op de conceptuele variabele van belang? Daarnaast kan de impact van de manipulatie ook direct worden gemeten. Manipulatie checks worden gebruikt om te meten of de manipulatie een effect heeft op de conceptuele variabele. Dergelike manipulatie checks worden vaak uitgevoerd nadat de afhankelijke variabele is gemeten om het onderzoek niet te beïnvloeden. Een onderzoeker kan bijvoorbeeld na afloop van het experiment vragen aan de participant om diens stemming aan te geven met een paar items met een Likert schaal. Ook kan de onderzoeker vragen of de participant door had wat de manipulatie was, wanneer de manipulatie plaatsvondt, enzovoort. Een manipulatie check kan ook worden gebruikt om een interne analyse uit te voeren. Dit kan worden gedaan wanneer er geen significant effect is gevonden tussen de onafhankelijke en afhankelijke variabele. Stel, het experiment over intelligentie en het onthouden van een bepaald aantal woorden levert geen effect op. Uit de manipulatie check blijkt dat een deel van de participant een negatieve stemming had, en een ander deel een positieve stemming. De onderzoeker kan dan testen of er een verband is tussen stemming en de uitslag van het experiment. Dit kan informatie opleveren over waarom er geen effect is gevonden. Wellicht scoorden de participanten met een negatieve stemming lager op de eindmeting, terwijl de participanten met een positieve stemming hoger scoorden. De effecten heffen elkaar dan op, waardoor er geen significant verschil wordt gevonden. Hoewel dit interessante informatie kan opleveren, is het wel belangrijk om te onthouden dat het experimentele design hiermee als het ware wordt omgezet in een correlationeel onderzoek. Deze methode wordt alleen gebruikt wanneer er in eerste instantie geen significant verband is gevonden tussen de experimentele manipulatie en de afhankelijke variabele.
Naast dat de manipulatie impact moet hebben door verschillen op de afhankelijke variabele te veroorzaken, is het ook belangrijk dat de manipulatie geen verschillen op andere, verstorende, variabelen creërt. Om te controleren of de manipulatie geen effect heeft op andere variabelen, kan de onderzoeker één of meerdere confound checks doen. Dat zijn tests om te bepalen of de manipulatie geen onbedoelde effecten op andere variabelen heeft.
Naast het uitvoeren van deze controles, is het ook mogelijk om de verstorende variabelen om te zetten in factoren en dus op te nemen in het onderzoek. Wanneer je bijvoorbeeld alleen maar de beschikking hebt over één kleine kamer zonder ramen en één grote kamer met ramen, dan kun je er voor kiezen om de ruimtes af te wisselen voor de verschillende condities. Door de ene keer de groep in de kleine, donkere kamer te plaatsen, en de andere keer de individuele studenten in die kamer te plaatsen, controleer je de invloed van verstorende variabelen als het ware door ze op te nemen in het design.
Het kost tijd om een manipulatie te creëren die sterk genoeg is (impact heeft) en vrij is van verstorende variabelen. Wanneer je niet zeker weet of de manipulatie al valide is, dan kun je een pilot test uitvoeren. Een pilot test is als het ware een mini-studie. Voor je het echte experiment uit gaat voeren, test je het experiment op een kleine groep participanten. Dit kan helpen te bepalen of de experimentele manipulatie goed wordt geïnterpreteerd door de participanten, of de participanten de manipulatie door hebben, en of de manipulatie sterk genoeg is.
Hoewel er veel potentiële bedreigingen zijn voor de interne validiteit van een onderzoek, zijn er drie bedreigingen die zo vaak voorkomen dat het belangrijk is om deze goed te kennen: 1. placebo effect, 2. vraagkenmerken, en 3. onderzoeker bias.
Stel, een onderzoeker test de hypothese dat het drinken van alcohol ervoor zorgt dat mensen van het andere geslacht er aantrekkelijker uit gaan zien. Participanten worden willekeurig aan twee groepen toegewezen. De ene groep drink sinaasappelsap met wodka. De andere groep drinkt alleen sinaasappelsap. De participanten wordt verteld wat ze te drinken krijgen. Het resultaat van het experiment is, zoals verwacht, dat de alcoholdrinkende groep de foto's van mensen van het andere geslacht significant als meer aantrekkelijker beoordeeld. Maar, het feit dat de participanten wisten of ze wel of niet alcohol dronken, kan een verstorend effect hebben op dit verband. Het feit dat de participanten wisten wat ze dronken, in plaats van het drinken zelf, kan ook het verschil hebben veroorzaakt. Wanneer de verwachtingen van een participant over wat de manipulatie voor effect zou moeten hebben de verandering in de afhankelijke variabele veroorzaakt, dan is er sprake van een placebo effect. Placebo effecten zijn vooral in de medische wetenschappen problematisch, waar participanten vaak een afname in de symptomen laten zien na het nemen van een placebo. Een mogelijkheid is om het onderzoek bind uit voeren. Dat wil zeggen dat de participanten niet weten of ze het medicijn of een placebo krijgen. Wanneer het onderzoek dubbelblind is, weet ook de onderzoeker die de manipulatie (hier: medicijnen) regelt niet wie wat krijgt.
Een andere veelvoorkomende bedreigingen voor de interne validiteit van een onderzoek vindt plaats wanneer de participanten kunnen raden wat de onderzoekshypothese is. De kans hierop wordt verhoogd door de aanwezigheid van vraagkenmerken (in het Engels: demand characteristics). Dat zijn aspecten van het onderzoek die de participanten ertoe in staat stellen omde hypothese te raden. Stel, een experiment is ontworpen om te onderzoeken of stemming van invloed is op het helpen van andere mensen. Een deel van de partipanten krijgt een komedie te zien. Het andere deel van de participanten krijgt een waargebeurde drama film te zien. Daarna wordt de participanten de kans aangeboden om te helpen, bijvoorbeeld door vrijwiliig mee te doen aan een ander experiment. Het zal voor de participanten niet zo moeilijk zijn om te achterhalen dat er wordt getest of stemming van invloed is op het helpende gedrag van mensen. Zulke vraagkenmerken zijn problematisch, omdat participanten zich waarschijnlijk anders zullen gedragen wanneer ze weten wat er wordt onderzocht. De aanwezigheid van vraagkenmerken is dus een bedreiging voor de interne validiteit. Er zijn verschillende manieren om de aanwezigheid van zulke kenmerken te beperken. De onderzoeker kan een cover story geven, een (deels) valse of misleidende bewering van wat er wordt onderzocht. Een andere manier is door de participanten te vertellen dat ze in twee ongerelateerde experimenten zullen deelnemen, die elk door een andere onderzoeker worden uitgevoerd. In werkelijkheid is het eerste 'experiment' de experimentele manipulatie en het tweede experiment is de meting van de afhankelijke variabele. Een andere manier is om non-reactieve variabelen te meten. Een voorbeeld hiervan is bijvoorbeeld om te meten hoe ver participanten weg gaan zitten van de stoel waar een gothic zogenaamd zijn eigendommen had laten liggen. Hiermee wordt een non-reactieve meting van de houding ten opzichte van gothics gemeten.
De laatste veelvoorkomende bedreiging voor de interne validiteit is onderzoeker bias (experimenter bias). Dit wordt vaak veroorzaakt doordat de onderzoeker weet wat de onderoekshypothese is en als gevolg daarvan anders handelt. De onderzoeker zal, onbewust, de experimentele groep vaak anders behandelen dan de controlegroep. Een mogelijke oplossing hiervoor is ervoor te zorgen dat de uitvoerende onderzoeker niet op de hoogte is van de onderzoekshypothese. Er wordt dan ook wel gesproken van naïeve onderzoekers. Helaas is dit vaak niet mogelijk, omdat de onderzoeker die de hypothese heeft opgesteld vaak ook degene is die het experiment uitvoert. Een andere manier is door 'blind experimenters' (blinde onderzoekers) te gebruiken. In dit geval is de onderzoeker wel op de hoogte van de onderzoekshypothese, maar weet hij of zij niet welke groep de experimentele groep is en welke groep de controle groep is. De onderzoeker wordt dus 'blind gehouden' voor de condities van het experiment. Een computer kan bijvoorbeeld willekeurig participanten toewijzen aan de ene of de andere conditie, zodat de onderzoeker het niet zelf hoeft te doen. De onderzoeker wijst de participanten naar de afnameruimte, geeft instructies, zet de computer aan en verlaat de kamer. De onderzoeker weet dan niet welke conditie van het experiment wordt toegewezen aan die participant. Een andere manier om dit te creëren is door twee onderzoekers te gebruiken. De ene onderzoeker wijst de participanten toe aan een bepaalde conditie De andere onderzoeker verzamelt de metingen van de afhankelijke variabele.
Op dit punt in het boek zijn we klaar met het bespreken van de doelen en eigenschappen van beschrijvend, correlationeel, en experimenteel onderzoek. Het begrijpen van de voor- en nadelen van ieder onderzoeksdesign vormt de basis om een onderzoeker te worden. Maar welk design er ook wordt gebruikt, er zijn altijd potentiële bedreigingen voor de validiteit van het onderzoek. Wanneer deze bedreigingen niet zorgvuldig worden geïdentificeerd en (preventief) behandeld, dan daalt de kwaliteit van het onderzoek enorm. In dit hoofdstuk, en in hoofdstuk 13 en 14, gaan we verschillende potentiële bedreigingen voor de validiteit van onderzoek bespreken. Deze hoofdstukken zijn wellicht het belangrijkste van allemaal, omdat je in deze hoofdstukken leert hoe je de kwaliteit van onderzoek kunt evalueren en hoe je een valide experiment kunt opzetten om jouw onderzoeksvragen te beantwoorden.
Externe validiteit is de mate waarin conclusies van het onderzoek gegeneraliseerd kunnen worden naar situaties, participanten, en tijden buiten de experimentele setting om. Generalisatie is dan ook de mate waarin verbanden tussen conceptuele variabelen aangetoond kunnen worden in een grote verscheidenheid van mensen (generalization across participants), in een grote verscheidenheid van omgevingen (generalization across settings), en binnen een grote verscheidenheid van gemanipuleerde (= onafhankelijke) of gemeten (= afhankelijke) variabelen.
Stel, je onderzoekt de relatie tussen het kijken van gewelddadige films en agressiviteit. Je neemt een steekproef van kinderen afkomstig uit de Kolenkitbuurt in Amsterdam. Je vindt een verband tussen het kijken van agressieve films en agressiviteit en concludeert hieruit dat agressieve films zorgen voor een verhoogde mate van agressiviteit. Maar, in hoeverre gelden deze resultaten ook voor andere kinderen? In dit voorbeeld is gebruik gemaakt van een erg specifieke steekproef. De kinderen komen allemaal uit dezelfde wijk in Amsterdam. De Kolenkitbuurt is een slechte wijk en de kans is groot dat veel kinderen uit gezinnen komen met een lage sociaaleconomische status. Wellicht zijn deze kinderen gevoeliger voor gewelddadige films. Wellicht waren ze van te voren al agressiever. Allemaal factoren die specifiek voor deze steekproef zouden kunnen zijn. Doordat er zo'n specifieke steekpoef is gebruikt, kent dit onderzoek een lage matre van externe validiteit. De conclusies die uit dit onderzoek zijn getrokken, zijn niet generaliseerbaar naar andere groepen kinderen.
Het herhalen van hetzelfde experiment in verschillende omgevingen, met verschillende onderzoekers, en met verschillende operationalisaties van de variabelen is de beste manier om generalisatie naar omgevingen (generalisation across settings) te bewerkstelligen. Daarnaast is het ook mogelijk om de generalisatie van een enkel experiment te verhogen door de ecologische validiteit te verhogen. De ecologische validiteit is de mate waarin het onderzoek is uitgevoerd in situaties die lijken op alledaagse levenservaringen van de participanten. Dit kan bijvoorbeeld door het uitvoeren van veld experimenten. Dat zijn experimenten die in de natuurlijke omgeving plaatsvinden, zoals in een bibliotheek, fabriek, of school, in plaats van in een laboratorium. Over het algemeen is de kans op generaliseerbaarheid van de conclusies hoger bij experimenten met een hoge ecologische validiteit, zoals veld experimenten. Het is echter niet zo dat veldexperimenten per definitie een hogere mate van externe validiteit hebben dan laboratorium experimenten. Veldexperimenten zijn beperkt, omdat ze maar één groep mensen kunnen meten op een bepaald moment op een bepaade plaats. Hoe goed het experiment ook is ontworpen, er zijn altijd bedreigingen voor de externe validiteit.
Omdat een enkele test van een onderzoekshypothese altijd erg beperkt is in wat het kan aantonen, wordt het aanbevolen om dezelfde hypothese meerdere malen te testen. Het herhalen van een onderzoek wordt ook wel een replicatie genoemd. De wetenschap is een accumulatief proces (opeenstapeling) van kennis. Herhalingen van onderzoek kunnen op vele verschillende manieren worden uitgevoerd:
Het doel van een exacte replicatie is om het onderzoek zo precies mogelijk te herhalen. Hoewel het natuurlijk nooit helemaal hetzelfde kan zijn (onder andere omdat er nieuwe participanten worden getest), is het idee wel om zoveel mogelijk het onderzoek in hetzelfde format te herhalen. Exacte replicaties komen in de gedragswetenschappen niet heel veel voor. Dit komt deels doordat, zelfs al is de replicatie niet in staat om dezelfde resultaten te vinden, dat niet wil zeggen dat het originele experiment invalide was. Het kan zo zijn dat de onderzoeker van de replicatie niet in staat was om de omstandigheden exact te repliceren, of dat de afhankelijke variabele niet betrouwbaar is gemeten. Hoe dan ook, om dit type replicatie mogelijk te maken, is het belangrijk om in het onderzoeksrapport transparant en gedetailleerd het onderzoek te beschrijven, zodat een andere onderzoeker in staat is om het onderzoek (zo exact mogelijk) te herhalen.
In een conceptuele replicatie test de onderzoeker het verband tussen dezelfde conceptuele variabelen als in het originele onderzoek, maar gebruikt daarbij andere operationele definities van de onafhankelijke en/of afhankelijke gemeten variabelen. Om het effect van gewelddadige films te bestuderen, kan een onderzoeker bijvoorbeeld gebruik maken van speelfilms in plaats van animatiefilms. Ook kan verbale in plaats van fysieke agressie worden gemeten. Wanneer dezelfde relatie wordt aangetoond met andere manipulaties of andere afhankelijke variabelen, dan vergroot dit het vertrouwen dat het gevonden verband niet specifiek is voor de origineel gemeten variabelen. Wanneer dezelfde relatie niet wordt aangetoond, dan geeft het informatie over situaties of metingen waarvoor dit verband (waarschijnlijk) niet geldig is.
Constructieve replicaties zijn de meest populaire variant van replicaties. In een constructieve replicatie wordt dezelfde hypothese getetst als in het originele onderzoek, maar worden er één of meerdere condities aan het experiment toegevoegd. Over het algemeen is het doel van een constructieve replicatie om alternatieve verklaringen te elimineren of om nieuwe informatie over de variabelen die worden onderzocht, toe te voegen.
De vierde en laatste vorm van replicatie wordt ook wel participant replicatie genoemd. Bij deze vorm van replicatie wordt het onderzoek herhaald met een nieuwe, andere populatie. Dit kan bijvoorbeeld door niet alleen kinderen uit de Kolenkitbuurt te testen, maar in een replicatie een steekproef te trekken uit de populatie 'kinderen in Amsterdam' of zelfs 'Kinderen in Nederland'. Op die manier kun je meer informatie verzamelen over de generaliseerbaarheid van de resultaten voor verschillende (groepen) participanten.
Zoals je hebt gemerkt, bestaat het perfecte onderzoek niet. Ieder onderzoek wordt in meer of mindere mate beïnvloed door factoren die de interne of externe validiteit verlagen. Om die reden wordt er in de wetenschap ook nooit vastgehouden aan slechts een enkele studie. Het wetenschappelijk proces is een cumulatieve procedure, waarbij onderzoeken continu voortbouwen op eerdere onderzoeken. Een methode hierbinnen is het opzetten van een onderzoeksprogramma. Een onderzoeksprogramma is een verzameling van experimenten, waarin een bepaald onderwerp systematisch wordt onderzocht door conceptuele en constructieve replicaties gedurende een bepaalde periode.
De resultaten van een onderzoeksprogramma worden vaak beoordeeld en samegevat in een review paper. Een review paper is een wetenschappelijk artikel waarbij eerder gedaan onderzoek wordt verzameld, samengevat, en beoordeeld. De bedoeling van een review paper is om een overzicht te krijgen van de onderzoeken over een specifiek onderwerp, zodat daaruit conclusies kunnen worden getrokken over de omstandigheden waaronder verbanden tussen variabelen wel of juist niet voorkomen. Daarnaast worden de bevindingen van de onderzoeken gerelateerd aan onderzoek in andere onderzoeksgebieden en worden er suggesties gegeven voor toekomstig onderzoek.
Een andere manier om de resultaten te verzamelen en te integreren is door middel van een meta-analyse. Een meta-analyse gebruikt statistische technieken om de resultaten van bestaande studies te integreren. Meta-analyses zijn erg populair in de gedragswetenschappen. Een meta-analyse is een relatief objectieve methode om literatuur samen te vatten, omdat het (1) gebruik maakt van specifieke inclusie criteria, die exact bepalen welke studies wel en niet worden geïncludeerd in de meta-analyse, (2) er systematisch wordt gezocht naar de artikelen die voldoen aan de inclusie criteria, en (3) een statistiek voor effect grootte (effect size) wordt gebruikt om de sterkte van het verband aan te duiden. Vaak worden in een meta-analyse ook studies opgenomen die geen effect vonden (als die zijn gepubliceerd).
Wanneer een 'gewone' narratieve review en een meta-analyse tegen elkaar worden afgezet, kunnen we concluderen dat over het algemeen een meta-analyse objectiever en accurater is. Een nadeel van meta-analyses is dat ze zijn gebaseerd op gearchiveerde onderzoeken (onderzoeken die in het verleden zijn uitgevoerd en gepubliceerd). Dit kan problematisch zijn wanneer studies niet alle variabelen hebben gemeten of wanneer de gepubliceerde studies niet representatief zijn voor het totaal aantal studies. Het komt bijvoorbeeld vaak voor dat studies waarin geen (significant) verschil is gevonden, niet worden gepubliceerd. Kortom, hoewel zowel een review studie als een meta-analyse kunnen bijdragen aan meer kennis over een bepaald onderwerp, zijn ook hier nadelen en beperkingen te noemen. Dus ook bij deze typen onderzoek moeten conclusies voorzichtig worden getrokken, bewustzijnde van de mogelijke nadelen en beperkingen van het onderzoek.
Externe validiteit is de mate waarin conclusies van het onderzoek gegeneraliseerd kunnen worden naar situaties, participanten, en tijden buiten de experimentele setting om. Generalisatie is dan ook de mate waarin verbanden tussen conceptuele variabelen aangetoond kunnen worden in een grote verscheidenheid van mensen (generalization across participants), in een grote verscheidenheid van omgevingen (generalization across settings), en binnen een grote verscheidenheid van gemanipuleerde (= onafhankelijke) of gemeten (= afhankelijke) variabelen.
In hoofdstuk 10 werd duidelijk dat de kracht van experimenteel onderzoek ligt in het vermogen om de interne validiteit te maximaliseren. Een groot nadeel van experimenteel onderzoek is echter, vooral in de gedragswetenschappen, dat de onafhankelijk variabele niet altijd gemanipuleerd kan worden. Met name ethische en praktische redenen kunnen ervoor zorgen dat de onafhankelijke variabele niet gemanipuleerd kan of mag worden. In dit laatste hoofdstuk gaan we een design bespreken dat kan worden gebruikt wanneer de onderzoeker niet in staat is om personen willekeurig aan bepaalde condities of (herhaalde) metingen toe te wijzen. Dit design wordt erg veel toegepast in de gedragswetenschappen en biedt een alternatief voor het 'harde' experimentele design.
Quasi-experimentele onderzoeksdesigns zijn onderzoeksdesigns waarbij de onafhankelijke variabele wordt gemeten in plaats van gemanipuleerd. Vaak wordt er gebruik gemaakt van bestaande, natuurlijke groepen. Quasi-experimentele onderzoeksdesigns zijn correlationeel, niet experimenteel! Desalniettemin heeft dit type design wel overeenkomsten met experimentele designs, omdat de onafhankelijke variabele een groepering heeft (opsplitsing in bepaalde categorieën of condities) en de data vaak worden geanalyseerd met een ANOVA. Er zijn grofweg vier typen quasi-experimentele designs te onderscheiden:
In het geval van een enkele groep design, bestaat het onderzoek uit maar één groep. Er is geen controlegroep om te bepalen of en in welke mate er een verandering in de afhankelijke variabele zou zijn zonder de manipulatie. Dit is de zwakste variant van quasi-experimenteel onderzoek. Dit design kan prima worden gebruikt om data over een groep beschrijvend weer te geven (naturalistisch beschrijvend onderzoek). Enkele groep studies mogen echter nooit gebruikt worden om conclusies te trekken over oorzaak-gevolg. Omdat we niet weten wat het effect zou zijn zonder de manipulatie, sluit dit onderzoek geen alternatieve verklaringen uit en mogen er geen causale conclusies worden getrokken.
Een manier om de bovenstaande beperkingen te overkomen, is door een controlegroep toe te voegen aan het onderzoeksdesign. Dit kan bijvoorbeed een groep zijn die de interventie niet ontvangt, niet meedoet aan het trainingsprogramma, of iets dergelijks. Hoewel dit een aantal serieuze beperkingen van een design met een enkele groep wegneemt, blijven ook hier beperkingen voor de interne validiteit bestaan. Omdat de participanten zichzelf (al dan niet bewust) indelen in groepen, in plaats van dat er sprake is van willekeurige toewijzing, is er kans op selection threats, dat zijn systematische verschillen tussen de groepen. Doordat er bij dit tweede type quasi-experimenteel onderzoek geen voormeting is, weet de onderzoeker dus niet of er verschillen zijn tussen de groepen en zo ja, hoe groot en in welke richting die verschillen zijn.
Je kunt je voorstellen dat het opnemen van een voormeting in het design erg waardevolle informatie geeft over het basisniveau van de participanten. Door het design dus uit te breiden naar een longitudinaal design met een voor- en nameting, is een onderzoeker in staat om het startniveau en initiële verschillen tussen participanten in kaart te brengen. De scores van iedere participant na de interventie kunnen dan vergeleken worden met de (eigen) scores voor de interventie.
Helaas is dit type onderzoek wel gevoelig voor de volgende drie typen bedreigingen voor de interne validiteit: 1. hertesten, 2. uitval (attrition), en 3. rijping en geschiedenis. De eerste hebben we al besproken in hoofdstuk 5. Het komt erop neer dat participanten na de eerste keer doorhebben wat de onderzoekshypothese is en daardoor anders reageren tijdens de tweede meting. De tweede heeft betrekking op uitval van participanten (attrition, mortality). Uitval kan verschillende redenenen hebben: een verhuizing, overlijden, onbereikbaarheid, verlies van bereidheid of motivatie om aan het onderzoek mee te doen, enzovoort. Vaak is het zo dat hoe langer de tijd tussen de voor- en nameting, des te hoger het percentage participanten dat uitvalt. Ook zijn experimenten die gevoelig zijn, veel tijd kosten, of fysiek of mentaal inspannend zijn, een hoger uitvalspercentage kennen. Tot slot kan een tijdsperiode tussen de voor- en nameting er ook voor zorgen dat de participanten zich in de tussentijd, los van de interventie, ontwikkelen. Deze bedreiging voor de rijping (maturation) is met name bij (jonge) kinderen een reële mogelijkheid. Naast veranderingen in de participanten zelf, kunnen er ook evenementen plaatsvinden die van invloed zijn op de afhankelijke variabele. 9/11 heeft bijvoorbeeld een grote impact gehad op de gedachten over terrorisme en de Arabische wereld. Stel dat deze gebeurtenis tussen de voor- en nameting van een onderzoek naar opinie over terrorisme plaatsvond, dan zal dat ongetwijfeld een grote impact hebben gehad op de bevindingen.
De vierde, en beste variant van quasi-experimenteel onderzoek is het gebruik van twee groepen (experimenteel en controlegroep) en een voor- en nameting. De bedreigingen voor uitval en rijping en geschiedenis vallen hier (deels) weg, omdat dit waarschijnlijk voor beide groepen hetzelfde is. Hoewel de groepen in dit type design niet willekeurig worden toegewezen, omdat er gebruik wordt gemaakt van natuurlijke groepen, biedt het wel de mogelijkheid om initiële verschillen in kaart te brengen en te beoordelen.
Hoewel het toevoegen van een voor- en nameting en een vergelijkingsgroep helpt om in kaart te brengen of er sprake is van verschillen tussen participanten en tussen meetmomenten, sluit het niet de mogelijkheid uit dat de onafhankelijke variabele ook daadwerkelijk het verschil in de afhankelijke variabele heeft veroorzaakt. Een bedreiging voor de validiteit die bij dit type design nog steeds mogelijk is, is regressie naar het gemiddelde. Om dit te begrijpen, halen we de regressievergelijking er even bij. De scores worden eerst omgezet naar standaard (z) scores aan de hand van de volgende vergelijking:
waarbij r de Pearson correlatie coëfficiënt is tussen variabele X (onafhankelijke variabele) en Y (afhankelijke variabele). Wanneer de correlatie tussen deze twee variabelen meer dan r = -1.00 of minder dan r = 1.00 is, dan resulteert dit altijd in de voorspelling dat de waarde van de afhankelijke variabele meer naar het gemiddelde (= minder extreem) gaat. Stel, de correlatie tussen twee variabelen is r = .30. Wanneer iemand een score ontvangt van zx = 2 op de onafhankelijke variabele, dan verwachten we een score van .30 * 2 = .60 op de afhankelijke variabele. Dit betekent dat, wanneer dezelfde variabele twee keer wordt gemeten, en de correlatie tussen de metingen is meer dan -1 en minder dan 1, individuen neigen om meer richting het gemiddelde te scoren op de tweede meting. Dit wordt ook wel regressie naar het gemiddelde genoemd.
In de tabel hieronder staan de vier typen quasi-experimenteel design en de bijbehorende bedreigingen voor de interne validiteit samengevat.
Design | Bedreiging | Interne validiteit | |||||
Selectie | Uitval | Rijping | Geschiedenis | Hertesten | Regressie | ||
Enkele groep | x | ||||||
Twee groepen | x | ||||||
Enkele groep met voor- en nameting | x | x | x | x | |||
Twee groepen met voor- en nameting | x | x |
Het idee van een design met een voor- en nameting kan nog verder worden uitgebreid door nog meer meetmomenten toe te voegen. Dit wordt ook wel een time-series design genoemd. Een voorbeeld van dit type design is bijvoorbeeld het dagelijks meten van de stemming van een individu, of het dagelijks of zelfs ieder uur meten van de temperatuur. Dit type design biedt nog meer inzicht in wanneer veranderingen optreden. Een nadeel is dat het vaak veel tijd en geld kost om zoveel metingen uit te voeren. Ook is (bij onderzoek met personen) de kans op leereffecten, uitval, en rijping groter.
Een variant op de time-series is de single-participant design, waarbij data wordt verzameld van één individu gedurende een bepaalde tijd. Vaak wordt er gebruik gemaakt van een A-B-A design (reversal design), waarbij de participant wordt gemeten voor, tijdens, en na de interventie. Hoewel dit type design gebruikt kan worden om de effectiviteit van een interventie (voor een specifiek individu) in kaart te brengen, is de generaliseerbaarheid laag. Bovendien zijn in de gedragswetenschappen de metingen vaak niet heel stabiel en is de random error groot. Verder is de effectgrootte van interventies vaak niet enorm groot. Dit alles maakt dat deze variant niet veel wordt toegepast in de gedragswetenschappen.
Tot nu toe hebben we steeds varianten van quasi-experimenteel onderzoek besproken waarbij groepen mensen met verschillende ervaringen met elkaar werden vergeleken, maar de meest voorkomende variant van quasi-experimenteel onderzoek is waarschijnlijk die waarin gebruik wordt gemaakt van verschillen in natuurlijk voorkomende eigenschappen van participanten, zoals geslacht of etniciteit. Wanneer de groepering betrekking heeft op een variabele met reeds bestaande eigenschappen, dan spreken we van een participant-variabele design. De variabele waarop de participanten verschillen wordt ook wel de participant variabele genoemd. Een voorbeeld is wanneer een onderzoek wordt uitgevoerd naar gewelddadige films en agressiviteit en de kinderen worden opgesplits in twee groepen: jongens en meisjes. Omdat de groeperingsvariabele wordt gemeten in plaats van gemanipuleerd, spreken we van een quasi-experimenteel onderzoek.
In hoofdstuk 10 werd duidelijk dat de kracht van experimenteel onderzoek ligt in het vermogen om de interne validiteit te maximaliseren. Een groot nadeel van experimenteel onderzoek is echter, vooral in de gedragswetenschappen, dat de onafhankelijk variabele niet altijd gemanipuleerd kan worden. Met name ethische en praktische redenen kunnen ervoor zorgen dat de onafhankelijke variabele niet gemanipuleerd kan of mag worden. In dit laatste hoofdstuk gaan we een design bespreken dat kan worden gebruikt wanneer de onderzoeker niet in staat is om personen willekeurig aan bepaalde condities of (herhaalde) metingen toe te wijzen. Dit design wordt erg veel toegepast in de gedragswetenschappen en biedt een alternatief voor het 'harde' experimentele design.
Om de begrippen uit het eerste hoofdstuk te oefenen is het een goede oefening om zelf een onderzoeksplan op te stellen. Bedenk een vraag die jij interessant vindt om te onderzoeken. Hoe formuleer je die onderzoeksvraag? Welke hypothese(s) kun je hierbij bedenken? Welk type onderzoek is geschikt om een antwoord te vinden op deze vraag? En welk onderzoeksdesign is geschikt om jouw vraag te beantwoorden?
Een andere manier om te oefenen met de begrippen is door een wetenschappelijk artikel te lezen. Noteer voor jezelf welke type onderzoek en welk design er zijn gebruikt. Hebben de onderzoekers transparant en objectief geschreven? Of schemert toch ergens vaagheid of subjectiviteit door? Wees kritisch.
Bedenk een interessante onderzoeksvraag en probeer daar eens een hypothese bij op te stellen. Wat is de afhankelijke variabele? Wat is de onafhankelijke variabele? Het helpt om de relatie tussen de variabelen uit te tekenen. Zet een pijl van de onafhankelijke (predictor) variabele naar de afhankelijke variabele (uitkomst). Dit is ook handig voor de volgende hoofdstukken van dit boek, waarin de relaties tussen variabelen nog verder worden uitgebreid.
Probeer synoniemen te bedenken van de variabelen die je hierboven hebt beschreven. Nadat je deze hebt opgeschreven kun je de thesaurus raadplegen. Het is goed om daar een beetje mee te oefenen. De thesaurus kan erg handig zijn als je later een literatuurstudie moet doen. Vergelijk de opties die jij zelf hebt bedacht eens met de thesaurus. Is er veel overlap? Heb je nog veel (belangrijke) zoektermen gemist?
Probeer bij het lezen van een wetenschappelijk paper eenzelfde figuur op te stellen als in dit hoofdstuk staat. Wat zijn de conceptuele variabelen? Hoe zijn deze variabelen geopationaliseerd? En wat is de reatie tussen de variabelen die is onderzocht? Welk meetniveau hebben de variabelen?
Het meetniveau van de variabelen is erg belangrijk en komt altijd terug op tentamens. Zorg dus dat je de vier meetniveaus goed kent (nominaal, ordinaal, interval, ratio) en bij ieder meetniveau een voorbeeld kan geven.
De kappa is een erg populaire maat van overeenstemming tussen codeurs. De kappa is dan ook een veelvoorkomend onderwerp op tentamens. Om de kappa echt goed te begrijpen is het zinvol om deze een aantal keer te berekenen. Een uitleg van deze berekening kun je vinden in appendix C van het boek, maar ook op het internet staan veel voorbeelden. Kijk bijvoorbeeld eens op WikiStatistiek. Door de kappa een paar keer uit te rekenen, zul je deze index beter begrijpen.
Ook hier kan je de begrippen weer oefenen aan de hand van een casus. Dit kan zowel een zelfbedacht onderzoek zijn, als een onderzoek gepubliceerd in een wetenschappelijk artikel. Probeer te achterhalen hoe de betrouwbaarheid en validiteit hier het beste kunnen worden bepaald. Welke methoden zijn daarvoor geschikt? Meerdere typen kunnen geschikt zijn. Wat zijn mogelijke bedreigingen voor de betrouwbaarheid en validiteit?
Onthoud: betrouwbaarheid eerst, dan validiteit. Betrouwbaarheid is een noodzakelijke, maar niet voldoende voorwaarde voor validiteit.
Teken een normaalverdeling, een linksscheve verdeling en een rechtsscheve verdeling. Geef daarbij ook aan waar het gemiddelde, de mediaan en de modus zich bevinden. Hoe wordt een links- of rechtsscheve verdeling veroorzaakt?
De vuistregel bij betrouwbaarheidsintervallen is erg handig om te onthouden. 1 SD = 68%, 2 SD = 95%, en 3 SD = 99.7%. Let ook goed op de twee implicaties die betrouwbaarheidsintervallen hebben. Het betekent dat 68% van de scores in de steekproef binnen 1 standaarddeviatie links en rechts van het (steekproef!) gemiddelde ligt. Het betekent ook dat je met 68% zekerheid weet dat het populatiegemiddelde in deze range ligt.
Voordelen | Nadelen | Hoe de betrouwbaar- heid verhogen? | |
1. Observationeel onderzoek | - Dagelijks, 'echt' gedrag in kaart brengen. | - Ethische dilemma's. | - Systematisch coderen - Meerdere codeurs - (dubbel)'blind' onderzoek |
2. Case studies | - Dagelijks, 'echt' gedrag in kaart brengen - Geschikt voor unieke, specifieke, afwijkende individuen | - Ethische dilemma's - Generaliseerbaarheid. - Objectiviteit. Reactiviteit van participanten. | - Systematisch coderen - Meerdere codeurs - (dubbel)'blind' onderzoek |
3. Archief onderzoek | - Vaak rijke data, veel informatie. - Mogelijkheid om (ver) terug te gaan in de tijd. | - Geen inzicht in natuurlijk gedrag. - Geen controle op data verzameling. - Niet altijd volledig, soms mist belangrijke informatie. | - Inhoudsanalyse - Meerdere codeurs |
Een significant verschil zegt niets over de grootte van het verschil.
Dit hoofdstuk kun je zelf in een notendop samenvatten door de zeven stappen van hypothesetoetsing en de tabel met type 1 en type 2 fouten op te schrijven. Wanneer je dit uit je hoofd kunt en de begrippen kunt definiëren, dan beheers je de stof van hoofdstuk 8.
Oefen met het berekenen van het aantal vrijheidsgraden. Dfbetween = k -1 en dfwithin = N - k. Het is belangrijk dat je dit kunt om vervolgens de bijbehorende p-waarde op te kunnen zoeken in Tabel F.
Maak een tabel met de voordelen (2) en nadelen (2) van experimenteel onderzoek, die zijn besproken in dit hoofdstuk.
De vrijheidsgraden voor iedere variabele in twee- of meerweg experimentele designs zijn k - 1 (aantal condities voor die factor minus 1) en N - p (aantal participanten minus totaal aantal condities). In een een weg design is k gelijk aan p, want er is maar één onafhankelijke variabele, dus het aantal condities van de onafhankelijke factor is gelijk aan het totaal aantal condities. Maar, in een twee- of meerweg design zijn er meerdere onafhankelijke factoren, dus het totaal aantal condities is meer dan het aantal condities van één onafhankelijke factor.
Dit hoofdstuk bevat veel begrippen en vereist dus enig 'stampwerk'. Maak een lijst van alle begrippen die in dit hoofdstuk zijn behandeld en geef voor ieder begrip de definitie. Probeer ook bij ieder begrip een voorbeeld te bedenken.
Orden de vier typen validiteit en geef voor elke vorm van validiteit aan wat de bedreigingen zijn voor dit type validiteit, en op welke manieren je die kunt voorkomen of minimaliseren.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Main summaries home pages:
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
6128 |
Add new contribution