Je vertrek voorbereiden of je verzekering afsluiten bij studie, stage of onderzoek in het buitenland
Study or work abroad? check your insurance options with The JoHo Foundation
Het boek Research Methods in Psychology is opgedeeld zes delen. In het eerste deel wordt een introductie gegeven over hoe men het beste wetenschappelijk kan redeneren. Er wordt omschreven wat onderzoeksproducenten en -consumenten zijn, hoe wetenschappers te werk gaan, welke wetenschappelijke bronnen er zijn en wat betrouwbaarheid en validiteit inhoudt. Deel twee van het boek bespreekt een aantal fundamentele zaken binnen onderzoek, zoals ethische richtlijnen en hoe we iets op de juiste manier kunnen meten. Het derde deel van het boek geeft inzicht in hoe we frequentie claims kunnen evalueren en bespreekt surveys, interviews, observationeel onderzoek en hoe we op de juiste manier een steekproef trekken uit de populatie. Deel vier gaat hier vervolgens op door en bespreekt het evalueren van associatie claims aan de hand van bivariaat correlationeel onderzoek en multivariaat correlationeel onderzoek. Ook deel vijf sluit hierop aan en bespreekt als laatste het evalueren van causale claims aan de hand van experimenten en de verschillende onderzoeksdesigns die we hierbij kunnen aanhouden. Deel zes bespreekt als laatste hoe we de verschillende belangen binnen onderzoek kunnen balanceren en kijkt naar quasi experimenten, replicatie en het op de juiste manier communiceren van onderzoeksresultaten.
Sommige psychologiestudenten willen wetenschapper of onderzoeker worden. Ze worden dan producenten van onderzoek genoemd. Andere psychologiestudenten willen geen onderzoeker worden of in een laboratorium werken, maar vinden het wel interessant om onderzoek te lezen zodat ze het kunnen toepassen in hun werk, hobby's of relaties. Deze studenten worden consumenten van onderzoek genoemd. In de praktijk oefenen psychologen vaak beide rollen uit. Daarnaast delen producenten en consumenten een voorkeur voor empiricisme: het beantwoorden van psychologische vraagstukken door het doen van directe, formele observaties.
Het belangrijk om kennis te hebben van onderzoeksmethoden om je studie met succes af te ronden en om een producent te kunnen zijn. Je moet niet alleen weten hoe je metingen doet, grafieken afleest en onderzoek interpreteert, maar ook volgens de richtlijnen van de American Psychological Association (APA) kunnen schrijven voor je scriptie en andere verslagen.
Een goede consument van onderzoek zijn is essentieel. Je moet onderzoek kunnen lezen op een nieuwsgierige, maar ook kritische manier. Een deel van het onderzoek wat je in je carrière tegen gaat komen is goed opgezet en bruikbaar, maar een ander deel is slecht uitgevoerd of zelfs verzonnen. Als je een goed begrip hebt van onderzoeksmethoden kun je de juiste vragen stellen om te evalueren of wat je leest een goed of slecht opgezet onderzoek is. Je moet gepubliceerde studies op de juist manier kunnen interpreteren om op de hoogte te blijven van nieuwe soorten therapie. Deze therapieën worden ook wel evidence-based treatments genoemd: behandelingen waarvan de effectiviteit onderzocht is en ondersteund wordt door het onderzoek.
Empirisme, de empirische methode, of empirisch onderzoek betekent dat bewijs vanuit de zintuigen - of instrumenten die de zintuigen helpen (vragenlijsten, foto's, weegschalen, thermometers, timers, etc.) - gebruikt worden om conclusies te trekken. Empiristen proberen systematisch en rigoureus te zijn in hun onderzoek en proberen tegelijkertijd te zorgen dat andere onderzoekers hun conclusies onafhankelijk kunnen verifiëren of ontkrachten.
De theorie-data cirkel houdt in dat wetenschappers data verzamelen om hun theorieën te testen, veranderen of aan te passen. Dit werkt als volgt: eerst stelt de wetenschapper een vraag die aansluit bij een fenomeen dat zat willen verklaren en de theorie die ze daarover hebben. Vervolgens doet de wetenschapper één of meer voorspellingen over hoe het fenomeen verklaart zou kunnen worden. Dan testen ze deze voorspelling(en) door data te verzamelen. Op basis van de vergaarde data bepalen ze vervolgens of hun theorie aangepast moet worden of stellen ze vervolgvragen.
Onderzoek naar hechting biedt een voorbeeld van de theorie-data cirkel binnen de psychologie. Eén hechtingstheorie wordt de cupboard theorie genoemd. Deze zegt dat een baby zich aan de moeder hecht omdat zij het kind eten geeft. Hierdoor voelt een kind zich fijn. Een andere hechtingstheorie is de contact-comfort theorie. Deze werd bedacht door Harlow, die dacht dat baby's zich aan de moeder hechten omdat de moeder hen comfort biedt. Harlow heeft getest welke theorie de beste verklaring biedt voor hechting bij apen. Dit deed hij door de invloed van comfort en eten te scheiden in een lab. Hij bouwde één moeder gemaakt van gaas die de babymelk kon geven en één moeder gemaakt van zacht en warm materiaal welke geen eten had. Daarna observeerde hij hoe lang een aantal baby aapjes zich vastklampten aan beide moeders. Op basis van deze data werd alleen de contact-comfort theorie ondersteund: de aapjes klampten zich bijna alleen maar vast aan de warme zachte moeder en lieten haar alleen los om even snel wat eten te halen bij de moeder van gaas als ze echt honger hadden.
Wat zijn theorieën, hypotheses en data?
Een theorie bevat een reeks uitspraken over hoe variabelen in verband staan tot elkaar. Deze uitspraken zijn bij voorkeur zo simpel mogelijk verwoordt. Een hypothese is een voorspelling over de uitkomst van een onderzoek als de theorie klopt. Er kunnen meerdere hypotheses zijn en dus ook meerdere onderzoeken gedaan worden aan de hand van dezelfde theorie. Als er meerdere onderzoeken gedaan worden, worden de hypotheses idealiter van tevoren geregistreerd. Dit betekent dat de onderzoekers hun verwachtingen al openbaar maken zodra de onderzoeksopzet bedacht is en dus vóórdat ze data gaan verzamelen. Data is een set van observaties die een theorie ondersteunt of juist tegenspreekt. Als de data niet passen bij de hypotheses, is dat een teken dat de theorie of het onderzoeksontwerp veranderd moeten worden. Vaak worden er ook replicaties gedaan, dit betekent dat een onderzoek opnieuw gedaan wordt met dezelfde vraag en hypothese(s). Dit wordt gedaan om te controleren of het resultaat consistent is met eerder gevonden data.
Een goede theorie moet falsificeerbaar zijn. Met andere woorden: we moeten op basis van onderzoek kunnen concluderen dat de theorie niet klopt. Daarnaast is het belangrijk dat als de resultaten passen bij de theorie, er niet geconcludeerd mag worden dat het onderzoek de theorie 'bewijst'. Wel mag er gezegd worden dat data 'consistent is met' een theorie of dat de data een theorie 'ondersteunt'.
Wetenschappers zijn onderdeel van een gemeenschap, waardoor ze zich aan bepaalde normen moeten houden. Normen zijn verwachtingen over hoe iemand zich behoort te gedragen in een bepaalde situatie. Merton heeft vier van deze normen uitgewerkt:
Toegepast onderzoek houdt in dat wetenschappers onderzoek doen op basis van een praktisch probleem wet zich voor doet in het echte leven. Basisonderzoek is erop gericht om de hoeveelheid kennis die er is te vergroten, zonder dat het onderzoek per se wordt gedaan om een specifiek praktisch probleem op te lossen. Translationeel onderzoek maakt gebruik van de kennis die is gevonden tijdens basisonderzoek om allerlei behandelingen te ontwikkelen en te testen. Het is de brug tussen basis- en toegepast onderzoek.
Als wetenschappers anderen willen laten zien wat ze gevonden hebben dan proberen ze hun onderzoek te publiceren in wetenschappelijke tijdschriften of journals. Deze komen meestal één keer per maand uit en bevatten verschillende peer-reviewed artikelen. Als een artikel peer-reviewed is dan betekent dit dat het eerst naar drie of vier experts in het vakgebied gestuurd is. Deze experts bepalen of het artikel goed genoeg is om gepubliceerd te worden in het wetenschappelijke tijdschrift. Ze geven hierbij anoniem commentaar op het belang van het artikel, of het aansluit bij de bestaande kennis, of het onderzoek goed is uitgevoerd en hoe geloofwaardig de resultaten zijn. Pas nadat het artikel is bekeken door de experts wordt het gepubliceerd in het wetenschappelijke tijdschrift. Als andere wetenschappers na publicatie fouten vinden in het artikel kunnen ze dit aangeven bij het tijdschrift of zelf verder onderzoek doen.
Artikelen in wetenschappelijke tijdschriften worden voornamelijk door andere wetenschappers gelezen. Andere mensen lezen deze meestal niet. Deze mensen lezen vaak een nieuwsbericht wat gebaseerd is op het onderzoek en is geschreven door een journalist. Deze journalist maakt het werk vaak veel korter, geeft het een interessante titel en maakt gebruik van algemeen bekende termen zodat het verhaal goed te begrijpen is. Dit is belangrijk omdat wetenschappelijk onderzoek op deze manier bekender wordt bij een algemeen publiek. Echter brengt het ook gevaren met zich mee. Veel journalisten interpreteren het onderzoek verkeerd of laten het belangrijker klinken dan het daadwerkelijk is. Een voorbeeld hiervan is het Mozart effect. Rauscher deed een onderzoek waarna hij concludeerde dat studenten beter scoren op een ruimtelijke intelligentie test als ze vooraf voor tien minuten naar Mozart luisteren. Hij zei hierover in een radio-interview dat dit een klein effect was wat alleen gevonden werd met betrekking tot ruimtelijke taken en niet algemene intelligentie. Toch publiceerden journalisten artikelen waarin stond dat Mozart je in het algemeen slimmer kon maken.
Je moet je overtuigingen niet baseren op alleen je eigen ervaringen, omdat je eigen ervaring geen vergelijkingsgroep heeft. Een vergelijkingsgroep zorgt ervoor dat we kunnen vergelijken wat er in een situatie gebeurt waarin datgene wat onderzocht wordt wel aanwezig is, ten opzichte van een situatie waarin datgene wat onderzocht wordt niet aanwezig is. Als je vertrouwt op je eigen ervaring voor het trekken van conclusies heb je geen vergelijkingsgroep, omdat je alleen je eigen mening meeneemt. Het dagelijks leven biedt geen vergelijkingsgroepen. Door systematisch data te verzamelen binnen wetenschappelijk onderzoek kunnen we deze wel creëren.
Er gebeurt heel veel in het dagelijks leven. Daarom is het problematisch om conclusies te baseren op eigen ervaringen. Als er een verandering plaatsvindt, dan kun je niet zeker weten wat deze verandering veroorzaakt heeft. In het dagelijks leven zijn er meerdere verklaringen voor een uitkomst. Bij onderzoek worden deze alternatieve verklaringen confounds genoemd. We spreken van een confound als we denken dat een uitkomst door een bepaalde verandering veroorzaakt wordt, maar er tegelijkertijd ook andere dingen veranderd zijn. Hierdoor kunnen we niet zeker weten wat de uitkomst veroorzaakt heeft. Het voordeel van wetenschappelijk onderzoek is dat we variabelen kunnen isoleren en controleren. Hierdoor verandert er maar één variabele tegelijk, omdat we de kans op confounds zo klein mogelijk maken.
Om dit toe te lichten zal gebruik gemaakt worden van een voorbeeld. Bushman heeft onderzoek gedaan naar de hypothese dat het uiten van je woede helpt om je minder boos te voelen. Hij nodigde proefpersonen uit een essay te schrijven, waarna een confederate deze bekritiseerde. Een confederate is een persoon of acteur die samenwerkt met de onderzoeker, maar doet alsof hij een andere proefpersoon is. De proefpersonen die het essay geschreven hadden werden hierna ingedeeld in drie groepen: één groep die twee minuten stil in een kamer moest zitten, één groep die een boksbal mocht slaan waarbij verteld werd dat het een fitness oefening was en één groep die een boksbal mocht slaan waarbij verteld werd dat ze moesten doen alsof de boksbal het gezicht van de confederate was. Hierna kregen alle groepen de optie om de confederate te 'straffen' voor zijn nare commentaar door hem bloot te stellen aan een erg hard geluid.
Onderzoek is ten eerste beter dan ervaring doordat een onderzoeker gebruik kan maken van vergelijkingsgroepen. Bushman kon drie groepen systematisch met elkaar vergelijken. Op basis van deze vergelijking werd geconstateerd dat de groep die hun woede had geuit door te doen alsof de boksbal de confederate was, hem het hardst strafte en dus nog steeds het boost was. Dit ging tegen de hypothese in. Onderzoek is daarnaast beter dan ervaring doordat onderzoekers kunnen corrigeren voor confounds. Dit deed Bushman door agressie in het algemeen (boksbal als oefening) te scheiden van agressie richting de persoon die je kwaad heeft gemaakt (boksbal is het gezicht van de confederate). In het echte leven zouden deze twee dingen samen voorkomen, maar in onderzoek kunnen ze van elkaar gescheiden worden. Als laatste is onderzoek beter dan ervaring, omdat er replicatieonderzoek gedaan kan worden. Hierdoor is het mogelijk om met meer zekerheid te kunnen zeggen dat een bepaalde theorie wordt ondersteunt. In het echte leven vertrouw je vaak maar op één enkele ervaring.
Als onderzoeksresultaten niet passen bij onze eigen ervaringen concluderen we vaak dat het onderzoek het fout heeft. Echter is onderzoek altijd probabilistisch. Dit betekent dat onderzoeksresultaten niet alle individuele gevallen kunnen verklaren, maar dat ze het grootst mogelijke deel van alle gevallen proberen uit te leggen. Onderzoek suggereert een sterke mogelijkheid of een hoge kans dat iets gebeurt, maar deze voorspelling is niet perfect.
We geloven vaak een goed of logisch verhaal, zelfs als het niet klopt. Dit is de eerste manier waarop onze intuïtie een vertekend beeld kan geven. Een andere manier is de beschikbaarheidsheuristiek: als we dingen makkelijker voor de geest kunnen halen, geloven we dat het vaker voorkomt dan daadwerkelijk het geval is. Ook is er de present/present bias. Dit houdt in dat als we kijken of er een relatie is tussen gebeurtenissen, we alleen kijken naar wat er wél aanwezig is, in plaats van de dingen die er niet zijn. Het valt ons eerder op dat een bepaalde situatie en de gewenste uitkomst samen aanwezig waren dan wanneer dit niet zo is. Een voorbeeld hiervan is dat we denken dat het uiten van woede ons helpt, omdat we ons de situaties waarin dit wel het geval was (bijvoorbeeld als je je inderdaad beter voelt nadat je op een boksbal hebt geslagen) beter voor de geest kunnen halen. In tegenstelling vallen momenten waarop we onze woede niet hebben geuit, maar we ons toch beter voelen minder op. Verder is er de confirmatie bias: we kijken alleen maar naar informatie die bevestigd wat wij al denken of past bij onze verwachtingen. Als laatste hebben we zelfs een bias blind spot: we geloven dat wij zelf niet zullen vallen voor biases of heuristieken en geloven dus dat we minder biased zijn dan andere mensen. Hierdoor vertrouwen we nog sneller op onze verkeerde redeneringen.
Sommige mensen zijn een expert of autoriteit op een bepaald gebied. Om te bepalen of hun beweringen te vertrouwen zijn, moet je eerst kijken naar waar ze de informatie vandaan hebben. Het beste is als ze hun conclusies hebben gebaseerd op empirisch onderzoek. Echter moet je ook dan voorzichtig zijn. Niet al het onderzoek wordt namelijk goed uitgevoerd en daarnaast kunnen mensen het onderzoek verkeerd interpreteren. Ook kunnen experts en autoriteiten nog steeds hun conclusies baseren op basis van hun ervaringen of intuïtie.
Een eerste bron is het wetenschappelijke tijdschrift. Deze tijdschriften komen één keer in de maand of één keer in het kwartaal uit en zijn geschreven voor andere wetenschappers. Vaak staan er twee soorten artikelen in. Empirische artikelen rapporteren bepaalde onderzoeksresultaten voor de eerste keer, waarbij ze in gaan op de methode, de statistische tests en de resultaten van het onderzoek. Review artikelen integreren alle gepubliceerde onderzoeken over een bepaald onderwerp en vatten deze samen. Soms maken review artikelen gebruik van een meta-analyse waarbij de resultaten van verschillende studies gecombineerd en proportioneel worden meegenomen in één effect-grootte: dit getal geeft de grootte van de relatie tussen verschillende variabelen weer. Zowel empirische als review artikelen zijn peer-reviewed.
Een tweede bron is een boek of een 'edited' book. Dit zijn boeken waarin meestal een overzicht wordt gegeven van onderzoeken naar een bepaald onderwerp. Vaak zijn de hoofdstukken door verschillende wetenschappers geschreven op uitnodiging van de redacteur. De hoofdstukken worden niet peer-reviewed, in plaats daarvan probeert de redacteur de informatie zo accuraat mogelijk te maken door alleen experts uit te nodigen. Ook deze boeken worden voornamelijk gelezen door andere wetenschappers en psychologie studenten.
Wetenschappelijke artikelen kunnen vaak in de bibliotheek van een universiteit gevonden worden. Ook kun je onlinedatabases gebruiken. Een van de bekendste online databasen met wetenschappelijke artikelen is PsycINFO. PsycINFO wordt wekelijks geüpdatet door de APA. In deze database kan je artikelen zoeken over een specifiek onderwerp of auteur. Daarnaast laat PsycINFO zien hoe vaak het artikel geciteerd is en door wie. Een alternatief voor PsycINFO is Google Scholar. Google Scholar is gratis, bied niet de mogelijkheid om binnen een specifiek vakgebied te zoeken zoals bijvoorbeeld psychologie of antropologie. Daarnaast categoriseert Google Scholar artikelen niet op of ze peer-reviewed zijn of niet. Je kan dus wat je zoekt minder goed sorteren.
Om te bepalen of een bron van goede kwaliteit is kun je een aantal dingen doen. Ten eerste kan je een professor of bibliothecaris vragen welke wetenschappelijke tijdschriften van goede kwaliteit zijn. Daarnaast kan je ook kijken naar de impact factor van een tijdschrift: dit getal vertelt je hoe vaak een artikel uit dat tijdschrift gemiddeld geciteerd is. Als deze factor hoger is dan 1.0 is de kans groter dat het werk legitiem is.
De meeste artikelen houden zich aan een standaard opmaak zoals bedacht door de American Psychological Association (APA). Een artikel bestaat uit een bepaald aantal secties die altijd in dezelfde volgorde staan. Ten eerste een samenvatting of een abstract. Hierin wordt een kort overzicht gegeven van de hypotheses, methode en de belangrijkste resultaten van het onderzoek. Daarna volgt er een introductie. Hier wordt uitgelegd: welk onderwerp bestudeerd wordt in het onderzoek, wat vorige onderzoeken over het onderwerp gevonden hebben, welke theorieën er over bestaan en de onderzoeksvragen of hypotheses van het huidige onderzoek. Hierna is er een methode sectie. Hier wordt in detail uitgelegd wordt hoe de onderzoekers het onderzoek uitgevoerd hebben. Er wordt uitleg gegeven over de participanten, materialen, procedure en het apparatus. Vervolgens worden de resultaten van het onderzoek beschreven, waarbij ook de statistische tests toegelicht worden. De één na laatste sectie is de discussie. In de discussie wordt de hypothese of onderzoeksvraag en methode nog een keer samengevat. Daarnaast wordt er uitgelegd wordt hoe goed de resultaten passen bij de verwachting. Daarna wordt besproken waarom het relevant was om dit onderzoek uit te voeren en worden verklaringen voor de uitkomsten gegeven. Als laatste wordt er een overzicht gegeven van de referenties: de bronnen die de onderzoekers gebruikt hebben bij het schrijven van hun artikel.
Je hoeft niet elk woord van een artikel te lezen. In plaats daarvan lees je met een doel. Je stelt jezelf hierbij twee vragen: wat is de bewering die de onderzoekers doen en wat is het bewijs voor deze bewering? Om de bewering te achterhalen lees je eerst de samenvatting of de abstract om een algemeen beeld te krijgen van het onderzoek. Daarna lees je het einde van de introductie, waarin de doelen en hypotheses van het onderzoek staan. Vervolgens kan je de rest van de introductie lezen om meer te leren over de theorie waar de hypotheses of onderzoeksvragen op gebaseerd zijn. De bewering van het artikel kan je ook vinden in de eerste alinea van de discussie, waarin een samenvatting wordt gegeven van de resultaten en hoe goed deze passen bij de hypotheses. Tot slot lees je het bewijs voor deze bewering is de methode en resultaten secties. Hier staat wat de onderzoekers gedaan hebben en wat ze vonden. Je kunt dan controleren hoe goed dit past bij hun hypotheses.
Goede journalisten lezen het originele onderzoek vaak meerdere keren, interviewen meerdere experts en controleren hun feiten en informatie. Echter doen niet alle journalisten dit. Sommigen publiceren sensationele verhalen en onderzoeken zonder te controleren of ze kloppen. Het kan ook dat ze schrijven over een belangrijk onderzoek, maar ze die verkeerd interpreteren. Zo voorzien ze mensen van verkeerde informatie. Je moet dus altijd controleren: hoe goed het onderzoek is, of het daadwerkelijk is uitgevoerd zoals beschreven en of de journalist het wel goed begrepen heeft.
Bewust verkeerde informatie creëren en delen wordt ook wel disinformation genoemd. Dit kan verschillende vormen aannemen. Mensen hebben hier verschillende beweegredenen voor. Voorbeelden hiervan zijn passie, provocatie, verdiensten en het verspreiden van propaganda en politieke meningen. Een onschuldige vorm hiervan is parodie: het verspreiden van verkeerde informatie voor entertainment of om mensen aan het lachen te maken. Desinformatie kan volledig verzonnen zijn, maar kan ook subtieler zijn. Zo kan een bestaand persoon verzonnen woorden in de mond gelegd krijgen of kan een echt citaat in een verkeerde context geplaatst worden. Hierbij kan gebruik gemaakt worden van videobeelden of foto's. Om hier niet voor te vallen moeten we dus altijd de bron van de informatie checken.
Variabelen zijn belangrijke onderdelen van onderzoeken. Een variabele is iets wat kan variëren en dus minimaal twee niveaus of waardes heeft. Een constante is iets dat mogelijk gevarieerd zou kunnen worden, maar in een bepaald onderzoek een vaste waarde krijgt. In onderzoek wordt elk variabele gemeten of gemanipuleerd. Een gemeten variabele is een variabele waarvan de waardes alleen geobserveerd en genoteerd worden zoals deze van nature voorkomen. Er wordt dus niks aan de waardes verandert. Voorbeelden hiervan zijn IQ, geslacht en bloeddruk. Een gemanipuleerde variabele is een variabele waar een onderzoeker invloed op uitoefent. Dit wordt meestal gedaan door proefpersonen toe te wijzen aan verschillende condities van een variabele. Sommige variabelen - zoals geslacht - kunnen niet gemanipuleerd worden, maar alleen gemeten. Sommige variabelen mogen niet gemanipuleerd worden, omdat het onethisch zou zijn. Zo mogen mensen bijvoorbeeld niet toegeschreven worden aan een conditie waarin ze bijvoorbeeld trauma zouden ervaren. Andere variabelen kunnen zowel gemeten als gemanipuleerd worden.
Elke variabele kan op twee manieren beschreven worden. Conceptuele variabelen of constructen geven de namen van concepten weer die bestudeerd worden. Een voorbeeld hiervan is "doorzettingsvermogen". Om een hypothese over deze variabelen te kunnen toetsen aan de hand van onderzoek moeten hier theoretische definities aan gegeven worden, welke conceptuele definities genoemd worden. Een voorbeeld hiervan zou zijn "Of iemand door kan blijven gaan bij tegenslagen". Deze conceptuele definitie wordt dan geoperationaliseerd. Operationaliseren betekent dat een concept omgezet wordt in een meetbare of manipuleerbare variabele. Deze 'nieuwe' variabele wordt ook wel een geoperationaliseerde variabele genoemd. Een voorbeeld hiervan is "hoe lang kan een kind een saaie activiteit uitvoeren zonder te protesteren".
Een claim is een bewering die iemand doet. Psychologen maken claims op basis van onderzoek. Er zijn twee verschillende soorten claims.
Associatie claims beweren dat er slechts een relatie bestaat tussen twee variabelen. Causale claims beweren dat een variabele verantwoordelijk is voor een verandering in de andere variabele. Deze claims gebruiken vaak de woorden ‘veroorzaken’ en ‘verhogen/verlagen’. Causale claims kunnen ook ‘voorzichtig taalgebruik’ bevatten, zoals ‘kunnen', 'lijken', 'soms' en 'suggereren’. Om van associatie naar causaliteit te gaan, moet een onderzoek aan drie criteria voldoen:
Consumenten van onderzoek moeten claims evalueren aan de hand van verschillende validiteiten. Validiteit verwijst naar de passendheid van een conclusie. In het algemeen is een valide claim redelijk, accuraat en gerechtvaardigd.
Ten eerste kan er worden gekeken naar constructvaliditeit. De constructvaliditeit geeft aan hoe goed een conceptuele variabele geoperationaliseerd is. Met andere woorden: constructvaliditeit kijkt naar hoe goed een onderzoek een variabele gemeten of gemanipuleerd heeft. Als elke variabele betrouwbaar is gemeten en de verschillende niveaus van een variabele aansluiten op de daadwerkelijke verschillen in de wereld, is er waarschijnlijk sprake van goede constructvaliditeit.
Daarnaast kan er gekeken worden naar de generaliseerbaarheid van een onderzoek. Dit betekent dat er bepaald wordt of de participanten die deelnemen aan het onderzoek representatief zijn voor de populatie waar men informatie over wil. Dit is gerelateerd aan de externe validiteit: hoe goed de resultaten van een onderzoek te generaliseren zijn naar de echte wereld.
Statistische validiteit kijkt in hoeverre de statistische conclusies van een onderzoek precies, redelijk en repliceerbaar zijn. Om dit te bepalen kunnen we ten eerste kijken naar een point estimate, wat één schatting is van de waarde van een variabele in de populatie op basis van informatie uit een steekproef. Bij een frequentie claim is dit vaak een percentage. Daarna kijken we naar hoe precies deze schatting is. Dit wordt bepaald aan de hand van een betrouwbaarheidsinterval of een foutmarge. Een betrouwbaarheidsinterval is een interval dat zo gemaakt is dat de daadwerkelijke populatie waarde van een variabele er meestal binnen valt. De statistische validiteit wordt beter naarmate er meer schattingen gedaan worden. Het combineren van schattingen is dus altijd beter dan gebruik maken van één enkele.
Ook bij associatie claims kan je kijken naar het construct en de externe en statistische validiteit. Omdat een associatie claim twee variabelen meet kijk je naar het construct en de externe en statistische validiteit van beide variabelen. Constructvaliditeit betreft hoe goed de variabelen gemeten zijn. Als de variabelen op een slechte manier gemeten zijn kunnen we de conclusies van het onderzoek minder goed vertrouwen. Externe validiteit is wanneer de claim gegeneraliseerd kan worden naar andere populaties, contexten, tijden en plaatsen. Bij een associatie claim betreft de statistische validiteit hoe sterk de geschatte associatie tussen de variabelen is en hoe precies deze schatting is.
Om causale claims te evalueren, moet er eerst gekeken worden of er aan de drie criteria voor causatie is voldaan.
Meestal wordt een causale claim onderzocht door het doen van een experiment. In een experiment wordt de variabele waarvan wetenschappers denken dat deze veranderingen veroorzaakt gemanipuleerd en de variabele die hierdoor verandert gemeten. De variabele die gemanipuleerd wordt, wordt ook wel de onafhankelijke variabele genoemd. De variabele die gemeten wordt, wordt de afhankelijke variabele genoemd. Bij het manipuleren van een variabele maak je gebruik van random assignment. Hierbij worden participanten op een willekeurige manier in groepen ingedeeld. Door de causale variabele te manipuleren zorgen we ervoor dat deze altijd voor de uitkomst variabele komt. Ook zorgen we er zo voor dat er weinig kans is op alternatieve verklaringen. Ook bij causale claims kijken we naar construct, externe en statistische validiteit.
Welke validiteit het belangrijkst is hangt af van de situatie en het doel van het onderzoek. Hierbij worden de voor- en nadelen afgewogen en word besloten op welke vorm van validiteit het meest gelet moet worden en welke wat minder belangrijk zijn.
In 1920 en 1930 was syfilis nog slecht te behandelen. De enige behandeling was een infuus met giftige metalen. Als deze behandeling al werkte, had het vaak ernstige of zelfs fatale bijwerkingen. In 1932 besloot de U.S. Public Health Service (PHS) samen te werken met het Tuskegee instituut. Samen voerden zij een onderzoek uit waaraan 600 Afrikaans-Amerikaanse mannen meededen. 400 van deze mannen hadden syfilis en 200 mannen niet. Wetenschappers wilden de effecten van onbehandelde syfilis op de gezondheid van deze mannen onderzoeken. De meeste proefpersonen waren enthousiast over het onderzoek, omdat ze dachten dat ze gratis gezondheidszorg zouden krijgen. De mannen werd echter niet verteld dat het onderzoek over syfilis ging. Daarnaast kregen de mannen geen gratis zorg, maar werden ze gevolgd en onderzocht door de wetenschappers tot hun overleiden.
Tijdens dit onderzoek zijn verschillende onethische keuzes gemaakt. Ten eerste werd er niet aan de mannen verteld dat ze syfilis hadden, maar 'slecht bloed'. Ook was hen een behandeling beloofd en was er tegen hen gezegd dat ze naar het instituut moesten komen om geëvalueerd en getest te worden. De mannen werden nooit echt behandeld voor hun ziekte en er werden gevaarlijke handelingen op hen uitgevoerd. De belofte van gratis zorg was dus gelogen. Tweehonderdvijftig van de mannen uit het onderzoek wilden het Amerikaanse leger in om mee te helpen tijdens de tweede wereldoorlog. Echter moesten ze om in het leger te mogen eerst een behandeling krijgen voor hun syfilis. De onderzoekers hebben dit nooit gedaan, waardoor ze niet het leger in mochten. In 1943 keurde de PHS penicilline goed als behandelmethode tegen syfilis. Dit is echter nooit aan de proefpersonen verteld, waardoor hen een effectieve behandeling ontnomen werd. Pas in 1972, toen er in de media geklaagd werd over het onderzoek, werd het stopgezet. De schade van het onderzoek bleek groot: veel mannen waren zieker geworden, hadden hun vrouwen of kinderen geïnfecteerd of waren zelfs overleden.
Vandaag de dag zouden we de keuzes die de onderzoekers destijds hebben gemaakt onethisch noemen. Deze keuzes vallen in drie categorieën.
Milgram deed in de jaren 60 van de vorige eeuw onderzoek naar autoriteit. Hierbij werd één proefpersoon verteld dat ze de leraar waren, terwijl een andere proefpersoon de leerling was. De leraar moest de leerling straffen door het geven van elektrische schokken als hij fouten maakte bij een leertaak. Het voltage van de schokken werd opgehoogd bij elk extra fout antwoord. De leerling begon na een tijdje aan te geven dat hij pijn had en wilde stoppen. De onderzoeker in een witte lab jas die bij de leraar zat droeg de leraar op door te gaan met schokken geven. Dit werd zelfs doorgezet als de leraar begon met protesteren. Uit het onderzoek bleek dat 65% van de proefpersonen luisterde naar de onderzoekers en fatale elektrische schokken toediende aan een medemens. Gelukkig was het natuurlijk niet echt zo dat de leerling schokken kreeg, omdat dit een confederate was van de onderzoeker. Dit werd echter pas na het experiment aan de proefpersonen verteld. Tijdens de leertaak dachten ze dat het echt was.
Het eerste ethische probleem bij dit onderzoek was dat de leraar-proefpersonen veel stress ervaarde. Ten tweede waren andere onderzoekers bezorgd over mogelijke blijvende effecten van het onderzoek. Ondanks dat de leraar-proefpersonen na het onderzoek te horen kregen dat het nep was via een debriefing waarin hen verteld werd wat het doel was. Was een deel van hen er kapot van dat ze een andere proefpersoon pijn hadden kunnen doen. Sommige onderzoekers vinden dat Milgram in had moeten grijpen bij het zien van hoe gestrest de proefpersonen waren. Andere onderzoekers vinden dat we door Milgram veel te weten zijn gekomen over gehoorzaamheid en het luisteren naar autoriteit wat we zonder zijn onderzoek niet te weten zouden zijn gekomen. Het is soms dus lastig om te beslissen of een onderzoek onethisch is of niet. Vaak moeten we de potentiële risico’s voor de proefpersonen afwegen tegen de kennis die we kunnen vergaren.
Na de Nuremberg Trials werd duidelijk welke verschrikkelijke medische experimenten er gedaan werden op mensen in concentratiekampen tijdens de tweede wereldoorlog. Op basis hiervan is de Nuremberg Code geschreven, welke ethische onderzoekswetten vandaag de dag nog steeds beïnvloedt. Daarnaast worden ethische beslissingen in medisch onderzoek en de praktijk ook beïnvloedt door de Helsinki Akkoorden. In Amerika speelt het Belmont Rapport ook een rol bij de ethische principes waar onderzoekers zich aan moeten houden. Al deze dingen zijn gebaseerd op dezelfde kernprincipes.
Er zijn vijf algemene ethische principes van de APA:
De eerste drie van deze principes vallen onder het principe van weldadigheid in het Belmont Rapport. De vierde past bij het principe van rechtvaardigheid en de vijfde bij het principe van respect voor personen.
Naast de vijf algemene principes heeft de APA ook nog tien specifieke standaarden die als regels gezien kunnen worden. Psychologen die zich niet aan deze standaarden houden, kunnen hun bevoegdheid om therapeut te zijn verliezen. Ethische Standaard 8 is het belangrijkst voor onderzoekers. De andere standaarden zijn meer voor therapeuten en docenten. Hieronder wordt Ethische Standaard 8 nader toegelicht.
Standaard 8.01 stelt dat er een institutional review board (IRB) moet zijn. Deze stelt vast of onderzoek met menselijke participanten op een ethische manier wordt uitgevoerd of niet. De IRB bestaat uit vijf leden:
Voordat een wetenschapper een onderzoek uit mag voeren met proefpersonen moet de deze een applicatie indienen bij de IRB. Hierin moet de onderzoeker gedetailleerd beschrijven hoe het onderzoek er uit zal gaan zien en wat de risico’s en voordelen zijn. De leden van de IRB moeten beslissen of een onderzoek uitgevoerd mag worden of niet. Ze mogen een onderzoek niet toestaan wanneer: er mensenrechten geschonden worden, het onderzoek te grote risico's met zich meebrengt of als er geen duidelijke onderbouwing bestaat voor waarom het onderzoek uitgevoerd zou moeten worden. Bij het geven van toestemming zoekt de IRB een balans tussen het welzijn van proefpersonen en het onderzoek naar belangrijke onderwerpen binnen het vakgebied.
Standaard 8.02 stelt dat onderzoekers om geïnformeerde toestemming moeten vragen. Dit is een formulier waarop de procedures van het onderzoek, de voor- en nadelen en het gebruik van experimentele behandelingen toegelicht worden. Daarnaast wordt hierin omschreven of de data van proefpersonen vertrouwelijk behandeld wordt. Dit moet in alledaagse taal geschreven zijn en stelt participanten in staat te overwegen of ze wel of niet deel willen nemen. Voor onderzoeken waarbij er waarschijnlijk geen schadelijke effecten zijn voor participanten, waarbij de data compleet anoniem is of waar observatie plaatsvindt in een educatieve setting is geen geïnformeerde toestemming nodig.
Standaard 8.07 gaat over deceptie. Soms houden onderzoekers informatie achter over het doel van het onderzoek is of liegen ze hierover tegen proefpersonen. Informatie achterhouden wordt ook wel omissie genoemd, terwijl de participanten actief voorliegen commissie genoemd wordt. Hierbij moeten onderzoekers zich altijd nog aan het principe van respect voor personen houden door proefpersonen in te lichten over waar een onderzoek over gaat en de risico's en voordelen die aan deelname verbonden zijn. Daarnaast moeten ze ook rekening houden met het principe van weldadigheid door te overwegen of deceptie daadwerkelijk wat toevoegt of dat het onderzoek ook zonder deceptie gedaan zou kunnen worden.
Wanneer onderzoekers gebruik maken van deceptie moeten ze na afloop van het onderzoek de proefpersonen inlichten over het bedrog, waarom het nodig was en het daadwerkelijke doel van het onderzoek. Vaak word hierbij ook het doel, de hypotheses en de referenties gegeven zodat geïnteresseerde participanten deze kunnen lezen. Dit heet een debriefing en staat beschreven in Standaard 8.08. Vaak wordt er ook een debriefing gedaan in onderzoek dat geen deceptie gebruikt.
Wat zeggen de standaarden over het wangedrag met betrekking tot publicaties?
De meeste richtlijnen gaan over het goed behandelen van proefpersonen. Er zijn echter ook richtlijnen die over het publicatieproces gaan. Twee wangedragingen die betrekking hebben tot het publiceren zijn data fabricatie en data falsificatie. Deze staan beschreven in Standaard 8.10. Data fabricatie houdt in dat een onderzoeker niet invoert wat er daadwerkelijk is gebeurd, gezegd of gedaan, maar data verzint om zijn hypothesen te ondersteunen. Data falsificatie houdt in dat onderzoekers de resultaten beïnvloeden door bijvoorbeeld sommige observaties selectief weg te laten of door proefpersonen zo te beïnvloeden dat ze zich gaan gedragen zoals de onderzoekers voorspeld hebben. Het fabriceren of falsifiëren van data kan er voor zorgen dat men theorieën als accuraat ziet, terwijl ze dat niet zijn. Daarnaast kan het er ook voor zorgen dat andere onderzoekers tevergeefs veel tijd besteden aan vervolgonderzoeken van een onderwerp of theorie waar eigenlijk helemaal geen bewijs voor is.
Een andere vorm van wangedrag is plagiaat. Dit staat omschreven in Standaard 8.11. Plagiaat ontstaat als je ideeën en woorden van anderen als je eigen ideeën of woorden representeert zonder goed te verwijzen naar de originele auteur. Het wordt gezien als een vorm van stelen. Om plagiaat te voorkomen moet een schrijver verwijzen naar de originele auteur wanneer men de ideeën van die persoon gebruikt. Verder kan ook zelf-plagiaat voorkomen. Zelf-plagiaat is wanneer onderzoekers verschillende artikelen publiceren over één onderwerp en daarbij gedeeltes van hun eerdere werk hergebruiken in hun latere artikelen.
Wat zeggen de standaarden over dieronderzoek?
Psychologen voeren niet alleen onderzoek uit met mensen, maar soms ook met dieren. Volgens Standaard 8.09 moeten psychologen goed voor de proefdieren zorgen. Ze moeten ze humaan behandelen, er zo min mogelijk gebruiken en ze moeten er zeker van zijn dat hun onderzoek belangrijk genoeg is om het gebruik van dieren te rechtvaardigen. Vaak is het zo dat elk land ook nog eigen instituties heeft die toezicht houden op het gebruik van proefdieren. Er wordt vaak een groep samengesteld die toezicht houdt op de verzorging van proefdieren. In veel landen worden de drie R’s gebruikt. Deze omschrijven de richtlijnen voor dieronderzoek:
De meeste psychologen en psychologiestudenten zijn het eens met het gebruik van dieren voor onderzoek. Ze zijn echter wel voor een goede behandeling van dieren en vinden het belangrijk dat onderzoekers rekening houden met de pijn die de dieren kunnen ervaren tijdens het onderzoek. Activisten voor dierenrechten vinden dat proefdieren ook rechten hebben en dat deze worden geschonden door ze aan onderzoek te onderwerpen. Andere activisten vinden dat de mens niet belangrijker is dan andere dieren en dat er alleen dieronderzoek gedaan mag worden als hetzelfde onderzoek ook gedaan kan worden met menselijke proefpersonen. Onderzoekers moeten het gebruik van dieren en de behandeling van dieren goed balanceren. Veel psychologen behandelen de dieren goed en door dieronderzoek hebben zij veel dingen ontdekt die bijdragen aan onze toegepaste- en basiskennis. Daarnaast is het zo dat psychologen zo min mogelijk dieren proberen te gebruiken en waar het kan andere procedures toepassen (zoals computermodellen).
Dit hoofdstuk focust zich op de constructvaliditeit van gemeten variabelen en hoe we gemeten variabelen kunnen operationaliseren. Daarnaast wordt er besproken hoe we de betrouwbaarheid en validiteit van deze metingen kunnen bepalen.
Als een variabele geoperationaliseerd wordt, dan wordt een construct in een gemeten of gemanipuleerde variabele veranderd. Bij psychologisch onderzoek zijn er altijd twee definities van een variabele nodig. De eerste is een conceptuele definitie of construct. Dit zijn de definities die een onderzoeker aan een variabele geeft op een theoretisch niveau. De operationele definitie geeft weer hoe een onderzoeker een variabele heeft besloten te meten of te manipuleren.
De typen metingen die psychologen gebruiken om concepten te operationaliseren vallen vaak in de volgende drie categorieën: zelf-rapportage, observaties en fysiologische metingen.
Meestal kan één construct op meerdere manieren geoperationaliseerd worden. Wat onderzoekers vaak doen is alle operationalisatie technieken gebruiken om te kijken of de resultaten met elkaar overeenkomen.
Geoperationaliseerde variabelen worden primair geclassificeerd als categorisch of kwantitatief. Een categorische variabele of nominale variabele heeft categorieën als niveaus. Een voorbeeld is geslacht, deze heeft de categorieën man en vrouw. Aan deze categorieën kunnen we getallen toeschrijven, bijvoorbeeld een 1 voor man en 2 voor vrouw. Deze getallen zeggen echter verder niks op numeriek niveau. Zo zouden we bijvoorbeeld net zo goed een 5 en 6 kunnen gebruiken. De toewijzing van een hoger getal aan een categorie betekent niet dat deze categorie 'beter' is. Een kwantitatieve variabele of continue variabele wordt gecodeerd met getallen die wél een numerieke betekenis hebben. Dit zijn bijvoorbeeld gewicht of lengte. Hier geven de getallen weer dat iemand hoger of lager scoort dan een ander persoon.
Kwantitatieve variabelen kunnen verder geclassificeerd worden op een ordinale-, interval- en ratioschaal.
Zodra we een variabele geoperationaliseerd hebben kunnen we kijken naar de constructvaliditeit: hoe goed en gepast is de operationalisatie van de variabele? Constructvaliditeit heeft twee aspecten: betrouwbaarheid en validiteit. Betrouwbaarheid betreft de consistentie van de resultaten van een meting en validiteit of een variabele daadwerkelijk meet wat het behoort te meten.
We kunnen betrouwbaarheid op drie manieren bepalen. Welke we kiezen hangt af van hoe de variabele geoperationaliseerd is.
Het controleren van de betrouwbaarheid is eigenlijk een speciale variant van een associatie claim. Dit is de associatie tussen een meting op een eerder moment en een meting op een later moment, tussen één observator en een andere observator of tussen één versie van een vraag/meting en een andere. Er kunnen twee statistische middelen gebruikt worden om betrouwbaarheid te analyseren: spreidingsdiagrammen en correlaties.
Bij een spreidingsdiagram kan je de betrouwbaarheid analyseren. Dit wordt op twee manieren gedaan:
Je zet dan de ene meting op de x-as en de andere meting op de y-as. Als alle punten dichtbij een sterk stijgende of dalende lijn liggen is er sprake van goede test-hertest en inter-beoordelaar betrouwbaarheid. Daalt of stijgt de lijn niet sterk of is deze zelfs horizontaal, dan geeft het spreidingsdiagram een slechtere betrouwbaarheid weer.
De correlatiecoëfficiënt of r is een getal wat weergeeft hoe dicht verschillende metingen of punten bij een lijn liggen die getekend is in een spreidingsdiagram. Een correlatie kan twee dingen weergeven:
Bij test-hertest betrouwbaarheid kijken we naar metingen gedaan op dezelfde personen op verschillende tijden. Als de r waarde dan positief en hoog is (hoger dan .5), dan spreken we van een goede test-hertest betrouwbaarheid. Een lage r waarde kan een teken van lage betrouwbaarheid zijn we iets meten wat wel stabiel zou moeten zijn (bijvoorbeeld intelligentie: dit zou niet moeten veranderen binnen een week).
Bij de interbeoordelaar betrouwbaarheid kijken we naar de scores die twee verschillende beoordelaars geven aan dezelfde groep participanten. Als de r positief en hoog is (hoger dan .7), dan spreken we van een goede inter-beoordelaar betrouwbaarheid. Als deze positief maar zwak is, dan betekent dit dat de we het oordeel van de beoordelaars waarschijnlijk niet kunnen vertrouwen. Een oplossing is om andere beoordelaars te zoeken of de operationele definitie van een variabele aan te passen zodat het coderen en observeren makkelijker wordt. Ook een negatieve r is hier ongewenst.
Bij de interne betrouwbaarheid kijken we naar hoe betrouwbaar verschillende items of observaties hetzelfde construct meten door te bestuderen of mensen consistent antwoorden op de vragen. Onderzoekers bepalen meestal de interne betrouwbaarheid door eerst een hele grote groep mensen de vragen te laten maken. Daarna rekenen ze correlaties uit tussen alle verschillende items. Ook bepalen ze de gemiddelde inter-item correlatie (AIC): het gemiddelde van al deze verschillende correlaties. Als de AIC tussen de .15 en .50 is dan passen de items redelijk goed bij elkaar. Verder kunnen onderzoekers ook nog Cronbach's alfa berekenen. In dit getal worden de AIC en de hoeveelheid items die een schaal bevat samengenomen. Hoe dichter Cronbach's alfa bij 1.0 ligt, hoe betrouwbaarder de schaal. Meestal is voor Cronbach's alfa een waarde van .80 of hoger gewenst. Als de IAC en Cronbach goed zijn dan concluderen onderzoekers dat de interne betrouwbaarheid goed is. De items worden dan vaak bij elkaar opgeteld om één score voor een participant te berekenen. Als de IAC en Cronbach niet goed zijn dan moeten items herschreven of verwijderd worden voor een betere betrouwbaarheid.
Naast betrouwbaarheid moet er ook gekeken worden of de tests wel echt meten wat ze behoren te meten. Psychologen willen vaak abstracte constructen meten waar geen vergelijkingsstandaard voor bestaat. Constructvaliditeit is daarom belangrijk in psychologisch onderzoek. Blijheid kunnen we niet direct meten. Wel kunnen we blijheid schatten door naar verschillende dingen te kijken. Dit zijn dingen zoals iemands welzijn, hoe vaak iemand lacht, hoe gestrest iemand is of bloeddruk. Al deze metingen zijn indirect, omdat voor veel abstracte constructen geen directe meetmethode bestaat. Je kunt controleren of deze metingen kloppend zijn door te kijken naar verschillende soorten validiteit. Vijf soorten validiteit zijn:
Belangrijk om te onthouden is dat een meting minder valide dan betrouwbaar kan zijn, maar dat het niet meer valide dan betrouwbaar kan zijn. Bij betrouwbaarheid kijken we naar hoe goed een meting correleert met zichzelf (dezelfde metingen gedaan door andere onderzoekers, op andere momenten of met andere items), terwijl validiteit kijkt naar hoe goed een maat correleert met iets anders (een gedrag of een andere vragenlijst bijvoorbeeld). Als een maat niet correleert met zichzelf dan kan deze ook niet correleren met iets anders. Dus: een maat kan betrouwbaar zijn zonder valide te zijn, maar kan niet valide zijn zonder betrouwbaar te zijn.
In dit hoofdstuk wordt het woord survey gebruikt om te verwijzen naar vragen die aan mensen gesteld worden via de telefoon, tijdens interviews, op papier, via e-mail of op het internet. Vragen kunnen op verschillende manieren gesteld worden:
De manier waarop vragen verwoord en gesteld zijn kan invloed hebben op de constructvaliditeit. Elke vraag moet helder en direct te beantwoorden zijn. Makers van vragenlijsten moeten ervoor zorgen dat de verwoording en volgorde van vragen niet de antwoorden van proefpersonen beïnvloeden.
Een eerste probleem bij het verwoorden van vragen is dat onderzoekers soms met hun vraagstelling respondenten richting een bepaald antwoord sturen. Dit worden ook wel leidende vragen genoemd. De antwoorden van respondenten reflecteren dan niet meer hun eigen mening. Om dit te voorkomen moeten vragen zo neutraal mogelijk geformuleerd worden.
Soms kan een vraag zo moeilijk geformuleerd zijn, dat een respondent moeite zal hebben om een antwoord te geven dat zijn/haar mening accuraat reflecteert. Het is het beste om een zo simpel mogelijke vraag te stellen. Wanneer mensen een vraag begrijpen, dan kunnen ze een helder en direct antwoord geven. Echter, soms vergeten mensen die vragen opstellen deze regel en ze kunnen per ongeluk twee vragen in één stellen. Dit worden double-barreled vragen genoemd. Deze vragen hebben een slechte constructvaliditeit omdat we niet weten of mensen een antwoord geven op de eerste vraag, de tweede of beide vragen. Je item kan dus het eerste construct meten, het tweede of beide constructen. De vragen moeten apart gesteld worden om dit te bepalen en de constructvaliditeit te verhogen.
Soms kan de negatieve verwoordign een vraag overbodig moeilijk maken. Met negatief wordt deze keer niet bedoeld dat er negatieve woorden zoals ‘slecht’ en ‘problematisch’ in staan, maar ontkennende woorden. Uit een onderzoek bleek dat 20% van de Amerikanen de Holocaust ontkenden. Dit zorgde voor nogal wat ophef en onderzoekers besloten dus te kijken of dit onderzoek goed uitgevoerd was. Ze kwamen erachter dat de vraag moeilijk verwoord was: ‘Lijkt het waarschijnlijk of onwaarschijnlijk voor u dat de Nazi uitroeiing van joden nooit plaats had gevonden?’ De meeste mensen hebben moeite met de dubbele ontkenning van ‘onmogelijk’ en ‘nooit.’ Deze vraag heeft dus niet de overtuigingen van mensen gemeten, maar in hoeverre ze hun werkgeheugen en motivatie gebruikt hadden om de vraag te beantwoorden. Deze vraag had dus een slechte constructvaliditeit. Soms kan één negatief woord een vraag al moeilijk maken. Als onderzoekers een vraag met een negatief woord erin stellen, stellen ze vaak dezelfde vraag ook op een positieve manier. Daarna kijken ze naar de interne consistentie van deze twee items om te kijken of een persoon dezelfde mening behoudt (bijvoorbeeld: als iemand het met de negatief gestelde vraag oneens is, zouden ze het met de positief gestelde vraag eens moeten zijn). Er moet goed uitgekeken worden met negatief verwoorde vragen, omdat het de constructvaliditeit kan verlagen. Soms zeggen de antwoorden op deze vragen meer over de motivatie en vaardigheid om cognitief werk te verrichten dan over de daadwerkelijke meningen van mensen.
De volgorde van de vragen kan ook een invloed hebben op de antwoorden die mensen geven. Dit wordt een volgorde effect genoemd. Stel dat sommige mensen een bepaalde actie (zoals beter omstandigheden voor vrouwen) steunen, maar niet zozeer een andere actie (zoals betere omstandigheden voor etnische minderheden). Als we mensen eerst vragen of ze acties voor betere omstandigheden voor vrouwen steunen en pas daarna of ze acties voor betere omstandigheden voor etnische minderheden steunen krijgen we andere antwoorden dan als we de twee vragen andersom hadden gesteld. In het eerste geval zullen mensen op beide vragen ja antwoorden ondanks hun negatieve mening over de tweede actie op zich. Dit komt doordat mensen graag consistent zijn; hierdoor voelden ze zich mogelijk verplicht om nadat ze gezegd hadden acties voor betere omstandigheden voor vrouwen te steunen, ook de andere actie te steunen. Als de vragen andersom gesteld werden, bleven mensen wel negatief over de acties voor etnische minderheden. De beste manier om te controleren of de volgorde van vragen invloed heeft, is om verschillende versies van de vragenlijst te maken en in elke versie de volgorde van vragen te veranderen. Als de resultaten van de eerste volgorde anders zijn dan de resultaten van de tweede volgorde, dan kan er gesteld worden dat er een volgorde effect is.
Proefpersonen kunnen soms minder accurate antwoorden geven. Dit doen ze niet altijd opzettelijk. Soms is er sprake van response sets of non-differentiatie: dit zijn een soort 'shortcuts' die mensen nemen bij het beantwoorden van survey vragen. Deze kunnen de constructvaliditeit verminderen omdat respondenten bij response sets vaak antwoordpatronen gaan aanhouden in plaats van hun mening te geven. Er zijn verschillende response sets mogelijk:
Wanneer een onderzoeker het gedrag van dieren of mensen observeert en het systematisch bijhoudt, spreken we van observationeel onderzoek. Sommige onderzoekers denken dat observaties beter zijn dan zelf-rapportages, omdat sommige mensen niet accuraat kunnen antwoorden op vragen over hun gedrag en gebeurtenissen uit het verleden. Observaties kunnen een basis vormen voor frequentie claims. Zo kan er gekeken worden naar hoe vaak mensen per week eten bij een snackbar, hoe vaak ouders schreeuwen tijdens een voetbalwedstrijd van hun kind en hoe vaak auto’s stoppen bij een zebrapad. Een voorbeeld van een observationeel onderzoek is het onderzoek van Mehl dat keek naar hoeveel woorden mensen per dag zeggen. Elke proefpersoon droeg een elektronisch instrumentje en onderzoekers hebben gecodeerd hoeveel woorden mannen en vrouwen per dag spraken. Gemiddeld zeiden vrouwen meer per dag dan mannen, maar dit verschil was niet statistisch significant. Dat betekent dus dat vrouwen niet meer praten dan mannen (ook al denken we dat wel vaak).
Als aan de proefpersonen uit het voorgaande voorbeeld gevraagd zou zijn om zelf het aantal woorden dat ze per dag zeiden bij te houden, dan was het vast niet gelukt of niet accuraat geweest. Bij observationeel onderzoek werken onderzoekers heel zorgvuldig om er voor te zorgen dat hun observaties nauwkeurig en valide zijn. Observaties hebben een goede constructvaliditeit wanneer ze de volgende drie problemen kunnen vermijden: observator bias, observator effecten en reactiviteit.
Observator bias vindt plaats wanneer de verwachtingen van een observator hun interpretaties over het gedrag van proefpersonen beïnvloeden of zelfs de uitkomsten van een onderzoek veranderen. Onderzoekers observeren dan niet objectief, maar volgens hun eigen verwachtingen. Observer effecten of expectancy effecten vinden plaats wanneer proefpersonen of dieren die een onderzoeker observeert zich naar de verwachtingen van de onderzoeker gaan gedragen. Een voorbeeld hiervan is te zien in een onderzoek van Rosenthal en Fode, die studenten ratten gaven waarna hen verteld werd dat ze moesten bijhouden hoelang het duurde voor de rat door een doolhof kon lopen. De ratten waren genetisch hetzelfde, maar sommige studenten werd verteld dat hun rat een slimme doolhofloper was en andere studenten werd verteld dat hun rat een luie doolhofloper was. Het bleek dat de slimme ratten met de dag sneller werden en dat de luie ratten niet sneller werden. Observatoren zagen niet alleen wat ze wilden zien, maar ze zorgden er ook voor dat het gedrag van de geobserveerden overeen kwam met hun verwachtingen. Een manier om observator bias en observator effecten te voorkomen is door het trainen van de observatoren en het ontwikkelen van codeboeken: hierin staat hoe bepaald gedrag gecodeerd moet worden. Het is ook goed om meerdere observatoren te gebruiken en niet slechts één, zodat de tussen-beoordelaars betrouwbaarheid bepaald kan worden. Ook kan er gebruikgemaakt worden van een blind of gemaskeerd design, waarbij de observatoren niet weten waarom het onderzoek gedaan wordt en aan welke groepen de participanten zijn toegewezen.
Soms kan de aanwezigheid van een persoon ervoor zorgen dat iemand zich anders gaat gedragen dan hij of zij normaalgesproken doet. Reactiviteit houdt in dat mensen hun gedrag op de een of andere manier veranderen wanneer een andere persoon kijkt. Soms vertonen ze goed gedrag en soms slecht gedrag. Reactiviteit gebeurt niet alleen met menselijke proefpersonen, maar ook met dieren. Een manier om dit tegen te gaan is om zo min mogelijk op te vallen als observator. Soms kan er een één-richtingsspiegel gebruikt worden om proefpersonen te observeren. Een andere manier is om de proefpersonen aan je te laten wennen. Een observator die kinderen wil observeren kan eerst enkele dagen op school aanwezig zijn zodat de kinderen aan hem of haar wennen en vergeten dat ze geobserveerd worden als de observator later terugkomt en achter in de klas plaatsneemt. Dit kan uiteraard ook met dieren gedaan worden. Een derde manier is om naar de traceerbare data die een gedrag achterlaat te kijken, in plaats van het gedrag zelf. Iemand kan zeggen dat hij of zij een voorzichtige bestuurder is, maar of dit waar is kan geobserveerd worden door bijvoorbeeld naar zijn of haar boetes te kijken.
De meeste psychologen vinden het wel ethisch dat gedragingen in publieke settings geobserveerd worden. Wanneer er geheime opnames worden gemaakt, dan moet een onderzoeker daar wel een goede reden voor hebben en het de proefpersoon na afloop van het onderzoek vertellen. Als de proefpersoon het niet eens is dat er opnames zijn gemaakt, dan moet de onderzoeker het bestand verwijderen zonder het te hebben gezien.
Wanneer je externe validiteit toetst, dan vraag je je af of de resultaten van een bepaald onderzoek gegeneraliseerd kunnen worden naar een grotere populatie. De externe validiteit is heel belangrijk voor frequentie claims. Je vraagt je af of de gevonden waarden voor de mensen uit je steekproef teruggevonden zouden kunnen worden in de hele populatie. Externe validiteit kijkt echter niet alleen naar een steekproef, maar ook naar de setting. Een onderzoeker wil misschien niet weten of de resultaten van een onderzoek gegeneraliseerd kunnen worden naar andere leden van een bepaalde populatie, maar hij wil weten of de resultaten gegeneraliseerd kunnen worden naar een andere setting, zoals andere producten van dezelfde fabriek of andere vakken gegeven door dezelfde docent. Dit hoofdstuk zal voornamelijk gaan over de externe validiteit van een steekproef en minder over setting, maar het is wel belangrijk om te weten dat dat ook onder externe validiteit valt.
Een populatie kan gezien worden als de groep mensen of producten waar een onderzoeker in geïnteresseerd is. Een steekproef is een kleinere groep uit die populatie. Wanneer je wil weten hoe de nieuwe smaak van de Lays chips is, dan hoef je maar één chipje te proeven om te weten hoe het smaakt. Alle andere chipjes uit die zak smaken hetzelfde en je hoeft niet alle chipjes uit die zak op te eten om erachter te komen hoe het smaakt. Als je alle chips uit die zak zou proeven, dan zou je een zogenaamde census uitvoeren: je bekijkt dan alle leden van een populatie. Onderzoekers hoeven dit echter niet te doen: slechts een steekproef van de populatie onderzoeken zou genoeg informatie geven. De externe validiteit van een onderzoek gaat over hoe adequaat de steekproef het niet-onderzochte deel van de populatie representeert.
Er zijn veel populaties die wetenschappers kunnen bestuderen. Ze moeten dus de populatie die ze willen en gaan onderzoeken specificeren. Dit wordt ook wel de populatie van interesse genoemd. Wetenschappers kunnen een brede interesse hebben (zoals de hele populatie van Nederland) of een specifieke interesse hebben (alle vrouwen die psychologie hebben gestudeerd in Groningen). Pas als je een populatie in gedachten hebt, kun je spreken over de generaliseerbaarheid van een steekproef. Een steekproef kan alleen een populatie representeren als de steekproef uit de populatie komt. Dat betekent echter niet dat een steekproef afkomstig uit de populatie de hele populatie representeert. Als een steekproef uit Nederlanders bestaat, betekent het niet automatisch dat het de hele Nederlandse populatie representeert. Wellicht heeft een onderzoeker alleen rijke Nederlanders onderzocht, bijvoorbeeld. Een steekproef kan of representatief zijn of gebiased. In een biased steekproef hebben sommige leden van de populatie van interesse een hogere kans om in de steekproef terecht te komen andere leden van de populatie. In een representatieve steekproef hebben alle leden van de populatie een gelijke kans om in de steekproef terecht te komen. Alleen representatieve steekproeven kunnen er voor zorgen dat we conclusies kunnen trekken over een populatie.
Er zijn twee manieren waarop een steekproef een bias kan bevatten of niet representatief is voor de populatie van interesse. Ten eerste kan het zo zijn dat onderzoekers alleen mensen met wie ze makkelijk contact kregen, hebben meegenomen in een steekproef. Dit wordt ook wel convenience sampling genoemd. Ook kan het voorkomen dat onderzoekers alleen mensen meenemen in de steekproef die zich vrijwillig aanmelden om deel te nemen. Dit wordt zelf-selectie genoemd. Zowel convenience sampling als zelf-selectie kunnen een bedreiging vormen voor de externe validiteit omdat mensen die makkelijker te bereiken zijn of zichzelf aanbieden voor deelname niet per se representatief zijn voor de populatie van interesse.
Wanneer onderzoekers echt een representatieve steekproef willen hebben, dan kunnen ze het beste probability sampling toepassen. Probability sampling staat beter bekend als random sampling. Dit houdt in dat elk lid van de populatie waar men in geïnteresseerd is een even grote kans heeft op om opgenomen te worden in de steekproef. Omdat alle leden van de populatie een gelijke kans hebben om gerepresenteerd te worden, kunnen de resultaten van deze steekproeven gegeneraliseerd worden naar de hele populatie. Random sampling is goed voor de externe validiteit. Nonprobability sampling is het tegenovergestelde, hierbij worden mensen niet random gekozen wat zorgt voor een biased steekproef.
De verschillende vormen van probability sampling worden hieronder toegelicht:
Vaak gebruiken onderzoekers meerdere sampling technieken in een onderzoek. Zolang het maar op een random manier gedaan wordt, zal de steekproef de populatie representeren. Random sampling is niet hetzelfde als random toeschrijving. Dit betekent dat tijdens experimenten, proefpersonen random aan verschillende condities toegedeeld worden. Dit zorgt ervoor dat de interne validiteit omhoog gaat omdat de behandelgroep en controlegroep dan ongeveer gelijk aan elkaar zijn, waardoor er minder kans is op een alternatieve verklaring voor gevonden resultaten.
Wanneer externe validiteit niet belangrijk is voor een onderzoeker, dan kan hij ervoor kiezen om een biased steekproef te gebruiken. Een voorbeeld hiervan is convenience sampling (wat al eerder is besproken). Hierbij gebruikt een onderzoeker dus mensen die makkelijk toegankelijk zijn. Wanneer onderzoekers alleen mensen uit bepaalde subgroepen willen vragen en deze mensen niet op een random manier kiezen, dan heet dat purposive sampling. Een andere vorm van purposive sampling is snowball sampling. Hierbij wordt de deelnemers gevraagd om een paar kennissen aan te dragen om mee te doen aan het onderzoek. In quota sampling identificeert de onderzoeker de subpopulaties die hij wil onderzoeken en hij kiest hoe groot elke subpopulatie in de steekproef gaat zijn. Dan kiest hij op een niet-random manier de mensen uit deze populatie uit (bijvoorbeeld door convenience sampling).
Frequentie claims zijn claims over hoe vaak iets in een populatie gebeurt. Vaak worden deze in percentages uitgedrukt. Externe validiteit is erg belangrijk voor frequentie claims en dus zal er ook goed gekeken moeten worden naar de sampling technieken. Soms kan de externe validiteit van steekproeven die gebaseerd zijn op random samples bevestigd worden. Het is echter vaak lastig om de accuraatheid van een steekproef te checken. Het enige wat je wel kunt doen, is kijken of je sampling techniek goed is. Zolang er een random sample is gebruikt, kun je meer vertrouwen hebben in de externe validiteit van je resultaten.
Externe validiteit is vaak erg belangrijk voor frequentie claims, maar externe validiteit is niet altijd de top-prioriteit van onderzoekers. Dat is bijvoorbeeld het geval als ze associatie en causale claims onderzoeken. Veel associatie of causale claims kunnen accuraat onderzocht worden met een convenience sample. Bij frequentie claims moet je je afvragen of het belangrijk is of een steekproef random is uitgevoerd. Is de reden dat een steekproef gebiased is relevant voor je claim of niet? Zijn de eigenschappen van een bevolking die een steekproef biased maken relevant voor wat je aan het meten bent? Als ze niet belangrijk zijn, dan kun je soms niet-representatieve steekproeven vertrouwen.
Een van de grootste mythes in onderzoek is dat grotere steekproeven beter zijn. Wanneer een fenomeen zeldzaam is, dan heb je niet een grote steekproef voor de analyse. Vaak is het zo dat onderzoekers genoeg hebben aan 1000 mensen wanneer ze een populatie van een land zo groot als de Verenigde Staten willen onderzoeken. Normaal is het zo dat hoe groter een steekproef is, hoe kleiner de foutmarge wordt. Echter, na een steekproefgrootte van 1000 mensen heb je ontzettend veel meer proefpersonen nodig om de foutmarge maar een klein beetje beter te maken. Een steekproef van 1000 mensen wordt daarom gezien als een optimale balans tussen moeite en accuraatheid. Een steekproef van 1000 mensen zorgt er voor dat de resultaten gegeneraliseerd kunnen worden naar de populatie, zolang de steekproef random is uitgevoerd.
Associatie claims zijn claims die de relatie tussen twee gemeten variabelen beschrijven. Een bivariate correlatie wordt ook wel een bivariate associatie genoemd en omschrijft een associatie tussen precies twee variabelen. Om associaties te onderzoeken moet men de variabelen onderzoeken bij dezelfde groep mensen. Vervolgens worden er statistische methodes en grafieken gebruikt om het type relatie tussen de variabelen te weergeven (positief, negatief of geen relatie). Relatief veel studies zijn correlationeel. Een voorbeeld van correlationeel onderzoek is het onderzoek van John Cacioppo naar internetliefde en tevredenheid in je huwelijk.
Cacioppo en zijn collega’s waren geïnteresseerd in de relatie tussen het online ontmoeten van je echtgenoot en huwelijkstevredenheid. Zij stuurden een vragenlijst via de mail naar duizenden mensen die uSamp (een online onderzoekscentrum) gebruikten. De proefpersonen hebben vragen beantwoord over waar ze hun echtgenoot hebben ontmoet (online of niet online). Ook werd hun huwelijkstevredenheid gemeten door de Couple Satisfaction Index (CSI). Deze bevat onder andere de vraag ‘Geef de mate van geluk in je huwelijk aan’, waarbij proefpersonen antwoord konden geven op een Likertschaal met zeven antwoordmogelijkheden (van heel erg ongelukkig tot perfect). Uit het onderzoek bleek dat mensen die elkaar online hadden ontmoet, hoger scoorden op de CSI. Uiteraard laat een correlationeel verband geen causaal verband zien en men moet dus voorzichtig zijn met het trekken van conclusies over dit onderzoek.
Nadat je alle data hebt verzameld, kun je de relatie tussen de twee gemeten variabelen beschrijven aan de hand van een spreidingsdiagram en de correlatiecoëfficiënt r. Wanneer je de twee variabelen tegen elkaar afzet in een spreidingsdiagram en voor elk persoon de waardes als stippen noteert, dan kun je een lijn (laten) trekken door je puntenwolk. Als je lijn van linksonder naar rechtsboven loopt, dan spreken we van een positieve correlatie. Een positieve correlatie houdt in dat hoge scores op de ene variabele samen gaan met hoge scores op de andere variabele. Wanneer de lijn van linksboven naar rechtsonder loopt, dan is er sprake van een negatieve correlatie. Hoge scores op de ene variabele gaan dan samen met lage scores op de andere variabele. De kracht van de correlatie kan aangeduid worden met de correlatiecoëfficiënt r. Deze loopt van -1.0 tot 1.0 Een correlatie van .10 of -.10 heeft een zwakke effectgrootte, een r van .30 of -.30 heeft een matige effectgrootte en een correlatie van .50 of -.50 en groter heeft een grote effectgrootte. R laat dus de richting (positief of negatief) en sterkte van de relatie zien.
Hierboven is omschreven hoe de associatie tussen twee variabelen beschreven kan worden. Echter, je moet er wel aan denken dat sommige variabelen categorisch zijn. In het voorbeeld dat gegeven werd over het onderzoek van Cacioppo is een van de variabelen een categorische variabele. Dat is de variabele die ging over het ontmoeten van je echtgenoot via internet. Mensen kunnen daar natuurlijk alleen maar ‘online’ of ‘offline’ op antwoorden. De waarden van een categorische variabele kunnen alleen maar in bepaalde vooraf vastgestelde categorieën vallen. De andere variabele (huwelijkstevredenheid) was kwantitatief. Men kon immers kiezen uit zeven antwoordmogelijkheden.
Wanneer beide variabelen van een associatie gemeten worden met kwantitatieve schalen, dan is het gebruikelijk om spreidingsdiagrammen te maken. De data kunnen op die manier het best gerepresenteerd worden. Een spreidingsdiagram is niet handig als een van de variabelen categorisch is. De punten die personen voorstellen, komen onder elkaar te staan (verticaal dus) voor het online ontmoeten van een echtgenoot en ook verticaal voor het offline ontmoeten van een echtgenoot. Het is hierdoor erg lastig om bij een categorische variabele aan het spreidingsdiagram te zien of de relatie met de andere variabele positief of negatief is. Het is handiger om een staafdiagram te maken. In een staafdiagram is elk persoon niet voorgesteld als een punt, maar in plaats daarvan worden de gemiddeldes voor elk categorie weergegeven. Met een staafdiagram kun je het verschil tussen de groepsgemiddelden onderzoeken.
Wanneer tenminste één van de variabelen in een associatie claim categorisch is, dan kunnen er verschillende statistische methodes gebruikt worden om de data te analyseren. Soms kan r gebruikt worden, maar het is gebruikelijker om te testen of de verschillen tussen de gemiddelden statistisch significant zijn. Dit wordt vaak gedaan met de t-test.
De belangrijkste validiteiten die onderzocht moeten worden bij associatie claims, zijn constructvaliditeit en statistische validiteit. Soms kan men ook de externe validiteit onderzoeken. De interne validiteit is niet relevant voor associatie claims.
Omdat een associatie claim de relatie tussen twee gemeten variabelen beschrijft, is het belangrijk om naar de constructvaliditeit van beide variabelen te kijken. Men moet dus kijken hoe goed elk van de twee variabelen gemeten is. Je kunt je daarbij afvragen of de maat betrouwbaar is en of de maat meet wat het behoort te meten. Ook kun je je afvragen wat het bewijs voor face, discriminante, convergente en concurrent validiteit van de variabele is.
Wanneer je statistische validiteit van een associatie claim onderzoekt, dan wil je dus eigenlijk weten of en welke factoren een invloed hebben gehad op de data. Er moet gekeken worden naar effectgrootte, uitbijters, restricties in spreiding en de statistische significantie van de relatie.
Wat is een effectgrootte?
Het eerste wat de statistische validiteit van een onderzoek bepaalt is hoe sterk de relatie tussen de variabelen is. Dit wordt weergegeven als een effectgrootte. Een effectgrootte beschrijft dus hoe sterk de relatie tussen twee of meer variabelen is. Voor het omschrijven van een effectgrootte worden de termen: zwak, gemiddeld en sterk gebruikt. Deze termen representeren respectievelijk r-waardes van 0.1, 0.3 en 0.5. Over het algemeen is het zo dat hoe groter een effectgrootte, hoe belangrijker we het resultaat vinden. Echter gaat dit niet altijd op. Zo kan een kleine effectgrootte bijvoorbeeld erg belangrijk zijn als deze in vele situaties of voor veel verschillende mensen geldt. Een voorbeeld hiervan is te zien in het onderzoek van Yeager. Deze onderzoeker vergeleek de cijfers van leerlingen met een 'growth mindset' versus de cijfers van een controlegroep. Het verschil tussen de twee groepen had een r van slechts 0.05. Door statistische analyses kwam Yeager erachter dat deze effectgrootte in de echte wereld gelijk zou staan aan tachtigduizend tieners die voldoendes zouden halen in plaats van onvoldoendes. Een kleine effectgrootte kan dus heel belangrijk zijn als we dit verspreiden over veel mensen of situaties.
Hoe bepalen we hoe precies onderzoeksresultaten zijn?
De correlatie tussen twee variabelen zoals we deze vinden in een studie bij proefpersonen is een schatting van de echte correlatie in de populatie. Om te weergeven hoe precies deze schatting is, rapporteren onderzoekers vaak een 95% betrouwbaarheidsinterval (BHI). In 95% van de gevallen zal de echte correlatie zoals deze is in de populatie dus binnen dit interval vallen. Hoe groter de steekproef, hoe preciezer de BHIs worden en hoe kleiner de steekproef, hoe minder precies. Bij kleinere steekproeven zijn de BHIs minder precies omdat deze moeten compenseren voor een mogelijk grotere foutmarge. Als het getal nul niet binnen een BHI valt dan kunnen we concluderen dat een associatie tussen variabelen statistisch significant is. Als een correlatie statistisch significant is dan betekent dit dat het onwaarschijnlijk is dat deze gevonden is in een populatie waarin de associatie in werkelijkheid niet bestaat. Met andere woorden: de kans is klein dat het verband tussen de variabelen berust op toeval. Als een BHI wel het getal nul bevat dan kunnen we niet met zekerheid zeggen of er in werkelijkheid een associatie tussen de variabelen bestaat. We zeggen dan dat een associatie niet statistisch significant is.
Wat is replicatie?
Als onderzoekers een replicatie van een onderzoek doen dan betekent dit dat ze het onderzoek opnieuw doen. Ze herhalen het op precies dezelfde manier als het eerdere onderzoek en verkrijgen hiermee nieuwe resultaten. Dit kan een belangrijkere stap zijn om te onderzoeken hoe de associatie tussen variabelen er in de populatie uitziet.
Wat zijn uitbijters?
Een uitbijter is een extreme score die niet in lijn ligt met de andere scores. Liggend aan op welke manier de score opvallend is, kan deze een grote invloed uitoefenen op de correlatie tussen de variabelen. Een uitbijter kan een correlatie sterker of zwakker laten lijken dan deze is. Bij een bivariate correlatie kunnen uitbijters vooral problematisch zijn als er sprake is van extreme scores op beide variabelen. Een voorbeeld hiervan is dat iemand die zowel heel erg lang als heel erg zwaar is een correlatie sterker kan laten lijken, terwijl iemand die zowel heel erg klein als zwaar is de correlatie juist zwakker kan laten lijken. Het is dus erg belangrijk om uitbijters te identificeren als we te maken hebben met een associatie claim. Dit kan door te kijken naar het spreidingsdiagram en te bepalen of er datapunten zijn die opvallen. Hierbij is het belangrijk om te onthouden dat uitbijters meer invloed hebben op het moment dat de steekproef kleiner is, dan wanneer hij groter is.
Wat betekent een restrictie in spreiding?
Een restrictie in spreiding houdt in dat het volledige bereik van scores op een van de variabelen niet omvat wordt, waardoor een correlatie kleiner lijkt dan deze in werkelijkheid is. Onderzoekers kunnen dit corrigeren via een formule die de volledige spreiding van scores schat baseert op wat we weten over de set scores met de restrictie. Deze formule gebruikt dan de volledige spreiding van scores om opnieuw de correlatie tussen de variabelen te berekenen. Een restrictie in spreiding kan voorkomen als één van de variabelen weinig variantie heeft. Als onderzoekers bijvoorbeeld de invloed van inkomen van ouders op schoolprestaties van het kind willen onderzoeken, maar ze nemen alleen maar hogere klasse families mee. Naast statistische technieken kunnen onderzoekers deze restrictie ook corrigeren door meer mensen te rekruteren voor hun steekproef die de spreiding groter maken. In het bovenstaande voorbeeld zou dat dus betekenen dat er meer families uit de lagere klassen gerekruteerd worden.
Wat is een curvilineaire relatie?
Als er sprake is van een curvilineaire associatie, dan betekent dit dat de relatie tussen twee variabelen geen rechte lijn is. We spreken hier bijvoorbeeld van als een relatie tussen twee variabelen eerst negatief is en dan na een bepaald punt ineens positief wordt. Dit is van grote invloed op de r-waarde, die de best passende rechte lijn door de data heen weergeeft. Een r-waarde kan dus niet goed een curvilineaire relatie beschrijven. Het is dus belangrijk om naar de spreidingsdiagram te kijken als de r-waarde lager uitvalt dan we denken, om zo na te gaan of er sprake is van een curivlineaire relatie tussen de variabelen. Als dit het geval is kunnen onderzoekers de correlatie opnieuw berekenen, maar dan tussen één van de variabelen en het kwadraat van de andere variabele.
Formeel gezien is het niet nodig om de interne validiteit van een associatie claim te controleren, maar wel is het belangrijk om te onthouden dat een associatie tussen twee variabelen geen causaal verband betekent. Dat er een correlatie tussen de variabelen is betekent niet dat de ene variabele de waardes van de andere variabele veroorzaakt. Om te spreken van een causale relatie moet er aan drie criteria voldaan worden, die we ook bij associatie claims kunnen onthouden en checken:
Als we naar de externe validiteit van een associatie claim kijken, dan vragen we ons af of we de associatie kunnen generaliseren naar andere mensen, plaatsen en tijden. Hierbij oefent de grootte van een steekproef minder invloed uit dan de manier waarop we de steekproef uit de populatie getrokken hebben. Meestal is de externe validiteit goed op het moment dat er gebruik is gemaakt van een vorm van random sampling. Hier moet wel bij gezegd worden dat we onderzoek niet zomaar mogen afschrijven op het moment dat er geen gebruik gemaakt is van random sampling, omdat soms de conclusies nog steeds valide zijn. Dit hangt van de studie af.
Het kan voorkomen dan de relatie tussen twee variabelen verandert, afhankelijk van het niveau van een andere variabele. Deze andere variabele wordt dan een moderator genoemd. Een voorbeeld hiervan is dat Lister-Landman een relatie vond tussen compulsief Whatsappen en schoolprestaties, maar alleen voor meisjes. In dit geval was geslacht dus een moderator van de relatie tussen compulsief Whatsappen en schoolcijfers.
Associatie claims kunnen veel informatie geven. Een bekend voorbeeld van een associatie is dat kinderen die veel geweld op tv zien zich ook agressief gedragen. Toch zegt dat niks over de causaliteit. We zijn vaak niet alleen maar geïnteresseerd in correlatie, we willen weten wat de oorzaak was van het gevolg. Je wilt echt weten of kinderen agressief worden door het kijken naar gewelddadige tv-programma’s. De reden dat we zulke dingen willen weten, is natuurlijk omdat we een interventie willen bedenken. Als kinderen echt gewelddadig worden door gewelddadige programma’s, dan zouden ouders ervoor moeten zorgen dat ze deze programma’s niet meer kijken. De beste manier om causaliteit te testen, is door een experiment te gebruiken. Echter, soms kom je al een heel eind door andere technieken. In dit hoofdstuk worden technieken besproken die verder dan correlaties gaan en causaliteit benaderen.
In het vorige hoofdstuk werd bivariate correlationeel onderzoek besproken. Dat onderzoek keek telkens alleen naar twee gemeten variabelen. Longitudinaal onderzoek en multiple-regressie designs gaan over meer dan twee gemeten variabelen en ze worden daarom ook wel multivariate designs genoemd. Deze designs zijn niet de oplossing voor het causaliteits-criterium, maar ze zijn erg nuttig, worden vaak gebruikt en zijn een oplossing wanneer men geen experimenten kan gebruiken. Het onderzoek naar de relatie tussen gewelddadige programma’s kijken en agressief gedrag is een voorbeeld van bivariate correlationeel onderzoek. Deze voldoet niet aan de drie criteria voor causaliteit. Er kan in dat onderzoek wel vastgesteld worden dat er covariantie is, omdat onderzoek heeft aangetoond dat de correlatie tussen het kijken van gewelddadige programma’s en agressief gedrag .35 is. Echter, het is niet mogelijk om met dit design vast te stellen wat er eerst kwam: de gewelddadige programma’s kijken en dan agressief worden of agressief zijn en gewelddadige programma’s kijken? Ook is er geen goede interne validiteit, omdat de relatie tussen gewelddadige programma’s kijken en agressief gedrag verklaard zou kunnen worden door een derde variabele. Met bivariate designs kun je dus niet goed vaststellen wat er eerst kwam en of andere variabelen invloed hebben uitgeoefend op de relatie.
Longitudinale designs kunnen temporele precedentie vaststellen door dezelfde variabelen bij dezelfde persoon op verschillende tijdspunten te meten. Longitudinale designs worden vaak gebruikt in de ontwikkelingspsychologie om de veranderingen in bepaalde karaktereigenschappen van mensen te bestuderen. Eron voerde in de jaren ’60 en ’70 van de vorige eeuw een onderzoek uit naar gewelddadige programma’s kijken en agressiviteit. Hij vroeg kinderen op een basisschool wat hun vier favoriete tv-programma’s waren en hij vroeg elk kind uit de klas ook welke kinderen uit de klas de meeste ruzie maakten, sloegen, gemeen waren en duwden. Tien jaar later stelde hij weer dezelfde vragen aan dezelfde kinderen (die nu tieners waren). Dit onderzoek is longitudinaal omdat Eron dezelfde variabelen in dezelfde groep mensen tien jaar later opnieuw gemeten heeft. Ook is het een voorbeeld van een multivariate correlationeel onderzoek, omdat het vier variabelen meenam: agressieve programma’s kijken op tijdstip één, agressieve programma’s kijken op tijdstip twee, agressie op tijdstip één en agressie op tijdstip twee.
Er zijn meer dan twee variabelen betrokken in een multivariate correlationeel design en je design zal daarom ook meerdere correlaties geven. Dit kunnen de volgende zijn:
Longitudinale studies kunnen ten eerste covariantie vaststellen. Dit kan als de twee variabelen die onderzocht worden met elkaar correleren en hun 95% betrouwbaarheidsintervallen het getal nul niet bevatten. Dan is er sprake van covariantie. Daarnaast kan een longinaal onderzoek ook temporele precedentie vaststellen doordat elke variabele op verschillende tijden gemeten wordt. Onderzoekers vergelijken dan de cross-lag correlaties en kijken welke sterker is. Als slechts één statistisch significant is dan is het waarschijnlijker dat oorzaak variabele uit die correlatie eerst komt en dus de andere variabele beïnvloedt. Een probleem ontstaat echter bij het vaststellen van de interne validiteit. Longitudinaal onderzoek kan geen interne validiteit vaststellen, omdat er slechts twee variabelen gemeten worden. Of er een derde variabele in het spel is, kan dus niet worden uitgesloten.
Sommige mensen zullen zich afvragen waarom onderzoekers van longitudinale studies zo veel moeite doen om dezelfde proefpersonen tien jaar later weer op te sporen en er niet gewoon voor kiezen om een experiment te doen. De reden is dat mensen vaak niet toegeschreven kunnen worden aan condities zoals dit bij een experiment wel gebeurt. Het is dus soms lastig om variabelen te manipuleren. Zo kun je bijvoorbeeld een persoon niet opdragen wat zijn lievelingsprogramma op de televisie moet zijn. Daarnaast kan het in sommige gevallen onethisch zijn om personen aan een bepaalde groep toe te schrijven. Zo zou het onethisch zijn geweest als Eron kinderen toegewezen had aan de groep die gewelddadige programma’s op tv moest kijken.
Multipele regressie of multivariate regressie is een statistische techniek waarbij we bepaalde derde variabelen kunnen uitsluiten. Ze oefenen hierdoor geen invloed meer uit op de relatie tussen twee bepaalde variabelen en hierdoor kunnen we de interne validiteit van een onderzoek waarborgen. Dit betekent dat multipele regressie controleert voor de invloed van een mogelijke derde variabele op de relatie tussen twee anderen. Om multipele regressie te kunnen uitvoeren, moet je altijd naast de twee hoofdvariabelen die je wil onderzoeken ook nog een aantal andere variabelen meten zodat je hun onderlinge relaties kan onderzoeken. Dit wordt een multivariate correlationele studie genoemd.
Er wordt bij een multipele regressie dus gekeken naar drie of meer variabelen. De variabele waar de onderzoeker het meest geïnteresseerd in is noemen we de criterion variabele of de afhankelijke variabele. De overige variabelen in een regressie analyse worden de predictor variabelen of de onafhankelijke variabelen genoemd. De statistische maat van een multipele regressie is geen r-waarde, maar in plaats daarvan wordt er gebruikgemaakt van een bèta. Elke predictor variabele krijgt een bèta waarde, welke de richting en de sterkte van de relatie tussen de predictor en criterion variabele laat zien als we zouden controleren voor de invloed van de andere predictor variabelen. Hoe hoger de bèta, hoe sterker de relatie. Deze bèta is een gestandaardiseerde waarde. Dit betekent dat ondanks dat je bijvoorbeeld één predictor variabele in centimeters gemeten kan hebben en weer een andere in aantal minuten, je de bèta's onderling kan vergelijken omdat ze een standaard maat hebben. We kunnen voor deze bèta's ook betrouwbaarheidsintervallen maken of er een p-waarde aan geven. Als een 95% betrouwbaarheidsinterval de waarde nul niet bevat of de p-waarde is lager dan 0.05, dan spreken we van een statistisch significant resultaat.
Aan een multipele regressie kunnen verschillende predictor variabelen toegevoegd worden. Dit hoeft er dus niet maar één te zijn. Dit heeft als voordeel dat er op deze manier gelijk gecontroleerd wordt voor verschillende derde variabelen tegelijkertijd. Daarnaast kan het zo zijn dat je op deze manier variabelen ontdekt buiten de variabelen waarin je in eerste instantie geïnteresseerd in was om, die ook een belangrijke invloed op de relatie uitoefenen.
In populaire tijdschriften of kranten worden vaak ook resultaten van een onderzoek uitgelicht. Vaak is het wel zo dat termen zoals ‘bèta,’ ‘p’ en ‘significantie’ niet genoemd worden. Toch kun je aan de hand van enkele termen zien dat het gaat om een multipele regressie. Termen zoals ‘controleren voor andere variabelen,’ ‘rekening houden met andere variabelen,’ en ‘correctie voor andere variabelen’ laten zien dat er gebruik is gemaakt van multipele regressie.
Ook al voeg je 20 variabelen toe die als potentiële derde variabelen gezien kunnen worden, dan betekent het niet dat je aan alle voorwaarden voor causaliteit hebt voldaan. Multipele regressie designs kunnen bepaalde derde variabelen uitsluiten, maar ze kunnen geen temporele precedentie vaststellen. Daarnaast kunnen ze ook niet controleren voor derde variabelen die niet opgenomen zijn in het onderzoek. Het kan voorkomen dat onderzoekers er zich niet bewust van zijn dat er een bepaalde variabele is die invloed uit zou kunnen oefenen op de relatie tussen de criterion en predictor variabele. Deze variabele zal dan niet opgenomen worden in het onderzoek en de conclusie die men trekt aan de hand van de resultaten van het onderzoek zal vertekend zijn. Het probleem met potentiële derde variabelen kan eigenlijk alleen maar opgelost worden door experimenten uit te voeren. Door het willekeurig toeschrijven van proefpersonen aan bepaalde condities sluit je invloed van derde variabelen zo goed mogelijk uit. Alleen experimenten kunnen dus causaliteit vaststellen.
Parsimony is de mate waarin een goede wetenschappelijke theorie de meest simpele verklaring kan bieden voor een fenomeen. In causale claims refereert parsimony naar de simpelste verklaring voor een patroon in je data.
Een bekend fenomeen dat vaak onderzocht is, wordt als voorbeeld genomen; tientallen jaren geleden zag men in dat er meer rokers dan niet-rokers waren die longkanker hadden. Fabrikanten van sigaretten wilden natuurlijk niet dat hun verkoop zou dalen en zij beweerden dat er andere factoren waren die invloed hadden op de gevonden correlatie tussen roken en longkanker. Multipele regressie analyses zouden bepaalde derde variabelen kunnen uitsluiten, maar omdat het onmogelijk was om alle derde variabelen in onderzoek op te nemen en uit te sluiten bleven mensen met alternatieve verklaringen komen, zoals bijvoorbeeld stress of het drinken van koffie. Ook konden er geen experimenten uitgevoerd worden, omdat het niet ethisch is om bepaalde proefpersonen toe te schrijven aan een roker conditie. De enige gegevens die onderzoekers hadden, waren gegevens uit correlationeel onderzoek.
Met de correlationele gegevens moest men een simpel mechanisme bedenken, dat roken met longkanker verbond. Het meest logische was om te zeggen dat er in de rook van sigaretten chemicaliën zitten die giftig zijn wanneer ze in contact komen met menselijk weefsel. Hoe meer contact een persoon heeft met deze chemicaliën, hoe meer hij of zij blootgesteld wordt aan de giftige stoffen. Aan de hand hiervan konden voorspellingen worden gemaakt, zoals dat stoppen met roken de kans op kanker vermindert, dat mensen die met rokers wonen vaker kanker krijgen dan mensen die niet met rokers wonen en dat mensen die filtersigaretten roken iets minder kans op kanker hebben dan zij die ongefilterde sigaretten roken. Deze konden vervolgens worden getest.
Voor al deze aparte voorspellingen werd bewijs gevonden. Omdat deze allemaal gebaseerd waren op dezelfde verklaring/hetzelfde principe, namelijk "sigaretten rook bevat chemicaliën die giftig zijn voor menselijk weefsel en hoe meer je daarmee in aanraking komt hoe hoger je kans op kanker" werd er dus geconcludeerd dat er sterke parsimony was: dit was waarschijnlijk de simpelste, beste verklaring. Door de diversiteit van de voorspellingen en bevindingen bleek het ook moeilijker om met nieuwe verklaringen te komen gebaseerd op derde variabelen. Het drinken van koffie zou bijvoorbeeld wel samen kunnen gaan met lang roken en zo kanker kunnen helpen veroorzaken, maar het kan het vaker voorkomen van kanker bij mensen die met rokers wonen, niet verklaren.
Vaak willen wetenschappers weten waarom er een bepaalde relatie bestaat tussen twee of meer variabelen. Erg vaak is er sprake van een mediator: een variabele via waar de relatie tussen andere variabelen verloopt. Een voorbeeld hiervan is dat er een relatie bestaat tussen de hoeveelheid diepzinnige gesprekken die iemand heeft en hun welzijn. Echter loopt deze relatie via de kwaliteit van je sociale contacten. Dus: een grote hoeveelheid diepzinnige gesprekken met iemand leidt tot een hogere kwaliteit van je sociale contact en de hogere kwaliteit van dit contact leidt uiteindelijk tot beter welzijn.
Hypotheses over een mogelijke mediator zijn dus causale claims, omdat ze ervan uitgaan dat één variabele iets anders veroorzaakt. Hierom kunnen we alleen zeggen dat er sprake is van mediatie als er ook sprake is van temporele precedentie: de causale variabele moet eerst gemeten of gemanipuleerd zijn, gevolgd door de mediator en daarna gevolgd door de uitkomst variabele.
Mediatoren lijken op derde variabelen omdat we ze allebei kunnen testen met multipele regressie. Echter is er wel een verschil. Als we zeggen dat een derde variabele een relatie kan verklaren, dan komt dit doordat beide andere variabelen een relatie hebben met de derde en het daardoor lijkt alsof deze andere variabelen ook een relatie hebben. Een voorbeeld hiervan is dat we zouden kunnen denken dat er een relatie bestaat tussen de hoeveelheid diepzinnige gesprekken en welzijn, terwijl dit eigenlijk komt door je opleidingsniveau. Met andere woorden: de hoeveelheid diepzinnige gesprekken die je hebt, wordt verklaard door je opleidingsniveau (hoe hoger hoe vaker) en je welzijn wordt verklaard door je opleidingsniveau (hoe hoger hoe beter) en daardoor denken we dat deze twee variabelen ook een relatie zouden hebben met elkaar, terwijl dit niet het geval is. Contrasterend is een mediator een variabele via waar de relatie verloopt, bijvoorbeeld: diepzinnige gesprekken voeren leidt tot goede sociale contacten wat dan weer leidt tot welzijn.
Als wetenschappers kijken naar een mediator vragen ze zich af waarom twee andere variabelen met elkaar in verband staan. Als wetenschappers kijken naar een moderator kijken ze echter naar of de twee variabelen altijd op dezelfde manier met elkaar in verband staan en of dit gelijk is voor iedereen in elke situatie. Mediatoren verklaren dus 'waarom', terwijl moderatoren kijken naar 'wanneer, hoe en voor wie' een relatie geldt.
Bij multivariate designs wordt gebruikgemaakt van multipele regressie, waardoor interne validiteit vaak redelijk goed is. Toch moeten we ook nog kijken naar de construct, externe en statistische validiteit. Dus: we moeten kijken naar hoe goed elke variabele gemeten is, of we de resultaten van het onderzoek kunnen generaliseren en of er sprake was van een random steekproef en of er sprake is van statistische significantie en replicatie van het onderzoek.
In de psychologie betekent experiment dat een onderzoeker minimaal één variabele manipuleert en een andere variabele meet. Experimenten kunnen in een laboratorium plaatsvinden of ergens anders, zolang er maar minimaal een variabele gemanipuleerd en een variabele gemeten kan worden. Een gemanipuleerde variabele is een variabele die de onderzoekers proberen te controleren, door bijvoorbeeld participanten bij een bepaald niveau van de variabele in te delen. Gemeten variabelen zijn vastgelegde gedragingen of attitudes. Dit gebeurt vaak via zel-rapportage, gedragsobservatie of fysiologische metingen. De variabele die gemanipuleerd wordt, wordt ook wel de onafhankelijke variabele genoemd, terwijl de gemeten variabele ook wel bekend staat als de afhankelijke variabele. De verschillende niveaus van de gemanipuleerde/onafhankelijke variabele waar onderzoekers participanten aan toeschrijven worden ook wel condities genoemd. De gemanipuleerde variabele 'bepaalt' als het ware hoe proefpersonen zich gedragen op de gemeten variabele.
Een experiment moet minimaal één onafhankelijke en één afhankelijke variabele hebben. Vaak bestuderen onderzoekers echter meerdere afhankelijke variabelen met één experiment. Als deze afhankelijke variabelen op verschillende schalen gemeten worden dan moeten deze weergegeven worden in verschillende grafieken. In een grafiek staat de onafhankelijke variabele vrijwel altijd op de x-as en de afhankelijke variabele op de y-as.
Onderzoekers moeten altijd zorgen dat ze maar één ding tegelijkertijd variëren, namelijk de mogelijke oorzaak van de verschillen op de afhankelijke variabele. Hierom is het belangrijk dat onderzoekers controleren voor derde variabelen. Dit doen ze door alleen de onafhankelijke variabele te variëren en verder alle overige factoren constant te houden. Een variabele die een onderzoeker bewust constant probeert te houden noemen we een controle variabele. Door dit te doen sluiten onderzoekers alternatieve verklaringen voor gevonden resultaten uit. Dit betekent dat controle variabelen erg belangrijk zijn voor het vaststellen van interne validiteit.
In experimenten komen vergelijkingsgroepen voor. Experimenten zijn dus betere bronnen van informatie dan je eigen ervaring, omdat je je eigen ervaring niet echt kunt vergelijken met een andere groep. Experimenten manipuleren een onafhankelijke variabele en elke onafhankelijke variabele heeft twee levels, dus ware experimenten proberen altijd naar covariantie te kijken. Een onafhankelijke variabele kan op bepaalde manieren covarianties laten zien. Een controlegroep is een level van de onafhankelijke variabele die ‘geen behandeling’ of een neutrale conditie voorstelt. Wanneer een onderzoek een controlegroep heeft, dan wordt/worden andere level/levels de behandelgroep(en) genoemd. Een behandelgroep is een groep waarin het niveau van de onafhankelijke variabele wel gevarieerd is. Als we een controlegroep wel blootstellen aan een behandeling, maar deze behandeling doet of verandert eigenlijk niks, dan noemen we dit een placebogroep of een placebo controlegroep. In het kort: door het hebben van verschillende groepen die we kunnen vergelijken, kunnen we vaststellen dat er een verband bestaat tussen het niveau van de ene variabele en de andere variabele, of zelfs meer dan twee variabelen.
In experimenten kan temporele precedentie ook gecontroleerd worden. Immers, onderzoekers manipuleren eerst een onafhankelijke variabele en kijken dan naar de afhankelijke variabele. Een experiment zorgt er dus voor dat de oorzaak variabele voor de effect variabele komt.
Voor causale claims is interne validiteit belangrijk. Een onderzoek heeft goede interne validiteit als het verzekert dat de causale variabele als enige verantwoordelijk is voor de verandering in de effect of uitkomst variabele en er geen andere factoren bij betrokken zijn. Deze andere factoren of alternatieve verklaringen worden confounds genoemd en ze vormen een bedreiging voor de interne validiteit. Er zijn verschillende confounds voor interne validiteit.
Een design confound: een vergissing van een onderzoeker bij het ontwerpen van de onafhankelijke variabele, waarbij een tweede variabele toevallig systematisch mee-varieert met de onafhankelijke variabele waar de onderzoeker interesse in heeft. Deze andere variabele die systematisch mee-varieert is in dit geval dus een alternatieve verklaring voor gevonden resultaten en hiermee een bedreiging voor de interne validiteit. Hierbij moet echter wel gezegd worden dat niet elke andere variabele een confound is en dus een dreiging vormt voor de interne validiteit. Andere variabelen zijn alleen een bedreiging op het moment dat ze systematische mee-variëren met de onafhankelijke variabele. Als er sprake is van niet systematische variatie dan is het geen confound.
Er is sprake van een selectie effect wanneer de soort proefpersonen in één level van de onafhankelijke variabelen systematisch anders zijn dan de proefpersonen in een andere level van de onafhankelijke variabele. Selectie effecten kunnen gebeuren wanneer onderzoekers de proefpersonen laten kiezen in welke groep ze willen zitten. Er is ook sprake van een selectie effect als een onderzoeker één bepaald soort participant aan één conditie toeschrijft en een ander type participant aan een andere conditie (bijvoorbeeld één conditie met voornamelijk vrouwen en één conditie met voornamelijk mannen). Om dit te vermijden kan gebruikgemaakt worden van random toeschrijving: participanten worden random aan condities toegewezen. Elke participant heeft nu een even grote kans om in elke groep terecht te komen. Op deze manier worden alle groepen in het experiment gemiddeld ongeveer gelijk nog voordat we de onafhankelijke variabele variëren.
Naast deze simpele variant van randoem toeschrijving is er ook nog een variant waarbij onderzoekers nog harder hun best doen om te zorgen dat de experimentele groepen zo gelijk mogelijk zijn als maar kan voordat ze de onafhankelijke variabele variëren. Dit wordt matched groups of matching genoemd. De onderzoekers meten dan participanten op een bepaalde variabele die mogelijk invloed uitoefent op de afhankelijke variabele en delen de participanten daarna op in paren, waarbij elk van de personen in het paar een ongeveer gelijk niveau van de variabele vertoond. Een voorbeeld hiervan zou zijn om twee participanten met een ongeveer gelijk IQ, of gelijk gemiddeld cijfer als paar in te delen. Daarna schrijven ze dan één participant uit het paar random toe aan de ene conditie, terwijl de andere participant in de andere conditie ingedeeld wordt. Ook dit voorkomt selectie effecten en zorgt ervoor dat participanten op belangrijke variabelen die mogelijk invloed uitoefenen, gemiddeld genomen gelijk zijn.
Experimenten kunnen vele vormen aannemen. In een independent-groups design worden verschillende groepen proefpersonen in verschillende levels van de onafhankelijke variabele geplaatst. Dit wordt ook wel een between-group design genoemd.
Twee vormen van de independent-groups design zijn de posttest-only design en de pretest/posttest design. In het posttest-only design worden proefpersonen op een random manier in de groepen van de onafhankelijke variabele ingedeeld en vervolgens één keer op de afhankelijke variabele getest. Het posttest-only design voldoet aan alle drie criteria van causaliteit. In een pretest/posttest design worden proefpersonen op een random manier in twee groepen ingedeeld en ze worden twee keer getest op de afhankelijke variabele: één keer voor de blootstelling aan de onafhankelijke variabele en één keer na de blootstelling aan de onafhankelijke variabele. Onderzoekers kunnen een pretest/posttest design gebruiken als ze willen evalueren of de random toeschrijving de groepen gelijk heeft gemaakt. Dit wordt vooral gedaan wanneer groepen klein zijn. Onderzoekers kunnen er op deze manier zeker van zijn dat er geen selectie effect is. Een pretest-posttest design kan ook laten zien hoe proefpersonen in de experimentele conditie zijn veranderd door de tijd heen. Een pretest/posttest design is handig, maar het kan niet altijd uitgevoerd worden. Echter, het posttest-only design is al een goede manier om onderzoek te doen.
In een within-groups design of within-subjects design is er maar een groep van proefpersonen en elk persoon wordt aan elk level van de onafhankelijke variabele blootgesteld.
Er zijn twee typen van within-groups designs. In het concurrent-measures design worden proefpersonen blootgesteld aan alle levels van een onafhankelijke variabele op ongeveer hetzelfde moment, waarbij een enkele gedraging of attitude de afhankelijke variabele is. Een voorbeeld hiervan is een onderzoek waarin wetenschappers keken of baby's een voorkeur hadden voor mannengezichten of vrouwengezichten. Ze lieten baby’s tegelijkertijd kijken naar foto’s van mannen- en vrouwengezichten. Een onderzoeker heeft toen gemeten naar welk gezicht ze het langst keken. De onafhankelijke variabele was het geslacht van het gezicht en de baby’s werden blootgesteld aan beide levels van de onafhankelijke variabele op hetzelfde moment. De voorkeur van de baby’s was de afhankelijke variabele. In een repeated-measures design worden proefpersonen meer dan één keer op de afhankelijke variabele gemeten- dus na blootstelling aan elk level van de onafhankelijke variabele.
Het voordeel van een within-groups design is dat het verzekerd dat de proefpersonen in de twee groepen gelijk zullen zijn, omdat het dezelfde proefpersonen zijn. Elk proefpersoon kan vergeleken worden met zichzelf. Een persoon is dus zijn of haar eigen controlepersoon. Met zo’n design kunnen onderzoekers ook met meer zekerheid zeggen dat er een effect te zien is tussen de condities. Dit komt omdat alle verschillen, behalve die in de onafhankelijke variabele, gelijk worden gehouden. Hierdoor is het waarschijnlijker dat onderzoekers een effect van de manipulatie van de onafhankelijke variabele zullen vinden, als er een is. Deze zekerheid wordt ook wel power genoemd. Power verwijst naar de mogelijkheid van een studie om een statistisch significant resultaat te laten zien wanneer een onafhankelijke variabele echt een effect heeft in de populatie. Een within-groups design kan ook als een fijne manier van onderzoek gezien worden, omdat er minder proefpersonen nodig zijn.
Within-group design kunnen de interne validiteit soms ten slechte komen. Het blootgesteld worden aan de ene conditie kan veranderen hoe proefpersonen reageren op de andere condities. Dit verschil in reactie door eerst blootgesteld te worden aan een conditie en dan nog aan een andere wordt een order effect genoemd. Order effecten komen voor wanneer de blootstelling aan een level van de onafhankelijke variabele invloed heeft op de responsen van de volgende level van de onafhankelijke variabele. Deze order effecten zijn confounds. Order effecten kunnen bestaan uit oefening ('practice') effecten. Deze effecten worden ook wel vermoeidheid ('fatigue') effecten genoemd. Dit houdt in dat iemand na erg lang dezelfde taak te doen er of beter in wordt, of hem bijvoorbeeld saai gaat vinden. Order effecten kunnen ook carryover effecten bevatten, wanneer een bepaalde contaminatie overwaait van de ene conditie naar de volgende.
Om order effecten te voorkomen, kunnen onderzoekers counterbalancing toepassen. Dit houdt in dat onderzoekers de levels van de onafhankelijke variabelen in verschillende volgordes aan proefpersonen presenteren. Wanneer onderzoekers counterbalancing willen gebruiken, dan moeten ze de proefpersonen in groepen verdelen. Elke groep krijgt een van de volgordes. Door random toewijzing wordt er bepaald welke groep de ene volgorde krijgt en welke groep de andere. Een experiment kan vol of partieel counterbalanced worden. Wanneer een within-groups experiment maar twee of drie levels van een onafhankelijke variabele heeft, dan kunnen onderzoekers een full counterbalance toepassen. Dit betekent dat alle mogelijke verschillende volgordes van de condities gepresenteerd worden. Wanneer het aantal condities toeneemt, neemt ook het aantal mogelijke volgordes drastisch toe. Wanneer onderzoekers meerdere mensen in een volgorde willen, dan hebben ze veel proefpersonen nodig. Het is dus niet altijd praktisch om een full counterbalance te doen. Bij partial counterbalancing wordt maar een deel van de mogelijke verschillende volgordes gepresenteerd. Een bepaalde techniek van partial counterbalancing wordt een Latin square genoemd.
Within-groups designs kunnen covariantie vaststellen; ze kunnen voor temporele precedentie zorgen en als er voor order effecten gecontroleerd wordt, dan zit het ook goed met de interne validiteit van deze designs. Soms kiezen onderzoekers toch niet voor within-groups designs. Een van de redenen is vanwege de order effecten. Een ander nadeel van zulke designs is dat het niet altijd praktisch is. Een derde probleem komt voor wanneer mensen alle levels van een onafhankelijke variabele zien en daardoor hun gedrag veranderen (omdat ze doorhebben of denken door te hebben waar het onderzoek over gaat).
In een herhaalde metingen design worden participanten blootgesteld aan alle niveaus van een onafhankelijke variabele. De niveaus van deze onafhankelijke variabele kunnen ook ge-counterbalanced worden. In een pretest/posttest design worden participanten echter maar aan één niveau van de onafhankelijke variabele blootgesteld, niet allemaal.
In een experiment zijn er twee constructen geoperationaliseerd: de onafhankelijke variabele en de afhankelijke variabele. Constructvaliditeit zegt iets over hoe goed de variabelen gemeten en gemanipuleerd zijn. Wanneer je kijkt naar de constructvaliditeit van een experiment, dan moet je zowel naar de afhankelijke als de onafhankelijke variabele kijken. Soms gebruiken onderzoekers hierbij een manipulatie check om te zien of de constructvaliditeit van hun onafhankelijke variabele goed is. Een manipulatie check is een extra afhankelijke variabele die onderzoekers in een experiment stoppen om te controleren of hun manipulatie werkt. Deze worden vaak gebruikt als onderzoekers willen zorgen dat participanten zich op een bepaalde manier voelen of op een bepaalde manier denken. Een voorbeeld hiervan is een manipulatie waarbij een deel van de participanten verteld wordt dat ze een speech moeten geven, wat ervoor zorgt dat de onderzoekers een gevoel van angst en stress op kunnen wekken, of bijvoorbeeld het laten zien van zielige videos om zo empathie op te wekken. Pilotstudies kunnen ook gebruikt worden om te kijken of de manipulaties effectief zijn. Pilotstudies zijn onderzoekjes die met een paar proefpersonen gedaan worden en die voor of na het echte onderzoek uitgevoerd worden, om zo te laten zien dat de manipulaties die gebruikt worden effectief zijn.
Als je de externe validiteit van causale claims wilt onderzoeken, moet je kijken naar hoe de proefpersonen in de steekproef zijn opgenomen. Als het door random sampling is gedaan, dan zit het goed met de externe validiteit. Vaak is het zelfs zo dat externe validiteit niet een topprioriteit is voor onderzoekers die experimenten uitvoeren. Interne validiteit is belangrijker en als beide typen validiteit niet gegarandeerd kunnen worden, dan laten onderzoekers externe validiteit meestal vallen voor interne validiteit.
Bij statistische validiteit van experimenten moet er ten eerste gekeken worden naar effectgrootte. Deze kan op verschillende manieren weergegeven worden. Een eerste manier is om de maten uit het experiment zelf te gebruiken, bijvoorbeeld punten op een toets, lengte in centimeters, etc. Een tweede optie is gebruikmaken van een gestandaardiseerde effectgrootte, namelijk de correlatie coëfficiënt r. Wanneer er twee groepen zijn in een experiment maken onderzoekers echter vaker gebruik van d. Dit getal laat zien hoeveel twee groepen van elkaar verschillen wat de afhankelijke variabele betreft. De effectgrootte d neemt zowel het verschil in gemiddeldes tussen groepen als de spreiding van de scores binnen elke groep (de standaard deviatie) mee.
Als d groot is, dan heeft de onafhankelijke variabele een grote verandering in de afhankelijke variabele veroorzaakt relatief tot hoe verspreid de scores zijn. Als d klein is, dan overlappen de scores van de participanten in de verschillende groepen meer. Vaak kiezen onderzoekers ervoor om de maten uit het experiment zelf te gebruiken als ze de impact van een interventie in de echte wereld willen inschatten. Gestandaardiseerde effectgroottes worden vaak gekozen als ze dingen willen vergelijken die niet met dezelfde maat gemeten zijn. Bij statistische validiteit kunnen we ook nog kijken naar het 95% betrouwbaarheidsinterval. De breedte van dit interval reflecteert de precisie van de studie: hoe kleiner de steekproef en hoe meer variatie in de data, hoe breder de interval en dus hoe minder precies. Hoe groter de steekproef en hoe minder variabiliteit in de data, hoe smaller het interval en dus hoe preciezer. Naast de betrouwbaarheidsinterval kunnen we ook replicaties doen om het effect van een variabele in de populatie te kunnen schatten.
Interne validiteit is het belangrijkst voor causale claims. Als de interne validiteit van een experiment goed is, dan kun je er vrijwel zeker van zijn dat je causale claim accuraat is. Onderzoekers zorgen hiervoor door een belangrijke causale variabele te isoleren en manipuleren, terwijl ze alle overige variabelen controleren. Als er toch een confound in het experiment zat, dan mag je niet meer spreken van een causale claim; je spreekt in plaats daarvan dan over een associatie claim. Om interne validiteit van een experiment te evalueren kan je de volgende vragen stellen:
Er zijn meerdere bedreigingen voor interne validiteit. In het vorige hoofdstuk zijn er een aantal besproken:
Een one-group, pretest/posttest design is een design waarin een onderzoeker een groep participanten recruteert, hen meet op een bepaalde variabele in een pretest, hen dan blootstelt aan een behandeling of interventie en hen vervolgens ook nog meet op een posttest. Dit ontwerp verschilt van de pretest/posttest zoals besproken in het vorige hoofdstuk omdat er hierbij maar één groep participanten is in plaats van twee. Dit is een problematisch ontwerp om aan te houden voor een experiment.
Wat gebeurt er wanneer een onderzoeker een nul-effect vindt? Een nul-effect houdt in dat de onafhankelijke variabele geen invloed heeft uitgeoefend op de afhankelijke variabele. Er lijkt geen significante covariantie tussen de twee te zijn. De meeste mensen zullen niet vaak over nul-effecten lezen. Het is natuurlijk interessanter om resultaten te presenteren waarbij de onafhankelijke variabele wel een invloed heeft gehad op de afhankelijke variabele. Toch komen nul-effecten vrij vaak voor. Vooral als je als student zelf begint met onderzoek doen, krijg je waarschijnlijk te maken met nul-effecten. Nul-effecten kunnen optreden wanneer de onafhankelijke variabele daadwerkelijk geen invloed heeft gehad op de afhankelijke variabele. Echter, nul-effecten kunnen ook plaatsvinden doordat het onderzoek niet nauwkeurig opgezet of uitgevoerd is. De onafhankelijke variabele beïnvloedt misschien een afhankelijke variabele wel, maar door een of andere obscuring factor konden de onderzoekers het ware verschil niet vinden. De obscuring factors kunnen twee vormen aannemen: er was niet genoeg verschil tussen groepen (between-groups) of er was te veel variabiliteit in groepen (within groups).
Als er niet genoeg verschil tussen groepen gevonden wordt en er daardoor een nul-effect gerapporteerd wordt, kan dit door verschillende dingen komen:
Alle bovenstaande problemen kunnen opgelost worden met een manipulatie check waarbij er een losse afhankelijke variabele wordt ingevoerd in een experiment welke er is om te controleren of de manipulatie gewerkt heeft. Als de manipulatie dan wel goed werkt, kunnen onderzoekers op zoek naar een andere reden waarom er een nul-effect gevonden is.
Er zijn een aantal redenen waarom er veel binnen-groeps variabiliteit kan zijn:
Power is een aspect van statistische validiteit; de kans dat een onderzoek een accuraat resultaat laat zien als de onafhankelijke variabele daadwerkelijk een effect heeft op de afhankelijke variabele. De power wordt verhoogd door een within-groups design, sterke manipulatie, een grote hoeveelheid participanten en zo min mogelijk situation noise. De makkelijkste manier van dit rijtje om de power te verhogen, is door meer participanten toe te voegen aan je onderzoek. Onderzoeken met veel participanten hebben twee voordelen. Ten eerste maakt het betrouwbaarheidsintervallen smal, waardoor we een preciezere schatting kunnen geven van een verschil tussen groepen en dus wordt de kans groter dat we een statistisch significant verschil vinden. Ten tweede kunnen we effecten die we vinden in kleine steekproeven soms niet repliceren.
We moeten transparant zijn over nul-effecten als we resultaten van een studie rapporteren. Hierbij is het belangrijk dat we de factoren benoemen die mogelijk het nul-effect veroorzaakt hebben. Als deze factoren niet aanwezig zijn, de studie heeft maximale power en precisie, maar toch een smal betrouwbaarheidsinterval waar het getal nul binnen valt, dan kunnen we concluderen dat er bewijs is dat de onafhankelijke variabele weinig effect heeft op de afhankelijke variabele. Deze resultaten moeten ook gerapporteerd worden omdat we anders Merton's norm van disinterestedness breken: we moeten accepteren wat de data ons vertelt. Nul-effecten zijn ook informatief, omdat ze ons vertellen welke interventies niet werken en waar we dus niet meer te veel onderzoek naar hoeven te doen; ze helpen ons met het verbeteren of aanpassen van theorieën.
Onderzoekers kunnen vanaf het begin af aan al geïnteresseerd zijn in meer dan een onafhankelijke variabele of ze kunnen opeens een vervolgstudie verzinnen waarin er naar nog een extra onafhankelijke variabele gekeken wordt. Wanneer onderzoekers vragen naar het effect van een extra onafhankelijke variabele, dan zijn ze meestal geïnteresseerd in een interactie-effect. Een interactie-effect kijkt of het effect van de originele onafhankelijke variabele afhangt van de level van de andere onafhankelijke variabele. Een voorbeeld hiervan is te zien in een onderzoek naar handsfree bellen en reactietijd tijdens het rijden. Onderzoekers wilden weten of jongere mensen een slechtere reactietijd hebben tijdens het rijden wanneer ze handsfree aan het bellen zijn dan oudere mensen. Onderzoek had al aangetoond dat het bellen tijdens het rijden ervoor zorgt dat men minder goed reageert op ‘obstakels’ op de weg. In dat onderzoek is er maar één onafhankelijke variabele (het gebruik van de telefoon). Vervolgens wilde men weten of het effect afhing van leeftijd. Dat werd dus de tweede onafhankelijke variabele. Een interactie-effect kan mathematisch uitgelegd worden als een verschil van het verschil.
Er zijn verschillende soorten interacties. Stel dat je gevraagd wordt of je meer houdt van warm of koud eten. Je zult waarschijnlijk antwoorden dat dat van het eten zelf afhangt. Je wilt natuurlijk dat je soep warm is en je ijsje koud. Het eten waar je een oordeel over moet maken is een onafhankelijke variabele en de temperatuur van dat eten is een andere onafhankelijke variabele. Als je dit in een figuur uit zou zetten, dan zou je een interactie-effect zien. De twee lijnen van de onafhankelijke variabele zullen elkaar kruisen. Deze interactie wordt een crossover interactie genoemd. Wanneer de lijnen van twee onafhankelijke variabelen niet parallel lopen en elkaar niet kruisen, dan spreken we van een gespreide ('spreading') interactie. Wanneer er een interactie is, dan kun je het nauwkeurig via beide richtingen beschrijven. Het maakt dan ook niet uit welke onafhankelijke variabele je op de x-as zet.
Onderzoekers gebruiken factorial designs om interacties te testen. Een factorial design is een design met twee of meer onafhankelijke variabelen (factoren genoemd). Meestal worden de twee onafhankelijke variabelen gekruist. Dat houdt in dat onderzoekers elke mogelijk combinatie van de onafhankelijke variabelen testen. In het voorbeeld van mobiel gebruik, leeftijd en reactiesnelheid tijdens het rijden, zijn er twee factoren: leeftijd en telefoongebruik. Wanneer de twee onafhankelijke variabelen gekruist worden, ontstaan er vier condities, welke we cellen noemen: oude mensen die rijden en een telefoongesprek voeren, oude mensen die rijden en geen telefoongesprek voeren, jonge mensen die rijden en een telefoongesprek voeren en jonge mensen die rijden en geen telefoongesprek voeren. Er zijn twee onafhankelijke variabelen en elke variabele heeft twee levels (jong vs. oud en bellen vs. niet bellen). Dit design wordt daarom ook wel een 2 x 2 design genoemd. Factorial designs kunnen gebruikt worden om gemanipuleerde variabelen (wel of niet telefoon gebruiken) en participant variabelen (leeftijd) te testen. Participant variabelen zijn variabelen waarvan we de niveaus selecteren of meten en dus niet manipuleren. Deze participant variabelen zijn dus geen 'echte' onafhankelijke variabelen, maar zo worden ze door onderzoekers wel genoemd ter versimpeling.
Factorial designs worden gebruikt om te onderzoeken of een onafhankelijke variabele verschillende soorten mensen, of mensen in verschillende soorten situaties op dezelfde manier beïnvloedt. Het onderzoek van telefoongebruik, leeftijd en reactiesnelheid werd ook met een factorial design uitgevoerd en is hier een goed voorbeeld van. Er werd geen interactie tussen de onafhankelijke variabelen gevonden. Dat wil zeggen dat er geen verschil was in reactiesnelheid met of zonder telefoongebruik tussen jonge en oude bestuurders.
Het testen van limieten in een onderzoek lijkt op het testen van de externe validiteit. Wanneer een onafhankelijke variabele in meer dan één groep getest wordt, dan testen onderzoekers in feite of het effect generaliseerbaar is. In het voorbeeld over reactiesnelheid en telefoongebruik reageren beide groepen hetzelfde. Het effect generaliseert naar bestuurders van alle leeftijden. Er zijn natuurlijk ook onderzoeken waarbij groepen anders reageren op een onafhankelijke variabele. Wanneer factorial designs gebruikt worden om limieten van een effect te testen wordt ook wel het zoeken naar moderatoren genoemd. In een factorial design is een moderator een onafhankelijke variabele die de relatie tussen een andere onafhankelijke variabele en afhankelijke variabele verandert. Met andere woorden: een moderator resulteert in een interactie; het effect van een onafhankelijke variabele hangt af van (of wordt gemodereert door) het niveau van een andere onafhankelijke variabele.
Factorial designs worden niet alleen gebruikt om de generaliseerbaarheid van een oorzakelijke variabele te testen, maar ook om theorieën te testen. Veel theorieën zeggen iets over hoe variabelen met elkaar interacteren. De beste manier om dit te onderzoeken is door ze te combineren in een factorial design en te meten of de resultaten van het onderzoek passen bij de theorie.
In een analyse met twee onafhankelijke variabelen, kun je drie dingen inspecteren: twee hoofdeffecten en een interactie-effect. Een hoofdeffect is het algemene effect van één onafhankelijke variabelen op de afhankelijke variabele, gemiddeld over de niveaus van de andere onafhankelijke variabele. Het is met andere woorden het algemene effect van één onafhankelijke variabele tegelijkertijd. Met twee onafhankelijke variabelen onderzoek je dus twee hoofdeffecten. De gemiddeldes die hieruit komen wordt ook wel marginale gemiddelden genoemd: het gemiddelde van elk level van een onafhankelijke variabele, gemiddeld over de niveaus van de andere onafhankelijke variabele.
Om te onderzoeken hoe groot het verschil is tussen de marginale gemiddeldes is, maken onderzoekers vaak gebruik van een 95% betrouwbaarheidsinterval. Daarnaast inspecteer je dus een interactie-effect. Dit kan je zien door te kijken naar een tabel, waar je het verschil in gemiddeldes tussen de verschillende condities kan aflezen. Ook kan je een interactie-effect aflezen aan een grafiek: als de gemiddeldes afgebeeld worden als lijnen en ze lopen niet parallel, dan is er mogelijk een interactie. Dit zoek je dan verder uit aan de hand van statistische toetsen. Wanneer we zowel een hoofdeffect als interactie-effect vinden, dan is het interactie-effect bijna altijd belangrijker.
In het voorgaande stuk werd een 2 x 2 design besproken. Onderzoekers kunnen natuurlijk ook een onafhankelijke variabele uitzoeken die meer dan twee levels heeft of ze kunnen drie of meer onafhankelijke variabelen gebruiken.
Wanneer een van de onafhankelijke variabelen drie levels heeft en de andere onafhankelijke variabele twee, dan spreken we van een 2 x 3 design. Er zullen dan 2 x 3 = 6 cellen zijn. Uiteraard bestaan er meerdere combinaties voor designs. Wanneer onafhankelijke variabelen meer dan twee levels hebben, dan kunnen onderzoekers ook gewoon naar de hoofdeffecten en interactie-effecten kijken door de marginale gemiddelden te berekenen en vervolgens te kijken of deze verschillen. De makkelijkste manier is nog altijd om een lijndiagram te maken in SPSS en te kijken of de lijnen parallel zijn. Natuurlijk moet er ook gekeken worden of de effecten significant zijn.
Wanneer onderzoekers een derde onafhankelijke variabele toevoegen en alle onafhankelijke variabelen twee levels hebben, dan spreken we van een 2 x 2 x 2 factorial design, ofwel een drie-weg design. In dit design zijn er 2 x 2 x 2 = 8 cellen of condities. De beste manier om zo’n design te weergeven is om twee keer een tabel van je originele 2 x 2 studie uit te voeren. Een keer voor elke level van de derde onafhankelijke variabele. Wanneer je het in een grafiek wilt weergeven, dan moet je twee lijndiagrammen die naast elkaar staan maken. In een drie-weg design kunnen ook drie hoofdeffecten en twee interactie-effecten zijn of een grote drie-weg interactie. Een drie-weg interactie betekent dat de twee-weg interactie tussen twee van de onafhankelijke variabelen afhangt van de level van een derde onafhankelijke variabele.
In empirische artikelen wordt er vrijwel altijd beschreven welk design er is gebruikt. Zij gebruiken vaak de termen 2 x 2 of 2 x 3. Deze getallen laten mooi zien hoeveel onafhankelijke variabelen er zijn en hoeveel levels elke variabele heeft. Daarnaast gebruiken empirische artikelen ook vaak de termen ‘hoofdeffect’ en ‘interactie.’ Populaire artikelen in tijdschriften of kranten vermelden vaak niet welk design er gebruikt is. Toch zijn er bepaalde aanwijzingen waar je aan kunt zien of het om een factorial design ging of niet. Zo kun je kijken naar het woord ‘het hangt af van…’. Dit laat zien dat een bepaald effect afhangt van de level van een andere variabele. Ook kun je factorial designs herkennen doordat er participant variabelen gebruikt zijn.
Een quasi-experiment verschilt van een experiment op het gebied van controle. In een quasi-experiment hebben onderzoekers geen volledige controle over de condities omdat proefpersonen hier niet random aan toegewezen worden. Omdat onderzoekers meestal geen controle hebben over de onafhankelijke variabele wordt het ook wel een quasi-onafhankelijke variabele genoemd. Hieronder volgt een voorbeeld van een quasi-experiment.
Plastische chirurgie wordt vrijwel overal ter wereld uitgevoerd. Mensen die zulke procedures ondergaan, zeggen dat hun zelfvertrouwen en lichaamsbeeld beter zullen worden na de procedures. Maar is dat echt zo? Een manier om erachter te komen is door mensen op een random manier toe te schrijven in de plastische chirurgie conditie en de anderen niet. Dit is natuurlijk niet ethisch, omdat je niet tegen proefpersonen kan zeggen dat ze plastische chirurgie moeten ondergaan voor een onderzoek. Toch hebben onderzoekers een manier gevonden om de effecten van plastische chirurgie te testen. Onderzoekers hebben mensen die al op het punt stonden om plastische chirurgie te ondergaan gevraagd om deel te nemen aan hun onderzoek. Deze mensen werden getest op hun zelfvertrouwen voor het onderzoek begon en 3, 6 en 12 maanden na het onderzoek. De vergelijkingsgroep was een groep mensen die ook geregistreerd stonden bij dezelfde plastische chirurgie kliniek, maar die nog geen ingreep hadden laten doen. Ook zij beantwoordden vragen op dezelfde momenten als de eerste groep. Dit onderzoek leek op een experiment, maar het was een quasi-experiment omdat proefpersonen niet op een random manier toegeschreven waren aan een conditie.
Er zijn een aantal soorten quasi-experiment:
De ondersteuning die een quasi-experiment kan bieden aan causale claims hangt af van het design en de resultaten.
Ondanks de dreigingen voor interne validiteit zijn er een aantal redenen waarom een onderzoeker ervoor zou kunnen kiezen een quasi-experiment te doen:
De twee verschillende soorten studies lijken wel op elkaar, maar in quasi-experimenten kiezen onderzoekers hun steekproeven vaak intentioneler dan bij de meeste correlationele designs. In correlationele studies selecteren onderzoekers vaak een steekproef, meten twee variabelen en testen de relatie tussen die variabelen. In een quasi-experiment worden vaak groepen gekozen met specifieke eigenschappen of kwaliteiten, of wordt er gekeken naar een specifieke tijdsperiode.
Een participant variabele is een categorische variabele welke we meten in plaats van manipuleren. Participant variabelen lijken op de nonequivalent control groups van quasi-experimenten omdat beiden gaan over gemeten variabelen die categorisch zijn. Studies waarin participant variabelen opgenomenw orden kijken vaak naar gelijkenissen en verschillen door sociale identiteit (bijvoorbeeld: sociale klasse, gender, ethniciteit, religie, seksualiteit), ontwikkeling (bijvoorbeeld: lichamelijke ontwikkeling) of persoonlijkheid (bijvoorbeeld: extraversie versus introversie). In een correlationele studie worden alle variabelen gemeten, dus een studie met een participant variabele en een andere gemeten variabele is automatisch een correlationele studie. Contrasterend focussen quasi-independent variabelen zich minder op individuele verschillen en meer op potentiële interventies zoals bijvoorbeeld wetten, exposure of educatie.
Soms voeren wetenschappers onderzoek uit met weinig proefpersonen. Zoals eerder vermeld, is het niet altijd nodig om een hele grote steekproef te hebben. N is het aantal proefpersonen in een steekproef. Het is belangrijker voor de externe validiteit om een steekproef goed te selecteren dan om veel proefpersonen in de steekproef op te nemen. Wanneer onderzoekers een kleine N-design gebruiken, in plaats van weinig informatie te halen uit een grote steekproef, halen ze veel informatie uit een kleine steekproef. Ze kunnen zelfs kijken naar één dier of één persoon in een single N-design. Er zijn vier verschillen tussen grote- en kleine-N designs:
Er zijn soms grote problemen met interne validiteit. Daarnaast kunnen er problemen met externe validiteit zijn omdat de kleine groep participanten die je hebt bij een kleine N-design niet altijd representatief is voor de algemene populatie en dus zijn de resultaten mogelijk ook niet generaliseerbaar.
Goed doordachte en uitgevoerde kleine-N design onderzoeken kunnen wetenschappers helpen om erachter te komen of veranderingen door interventies tot stand zijn gekomen of door de invloed van een andere variabele. Er zijn verschillende designs die gebruikt kunnen worden:
Een laatste, niet veel voorkomend type kleine-N design is een single-N design, waarbij slechts één persoon bestudeerd wordt.
In de voorgaande stukken tekst is behandeld hoe kleine-N designs ervoor kunnen zorgen dat interne validiteit vergroot wordt. Maar hoe staat het met de andere validiteiten? Kan een dier of een persoon een hele populatie representeren (externe validiteit)? Onderzoekers kunnen extra stappen nemen om de externe validiteit te vergroten. Zo kunnen onderzoekers trianguleren door de resultaten van kleine of single N-studies te combineren met andere studies die meer proefpersonen hadden.
Soms zijn onderzoekers helemaal niet geïnteresseerd in generalisatie naar een hele populatie. Onderzoek kan soms echt bedoeld zijn voor een kleine subgroep. Voor constructvaliditeit in kleine-N designs is het belangrijk dat er meerdere observatoren zijn en dat de inter-beoordelaar betrouwbaarheid gecontroleerd wordt. In kleine-N designs worden vaak geen traditionele statistische methodes gebruikt dus statistische validiteit wordt niet vaak gecontroleerd. Er moeten echter wel conclusies getrokken worden uit de data en de data moet op een goede manier behandeld worden.
Wetenschappers zouden zich altijd moeten afvragen of de resultaten van hun onderzoek repliceerbaar zijn. Als iets repliceerbaar is, houdt dat in dat de bevindingen wanneer hetzelfde onderzoek opnieuw gedaan zou worden ook hetzelfde blijven. Repliceerbaarheid geeft een onderzoek geloofwaardigheid. Vaak is het zo dat onderzoekers hun resultaten repliceren voordat hun bevindingen gepubliceerd worden. Er zijn verschillende replicatie studies:
Er wordt veel waarde gehecht aan replicatie van onderzoek door andere onderzoekers. Wanneer het niet mogelijk is om een studie te repliceren, dan zou het kunnen betekenen dat het originele effect alleen in hele speciale condities en omstandigheden gevonden kan worden. Men moet dan voorzichtig met het belang van het effect omgaan.
Wetenschappelijk literatuur is een serie gerelateerde studies die door verschillende onderzoekers uitgevoerd zijn en die soortgelijke variabelen getest hebben. Soms verzamelen onderzoekers zelf alle studies over een bepaald onderwerp en genereren het tot een review artikel. Een manier om zo’n review artikel te schrijven is door het opsommen van alle losse bevindingen. Een andere manier is door het maken van een wiskundige samenvatting van de wetenschappelijke literatuur. Dit wordt een meta-analyse genoemd. Dit is een manier om wiskundig een gemiddelde te berekenen van de resultaten van zowel gepubliceerde als niet gepubliceerde studies die onderzoek hebben gedaan naar dezelfde variabele om zo een conclusie te kunnen trekken over het geheel. In een meta-analyse worden vaak onderzoeken opgenomen die verschillende steekproefgroottes hebben. Vaak is het dan zo dat de onderzoeken met een hogere steekproefgrootte ook zwaarder meetellen in de analyse. Onderzoekers kunnen ook een groep studies in categorieën sorteren en de effectgroottes voor alle categorieën berekenen.
Er zijn een aantal beperkingen van het gebruik van meta-analyses. Ten eerste, ondanks dat meta-analyses vaak studies bevatten die gepubliceerd zijn in empirische tijdschriften en men er dus vanuit gaat dat de kwaliteit van de data goed is, moeten we er rekening mee houden dat er sprake is van een publicatie bias binnen de psychologie. Dat houdt in dat significante relaties vaker gepubliceerd worden dan nul-effect relaties. Dit kan leiden tot een file drawer problem. Dat houdt in dat een meta-analyse de ware grootte van een effect kan overschatten omdat nul-effecten niet in de analyse opgenomen zijn, omdat deze nooit gepubliceerd zijn. Eigenlijk zouden onderzoekers die een meta-analyse uit willen voeren contact opnemen met hun collega’s en vragen naar gepubliceerde en ongepubliceerde data van hun projecten. Meta-analyses zijn sterk omdat ze de bevindingen van verschillende studies combineren, maar een meta-analyse is alleen zo sterk als de data die meegenomen wordt. Er moet rekening gehouden worden met ongepubliceerde studies en mogelijk studies met nul-effecten: als deze niet meegenomen worden in de analyse kan dit leiden tot vertekende conclusies.
Questionable research practices zijn dingen in de wetenschap die tegen de normen van Merton ingaan. Deze normen zijn in een eerder hoofdstuk besproken:
Replicaties kunnen ook helpen met het onderzoeken van bepaalde validiteiten. Externe validiteit gaat over de mate waarin de resultaten van een onderzoek generaliseerbaar naar andere personen en settings zijn. Directe replicatie studies steunen externe validiteit niet, maar conceptuele replicatie en replicatie-plus-extensie studies kunnen externe validiteit wel steunen. Wanneer er verschillende methodes worden gebruikt om hetzelfde te testen, kunnen onderzoekers dus beslissen om andere proefpersonen en andere settings mee te nemen in het onderzoek. Daarnaast is het belangrijk om te weten dat het voor generaliseerbaarheid belangrijker is om te kijken naar hoe proefpersonen geworven worden dan hoeveel proefpersonen er geworven worden.
De overeenkomst tussen de context van een onderzoek en de ‘echte wereld’ wordt soms ook wel de ecologische validiteit genoemd. Ecologische validiteit is een aspect van externe validiteit. Het hangt van het doel van de onderzoekers af hoe belangrijk de ecologische validiteit is. Als de onderzoekers hun theorie alleen maar op mannen willen toepassen, dan hoeven de resultaten natuurlijk niet generaliseerbaar zijn op vrouwen. Datzelfde geldt ook voor causale claims. In de theorie-test modus willen onderzoekers alleen maar een associatie testen die bij kan dragen aan de steun voor een theorie. Het is in dat geval belangrijker om interne validiteit te testen dan externe validiteit.
Toch zijn psychologen ook geïnteresseerd in het werken in een generaliseerbare modus. Deze psychologen willen de bevindingen van hun steekproef generaliseren naar een grotere populatie. Toegepast onderzoek wordt vaker gedaan in de generaliseerbare modus. Frequentie claims moeten altijd in de generaliseerbare modus getest worden. Je wilt natuurlijk een uitspraak doen over een grote groep mensen. Associatie en causale claims worden vaak in de theorie-test modus gedaan, maar het kan soms ook in de generaliseerbare modus getest worden. Culturele psychologie is geïnteresseerd in hoe een cultuur de manier van denken, gedragen en voelen van individuen bepaalt. Culturele psychologen gebruiken voornamelijk de generaliseerbare modus. Zij hebben laten zien dat veel theorieën die gesteund worden in één specifieke culturele context, niet altijd gesteund worden in een andere culturele context.
Een voorbeeld hiervan is de Müller-Lyer illusie (twee soorten lijnen die niet even lang lijken, maar die dit wel zijn). Blijkbaar hangt het vallen voor visuele illusies af van de cultuur waar je in opgegroeid bent. Mensen die opgegroeid zijn in een ontwikkeld land hebben meer ervaring met rechte hoeken en zij hebben dus een andere diepte perceptie dan mensen uit een ontwikkelend land zoals Afrika. Nederlanders zullen dus anders tegen de Müller-Lyer illusie aankijken dan Afrikaanse dorpelingen. Psychologen moeten er altijd rekening mee houden dat processen, zelfs basisprocessen, beïnvloed kunnen worden door cultuur. De meeste studies zijn gedaan met proefpersonen uit de Verenigde Staten, Australië en Europa. Deze proefpersonen worden ook wel de WEIRD populatie genoemd: western, educated, industrialized, rich en democratic. Deze WEIRD mensen representeren niet de hele wereld. Het is belangrijk om te beseffen dat je niet kan aannemen dat je resultaten generaliseerbaar zijn naar de hele wereld als ze generaliseerbaar zijn naar de WEIRD-populatie.
Veel mensen denken onterecht dat onderzoeken die in het veld (dagelijks leven) gedaan worden, belangrijker zijn dan onderzoeken die in een laboratorium worden gedaan. Onderzoeken die in het veld worden gedaan, hebben vrijwel zeker een goede externe validiteit. Echter, de ecologische validiteit van een setting is maar een klein aspect van de generaliseerbaarheid van de setting. Een setting kan dan wel realistisch zijn, maar het representeert niet alle settings die een persoon tegen kan komen. Vaak is het ook zo dat onderzoekers de settings in een laboratorium zo nauwkeurig mogelijk namaken. Emoties en gedragingen die vertoond worden tijdens het laboratoriumonderzoek kunnen net zo echt zijn als in de echte wereld.
Veel laboratoriumexperimenten zijn hoog in experimenteel realisme. Dat betekent dat de setting in het experiment zo realistisch is dat mensen oprechte emoties, motivaties en gedragingen vertonen. Door het verhogen van ecologische validiteit van een onderzoek kunnen wetenschappers ervoor zorgen dat hun bevindingen generaliseerbaar zijn naar niet-laboratorium settings. Onderzoeken die vanuit de theorie-test modus zijn gedaan, vinden het belangrijk om de interne validiteit goed te hebben, al gaat het ten koste van de externe validiteit. Dat wil echter niet zeggen dat deze onderzoeken niet belangrijk zijn. Veel van zulke studies hebben bijgedragen aan onze kennis over psychologie.
Je vertrek voorbereiden of je verzekering afsluiten bij studie, stage of onderzoek in het buitenland
Study or work abroad? check your insurance options with The JoHo Foundation
Add new contribution