Samenvatting bij de 4e druk van Research Methods in Psychology: Evaluating a World of Information van Morling


Het boek Research Methods in Psychology is opgedeeld zes delen. In het eerste deel wordt een introductie gegeven over hoe men het beste wetenschappelijk kan redeneren. Er wordt omschreven wat onderzoeksproducenten en -consumenten zijn, hoe wetenschappers te werk gaan, welke wetenschappelijke bronnen er zijn en wat betrouwbaarheid en validiteit inhoudt. Deel twee van het boek bespreekt een aantal fundamentele zaken binnen onderzoek, zoals ethische richtlijnen en hoe we iets op de juiste manier kunnen meten. Het derde deel van het boek geeft inzicht in hoe we frequentie claims kunnen evalueren en bespreekt surveys, interviews, observationeel onderzoek en hoe we op de juiste manier een steekproef trekken uit de populatie. Deel vier gaat hier vervolgens op door en bespreekt het evalueren van associatie claims aan de hand van bivariaat correlationeel onderzoek en multivariaat correlationeel onderzoek. Ook deel vijf sluit hierop aan en bespreekt als laatste het evalueren van causale claims aan de hand van experimenten en de verschillende onderzoeksdesigns die we hierbij kunnen aanhouden. Deel zes bespreekt als laatste hoe we de verschillende belangen binnen onderzoek kunnen balanceren en kijkt naar quasi experimenten, replicatie en het op de juiste manier communiceren van onderzoeksresultaten.

Wat is de psychologische manier van denken? - Chapter 1

Wie zijn de producenten en consumenten in onderzoek?

Sommige psychologiestudenten willen wetenschapper of onderzoeker worden. Ze worden dan producenten van onderzoek genoemd. Andere psychologiestudenten willen geen onderzoeker worden of in een laboratorium werken, maar vinden het wel interessant om onderzoek te lezen zodat ze het kunnen toepassen in hun werk, hobby's of relaties. Deze studenten worden consumenten van onderzoek genoemd. In de praktijk oefenen psychologen vaak beide rollen uit. Daarnaast delen producenten en consumenten een voorkeur voor empiricisme: het beantwoorden van psychologische vraagstukken door het doen van directe, formele observaties.

Waarom is het belangrijk om een producent te zijn?

Het belangrijk om kennis te hebben van onderzoeksmethoden om je studie met succes af te ronden en om een producent te kunnen zijn. Je moet niet alleen weten hoe je metingen doet, grafieken afleest en onderzoek interpreteert, maar ook volgens de richtlijnen van de American Psychological Association (APA) kunnen schrijven voor je scriptie en andere verslagen.

Waarom is het belangrijk om een consument te zijn?

Een goede consument van onderzoek zijn is essentieel. Je moet onderzoek kunnen lezen op een nieuwsgierige, maar ook kritische manier. Een deel van het onderzoek wat je in je carrière tegen gaat komen is goed opgezet en bruikbaar, maar een ander deel is slecht uitgevoerd of zelfs verzonnen. Als je een goed begrip hebt van onderzoeksmethoden kun je de juiste vragen stellen om te evalueren of wat je leest een goed of slecht opgezet onderzoek is. Je moet gepubliceerde studies op de juist manier kunnen interpreteren om op de hoogte te blijven van nieuwe soorten therapie. Deze therapieën worden ook wel evidence-based treatments genoemd: behandelingen waarvan de effectiviteit onderzocht is en ondersteund wordt door het onderzoek.

Hoe benaderen wetenschappers hun werk?

Wat houdt het empirisme in?

Empirisme, de empirische methode, of empirisch onderzoek betekent dat bewijs vanuit de zintuigen - of instrumenten die de zintuigen helpen (vragenlijsten, foto's, weegschalen, thermometers, timers, etc.) - gebruikt worden om conclusies te trekken. Empiristen proberen systematisch en rigoureus te zijn in hun onderzoek en proberen tegelijkertijd te zorgen dat andere onderzoekers hun conclusies onafhankelijk kunnen verifiëren of ontkrachten.

Wat is de theorie-data cirkel?

De theorie-data cirkel houdt in dat wetenschappers data verzamelen om hun theorieën te testen, veranderen of aan te passen. Dit werkt als volgt: eerst stelt de wetenschapper een vraag die aansluit bij een fenomeen dat zat willen verklaren en de theorie die ze daarover hebben. Vervolgens doet de wetenschapper één of meer voorspellingen over hoe het fenomeen verklaart zou kunnen worden. Dan testen ze deze voorspelling(en) door data te verzamelen. Op basis van de vergaarde data bepalen ze vervolgens of hun theorie aangepast moet worden of stellen ze vervolgvragen.

Onderzoek naar hechting biedt een voorbeeld van de theorie-data cirkel binnen de psychologie. Eén hechtingstheorie wordt de cupboard theorie genoemd. Deze zegt dat een baby zich aan de moeder hecht omdat zij het kind eten geeft. Hierdoor voelt een kind zich fijn. Een andere hechtingstheorie is de contact-comfort theorie. Deze werd bedacht door Harlow, die dacht dat baby's zich aan de moeder hechten omdat de moeder hen comfort biedt. Harlow heeft getest welke theorie de beste verklaring biedt voor hechting bij apen. Dit deed hij door de invloed van comfort en eten te scheiden in een lab. Hij bouwde één moeder gemaakt van gaas die de babymelk kon geven en één moeder gemaakt van zacht en warm materiaal welke geen eten had. Daarna observeerde hij hoe lang een aantal baby aapjes zich vastklampten aan beide moeders. Op basis van deze data werd alleen de contact-comfort theorie ondersteund: de aapjes klampten zich bijna alleen maar vast aan de warme zachte moeder en lieten haar alleen los om even snel wat eten te halen bij de moeder van gaas als ze echt honger hadden.

Wat zijn theorieën, hypotheses en data?

Een theorie bevat een reeks uitspraken over hoe variabelen in verband staan tot elkaar. Deze uitspraken zijn bij voorkeur zo simpel mogelijk verwoordt. Een hypothese is een voorspelling over de uitkomst van een onderzoek als de theorie klopt. Er kunnen meerdere hypotheses zijn en dus ook meerdere onderzoeken gedaan worden aan de hand van dezelfde theorie. Als er meerdere onderzoeken gedaan worden, worden de hypotheses idealiter van tevoren geregistreerd. Dit betekent dat de onderzoekers hun verwachtingen al openbaar maken zodra de onderzoeksopzet bedacht is en dus vóórdat ze data gaan verzamelen. Data is een set van observaties die een theorie ondersteunt of juist tegenspreekt. Als de data niet passen bij de hypotheses, is dat een teken dat de theorie of het onderzoeksontwerp veranderd moeten worden. Vaak worden er ook replicaties gedaan, dit betekent dat een onderzoek opnieuw gedaan wordt met dezelfde vraag en hypothese(s). Dit wordt gedaan om te controleren of het resultaat consistent is met eerder gevonden data.

Een goede theorie moet falsificeerbaar zijn. Met andere woorden: we moeten op basis van onderzoek kunnen concluderen dat de theorie niet klopt. Daarnaast is het belangrijk dat als de resultaten passen bij de theorie, er niet geconcludeerd mag worden dat het onderzoek de theorie 'bewijst'. Wel mag er gezegd worden dat data 'consistent is met' een theorie of dat de data een theorie 'ondersteunt'.

Hoe gaat het werken in een gemeenschap?

Wetenschappers zijn onderdeel van een gemeenschap, waardoor ze zich aan bepaalde normen moeten houden. Normen zijn verwachtingen over hoe iemand zich behoort te gedragen in een bepaalde situatie. Merton heeft vier van deze normen uitgewerkt:

  1. Universaliteit: wetenschappelijke claims moeten geëvalueerd worden op basis van hun kwaliteit, onafhankelijk van de reputatie van de onderzoeker. Alle wetenschappers en alle onderzoeken moeten zich aan dezelfde richtlijnen houden. Dit betekent dat iedereen onderzoek kan doen zolang ze zich maar aan deze richtlijnen houden.
  2. Gemeenschap: wetenschappelijke kennis ontstaat vanuit een gemeenschap. Dit betekent dat wetenschappers transparant moeten zijn over de resultaten van hun werk en deze moeten delen met andere wetenschappers en het publiek.
  3. Belangeloosheid: wetenschappers willen de waarheid weten ongeacht wat dit precies inhoudt. Ze mogen dus niet verleid worden tot het publiceren van foutieve informatie op basis van politiek, idealisme of winst. Dit betekent dat wetenschappers altijd moeten accepteren wat de data hen vertelt en zich niet laten leiden door hun eigen overtuigingen, inkomen of reputatie.
  4. Georganiseerd scepticisme: wetenschappers stellen vragen over alles, ook over algemeen geaccepteerde ideeën, oude wijsheden en hun eigen theorieën. Dit betekent dat wetenschappers niets zomaar accepteren zoals het is, maar altijd op zoek gaan naar bewijs.

Wat is toegepast-, basis- en translationeel onderzoek?

Toegepast onderzoek houdt in dat wetenschappers onderzoek doen op basis van een praktisch probleem wet zich voor doet in het echte leven. Basisonderzoek is erop gericht om de hoeveelheid kennis die er is te vergroten, zonder dat het onderzoek per se wordt gedaan om een specifiek praktisch probleem op te lossen. Translationeel onderzoek maakt gebruik van de kennis die is gevonden tijdens basisonderzoek om allerlei behandelingen te ontwikkelen en te testen. Het is de brug tussen basis- en toegepast onderzoek.

Hoe wordt wetenschappelijk onderzoek gepubliceerd?

Als wetenschappers anderen willen laten zien wat ze gevonden hebben dan proberen ze hun onderzoek te publiceren in wetenschappelijke tijdschriften of journals. Deze komen meestal één keer per maand uit en bevatten verschillende peer-reviewed artikelen. Als een artikel peer-reviewed is dan betekent dit dat het eerst naar drie of vier experts in het vakgebied gestuurd is. Deze experts bepalen of het artikel goed genoeg is om gepubliceerd te worden in het wetenschappelijke tijdschrift. Ze geven hierbij anoniem commentaar op het belang van het artikel, of het aansluit bij de bestaande kennis, of het onderzoek goed is uitgevoerd en hoe geloofwaardig de resultaten zijn. Pas nadat het artikel is bekeken door de experts wordt het gepubliceerd in het wetenschappelijke tijdschrift. Als andere wetenschappers na publicatie fouten vinden in het artikel kunnen ze dit aangeven bij het tijdschrift of zelf verder onderzoek doen.

Hoe komt wetenschappelijk werk in een krantenartikel?

Artikelen in wetenschappelijke tijdschriften worden voornamelijk door andere wetenschappers gelezen. Andere mensen lezen deze meestal niet. Deze mensen lezen vaak een nieuwsbericht wat gebaseerd is op het onderzoek en is geschreven door een journalist. Deze journalist maakt het werk vaak veel korter, geeft het een interessante titel en maakt gebruik van algemeen bekende termen zodat het verhaal goed te begrijpen is. Dit is belangrijk omdat wetenschappelijk onderzoek op deze manier bekender wordt bij een algemeen publiek. Echter brengt het ook gevaren met zich mee. Veel journalisten interpreteren het onderzoek verkeerd of laten het belangrijker klinken dan het daadwerkelijk is. Een voorbeeld hiervan is het Mozart effect. Rauscher deed een onderzoek waarna hij concludeerde dat studenten beter scoren op een ruimtelijke intelligentie test als ze vooraf voor tien minuten naar Mozart luisteren. Hij zei hierover in een radio-interview dat dit een klein effect was wat alleen gevonden werd met betrekking tot ruimtelijke taken en niet algemene intelligentie. Toch publiceerden journalisten artikelen waarin stond dat Mozart je in het algemeen slimmer kon maken.

Welke verschillende bronnen van informatie zijn er en waarom is wetenschappelijk onderzoek de beste bron? - Chapter 2

 

Onderzoek of eigen ervaring?

Waarom is het belangrijk om vergelijkingsgroepen te hebben?

Je moet je overtuigingen niet baseren op alleen je eigen ervaringen, omdat je eigen ervaring geen vergelijkingsgroep heeft. Een vergelijkingsgroep zorgt ervoor dat we kunnen vergelijken wat er in een situatie gebeurt waarin datgene wat onderzocht wordt wel aanwezig is, ten opzichte van een situatie waarin datgene wat onderzocht wordt niet aanwezig is. Als je vertrouwt op je eigen ervaring voor het trekken van conclusies heb je geen vergelijkingsgroep, omdat je alleen je eigen mening meeneemt. Het dagelijks leven biedt geen vergelijkingsgroepen. Door systematisch data te verzamelen binnen wetenschappelijk onderzoek kunnen we deze wel creëren.

Waarom is ervaring verstoord?

Er gebeurt heel veel in het dagelijks leven. Daarom is het problematisch om conclusies te baseren op eigen ervaringen. Als er een verandering plaatsvindt, dan kun je niet zeker weten wat deze verandering veroorzaakt heeft. In het dagelijks leven zijn er meerdere verklaringen voor een uitkomst. Bij onderzoek worden deze alternatieve verklaringen confounds genoemd. We spreken van een confound als we denken dat een uitkomst door een bepaalde verandering veroorzaakt wordt, maar er tegelijkertijd ook andere dingen veranderd zijn. Hierdoor kunnen we niet zeker weten wat de uitkomst veroorzaakt heeft. Het voordeel van wetenschappelijk onderzoek is dat we variabelen kunnen isoleren en controleren. Hierdoor verandert er maar één variabele tegelijk, omdat we de kans op confounds zo klein mogelijk maken.

Waarom is onderzoek beter dan ervaring?

Om dit toe te lichten zal gebruik gemaakt worden van een voorbeeld. Bushman heeft onderzoek gedaan naar de hypothese dat het uiten van je woede helpt om je minder boos te voelen. Hij nodigde proefpersonen uit een essay te schrijven, waarna een confederate deze bekritiseerde. Een confederate is een persoon of acteur die samenwerkt met de onderzoeker, maar doet alsof hij een andere proefpersoon is. De proefpersonen die het essay geschreven hadden werden hierna ingedeeld in drie groepen: één groep die twee minuten stil in een kamer moest zitten, één groep die een boksbal mocht slaan waarbij verteld werd dat het een fitness oefening was en één groep die een boksbal mocht slaan waarbij verteld werd dat ze moesten doen alsof de boksbal het gezicht van de confederate was. Hierna kregen alle groepen de optie om de confederate te 'straffen' voor zijn nare commentaar door hem bloot te stellen aan een erg hard geluid.

Onderzoek is ten eerste beter dan ervaring doordat een onderzoeker gebruik kan maken van vergelijkingsgroepen. Bushman kon drie groepen systematisch met elkaar vergelijken. Op basis van deze vergelijking werd geconstateerd dat de groep die hun woede had geuit door te doen alsof de boksbal de confederate was, hem het hardst strafte en dus nog steeds het boost was. Dit ging tegen de hypothese in. Onderzoek is daarnaast beter dan ervaring doordat onderzoekers kunnen corrigeren voor confounds. Dit deed Bushman door agressie in het algemeen (boksbal als oefening) te scheiden van agressie richting de persoon die je kwaad heeft gemaakt (boksbal is het gezicht van de confederate). In het echte leven zouden deze twee dingen samen voorkomen, maar in onderzoek kunnen ze van elkaar gescheiden worden. Als laatste is onderzoek beter dan ervaring, omdat er replicatieonderzoek gedaan kan worden. Hierdoor is het mogelijk om met meer zekerheid te kunnen zeggen dat een bepaalde theorie wordt ondersteunt. In het echte leven vertrouw je vaak maar op één enkele ervaring.

Wat betekent het dat onderzoek probabilistisch is?

Als onderzoeksresultaten niet passen bij onze eigen ervaringen concluderen we vaak dat het onderzoek het fout heeft. Echter is onderzoek altijd probabilistisch. Dit betekent dat onderzoeksresultaten niet alle individuele gevallen kunnen verklaren, maar dat ze het grootst mogelijke deel van alle gevallen proberen uit te leggen. Onderzoek suggereert een sterke mogelijkheid of een hoge kans dat iets gebeurt, maar deze voorspelling is niet perfect.

Onderzoek of intuïtie?

Waardoor wordt intuïtie vertekend?

We geloven vaak een goed of logisch verhaal, zelfs als het niet klopt. Dit is de eerste manier waarop onze intuïtie een vertekend beeld kan geven. Een andere manier is de beschikbaarheidsheuristiek: als we dingen makkelijker voor de geest kunnen halen, geloven we dat het vaker voorkomt dan daadwerkelijk het geval is. Ook is er de present/present bias. Dit houdt in dat als we kijken of er een relatie is tussen gebeurtenissen, we alleen kijken naar wat er wél aanwezig is, in plaats van de dingen die er niet zijn. Het valt ons eerder op dat een bepaalde situatie en de gewenste uitkomst samen aanwezig waren dan wanneer dit niet zo is. Een voorbeeld hiervan is dat we denken dat het uiten van woede ons helpt, omdat we ons de situaties waarin dit wel het geval was (bijvoorbeeld als je je inderdaad beter voelt nadat je op een boksbal hebt geslagen) beter voor de geest kunnen halen. In tegenstelling vallen momenten waarop we onze woede niet hebben geuit, maar we ons toch beter voelen minder op. Verder is er de confirmatie bias: we kijken alleen maar naar informatie die bevestigd wat wij al denken of past bij onze verwachtingen. Als laatste hebben we zelfs een bias blind spot: we geloven dat wij zelf niet zullen vallen voor biases of heuristieken en geloven dus dat we minder biased zijn dan andere mensen. Hierdoor vertrouwen we nog sneller op onze verkeerde redeneringen.

Kunnen we experts vertrouwen?

Sommige mensen zijn een expert of autoriteit op een bepaald gebied. Om te bepalen of hun beweringen te vertrouwen zijn, moet je eerst kijken naar waar ze de informatie vandaan hebben. Het beste is als ze hun conclusies hebben gebaseerd op empirisch onderzoek. Echter moet je ook dan voorzichtig zijn. Niet al het onderzoek wordt namelijk goed uitgevoerd en daarnaast kunnen mensen het onderzoek verkeerd interpreteren. Ook kunnen experts en autoriteiten nog steeds hun conclusies baseren op basis van hun ervaringen of intuïtie.

Waar kunnen we wetenschappelijke informatie lezen?

Welke bronnen zijn er?

Een eerste bron is het wetenschappelijke tijdschrift. Deze tijdschriften komen één keer in de maand of één keer in het kwartaal uit en zijn geschreven voor andere wetenschappers. Vaak staan er twee soorten artikelen in. Empirische artikelen rapporteren bepaalde onderzoeksresultaten voor de eerste keer, waarbij ze in gaan op de methode, de statistische tests en de resultaten van het onderzoek. Review artikelen integreren alle gepubliceerde onderzoeken over een bepaald onderwerp en vatten deze samen. Soms maken review artikelen gebruik van een meta-analyse waarbij de resultaten van verschillende studies gecombineerd en proportioneel worden meegenomen in één effect-grootte: dit getal geeft de grootte van de relatie tussen verschillende variabelen weer. Zowel empirische als review artikelen zijn peer-reviewed.

Een tweede bron is een boek of een 'edited' book. Dit zijn boeken waarin meestal een overzicht wordt gegeven van onderzoeken naar een bepaald onderwerp. Vaak zijn de hoofdstukken door verschillende wetenschappers geschreven op uitnodiging van de redacteur. De hoofdstukken worden niet peer-reviewed, in plaats daarvan probeert de redacteur de informatie zo accuraat mogelijk te maken door alleen experts uit te nodigen. Ook deze boeken worden voornamelijk gelezen door andere wetenschappers en psychologie studenten.

Waar kunnen we deze bronnen lezen?

Wetenschappelijke artikelen kunnen vaak in de bibliotheek van een universiteit gevonden worden. Ook kun je onlinedatabases gebruiken. Een van de bekendste online databasen met wetenschappelijke artikelen is PsycINFO. PsycINFO wordt wekelijks geüpdatet door de APA. In deze database kan je artikelen zoeken over een specifiek onderwerp of auteur. Daarnaast laat PsycINFO zien hoe vaak het artikel geciteerd is en door wie. Een alternatief voor PsycINFO is Google Scholar. Google Scholar is gratis, bied niet de mogelijkheid om binnen een specifiek vakgebied te zoeken zoals bijvoorbeeld psychologie of antropologie. Daarnaast categoriseert Google Scholar artikelen niet op of ze peer-reviewed zijn of niet. Je kan dus wat je zoekt minder goed sorteren.

Om te bepalen of een bron van goede kwaliteit is kun je een aantal dingen doen. Ten eerste kan je een professor of bibliothecaris vragen welke wetenschappelijke tijdschriften van goede kwaliteit zijn. Daarnaast kan je ook kijken naar de impact factor van een tijdschrift: dit getal vertelt je hoe vaak een artikel uit dat tijdschrift gemiddeld geciteerd is. Als deze factor hoger is dan 1.0 is de kans groter dat het werk legitiem is.

Hoe lees je wetenschappelijk onderzoek?

De meeste artikelen houden zich aan een standaard opmaak zoals bedacht door de American Psychological Association (APA). Een artikel bestaat uit een bepaald aantal secties die altijd in dezelfde volgorde staan. Ten eerste een samenvatting of een abstract. Hierin wordt een kort overzicht gegeven van de hypotheses, methode en de belangrijkste resultaten van het onderzoek. Daarna volgt er een introductie. Hier wordt uitgelegd: welk onderwerp bestudeerd wordt in het onderzoek, wat vorige onderzoeken over het onderwerp gevonden hebben, welke theorieën er over bestaan en de onderzoeksvragen of hypotheses van het huidige onderzoek. Hierna is er een methode sectie. Hier wordt in detail uitgelegd wordt hoe de onderzoekers het onderzoek uitgevoerd hebben. Er wordt uitleg gegeven over de participanten, materialen, procedure en het apparatus. Vervolgens worden de resultaten van het onderzoek beschreven, waarbij ook de statistische tests toegelicht worden. De één na laatste sectie is de discussie. In de discussie wordt de hypothese of onderzoeksvraag en methode nog een keer samengevat. Daarnaast wordt er uitgelegd wordt hoe goed de resultaten passen bij de verwachting. Daarna wordt besproken waarom het relevant was om dit onderzoek uit te voeren en worden verklaringen voor de uitkomsten gegeven. Als laatste wordt er een overzicht gegeven van de referenties: de bronnen die de onderzoekers gebruikt hebben bij het schrijven van hun artikel.

Je hoeft niet elk woord van een artikel te lezen. In plaats daarvan lees je met een doel. Je stelt jezelf hierbij twee vragen: wat is de bewering die de onderzoekers doen en wat is het bewijs voor deze bewering? Om de bewering te achterhalen lees je eerst de samenvatting of de abstract om een algemeen beeld te krijgen van het onderzoek. Daarna lees je het einde van de introductie, waarin de doelen en hypotheses van het onderzoek staan. Vervolgens kan je de rest van de introductie lezen om meer te leren over de theorie waar de hypotheses of onderzoeksvragen op gebaseerd zijn. De bewering van het artikel kan je ook vinden in de eerste alinea van de discussie, waarin een samenvatting wordt gegeven van de resultaten en hoe goed deze passen bij de hypotheses. Tot slot lees je het bewijs voor deze bewering is de methode en resultaten secties. Hier staat wat de onderzoekers gedaan hebben en wat ze vonden. Je kunt dan controleren hoe goed dit past bij hun hypotheses.

Hoe hou je goede journalistiek en verkeerde informatie uit elkaar?

Goede journalisten lezen het originele onderzoek vaak meerdere keren, interviewen meerdere experts en controleren hun feiten en informatie. Echter doen niet alle journalisten dit. Sommigen publiceren sensationele verhalen en onderzoeken zonder te controleren of ze kloppen. Het kan ook dat ze schrijven over een belangrijk onderzoek, maar ze die verkeerd interpreteren. Zo voorzien ze mensen van verkeerde informatie. Je moet dus altijd controleren: hoe goed het onderzoek is, of het daadwerkelijk is uitgevoerd zoals beschreven en of de journalist het wel goed begrepen heeft.

Bewust verkeerde informatie creëren en delen wordt ook wel disinformation genoemd. Dit kan verschillende vormen aannemen. Mensen hebben hier verschillende beweegredenen voor. Voorbeelden hiervan zijn passie, provocatie, verdiensten en het verspreiden van propaganda en politieke meningen. Een onschuldige vorm hiervan is parodie: het verspreiden van verkeerde informatie voor entertainment of om mensen aan het lachen te maken. Desinformatie kan volledig verzonnen zijn, maar kan ook subtieler zijn. Zo kan een bestaand persoon verzonnen woorden in de mond gelegd krijgen of kan een echt citaat in een verkeerde context geplaatst worden. Hierbij kan gebruik gemaakt worden van videobeelden of foto's. Om hier niet voor te vallen moeten we dus altijd de bron van de informatie checken.

Welke verschillende claims en vormen van validiteit kunnen consumenten van onderzoek controleren? - Chapter 3

 

Wat zijn variabelen?

Variabelen zijn belangrijke onderdelen van onderzoeken. Een variabele is iets wat kan variëren en dus minimaal twee niveaus of waardes heeft. Een constante is iets dat mogelijk gevarieerd zou kunnen worden, maar in een bepaald onderzoek een vaste waarde krijgt. In onderzoek wordt elk variabele gemeten of gemanipuleerd. Een gemeten variabele is een variabele waarvan de waardes alleen geobserveerd en genoteerd worden zoals deze van nature voorkomen. Er wordt dus niks aan de waardes verandert. Voorbeelden hiervan zijn IQ, geslacht en bloeddruk. Een gemanipuleerde variabele is een variabele waar een onderzoeker invloed op uitoefent. Dit wordt meestal gedaan door proefpersonen toe te wijzen aan verschillende condities van een variabele. Sommige variabelen - zoals geslacht - kunnen niet gemanipuleerd worden, maar alleen gemeten. Sommige variabelen mogen niet gemanipuleerd worden, omdat het onethisch zou zijn. Zo mogen mensen bijvoorbeeld niet toegeschreven worden aan een conditie waarin ze bijvoorbeeld trauma zouden ervaren. Andere variabelen kunnen zowel gemeten als gemanipuleerd worden.

Elke variabele kan op twee manieren beschreven worden. Conceptuele variabelen of constructen geven de namen van concepten weer die bestudeerd worden. Een voorbeeld hiervan is "doorzettingsvermogen". Om een hypothese over deze variabelen te kunnen toetsen aan de hand van onderzoek moeten hier theoretische definities aan gegeven worden, welke conceptuele definities genoemd worden. Een voorbeeld hiervan zou zijn "Of iemand door kan blijven gaan bij tegenslagen". Deze conceptuele definitie wordt dan geoperationaliseerd. Operationaliseren betekent dat een concept omgezet wordt in een meetbare of manipuleerbare variabele. Deze 'nieuwe' variabele wordt ook wel een geoperationaliseerde variabele genoemd. Een voorbeeld hiervan is "hoe lang kan een kind een saaie activiteit uitvoeren zonder te protesteren".

Wat zijn de drie claims in de psychologie?

Een claim is een bewering die iemand doet. Psychologen maken claims op basis van onderzoek. Er zijn twee verschillende soorten claims.

  1. Frequentie claims beschrijven de hoeveelheid of de mate waarin een variabele aanwezig is: hoe vaak iets voorkomt. Dit wordt als een numerieke waarde (vaak percentages) uitgedrukt. Frequentie claims gaan altijd over één variabele. Deze variabele is altijd gemeten, nooit gemanipuleerd.
  2. Associatie claims beweren dat een bepaald niveau van een variabele geassocieerd is met een bepaald niveau van een andere variabele. Variabelen die geassocieerd zijn correleren. Associatie claims bevatten minimaal twee variabelen en deze variabelen worden gemeten, niet gemanipuleerd. Een onderzoek dat een associatie claim doet en onderzoekt wordt een correlationele studie genoemd. Er zijn drie typen associatie: positieve associatie, negatieve associatie en geen associatie.
    1. Een positieve associatie of positieve correlatie betekent dat een hoge mate van een variabele samengaat met een hoge mate van de andere variabele. Een lage mate gaat ook samen met een lage mate.
    2. Een negatieve associatie of negatieve correlatie betekent dat een hoge mate van een variabele samengaat met een lage mate van een andere variabele.
    3. Geen associatie of geen correlatie betekent dat er geen samenhang tussen de twee variabelen gevonden kan worden. Een correlatie kan weergeven worden in een spreidingsdiagram. Als een lijn omhooggaat, dan laat het een positieve correlatie zien, een lijn naar beneden laat een negatieve correlatie zijn en een horizontale lijn laat zien dat er geen correlatie is. Associaties kunnen ons helpen om voorspellingen te maken. Dit zijn mathematische voorspellingen, geen voorspellingen over de toekomst. Hoe sterker het verband tussen de twee variabelen, hoe accurater onze voorspellingen zullen zijn.

Associatie claims beweren dat er slechts een relatie bestaat tussen twee variabelen. Causale claims beweren dat een variabele verantwoordelijk is voor een verandering in de andere variabele. Deze claims gebruiken vaak de woorden ‘veroorzaken’ en ‘verhogen/verlagen’. Causale claims kunnen ook ‘voorzichtig taalgebruik’ bevatten, zoals ‘kunnen', 'lijken', 'soms' en 'suggereren’. Om van associatie naar causaliteit te gaan, moet een onderzoek aan drie criteria voldoen:

  1. Ten eerste moet vastgesteld worden dat de twee variabelen correleren.
  2. Ten tweede moet worden aangetoond dat de causale variabele (waarvan gedacht wordt dat deze invloed heeft op de andere variabele) heeft plaatsgevonden vóór de uitkomst variabele (de variabele die veranderd is).
  3. Ten derde moet er ook vastgesteld worden dat er geen andere verklaring bestaat voor de relatie tussen de variabelen (dus dat de relatie tussen de twee variabelen niet beïnvloed wordt door een derde variabele).

Welke vier soorten validiteit zijn er en hoe worden deze gebruikt?

Consumenten van onderzoek moeten claims evalueren aan de hand van verschillende validiteiten. Validiteit verwijst naar de passendheid van een conclusie. In het algemeen is een valide claim redelijk, accuraat en gerechtvaardigd.

Hoe worden frequentie claims geëvalueerd?

Ten eerste kan er worden gekeken naar constructvaliditeit. De constructvaliditeit geeft aan hoe goed een conceptuele variabele geoperationaliseerd is. Met andere woorden: constructvaliditeit kijkt naar hoe goed een onderzoek een variabele gemeten of gemanipuleerd heeft. Als elke variabele betrouwbaar is gemeten en de verschillende niveaus van een variabele aansluiten op de daadwerkelijke verschillen in de wereld, is er waarschijnlijk sprake van goede constructvaliditeit.

Daarnaast kan er gekeken worden naar de generaliseerbaarheid van een onderzoek. Dit betekent dat er bepaald wordt of de participanten die deelnemen aan het onderzoek representatief zijn voor de populatie waar men informatie over wil. Dit is gerelateerd aan de externe validiteit: hoe goed de resultaten van een onderzoek te generaliseren zijn naar de echte wereld.

Statistische validiteit kijkt in hoeverre de statistische conclusies van een onderzoek precies, redelijk en repliceerbaar zijn. Om dit te bepalen kunnen we ten eerste kijken naar een point estimate, wat één schatting is van de waarde van een variabele in de populatie op basis van informatie uit een steekproef. Bij een frequentie claim is dit vaak een percentage. Daarna kijken we naar hoe precies deze schatting is. Dit wordt bepaald aan de hand van een betrouwbaarheidsinterval of een foutmarge. Een betrouwbaarheidsinterval is een interval dat zo gemaakt is dat de daadwerkelijke populatie waarde van een variabele er meestal binnen valt. De statistische validiteit wordt beter naarmate er meer schattingen gedaan worden. Het combineren van schattingen is dus altijd beter dan gebruik maken van één enkele.

Hoe worden associatie claims geëvalueerd?

Ook bij associatie claims kan je kijken naar het construct en de externe en statistische validiteit. Omdat een associatie claim twee variabelen meet kijk je naar het construct en de externe en statistische validiteit van beide variabelen. Constructvaliditeit betreft hoe goed de variabelen gemeten zijn. Als de variabelen op een slechte manier gemeten zijn kunnen we de conclusies van het onderzoek minder goed vertrouwen. Externe validiteit is wanneer de claim gegeneraliseerd kan worden naar andere populaties, contexten, tijden en plaatsen. Bij een associatie claim betreft de statistische validiteit hoe sterk de geschatte associatie tussen de variabelen is en hoe precies deze schatting is.

Hoe worden causale claims geëvalueerd?

Om causale claims te evalueren, moet er eerst gekeken worden of er aan de drie criteria voor causatie is voldaan.

  1. Het eerste criterium is covariantie: de twee variabelen zijn aan elkaar gerelateerd of worden met elkaar geassocieerd.
  2. Ten tweede moet er sprake zijn van temporele precedentie: de causale variabele komt voor of vindt plaats vóór de uitkomst variabele.
  3. Als laatste moet er sprake zijn van interne validiteit, wat ook wel het derde variabele criterium genoemd wordt. Dit betekent dat een onderzoek uit moet kunnen sluiten dat de associatie tussen de twee variabelen door een andere derde variabele is gekomen.

Meestal wordt een causale claim onderzocht door het doen van een experiment. In een experiment wordt de variabele waarvan wetenschappers denken dat deze veranderingen veroorzaakt gemanipuleerd en de variabele die hierdoor verandert gemeten. De variabele die gemanipuleerd wordt, wordt ook wel de onafhankelijke variabele genoemd. De variabele die gemeten wordt, wordt de afhankelijke variabele genoemd. Bij het manipuleren van een variabele maak je gebruik van random assignment. Hierbij worden participanten op een willekeurige manier in groepen ingedeeld. Door de causale variabele te manipuleren zorgen we ervoor dat deze altijd voor de uitkomst variabele komt. Ook zorgen we er zo voor dat er weinig kans is op alternatieve verklaringen. Ook bij causale claims kijken we naar construct, externe en statistische validiteit.

Is er een type validiteit belangrijker dan de anderen?

Welke validiteit het belangrijkst is hangt af van de situatie en het doel van het onderzoek. Hierbij worden de voor- en nadelen afgewogen en word besloten op welke vorm van validiteit het meest gelet moet worden en welke wat minder belangrijk zijn.

Wat zijn de ethische richtlijnen voor psychologisch onderzoek? - Chapter 4

 

Wat zijn enkele ethische schendingen die begaan zijn in het verleden?

Wat waren de ethische schendingen van het Tuskegee syfilis onderzoek?

In 1920 en 1930 was syfilis nog slecht te behandelen. De enige behandeling was een infuus met giftige metalen. Als deze behandeling al werkte, had het vaak ernstige of zelfs fatale bijwerkingen. In 1932 besloot de U.S. Public Health Service (PHS) samen te werken met het Tuskegee instituut. Samen voerden zij een onderzoek uit waaraan 600 Afrikaans-Amerikaanse mannen meededen. 400 van deze mannen hadden syfilis en 200 mannen niet. Wetenschappers wilden de effecten van onbehandelde syfilis op de gezondheid van deze mannen onderzoeken. De meeste proefpersonen waren enthousiast over het onderzoek, omdat ze dachten dat ze gratis gezondheidszorg zouden krijgen. De mannen werd echter niet verteld dat het onderzoek over syfilis ging. Daarnaast kregen de mannen geen gratis zorg, maar werden ze gevolgd en onderzocht door de wetenschappers tot hun overleiden.

Tijdens dit onderzoek zijn verschillende onethische keuzes gemaakt. Ten eerste werd er niet aan de mannen verteld dat ze syfilis hadden, maar 'slecht bloed'. Ook was hen een behandeling beloofd en was er tegen hen gezegd dat ze naar het instituut moesten komen om geëvalueerd en getest te worden. De mannen werden nooit echt behandeld voor hun ziekte en er werden gevaarlijke handelingen op hen uitgevoerd. De belofte van gratis zorg was dus gelogen. Tweehonderdvijftig van de mannen uit het onderzoek wilden het Amerikaanse leger in om mee te helpen tijdens de tweede wereldoorlog. Echter moesten ze om in het leger te mogen eerst een behandeling krijgen voor hun syfilis. De onderzoekers hebben dit nooit gedaan, waardoor ze niet het leger in mochten. In 1943 keurde de PHS penicilline goed als behandelmethode tegen syfilis. Dit is echter nooit aan de proefpersonen verteld, waardoor hen een effectieve behandeling ontnomen werd. Pas in 1972, toen er in de media geklaagd werd over het onderzoek, werd het stopgezet. De schade van het onderzoek bleek groot: veel mannen waren zieker geworden, hadden hun vrouwen of kinderen geïnfecteerd of waren zelfs overleden.

Vandaag de dag zouden we de keuzes die de onderzoekers destijds hebben gemaakt onethisch noemen. Deze keuzes vallen in drie categorieën.

  1. Het niet respectvol behandelen van proefpersonen: de mannen werden voorgelogen en er werd informatie achtergehouden. Hierdoor konden de proefpersonen geen geïnformeerde toestemming geven voor hun deelname aan het onderzoek. Daarnaast kregen de families van de mannen geld als zij stierven. Dit deden de onderzoekers om een autopsie te kunnen doen die bij kon dragen aan het onderzoek. Deze families waren vaak erg arm en voelden zich daardoor gedwongen de grote geldsom te accepteren.
  2. Het toebrengen van schade: er is de mannen een effectieve behandeling ontnomen die hen mogelijk had kunnen genezen. Ook ondergingen de mannen veel gevaarlijke en pijnlijke tests.
  3. Gebruik maken van een achtergestelde sociale groep: syfilis kwam toentertijd voor bij mensen van allemaal verschillende sociale en etnische achtergronden. Echter kozen de onderzoekers ervoor om te werken met alleen maar arme Afrikaans-Amerikaanse mannen.

Wat waren de problemen van het Milgram onderzoek?

Milgram deed in de jaren 60 van de vorige eeuw onderzoek naar autoriteit. Hierbij werd één proefpersoon verteld dat ze de leraar waren, terwijl een andere proefpersoon de leerling was. De leraar moest de leerling straffen door het geven van elektrische schokken als hij fouten maakte bij een leertaak. Het voltage van de schokken werd opgehoogd bij elk extra fout antwoord. De leerling begon na een tijdje aan te geven dat hij pijn had en wilde stoppen. De onderzoeker in een witte lab jas die bij de leraar zat droeg de leraar op door te gaan met schokken geven. Dit werd zelfs doorgezet als de leraar begon met protesteren. Uit het onderzoek bleek dat 65% van de proefpersonen luisterde naar de onderzoekers en fatale elektrische schokken toediende aan een medemens. Gelukkig was het natuurlijk niet echt zo dat de leerling schokken kreeg, omdat dit een confederate was van de onderzoeker. Dit werd echter pas na het experiment aan de proefpersonen verteld. Tijdens de leertaak dachten ze dat het echt was.

Het eerste ethische probleem bij dit onderzoek was dat de leraar-proefpersonen veel stress ervaarde. Ten tweede waren andere onderzoekers bezorgd over mogelijke blijvende effecten van het onderzoek. Ondanks dat de leraar-proefpersonen na het onderzoek te horen kregen dat het nep was via een debriefing waarin hen verteld werd wat het doel was. Was een deel van hen er kapot van dat ze een andere proefpersoon pijn hadden kunnen doen. Sommige onderzoekers vinden dat Milgram in had moeten grijpen bij het zien van hoe gestrest de proefpersonen waren. Andere onderzoekers vinden dat we door Milgram veel te weten zijn gekomen over gehoorzaamheid en het luisteren naar autoriteit wat we zonder zijn onderzoek niet te weten zouden zijn gekomen. Het is soms dus lastig om te beslissen of een onderzoek onethisch is of niet. Vaak moeten we de potentiële risico’s voor de proefpersonen afwegen tegen de kennis die we kunnen vergaren.

Wat zijn de belangrijkste ethische principes?

Na de Nuremberg Trials werd duidelijk welke verschrikkelijke medische experimenten er gedaan werden op mensen in concentratiekampen tijdens de tweede wereldoorlog. Op basis hiervan is de Nuremberg Code geschreven, welke ethische onderzoekswetten vandaag de dag nog steeds beïnvloedt. Daarnaast worden ethische beslissingen in medisch onderzoek en de praktijk ook beïnvloedt door de Helsinki Akkoorden. In Amerika speelt het Belmont Rapport ook een rol bij de ethische principes waar onderzoekers zich aan moeten houden. Al deze dingen zijn gebaseerd op dezelfde kernprincipes.

  • Het principe van respect voor personen. Dit houdt in dat proefpersonen behandeld moeten worden als autonome agenten. Ze mogen zelf weten of ze mee willen doen aan een onderzoek. Daarnaast moeten ze geïnformeerde toestemming kunnen geven. Dit houdt in dat de proefpersonen informatie krijgen over het doel van het onderzoek, de risico's en de voordelen. Vervolgens moeten ze op basis daarvan kunnen beslissen of ze mee willen doen. Een onderzoeker mag hierbij iemand niet voorliegen of iemand omkopen om deel te nemen. Een tweede onderdeel van het principe van respect voor personen is dat sommige kwetsbare groepen minder autonomie hebben. Dit betekent dat zij speciale bescherming moeten krijgen bij het geven van geïnformeerde toestemming. Onder deze groepen vallen kinderen, personen met een verstandelijke beperking of gevangenen.
  • Het principe van weldadigheid: houdt in dat onderzoekers van tevoren na moeten gaan of proefpersonen risico’s oplopen door het onderzoek en of ze er voordelen uit kunnen halen. Ook moet er gekeken worden of er risico’s of voordelen zijn voor de populatie. Dit moet allemaal gedaan worden voordat een onderzoek van mag starten. Een ander risico bij het doen van onderzoek is dat persoonlijke informatie van mensen zoals informatie over hun gedrag of mentale gezondheid, bij anderen terecht komt. Om proefpersonen hier van te beschermen kunnen onderzoekers twee dingen doen. Ze kunnen een anonieme studie doen, waarbij onderzoekers geen informatie verzamelen die een proefpersoon zou kunnen identificeren zoals een naam, verjaardag, foto, etc. Ook kunnen ze een vertrouwelijke studie doen, waarbij een beetje informatie verzameld wordt waarmee mensen geïdentificeerd kunnen worden. Deze informatie word niet vrijgegeven. Een voorbeeld hiervan is als de persoonlijke informatie apart opgeslagen word van de hypotheses van het onderzoek. De risico's en voordelen van een onderzoek inschatten kan lastig zijn.
  • Het principe van rechtvaardigheid: vraagt om een balans tussen de mensen die meedoen aan het onderzoek en de mensen die voordelen halen uit het onderzoek. Hierbij moeten onderzoekers nagaan in hoeverre de participanten die deelnemen aan een onderzoek een afspiegeling zijn van de groep die voordeel haalt uit de resultaten. Zo zou het bijvoorbeeld ethisch verantwoord zijn geweest onderzoek te doen naar alleen Afrikaans-Amerikaanse mannen met syfilis, als syfilis een probleem was geweest wat voornamelijk bij die groep voorkomt: zij halen er dan ook het meeste voordeel uit.

Wat zijn de ethische richtlijnen voor psychologen volgens de APA?

Wat zijn de vijf algemene ethische principes van de APA?

Er zijn vijf algemene ethische principes van de APA:

  1. Respect.
  2. Humaniteit.
  3. Rechtvaardigheid.
  4. Integriteit.
  5. Loyaliteit en verantwoordelijkheid.

De eerste drie van deze principes vallen onder het principe van weldadigheid in het Belmont Rapport. De vierde past bij het principe van rechtvaardigheid en de vijfde bij het principe van respect voor personen.

Wat is Ethische Standaard 8 van de APA?

Naast de vijf algemene principes heeft de APA ook nog tien specifieke standaarden die als regels gezien kunnen worden. Psychologen die zich niet aan deze standaarden houden, kunnen hun bevoegdheid om therapeut te zijn verliezen. Ethische Standaard 8 is het belangrijkst voor onderzoekers. De andere standaarden zijn meer voor therapeuten en docenten. Hieronder wordt Ethische Standaard 8 nader toegelicht.

Standaard 8.01 stelt dat er een institutional review board (IRB) moet zijn. Deze stelt vast of onderzoek met menselijke participanten op een ethische manier wordt uitgevoerd of niet. De IRB bestaat uit vijf leden:

  • Eén lid is een wetenschapper.
  • Één moet academische interesses hebben buiten de wetenschap.
  • Één of meerdere leden moeten lid van een gemeenschap zijn die niet verbonden is aan het instituut waar het onderzoek wordt uitgevoerd.
  • Bij onderzoek met gevangenen moet er ook één lid zijn die staat voor de rechten van de gevangenen.

Voordat een wetenschapper een onderzoek uit mag voeren met proefpersonen moet de deze een applicatie indienen bij de IRB. Hierin moet de onderzoeker gedetailleerd beschrijven hoe het onderzoek er uit zal gaan zien en wat de risico’s en voordelen zijn. De leden van de IRB moeten beslissen of een onderzoek uitgevoerd mag worden of niet. Ze mogen een onderzoek niet toestaan wanneer: er mensenrechten geschonden worden, het onderzoek te grote risico's met zich meebrengt of als er geen duidelijke onderbouwing bestaat voor waarom het onderzoek uitgevoerd zou moeten worden. Bij het geven van toestemming zoekt de IRB een balans tussen het welzijn van proefpersonen en het onderzoek naar belangrijke onderwerpen binnen het vakgebied.

Standaard 8.02 stelt dat onderzoekers om geïnformeerde toestemming moeten vragen. Dit is een formulier waarop de procedures van het onderzoek, de voor- en nadelen en het gebruik van experimentele behandelingen toegelicht worden. Daarnaast wordt hierin omschreven of de data van proefpersonen vertrouwelijk behandeld wordt. Dit moet in alledaagse taal geschreven zijn en stelt participanten in staat te overwegen of ze wel of niet deel willen nemen. Voor onderzoeken waarbij er waarschijnlijk geen schadelijke effecten zijn voor participanten, waarbij de data compleet anoniem is of waar observatie plaatsvindt in een educatieve setting is geen geïnformeerde toestemming nodig.

Standaard 8.07 gaat over deceptie. Soms houden onderzoekers informatie achter over het doel van het onderzoek is of liegen ze hierover tegen proefpersonen. Informatie achterhouden wordt ook wel omissie genoemd, terwijl de participanten actief voorliegen commissie genoemd wordt. Hierbij moeten onderzoekers zich altijd nog aan het principe van respect voor personen houden door proefpersonen in te lichten over waar een onderzoek over gaat en de risico's en voordelen die aan deelname verbonden zijn. Daarnaast moeten ze ook rekening houden met het principe van weldadigheid door te overwegen of deceptie daadwerkelijk wat toevoegt of dat het onderzoek ook zonder deceptie gedaan zou kunnen worden.

Wanneer onderzoekers gebruik maken van deceptie moeten ze na afloop van het onderzoek de proefpersonen inlichten over het bedrog, waarom het nodig was en het daadwerkelijke doel van het onderzoek. Vaak word hierbij ook het doel, de hypotheses en de referenties gegeven zodat geïnteresseerde participanten deze kunnen lezen. Dit heet een debriefing en staat beschreven in Standaard 8.08. Vaak wordt er ook een debriefing gedaan in onderzoek dat geen deceptie gebruikt.

Wat zeggen de standaarden over het wangedrag met betrekking tot publicaties?

De meeste richtlijnen gaan over het goed behandelen van proefpersonen. Er zijn echter ook richtlijnen die over het publicatieproces gaan. Twee wangedragingen die betrekking hebben tot het publiceren zijn data fabricatie en data falsificatie. Deze staan beschreven in Standaard 8.10. Data fabricatie houdt in dat een onderzoeker niet invoert wat er daadwerkelijk is gebeurd, gezegd of gedaan, maar data verzint om zijn hypothesen te ondersteunen. Data falsificatie houdt in dat onderzoekers de resultaten beïnvloeden door bijvoorbeeld sommige observaties selectief weg te laten of door proefpersonen zo te beïnvloeden dat ze zich gaan gedragen zoals de onderzoekers voorspeld hebben. Het fabriceren of falsifiëren van data kan er voor zorgen dat men theorieën als accuraat ziet, terwijl ze dat niet zijn. Daarnaast kan het er ook voor zorgen dat andere onderzoekers tevergeefs veel tijd besteden aan vervolgonderzoeken van een onderwerp of theorie waar eigenlijk helemaal geen bewijs voor is.

Een andere vorm van wangedrag is plagiaat. Dit staat omschreven in Standaard 8.11. Plagiaat ontstaat als je ideeën en woorden van anderen als je eigen ideeën of woorden representeert zonder goed te verwijzen naar de originele auteur. Het wordt gezien als een vorm van stelen. Om plagiaat te voorkomen moet een schrijver verwijzen naar de originele auteur wanneer men de ideeën van die persoon gebruikt. Verder kan ook zelf-plagiaat voorkomen. Zelf-plagiaat is wanneer onderzoekers verschillende artikelen publiceren over één onderwerp en daarbij gedeeltes van hun eerdere werk hergebruiken in hun latere artikelen.

Wat zeggen de standaarden over dieronderzoek?

Psychologen voeren niet alleen onderzoek uit met mensen, maar soms ook met dieren. Volgens Standaard 8.09 moeten psychologen goed voor de proefdieren zorgen. Ze moeten ze humaan behandelen, er zo min mogelijk gebruiken en ze moeten er zeker van zijn dat hun onderzoek belangrijk genoeg is om het gebruik van dieren te rechtvaardigen. Vaak is het zo dat elk land ook nog eigen instituties heeft die toezicht houden op het gebruik van proefdieren. Er wordt vaak een groep samengesteld die toezicht houdt op de verzorging van proefdieren. In veel landen worden de drie R’s gebruikt. Deze omschrijven de richtlijnen voor dieronderzoek:

  1. Replacement: het vinden van een alternatief voor dieren binnen onderzoek waar dat mogelijk is.
  2. Refinement: het aanpassen van experimentele procedures en andere aspecten van de zorg voor dieren om de stress voor de dieren te minimaliseren.
  3. Reduction: er moet gebruik gemaakt worden van procedures waarbij zo min mogelijk dieren ingezet hoeven worden.

De meeste psychologen en psychologiestudenten zijn het eens met het gebruik van dieren voor onderzoek. Ze zijn echter wel voor een goede behandeling van dieren en vinden het belangrijk dat onderzoekers rekening houden met de pijn die de dieren kunnen ervaren tijdens het onderzoek. Activisten voor dierenrechten vinden dat proefdieren ook rechten hebben en dat deze worden geschonden door ze aan onderzoek te onderwerpen. Andere activisten vinden dat de mens niet belangrijker is dan andere dieren en dat er alleen dieronderzoek gedaan mag worden als hetzelfde onderzoek ook gedaan kan worden met menselijke proefpersonen. Onderzoekers moeten het gebruik van dieren en de behandeling van dieren goed balanceren. Veel psychologen behandelen de dieren goed en door dieronderzoek hebben zij veel dingen ontdekt die bijdragen aan onze toegepaste- en basiskennis. Daarnaast is het zo dat psychologen zo min mogelijk dieren proberen te gebruiken en waar het kan andere procedures toepassen (zoals computermodellen).

Wat zijn goede metingen in de psychologie? - Chapter 5

Dit hoofdstuk focust zich op de constructvaliditeit van gemeten variabelen en hoe we gemeten variabelen kunnen operationaliseren. Daarnaast wordt er besproken hoe we de betrouwbaarheid en validiteit van deze metingen kunnen bepalen.

Hoe meet je variabelen?

Als een variabele geoperationaliseerd wordt, dan wordt een construct in een gemeten of gemanipuleerde variabele veranderd. Bij psychologisch onderzoek zijn er altijd twee definities van een variabele nodig. De eerste is een conceptuele definitie of construct. Dit zijn de definities die een onderzoeker aan een variabele geeft op een theoretisch niveau. De operationele definitie geeft weer hoe een onderzoeker een variabele heeft besloten te meten of te manipuleren.

Welke drie typen metingen zijn er?

De typen metingen die psychologen gebruiken om concepten te operationaliseren vallen vaak in de volgende drie categorieën: zelf-rapportage, observaties en fysiologische metingen.

  1. Zelf-rapportages. Bij zelfrapportages wordt gebruik gemaakt van de antwoorden die mensen geven op vragen over zichzelf. Deze antwoorden worden verkregen doormiddel van een vragenlijst of interview. Bij kinderen is het vaak zo dat zelf-rapportages vervangen worden door rapportages van de ouders en/of docenten.
  2. Observationele metingen worden ook wel gedragsmetingen genoemd. Deze operationaliseren een variabele door observeerbare gedragingen of fysiek zichtbare eigenschappen van gedrag vast te leggen. Het tellen van het aantal tandafdrukken in een potlood als een observeerbare meting voor stress is hier een voorbeeld van.
  3. Fysiologische metingen operationaliseren een variabele door te kijken naar biologische data, zoals hersenactiviteit en hartslag. Vaak worden er instrumenten gebruikt bij deze metingen, zoals EEG’s en fMRI’s.

Meestal kan één construct op meerdere manieren geoperationaliseerd worden. Wat onderzoekers vaak doen is alle operationalisatie technieken gebruiken om te kijken of de resultaten met elkaar overeenkomen.

Welke schalen zijn er?

Geoperationaliseerde variabelen worden primair geclassificeerd als categorisch of kwantitatief. Een categorische variabele of nominale variabele heeft categorieën als niveaus. Een voorbeeld is geslacht, deze heeft de categorieën man en vrouw. Aan deze categorieën kunnen we getallen toeschrijven, bijvoorbeeld een 1 voor man en 2 voor vrouw. Deze getallen zeggen echter verder niks op numeriek niveau. Zo zouden we bijvoorbeeld net zo goed een 5 en 6 kunnen gebruiken. De toewijzing van een hoger getal aan een categorie betekent niet dat deze categorie 'beter' is. Een kwantitatieve variabele of continue variabele wordt gecodeerd met getallen die wél een numerieke betekenis hebben. Dit zijn bijvoorbeeld gewicht of lengte. Hier geven de getallen weer dat iemand hoger of lager scoort dan een ander persoon.

Kwantitatieve variabelen kunnen verder geclassificeerd worden op een ordinale-, interval- en ratioschaal.

  1. Van een ordinale schaal wordt gesproken als de getallen van een kwantitatieve variabele een rangorde weergeven. Een docent kan toetsen teruggeven op volgorde van het hoogste naar het laagste cijfer. De eerste leerling heeft dan hoger gescoord dan de laatste leerling die de toets terugkrijgt. Echter, het is niet bekend hoeveel hoger de eerste leerling heeft gescoord. Een ordinale schaal zegt niks over de 'afstand' tussen de verschillende getallen: deze hoeft niet gelijk te zijn. Zo zou er bijvoorbeeld tussen de leerling die het hoogst scoorde op de toets en de één na hoogst scorende leerling een verschil van twee hele punten kunnen zitten. Dit terwijl er tussen leerling twee en drie slechts een verschil is van een halve punt.
  2. Een interval schaal werkt wel met gelijke intervallen (afstanden) tussen de niveaus. Verder is er bij deze schaal ook sprake van een nulpunt. Dit nulpunt betekent echter niet dat een persoon niks gescoord of gedaan heeft. De scores van een IQ test zijn hier een voorbeeld van. De afstand tussen de scores 100 en 105 is even groot als de afstand tussen de scores 105 en 110. Daarnaast betekent een score van nul op een IQ test niet dat je geen intelligentie of IQ hebt.
  3. Een ratioschaal heeft ook gelijke intervallen en wel echt een nulpunt dat ‘niks’ betekent. De variabele wordt bij het nulpunt dan niet gemeten. Een voorbeeld hiervan is een kennistoets. Het verschil tussen één vraag goed en twee vragen goed is even groot als het verschil tussen drie en vier vragen goed. Op deze schaal betekent de nul ook echt 'niks': iemand heeft geen enkele vraag goed beantwoordt. Dit nulpunt is wel betekenisvol, omdat het aangeeft dat de variabele niet gemeten is. Door het betekenisvolle nulpunt is het mogelijk om bij een ratioschaal vergelijkingen te kunnen maken. Een voorbeeld is als volgt: Sanne heeft twee keer zoveel vragen goed op de kennistoets dan Sara.

Hoe kunnen we de betrouwbaarheid van metingen bepalen?

Zodra we een variabele geoperationaliseerd hebben kunnen we kijken naar de constructvaliditeit: hoe goed en gepast is de operationalisatie van de variabele? Constructvaliditeit heeft twee aspecten: betrouwbaarheid en validiteit. Betrouwbaarheid betreft de consistentie van de resultaten van een meting en validiteit of een variabele daadwerkelijk meet wat het behoort te meten.

We kunnen betrouwbaarheid op drie manieren bepalen. Welke we kiezen hangt af van hoe de variabele geoperationaliseerd is.

  1. Test-hertest betrouwbaarheid: er is sprake van deze vorm van betrouwbaarheid als een participant elke keer dat iets opnieuw gemeten wordt hetzelfde scoort. Deze betrouwbaarheid kan vastgesteld worden bij zelf-rapportages, observaties en fysiologische metingen. Het is echter het meest relevant om dit te doen bij constructen die theoretisch gezien stabiel zijn. Voorbeelden hiervan zijn intelligentie of persoonlijkheid.
  2. Interbeoordelaar betrouwbaarheid: dit is wanneer de scores van een participant consistent blijven op een variabele wanneer deze gemeten wordt door verschillende onafhankelijke onderzoekers. Deze betrouwbaarheid is erg relevant voor observationeel onderzoek.
  3. Interne betrouwbaarheid: dit wordt ook wel interne consistentie genoemd. We spreken van interne betrouwbaarheid als een onderzoeksdeelnemer consistent antwoordt op vragen die een bepaald construct meten, ongeacht de verwoording.

Wat kan er gebruikt worden om betrouwbaarheid te evalueren?

Het controleren van de betrouwbaarheid is eigenlijk een speciale variant van een associatie claim. Dit is de associatie tussen een meting op een eerder moment en een meting op een later moment, tussen één observator en een andere observator of tussen één versie van een vraag/meting en een andere. Er kunnen twee statistische middelen gebruikt worden om betrouwbaarheid te analyseren: spreidingsdiagrammen en correlaties.

Bij een spreidingsdiagram kan je de betrouwbaarheid analyseren. Dit wordt op twee manieren gedaan:

  1. Door de eerste en tweede metingen van dezelfde personen door andere beoordelaars te plotten (interbeoordelaar betrouwbaarheid).
  2. Of door de eerste en tweede meting van dezelfde personen door dezelfde beoordelaars op andere tijden te plotten (test-hertest betrouwbaarheid).

Je zet dan de ene meting op de x-as en de andere meting op de y-as. Als alle punten dichtbij een sterk stijgende of dalende lijn liggen is er sprake van goede test-hertest en inter-beoordelaar betrouwbaarheid. Daalt of stijgt de lijn niet sterk of is deze zelfs horizontaal, dan geeft het spreidingsdiagram een slechtere betrouwbaarheid weer.

De correlatiecoëfficiënt of r is een getal wat weergeeft hoe dicht verschillende metingen of punten bij een lijn liggen die getekend is in een spreidingsdiagram. Een correlatie kan twee dingen weergeven:

  1. De richting van een relatie tussen twee metingen of variabelen. Dit doet een correlatie door de hellingsrichtingI. Loopt deze omhoog, dan is de relatie tussen de metingen positief. Loopt deze omlaag, dan is de relatie tussen de metingen negatief. Als de lijn geen helling heeft - en dus horizontaal loopt - dan is er geen relatie tussen de metingen. Dit wordt weergegeven doordat de correlatie of r waarde dan een positief of negatief getal is of nul. De waarde van r ligt altijd tussen 1.0 en -1.0.
  2. Hoe sterk een relatie is tussen twee metingen of variabelen. Dit kan door te kijken naar het spreiding van de metingen. Als de punten dichter bij de lijn liggen is de relatie tussen de metingen sterker. Als de punten verder van de lijn af liggen of als ze verder verdeeld zijn over het spreidingsdiagram is de relatie zwakker. Ook dit wordt weergegeven in de correlatie of r waarde. Hoe dichter de r waarde bij 1.0 of -1.0 ligt, hoe sterker de relatie is. Ligt de waarde dicht bij 1.0 dan spreken we van een sterke positieve relatie. Ligt de waarde dicht bij -1.0 dan spreken van een sterk negatieve relatie. Is de waarde .00, dan is er geen relatie.

Bij test-hertest betrouwbaarheid kijken we naar metingen gedaan op dezelfde personen op verschillende tijden. Als de r waarde dan positief en hoog is (hoger dan .5), dan spreken we van een goede test-hertest betrouwbaarheid. Een lage r waarde kan een teken van lage betrouwbaarheid zijn we iets meten wat wel stabiel zou moeten zijn (bijvoorbeeld intelligentie: dit zou niet moeten veranderen binnen een week).

Bij de interbeoordelaar betrouwbaarheid kijken we naar de scores die twee verschillende beoordelaars geven aan dezelfde groep participanten. Als de r positief en hoog is (hoger dan .7), dan spreken we van een goede inter-beoordelaar betrouwbaarheid. Als deze positief maar zwak is, dan betekent dit dat de we het oordeel van de beoordelaars waarschijnlijk niet kunnen vertrouwen. Een oplossing is om andere beoordelaars te zoeken of de operationele definitie van een variabele aan te passen zodat het coderen en observeren makkelijker wordt. Ook een negatieve r is hier ongewenst.

Bij de interne betrouwbaarheid kijken we naar hoe betrouwbaar verschillende items of observaties hetzelfde construct meten door te bestuderen of mensen consistent antwoorden op de vragen. Onderzoekers bepalen meestal de interne betrouwbaarheid door eerst een hele grote groep mensen de vragen te laten maken. Daarna rekenen ze correlaties uit tussen alle verschillende items. Ook bepalen ze de gemiddelde inter-item correlatie (AIC): het gemiddelde van al deze verschillende correlaties. Als de AIC tussen de .15 en .50 is dan passen de items redelijk goed bij elkaar. Verder kunnen onderzoekers ook nog Cronbach's alfa berekenen. In dit getal worden de AIC en de hoeveelheid items die een schaal bevat samengenomen. Hoe dichter Cronbach's alfa bij 1.0 ligt, hoe betrouwbaarder de schaal. Meestal is voor Cronbach's alfa een waarde van .80 of hoger gewenst. Als de IAC en Cronbach goed zijn dan concluderen onderzoekers dat de interne betrouwbaarheid goed is. De items worden dan vaak bij elkaar opgeteld om één score voor een participant te berekenen. Als de IAC en Cronbach niet goed zijn dan moeten items herschreven of verwijderd worden voor een betere betrouwbaarheid.

Welke soorten validiteit zijn er in metingen?

Naast betrouwbaarheid moet er ook gekeken worden of de tests wel echt meten wat ze behoren te meten. Psychologen willen vaak abstracte constructen meten waar geen vergelijkingsstandaard voor bestaat. Constructvaliditeit is daarom belangrijk in psychologisch onderzoek. Blijheid kunnen we niet direct meten. Wel kunnen we blijheid schatten door naar verschillende dingen te kijken. Dit zijn dingen zoals iemands welzijn, hoe vaak iemand lacht, hoe gestrest iemand is of bloeddruk. Al deze metingen zijn indirect, omdat voor veel abstracte constructen geen directe meetmethode bestaat. Je kunt controleren of deze metingen kloppend zijn door te kijken naar verschillende soorten validiteit. Vijf soorten validiteit zijn:

  1. Face validiteit: een maat heeft goede face validiteit als een onderzoeker het een plausibele operationalisatie vindt van een conceptuele variabele. Dit is vrij subjectief. Vaak wordt dit gecontroleerd door aan experts te vragen wat zij van de maat vinden.
  2. Content validiteit: controleert of een maat alle onderdelen van een construct omvat. Zo omvat het construct 'intelligentie' allerlei elementen zoals redeneren, plannen, probleemoplossend vermogen, het leren van ervaring en meer. Content validiteit kijkt of een maat al deze dingen meeneemt.
  3. Criterion validiteit: evalueert of de maat waarmee we een bepaald concept of construct proberen te meten ook geassocieerd wordt met een concrete gedragsuitkomst. Een voorbeeld hiervan is dat een maat die verkooptalent van medewerkers vastlegt hoogstwaarschijnlijk geassocieerd wordt met een bepaald niveau van verkoopsucces. Mensen die hoog scoren op de maat zouden ook meer producten moeten verkopen. Deze vorm van validiteit is vooral belangrijk om te controleren bij zelf-rapportage, omdat het in dat geval aangeeft hoe goed iemands eigen mening hun gedrag voorspeld. Daarnaast is het vaak zo dat hoe hoger de criterion validiteit, hoe meer bewijs er is voor de constructvaliditeit van een maat. Om bewijs te verzamelen voor criterion validiteit kan je kijken naar een known-groups paradigma. Een know-groups paradigma houdt in dat onderzoekers kijken of de maat twee verschillende groepen waarvan de scores al bekend zijn van elkaar kan onderscheiden. Een voorbeeld hiervan kan als volgt zijn. Een onderzoeker kijkt of zijn vragenlijst die stress behoort te meten goed werkt. Dit doet de onderzoeker door de scores van een groep die onvoorbereid een presentatie voor publiek moeten geven te vergelijken met de scores van het publiek zelf. Het is te verwachten dat iemand die een presentatie moet geven meer stress ervaart, wat te zien zou moeten zijn in de maat.
  4. Convergente validiteit: meet of een maat sterk correleert met andere meetinstrumenten die hetzelfde construct willen meten. Er wordt verwacht dat de correlatie tussen de gerelateerde maten en constructen vrij hoog is. Als dat het geval is dan is er sprake van goede convergente validiteit.
  5. Discriminante of divergente validiteit: meet of een maat minder sterk correleert met andere meetinstrumenten die een ander construct willen meten. Er wordt verwacht dat er slechts een kleine of zelfs geen correlatie is tussen maten en meetinstrumenten die een heel ander construct willen meten. Als dat het geval is dan is er sprake van discriminante of divergente validiteit.

Belangrijk om te onthouden is dat een meting minder valide dan betrouwbaar kan zijn, maar dat het niet meer valide dan betrouwbaar kan zijn. Bij betrouwbaarheid kijken we naar hoe goed een meting correleert met zichzelf (dezelfde metingen gedaan door andere onderzoekers, op andere momenten of met andere items), terwijl validiteit kijkt naar hoe goed een maat correleert met iets anders (een gedrag of een andere vragenlijst bijvoorbeeld). Als een maat niet correleert met zichzelf dan kan deze ook niet correleren met iets anders. Dus: een maat kan betrouwbaar zijn zonder valide te zijn, maar kan niet valide zijn zonder betrouwbaar te zijn.

Hoe gebruiken we een survey en observaties? - Chapter 6

 

Hoe kun je de constructvaliditeit van een survey verbeteren?

In dit hoofdstuk wordt het woord survey gebruikt om te verwijzen naar vragen die aan mensen gesteld worden via de telefoon, tijdens interviews, op papier, via e-mail of op het internet. Vragen kunnen op verschillende manieren gesteld worden:

  • Open vragen: waar respondenten kunnen antwoorden wat ze willen.
  • Gesloten vragen: waar mensen hun mening geven door één van de vaststaande opties te kiezen die hun idee het best weergeeft.
  • Likert schaal: een schaal met de opties: sterk mee eens, mee eens, niet mee eens of mee oneens, mee oneens en sterk mee oneens, waarvan mensen het antwoord kiezen welke het beste hun mening weergeeft. Als een schaal hierop lijkt maar niet precies deze antwoordopties heeft (bijvoorbeeld alleen maar mee eens, niet mee eens of mee oneens en mee oneens) dan noemen we dit een Likert-type schaal.
  • Semantische differentiaal: een schaal waarbij aan beide kanten een bijvoeglijk naamwoord staat met daar tussenin een aantal getallen en respondenten door middel van het omcirkelen van een getal aangeven welke van de bijvoeglijke naamwoorden ze beter vinden passen. Bijvoorbeeld, als de vraag is: 'kijkt deze persoon blij of boos?' dan zouden 'blij' en 'boos' aan weerszijden van de schaal staan en kan een persoon op een numerieke schaal aangeven welke van deze ze beter vinden passen.

Hoe kun je het beste vragen verwoorden?

De manier waarop vragen verwoord en gesteld zijn kan invloed hebben op de constructvaliditeit. Elke vraag moet helder en direct te beantwoorden zijn. Makers van vragenlijsten moeten ervoor zorgen dat de verwoording en volgorde van vragen niet de antwoorden van proefpersonen beïnvloeden.

Een eerste probleem bij het verwoorden van vragen is dat onderzoekers soms met hun vraagstelling respondenten richting een bepaald antwoord sturen. Dit worden ook wel leidende vragen genoemd. De antwoorden van respondenten reflecteren dan niet meer hun eigen mening. Om dit te voorkomen moeten vragen zo neutraal mogelijk geformuleerd worden.

Soms kan een vraag zo moeilijk geformuleerd zijn, dat een respondent moeite zal hebben om een antwoord te geven dat zijn/haar mening accuraat reflecteert. Het is het beste om een zo simpel mogelijke vraag te stellen. Wanneer mensen een vraag begrijpen, dan kunnen ze een helder en direct antwoord geven. Echter, soms vergeten mensen die vragen opstellen deze regel en ze kunnen per ongeluk twee vragen in één stellen. Dit worden double-barreled vragen genoemd. Deze vragen hebben een slechte constructvaliditeit omdat we niet weten of mensen een antwoord geven op de eerste vraag, de tweede of beide vragen. Je item kan dus het eerste construct meten, het tweede of beide constructen. De vragen moeten apart gesteld worden om dit te bepalen en de constructvaliditeit te verhogen.

Soms kan de negatieve verwoordign een vraag overbodig moeilijk maken. Met negatief wordt deze keer niet bedoeld dat er negatieve woorden zoals ‘slecht’ en ‘problematisch’ in staan, maar ontkennende woorden. Uit een onderzoek bleek dat 20% van de Amerikanen de Holocaust ontkenden. Dit zorgde voor nogal wat ophef en onderzoekers besloten dus te kijken of dit onderzoek goed uitgevoerd was. Ze kwamen erachter dat de vraag moeilijk verwoord was: ‘Lijkt het waarschijnlijk of onwaarschijnlijk voor u dat de Nazi uitroeiing van joden nooit plaats had gevonden?’ De meeste mensen hebben moeite met de dubbele ontkenning van ‘onmogelijk’ en ‘nooit.’ Deze vraag heeft dus niet de overtuigingen van mensen gemeten, maar in hoeverre ze hun werkgeheugen en motivatie gebruikt hadden om de vraag te beantwoorden. Deze vraag had dus een slechte constructvaliditeit. Soms kan één negatief woord een vraag al moeilijk maken. Als onderzoekers een vraag met een negatief woord erin stellen, stellen ze vaak dezelfde vraag ook op een positieve manier. Daarna kijken ze naar de interne consistentie van deze twee items om te kijken of een persoon dezelfde mening behoudt (bijvoorbeeld: als iemand het met de negatief gestelde vraag oneens is, zouden ze het met de positief gestelde vraag eens moeten zijn). Er moet goed uitgekeken worden met negatief verwoorde vragen, omdat het de constructvaliditeit kan verlagen. Soms zeggen de antwoorden op deze vragen meer over de motivatie en vaardigheid om cognitief werk te verrichten dan over de daadwerkelijke meningen van mensen.

De volgorde van de vragen kan ook een invloed hebben op de antwoorden die mensen geven. Dit wordt een volgorde effect genoemd. Stel dat sommige mensen een bepaalde actie (zoals beter omstandigheden voor vrouwen) steunen, maar niet zozeer een andere actie (zoals betere omstandigheden voor etnische minderheden). Als we mensen eerst vragen of ze acties voor betere omstandigheden voor vrouwen steunen en pas daarna of ze acties voor betere omstandigheden voor etnische minderheden steunen krijgen we andere antwoorden dan als we de twee vragen andersom hadden gesteld. In het eerste geval zullen mensen op beide vragen ja antwoorden ondanks hun negatieve mening over de tweede actie op zich. Dit komt doordat mensen graag consistent zijn; hierdoor voelden ze zich mogelijk verplicht om nadat ze gezegd hadden acties voor betere omstandigheden voor vrouwen te steunen, ook de andere actie te steunen. Als de vragen andersom gesteld werden, bleven mensen wel negatief over de acties voor etnische minderheden. De beste manier om te controleren of de volgorde van vragen invloed heeft, is om verschillende versies van de vragenlijst te maken en in elke versie de volgorde van vragen te veranderen. Als de resultaten van de eerste volgorde anders zijn dan de resultaten van de tweede volgorde, dan kan er gesteld worden dat er een volgorde effect is.

Hoe kunnen proefpersonen aangemoedigd worden om accuraat te antwoorden?

Proefpersonen kunnen soms minder accurate antwoorden geven. Dit doen ze niet altijd opzettelijk. Soms is er sprake van response sets of non-differentiatie: dit zijn een soort 'shortcuts' die mensen nemen bij het beantwoorden van survey vragen. Deze kunnen de constructvaliditeit verminderen omdat respondenten bij response sets vaak antwoordpatronen gaan aanhouden in plaats van hun mening te geven. Er zijn verschillende response sets mogelijk:

  • Acquiescence of instemming: dit houdt in dat iemand telkens ‘ja’ of ‘sterk mee eens’ antwoord op alle vragen. Een manier om te checken of iemand telkens ‘ja’ zegt zonder het te menen of het wel echt telkens met een stelling eens is, is om de vragen omgekeerd te verwoorden. Een vraag zoals ‘ik hou van snoep’ zou dan verwoord moeten worden als ‘ik hou niet van snoep.’ Iemand die echt van snoep houdt zal het eens zijn met de eerste stelling, maar het niet eens zijn met de tweede stelling.
  • Fence sitting: houdt in dat mensen telkens het midden van een schaal kiezen. Dit wordt vooral gedaan wanneer de vraag controversieel is of moeilijk is. Een manier om dit tegen te gaan is om het midden te verwijderen. Dus in plaats van vijf antwoordmogelijkheden, kan men kiezen uit vier antwoordmogelijkheden, waarbij er dus geen neutrale optie meer is (bijvoorbeeld: sterk mee eens, mee eens, mee oneens en sterk mee oneens). Een nadeel is echter wel dat mensen die echt neutraal zijn of geen mening hebben, zo niet hun ware gedachten kunnen uitdrukken.
  • Sociaal wenselijk antwoorden of faking good: wanneer respondenten zich schamen of bijvoorbeeld te verlegen zijn om een mening te geven die niet veel andere mensen zullen hebben en als gevolg daarvan niet de waarheid spreken. Ze doen zich anders voor dan ze zijn.
  • Faking bad: wanneer een respondent zich ook anders voordoet dan ze zijn. Echter doen ze zich niet beter voor, maar juist slechter. Dit gebeurt wel eens bij bijvoorbeeld onderzoeken naar ADHD. Als een persoon de diagnose ADHD krijgt kunnen ze hier voordeel uit halen in de vorm van medicijnen of extra tijd op toetsen. Iemand die geen ADHD heeft zou zich slechter voor kunnen doen dan ze zijn, puur om de diagnose en daarmee de voordelen te verkrijgen.
  • Niet weten waarom je iets kiest: dit komt ook veel voor bij surveys. Vaak weten mensen wel goed wat ze vinden en kunnen dus duidelijk hun mening geven als er geen andere response sets aanwezig zijn. Echter zijn mensen slecht in uitleggen waarom ze iets vinden, denken of doen. Als onderzoekers hen dan vragen hun keuze uit te leggen kunnen ze dit wel, maar deze is meestal inaccuraat. Een voorbeeld hiervan kan gezien worden in een onderzoek naar panty's. Er werd aan vrouwen gevraagd om uit zes panty's te kiezen welke zij de beste vonden. Allemaal kozen ze degene die ze het laatst beoordeelden. De onderzoekers kwamen erachter dat dit waarschijnlijk kwam doordat deze het duidelijkst was in hun geheugen, waardoor de vrouwen mogelijk concludeerden dat dit dan wel de beste moest zijn. Echter, als zij aan de vrouwen vroegen waarom ze die panty gekozen hadden, gaven ze allemaal andere redenen zoals de kwaliteit, het gevoel, hoe sterk de panty was, etc. Mensen weten dus niet altijd goed waarom ze iets kiezen; ze kunnen wel redeneren richting anderen waarom ze dit gedaan hebben, maar de beredenering is vaak fout. Onderzoekers kunnen er dus niet vanuit gaan dat de redenen die mensen geven voor hun eigen gedrag of meningen kloppen.
  • Flashbulb herinneringen: dit zijn herinneringen aan hele grote significante gebeurtenissen in het verleden (bijvoorbeeld: de vliegtuigcrash op 9/11). Deze herinneringen blijven vaak heel lang levendig en mensen zijn ook heel zeker over wat ze over dit soort herinneringen kunnen vertellen. Echter worden mensen als er meer tijd verstrijkt wel minder accuraat. Hoe levendig herinneringen zijn en hoe zeker mensen erover zijn, zegt dus weinig over hoe accuraat het is. Er is dus een kans dat mensen niet de waarheid rapporteren.

Hoe is de constructvaliditeit van gedragsobservaties?

Wanneer een onderzoeker het gedrag van dieren of mensen observeert en het systematisch bijhoudt, spreken we van observationeel onderzoek. Sommige onderzoekers denken dat observaties beter zijn dan zelf-rapportages, omdat sommige mensen niet accuraat kunnen antwoorden op vragen over hun gedrag en gebeurtenissen uit het verleden. Observaties kunnen een basis vormen voor frequentie claims. Zo kan er gekeken worden naar hoe vaak mensen per week eten bij een snackbar, hoe vaak ouders schreeuwen tijdens een voetbalwedstrijd van hun kind en hoe vaak auto’s stoppen bij een zebrapad. Een voorbeeld van een observationeel onderzoek is het onderzoek van Mehl dat keek naar hoeveel woorden mensen per dag zeggen. Elke proefpersoon droeg een elektronisch instrumentje en onderzoekers hebben gecodeerd hoeveel woorden mannen en vrouwen per dag spraken. Gemiddeld zeiden vrouwen meer per dag dan mannen, maar dit verschil was niet statistisch significant. Dat betekent dus dat vrouwen niet meer praten dan mannen (ook al denken we dat wel vaak).

Waarom zijn observaties soms beter dan zelf-rapportages?

Als aan de proefpersonen uit het voorgaande voorbeeld gevraagd zou zijn om zelf het aantal woorden dat ze per dag zeiden bij te houden, dan was het vast niet gelukt of niet accuraat geweest. Bij observationeel onderzoek werken onderzoekers heel zorgvuldig om er voor te zorgen dat hun observaties nauwkeurig en valide zijn. Observaties hebben een goede constructvaliditeit wanneer ze de volgende drie problemen kunnen vermijden: observator bias, observator effecten en reactiviteit.

Observator bias vindt plaats wanneer de verwachtingen van een observator hun interpretaties over het gedrag van proefpersonen beïnvloeden of zelfs de uitkomsten van een onderzoek veranderen. Onderzoekers observeren dan niet objectief, maar volgens hun eigen verwachtingen. Observer effecten of expectancy effecten vinden plaats wanneer proefpersonen of dieren die een onderzoeker observeert zich naar de verwachtingen van de onderzoeker gaan gedragen. Een voorbeeld hiervan is te zien in een onderzoek van Rosenthal en Fode, die studenten ratten gaven waarna hen verteld werd dat ze moesten bijhouden hoelang het duurde voor de rat door een doolhof kon lopen. De ratten waren genetisch hetzelfde, maar sommige studenten werd verteld dat hun rat een slimme doolhofloper was en andere studenten werd verteld dat hun rat een luie doolhofloper was. Het bleek dat de slimme ratten met de dag sneller werden en dat de luie ratten niet sneller werden. Observatoren zagen niet alleen wat ze wilden zien, maar ze zorgden er ook voor dat het gedrag van de geobserveerden overeen kwam met hun verwachtingen. Een manier om observator bias en observator effecten te voorkomen is door het trainen van de observatoren en het ontwikkelen van codeboeken: hierin staat hoe bepaald gedrag gecodeerd moet worden. Het is ook goed om meerdere observatoren te gebruiken en niet slechts één, zodat de tussen-beoordelaars betrouwbaarheid bepaald kan worden. Ook kan er gebruikgemaakt worden van een blind of gemaskeerd design, waarbij de observatoren niet weten waarom het onderzoek gedaan wordt en aan welke groepen de participanten zijn toegewezen.

Soms kan de aanwezigheid van een persoon ervoor zorgen dat iemand zich anders gaat gedragen dan hij of zij normaalgesproken doet. Reactiviteit houdt in dat mensen hun gedrag op de een of andere manier veranderen wanneer een andere persoon kijkt. Soms vertonen ze goed gedrag en soms slecht gedrag. Reactiviteit gebeurt niet alleen met menselijke proefpersonen, maar ook met dieren. Een manier om dit tegen te gaan is om zo min mogelijk op te vallen als observator. Soms kan er een één-richtingsspiegel gebruikt worden om proefpersonen te observeren. Een andere manier is om de proefpersonen aan je te laten wennen. Een observator die kinderen wil observeren kan eerst enkele dagen op school aanwezig zijn zodat de kinderen aan hem of haar wennen en vergeten dat ze geobserveerd worden als de observator later terugkomt en achter in de klas plaatsneemt. Dit kan uiteraard ook met dieren gedaan worden. Een derde manier is om naar de traceerbare data die een gedrag achterlaat te kijken, in plaats van het gedrag zelf. Iemand kan zeggen dat hij of zij een voorzichtige bestuurder is, maar of dit waar is kan geobserveerd worden door bijvoorbeeld naar zijn of haar boetes te kijken.

De meeste psychologen vinden het wel ethisch dat gedragingen in publieke settings geobserveerd worden. Wanneer er geheime opnames worden gemaakt, dan moet een onderzoeker daar wel een goede reden voor hebben en het de proefpersoon na afloop van het onderzoek vertellen. Als de proefpersoon het niet eens is dat er opnames zijn gemaakt, dan moet de onderzoeker het bestand verwijderen zonder het te hebben gezien.

Hoe schat je de frequenties van gedrag en overtuigingen? - Chapter 7

 

Wat is generaliseerbaarheid?

Wanneer je externe validiteit toetst, dan vraag je je af of de resultaten van een bepaald onderzoek gegeneraliseerd kunnen worden naar een grotere populatie. De externe validiteit is heel belangrijk voor frequentie claims. Je vraagt je af of de gevonden waarden voor de mensen uit je steekproef teruggevonden zouden kunnen worden in de hele populatie. Externe validiteit kijkt echter niet alleen naar een steekproef, maar ook naar de setting. Een onderzoeker wil misschien niet weten of de resultaten van een onderzoek gegeneraliseerd kunnen worden naar andere leden van een bepaalde populatie, maar hij wil weten of de resultaten gegeneraliseerd kunnen worden naar een andere setting, zoals andere producten van dezelfde fabriek of andere vakken gegeven door dezelfde docent. Dit hoofdstuk zal voornamelijk gaan over de externe validiteit van een steekproef en minder over setting, maar het is wel belangrijk om te weten dat dat ook onder externe validiteit valt.

Wat zijn steekproeven?

Een populatie kan gezien worden als de groep mensen of producten waar een onderzoeker in geïnteresseerd is. Een steekproef is een kleinere groep uit die populatie. Wanneer je wil weten hoe de nieuwe smaak van de Lays chips is, dan hoef je maar één chipje te proeven om te weten hoe het smaakt. Alle andere chipjes uit die zak smaken hetzelfde en je hoeft niet alle chipjes uit die zak op te eten om erachter te komen hoe het smaakt. Als je alle chips uit die zak zou proeven, dan zou je een zogenaamde census uitvoeren: je bekijkt dan alle leden van een populatie. Onderzoekers hoeven dit echter niet te doen: slechts een steekproef van de populatie onderzoeken zou genoeg informatie geven. De externe validiteit van een onderzoek gaat over hoe adequaat de steekproef het niet-onderzochte deel van de populatie representeert.

Er zijn veel populaties die wetenschappers kunnen bestuderen. Ze moeten dus de populatie die ze willen en gaan onderzoeken specificeren. Dit wordt ook wel de populatie van interesse genoemd. Wetenschappers kunnen een brede interesse hebben (zoals de hele populatie van Nederland) of een specifieke interesse hebben (alle vrouwen die psychologie hebben gestudeerd in Groningen). Pas als je een populatie in gedachten hebt, kun je spreken over de generaliseerbaarheid van een steekproef. Een steekproef kan alleen een populatie representeren als de steekproef uit de populatie komt. Dat betekent echter niet dat een steekproef afkomstig uit de populatie de hele populatie representeert. Als een steekproef uit Nederlanders bestaat, betekent het niet automatisch dat het de hele Nederlandse populatie representeert. Wellicht heeft een onderzoeker alleen rijke Nederlanders onderzocht, bijvoorbeeld. Een steekproef kan of representatief zijn of gebiased. In een biased steekproef hebben sommige leden van de populatie van interesse een hogere kans om in de steekproef terecht te komen andere leden van de populatie. In een representatieve steekproef hebben alle leden van de populatie een gelijke kans om in de steekproef terecht te komen. Alleen representatieve steekproeven kunnen er voor zorgen dat we conclusies kunnen trekken over een populatie.

Wanneer is een steekproef gebiased of niet representatief?

Er zijn twee manieren waarop een steekproef een bias kan bevatten of niet representatief is voor de populatie van interesse. Ten eerste kan het zo zijn dat onderzoekers alleen mensen met wie ze makkelijk contact kregen, hebben meegenomen in een steekproef. Dit wordt ook wel convenience sampling genoemd. Ook kan het voorkomen dat onderzoekers alleen mensen meenemen in de steekproef die zich vrijwillig aanmelden om deel te nemen. Dit wordt zelf-selectie genoemd. Zowel convenience sampling als zelf-selectie kunnen een bedreiging vormen voor de externe validiteit omdat mensen die makkelijker te bereiken zijn of zichzelf aanbieden voor deelname niet per se representatief zijn voor de populatie van interesse.

Hoe kan je zorgen dat je een representatieve steekproef krijgt?

Wanneer onderzoekers echt een representatieve steekproef willen hebben, dan kunnen ze het beste probability sampling toepassen. Probability sampling staat beter bekend als random sampling. Dit houdt in dat elk lid van de populatie waar men in geïnteresseerd is een even grote kans heeft op om opgenomen te worden in de steekproef. Omdat alle leden van de populatie een gelijke kans hebben om gerepresenteerd te worden, kunnen de resultaten van deze steekproeven gegeneraliseerd worden naar de hele populatie. Random sampling is goed voor de externe validiteit. Nonprobability sampling is het tegenovergestelde, hierbij worden mensen niet random gekozen wat zorgt voor een biased steekproef.

De verschillende vormen van probability sampling worden hieronder toegelicht:

  • De basis vorm van random sampling is simple random sampling. Je kunt je deze vorm van sampling als volgt voorstellen: elke naam van alle leden van een populatie waar men in geïnteresseerd is schrijf je op een briefje en deze doe je in een hoed. Daarna haal je een x aantal briefjes uit de hoed. Een andere manier is om elke persoon een nummer toe te kennen en een tabel met random getallen te gebruiken, om nummers te selecteren tot je genoeg mensen hebt voor je steekproef. Simple random sampling kan soms echter wel veel tijd in beslag nemen of niet te doen zijn, omdat het lastig is om elk lid van de populatie een nummer toe te kennen.
  • In een cluster sample worden clusters van proefpersonen uit een bepaalde populatie random geselecteerd en alle individuen in alle geselecteerde clusters worden vervolgens gebruikt. Een multistage sampling lijkt hier op, maar er worden twee random samples uitgevoerd: eerst wordt een random sample van clusters gedaan en vervolgens wordt er een random sample van mensen binnen deze clusters genomen.
  • Weer een andere techniek is stratified random sampling. Hierbij selecteert een onderzoeker bepaalde demografische groepen en vervolgens voert hij een random selectie uit van individuen binnen elk van deze groepen. Zo willen onderzoekers bijvoorbeeld dat hun steekproef die uit 2000 Canadezen bestaat, Aziatische mensen bevat in dezelfde proportie als in de hele Canadese bevolking. 4% van de Canadese bevolking is van Aziatische afkomst en er moeten dus minimaal 80 mensen van Aziatische afkomst uit Canada in de steekproef zitten. Er zijn dus twee strata in dit onderzoek: de Aziatische mensen en de andere Canadezen. Alle leden worden echter wel random gekozen.
  • Een andere variatie van stratified random sampling is oversampling. Dit houdt in dat de onderzoeker met opzet één of meer groepen over-representeert. Een onderzoeker kan besluiten om dit te doen als een subgroep die ze mee willen nemen in de steekproef maar een heel klein percentage vormt van de populatie (zoals de 4% van de mensen met Aziatische afkomst in Canada). De onderzoeker kan dan bijvoorbeeld besluiten om 200 mensen met Aziatische afkomst in de steekproef op te nemen in plaats van 80. Deze groep vormt dan 10% van de steekproef, terwijl het in de populatie 4% is. Na deze oversampling wordt de groep waarvan 'te veel' leden geselecteerd zijn wel proportioneel gewogen in de populatie. Ook oversampling is random.
  • In systematic sampling wordt een computer of random tabel gebruikt en selecteert de onderzoeker twee random getallen, bijvoorbeeld 3 en 6. Wanneer de steekproef uit een fitnesszaal vol met sporters bestaat, dan zal de onderzoeker bij de derde persoon beginnen en telkens elke zesde persoon opnemen in de steekproef, totdat de steekproef groot genoeg is.

Vaak gebruiken onderzoekers meerdere sampling technieken in een onderzoek. Zolang het maar op een random manier gedaan wordt, zal de steekproef de populatie representeren. Random sampling is niet hetzelfde als random toeschrijving. Dit betekent dat tijdens experimenten, proefpersonen random aan verschillende condities toegedeeld worden. Dit zorgt ervoor dat de interne validiteit omhoog gaat omdat de behandelgroep en controlegroep dan ongeveer gelijk aan elkaar zijn, waardoor er minder kans is op een alternatieve verklaring voor gevonden resultaten.

Kunnen onderzoekers ook voor biased sampling technieken kiezen?

Wanneer externe validiteit niet belangrijk is voor een onderzoeker, dan kan hij ervoor kiezen om een biased steekproef te gebruiken. Een voorbeeld hiervan is convenience sampling (wat al eerder is besproken). Hierbij gebruikt een onderzoeker dus mensen die makkelijk toegankelijk zijn. Wanneer onderzoekers alleen mensen uit bepaalde subgroepen willen vragen en deze mensen niet op een random manier kiezen, dan heet dat purposive sampling. Een andere vorm van purposive sampling is snowball sampling. Hierbij wordt de deelnemers gevraagd om een paar kennissen aan te dragen om mee te doen aan het onderzoek. In quota sampling identificeert de onderzoeker de subpopulaties die hij wil onderzoeken en hij kiest hoe groot elke subpopulatie in de steekproef gaat zijn. Dan kiest hij op een niet-random manier de mensen uit deze populatie uit (bijvoorbeeld door convenience sampling).

Wat is het belangrijkst bij het controleren van de externe validiteit van een onderzoek?

Frequentie claims zijn claims over hoe vaak iets in een populatie gebeurt. Vaak worden deze in percentages uitgedrukt. Externe validiteit is erg belangrijk voor frequentie claims en dus zal er ook goed gekeken moeten worden naar de sampling technieken. Soms kan de externe validiteit van steekproeven die gebaseerd zijn op random samples bevestigd worden. Het is echter vaak lastig om de accuraatheid van een steekproef te checken. Het enige wat je wel kunt doen, is kijken of je sampling techniek goed is. Zolang er een random sample is gebruikt, kun je meer vertrouwen hebben in de externe validiteit van je resultaten.

Wat als een representatieve steekproef niet heel belangrijk is?

Externe validiteit is vaak erg belangrijk voor frequentie claims, maar externe validiteit is niet altijd de top-prioriteit van onderzoekers. Dat is bijvoorbeeld het geval als ze associatie en causale claims onderzoeken. Veel associatie of causale claims kunnen accuraat onderzocht worden met een convenience sample. Bij frequentie claims moet je je afvragen of het belangrijk is of een steekproef random is uitgevoerd. Is de reden dat een steekproef gebiased is relevant voor je claim of niet? Zijn de eigenschappen van een bevolking die een steekproef biased maken relevant voor wat je aan het meten bent? Als ze niet belangrijk zijn, dan kun je soms niet-representatieve steekproeven vertrouwen.

Zijn grotere steekproeven beter?

Een van de grootste mythes in onderzoek is dat grotere steekproeven beter zijn. Wanneer een fenomeen zeldzaam is, dan heb je niet een grote steekproef voor de analyse. Vaak is het zo dat onderzoekers genoeg hebben aan 1000 mensen wanneer ze een populatie van een land zo groot als de Verenigde Staten willen onderzoeken. Normaal is het zo dat hoe groter een steekproef is, hoe kleiner de foutmarge wordt. Echter, na een steekproefgrootte van 1000 mensen heb je ontzettend veel meer proefpersonen nodig om de foutmarge maar een klein beetje beter te maken. Een steekproef van 1000 mensen wordt daarom gezien als een optimale balans tussen moeite en accuraatheid. Een steekproef van 1000 mensen zorgt er voor dat de resultaten gegeneraliseerd kunnen worden naar de populatie, zolang de steekproef random is uitgevoerd.

Wat houdt bivariaat correlationeel onderzoek in? - Chapter 8

Associatie claims zijn claims die de relatie tussen twee gemeten variabelen beschrijven. Een bivariate correlatie wordt ook wel een bivariate associatie genoemd en omschrijft een associatie tussen precies twee variabelen. Om associaties te onderzoeken moet men de variabelen onderzoeken bij dezelfde groep mensen. Vervolgens worden er statistische methodes en grafieken gebruikt om het type relatie tussen de variabelen te weergeven (positief, negatief of geen relatie). Relatief veel studies zijn correlationeel. Een voorbeeld van correlationeel onderzoek is het onderzoek van John Cacioppo naar internetliefde en tevredenheid in je huwelijk.

Cacioppo en zijn collega’s waren geïnteresseerd in de relatie tussen het online ontmoeten van je echtgenoot en huwelijkstevredenheid. Zij stuurden een vragenlijst via de mail naar duizenden mensen die uSamp (een online onderzoekscentrum) gebruikten. De proefpersonen hebben vragen beantwoord over waar ze hun echtgenoot hebben ontmoet (online of niet online). Ook werd hun huwelijkstevredenheid gemeten door de Couple Satisfaction Index (CSI). Deze bevat onder andere de vraag ‘Geef de mate van geluk in je huwelijk aan’, waarbij proefpersonen antwoord konden geven op een Likertschaal met zeven antwoordmogelijkheden (van heel erg ongelukkig tot perfect). Uit het onderzoek bleek dat mensen die elkaar online hadden ontmoet, hoger scoorden op de CSI. Uiteraard laat een correlationeel verband geen causaal verband zien en men moet dus voorzichtig zijn met het trekken van conclusies over dit onderzoek.

Hoe beschrijf je associaties tussen twee kwantitatieve variabelen?

Nadat je alle data hebt verzameld, kun je de relatie tussen de twee gemeten variabelen beschrijven aan de hand van een spreidingsdiagram en de correlatiecoëfficiënt r. Wanneer je de twee variabelen tegen elkaar afzet in een spreidingsdiagram en voor elk persoon de waardes als stippen noteert, dan kun je een lijn (laten) trekken door je puntenwolk. Als je lijn van linksonder naar rechtsboven loopt, dan spreken we van een positieve correlatie. Een positieve correlatie houdt in dat hoge scores op de ene variabele samen gaan met hoge scores op de andere variabele. Wanneer de lijn van linksboven naar rechtsonder loopt, dan is er sprake van een negatieve correlatie. Hoge scores op de ene variabele gaan dan samen met lage scores op de andere variabele. De kracht van de correlatie kan aangeduid worden met de correlatiecoëfficiënt r. Deze loopt van -1.0 tot 1.0 Een correlatie van .10 of -.10 heeft een zwakke effectgrootte, een r van .30 of -.30 heeft een matige effectgrootte en een correlatie van .50 of -.50 en groter heeft een grote effectgrootte. R laat dus de richting (positief of negatief) en sterkte van de relatie zien.

Hoe beschrijf je associaties als je werkt met categorische data?

Hierboven is omschreven hoe de associatie tussen twee variabelen beschreven kan worden. Echter, je moet er wel aan denken dat sommige variabelen categorisch zijn. In het voorbeeld dat gegeven werd over het onderzoek van Cacioppo is een van de variabelen een categorische variabele. Dat is de variabele die ging over het ontmoeten van je echtgenoot via internet. Mensen kunnen daar natuurlijk alleen maar ‘online’ of ‘offline’ op antwoorden. De waarden van een categorische variabele kunnen alleen maar in bepaalde vooraf vastgestelde categorieën vallen. De andere variabele (huwelijkstevredenheid) was kwantitatief. Men kon immers kiezen uit zeven antwoordmogelijkheden.

Wanneer beide variabelen van een associatie gemeten worden met kwantitatieve schalen, dan is het gebruikelijk om spreidingsdiagrammen te maken. De data kunnen op die manier het best gerepresenteerd worden. Een spreidingsdiagram is niet handig als een van de variabelen categorisch is. De punten die personen voorstellen, komen onder elkaar te staan (verticaal dus) voor het online ontmoeten van een echtgenoot en ook verticaal voor het offline ontmoeten van een echtgenoot. Het is hierdoor erg lastig om bij een categorische variabele aan het spreidingsdiagram te zien of de relatie met de andere variabele positief of negatief is. Het is handiger om een staafdiagram te maken. In een staafdiagram is elk persoon niet voorgesteld als een punt, maar in plaats daarvan worden de gemiddeldes voor elk categorie weergegeven. Met een staafdiagram kun je het verschil tussen de groepsgemiddelden onderzoeken.

Wanneer tenminste één van de variabelen in een associatie claim categorisch is, dan kunnen er verschillende statistische methodes gebruikt worden om de data te analyseren. Soms kan r gebruikt worden, maar het is gebruikelijker om te testen of de verschillen tussen de gemiddelden statistisch significant zijn. Dit wordt vaak gedaan met de t-test.

Hoe onderzoek je associatie claims?

De belangrijkste validiteiten die onderzocht moeten worden bij associatie claims, zijn constructvaliditeit en statistische validiteit. Soms kan men ook de externe validiteit onderzoeken. De interne validiteit is niet relevant voor associatie claims.

Wat houdt constructvaliditeit in voor associatie claims?

Omdat een associatie claim de relatie tussen twee gemeten variabelen beschrijft, is het belangrijk om naar de constructvaliditeit van beide variabelen te kijken. Men moet dus kijken hoe goed elk van de twee variabelen gemeten is. Je kunt je daarbij afvragen of de maat betrouwbaar is en of de maat meet wat het behoort te meten. Ook kun je je afvragen wat het bewijs voor face, discriminante, convergente en concurrent validiteit van de variabele is.

Wat houdt de statistische validiteit van een associatie claim in?

Wanneer je statistische validiteit van een associatie claim onderzoekt, dan wil je dus eigenlijk weten of en welke factoren een invloed hebben gehad op de data. Er moet gekeken worden naar effectgrootte, uitbijters, restricties in spreiding en de statistische significantie van de relatie.

Wat is een effectgrootte?

Het eerste wat de statistische validiteit van een onderzoek bepaalt is hoe sterk de relatie tussen de variabelen is. Dit wordt weergegeven als een effectgrootte. Een effectgrootte beschrijft dus hoe sterk de relatie tussen twee of meer variabelen is. Voor het omschrijven van een effectgrootte worden de termen: zwak, gemiddeld en sterk gebruikt. Deze termen representeren respectievelijk r-waardes van 0.1, 0.3 en 0.5. Over het algemeen is het zo dat hoe groter een effectgrootte, hoe belangrijker we het resultaat vinden. Echter gaat dit niet altijd op. Zo kan een kleine effectgrootte bijvoorbeeld erg belangrijk zijn als deze in vele situaties of voor veel verschillende mensen geldt. Een voorbeeld hiervan is te zien in het onderzoek van Yeager. Deze onderzoeker vergeleek de cijfers van leerlingen met een 'growth mindset' versus de cijfers van een controlegroep. Het verschil tussen de twee groepen had een r van slechts 0.05. Door statistische analyses kwam Yeager erachter dat deze effectgrootte in de echte wereld gelijk zou staan aan tachtigduizend tieners die voldoendes zouden halen in plaats van onvoldoendes. Een kleine effectgrootte kan dus heel belangrijk zijn als we dit verspreiden over veel mensen of situaties.

Hoe bepalen we hoe precies onderzoeksresultaten zijn?

De correlatie tussen twee variabelen zoals we deze vinden in een studie bij proefpersonen is een schatting van de echte correlatie in de populatie. Om te weergeven hoe precies deze schatting is, rapporteren onderzoekers vaak een 95% betrouwbaarheidsinterval (BHI). In 95% van de gevallen zal de echte correlatie zoals deze is in de populatie dus binnen dit interval vallen. Hoe groter de steekproef, hoe preciezer de BHIs worden en hoe kleiner de steekproef, hoe minder precies. Bij kleinere steekproeven zijn de BHIs minder precies omdat deze moeten compenseren voor een mogelijk grotere foutmarge. Als het getal nul niet binnen een BHI valt dan kunnen we concluderen dat een associatie tussen variabelen statistisch significant is. Als een correlatie statistisch significant is dan betekent dit dat het onwaarschijnlijk is dat deze gevonden is in een populatie waarin de associatie in werkelijkheid niet bestaat. Met andere woorden: de kans is klein dat het verband tussen de variabelen berust op toeval. Als een BHI wel het getal nul bevat dan kunnen we niet met zekerheid zeggen of er in werkelijkheid een associatie tussen de variabelen bestaat. We zeggen dan dat een associatie niet statistisch significant is.

Wat is replicatie?

Als onderzoekers een replicatie van een onderzoek doen dan betekent dit dat ze het onderzoek opnieuw doen. Ze herhalen het op precies dezelfde manier als het eerdere onderzoek en verkrijgen hiermee nieuwe resultaten. Dit kan een belangrijkere stap zijn om te onderzoeken hoe de associatie tussen variabelen er in de populatie uitziet.

Wat zijn uitbijters?

Een uitbijter is een extreme score die niet in lijn ligt met de andere scores. Liggend aan op welke manier de score opvallend is, kan deze een grote invloed uitoefenen op de correlatie tussen de variabelen. Een uitbijter kan een correlatie sterker of zwakker laten lijken dan deze is. Bij een bivariate correlatie kunnen uitbijters vooral problematisch zijn als er sprake is van extreme scores op beide variabelen. Een voorbeeld hiervan is dat iemand die zowel heel erg lang als heel erg zwaar is een correlatie sterker kan laten lijken, terwijl iemand die zowel heel erg klein als zwaar is de correlatie juist zwakker kan laten lijken. Het is dus erg belangrijk om uitbijters te identificeren als we te maken hebben met een associatie claim. Dit kan door te kijken naar het spreidingsdiagram en te bepalen of er datapunten zijn die opvallen. Hierbij is het belangrijk om te onthouden dat uitbijters meer invloed hebben op het moment dat de steekproef kleiner is, dan wanneer hij groter is.

Wat betekent een restrictie in spreiding?

Een restrictie in spreiding houdt in dat het volledige bereik van scores op een van de variabelen niet omvat wordt, waardoor een correlatie kleiner lijkt dan deze in werkelijkheid is. Onderzoekers kunnen dit corrigeren via een formule die de volledige spreiding van scores schat baseert op wat we weten over de set scores met de restrictie. Deze formule gebruikt dan de volledige spreiding van scores om opnieuw de correlatie tussen de variabelen te berekenen. Een restrictie in spreiding kan voorkomen als één van de variabelen weinig variantie heeft. Als onderzoekers bijvoorbeeld de invloed van inkomen van ouders op schoolprestaties van het kind willen onderzoeken, maar ze nemen alleen maar hogere klasse families mee. Naast statistische technieken kunnen onderzoekers deze restrictie ook corrigeren door meer mensen te rekruteren voor hun steekproef die de spreiding groter maken. In het bovenstaande voorbeeld zou dat dus betekenen dat er meer families uit de lagere klassen gerekruteerd worden.

Wat is een curvilineaire relatie?

Als er sprake is van een curvilineaire associatie, dan betekent dit dat de relatie tussen twee variabelen geen rechte lijn is. We spreken hier bijvoorbeeld van als een relatie tussen twee variabelen eerst negatief is en dan na een bepaald punt ineens positief wordt. Dit is van grote invloed op de r-waarde, die de best passende rechte lijn door de data heen weergeeft. Een r-waarde kan dus niet goed een curvilineaire relatie beschrijven. Het is dus belangrijk om naar de spreidingsdiagram te kijken als de r-waarde lager uitvalt dan we denken, om zo na te gaan of er sprake is van een curivlineaire relatie tussen de variabelen. Als dit het geval is kunnen onderzoekers de correlatie opnieuw berekenen, maar dan tussen één van de variabelen en het kwadraat van de andere variabele.

Wat is interne validiteit bij een associatie claim?

Formeel gezien is het niet nodig om de interne validiteit van een associatie claim te controleren, maar wel is het belangrijk om te onthouden dat een associatie tussen twee variabelen geen causaal verband betekent. Dat er een correlatie tussen de variabelen is betekent niet dat de ene variabele de waardes van de andere variabele veroorzaakt. Om te spreken van een causale relatie moet er aan drie criteria voldaan worden, die we ook bij associatie claims kunnen onthouden en checken:

  • Covariantie van oorzaak en gevolg: er moet een correlatie of associatie zijn tussen de oorzaak variabele en de effect variabele.
  • Temporele precedentie: de onderzoeksmethode moet zo gekozen worden dat de oorzaak variabele vooraf gaat aan de effect variabele. Dit wordt ook wel het directionaliteitsprobleem genoemd: soms weten we namelijk niet welke variabele eerst kwam.
  • Interne validiteit: er moet geen aannemelijke alternatieve verklaring zijn voor de relatie tussen de twee variabelen. Dit wordt ook wel het derde variabele probleem genoemd: als er een alternatieve verklaring is voor de relatie tussen twee variabelen, dan is dit vaak een derde variabele die invloed uitoefent. Een voorbeeld zou zijn dat je een correlatie vindt tussen de lengte van een persoon en de lengte van hun haar, waarbij je erachter komt dat langere mensen korter haar hebben. De derde variabele hier zou geslacht kunnen zijn: mannen zijn over het algemeen langer dan vrouwen en hebben ook vaker kortere kapsels. De relatie tussen lengte van een persoon en lengte van hun haar wordt dus veroorzaakt door de derde variabele 'geslacht'. Als er een relatie tussen twee variabelen is die alleen bestaat vanwege een derde variabele dan wordt dit ook wel een spurious associatie genoemd.

Hoe bekijken we externe validiteit bij een associatie claim?

Als we naar de externe validiteit van een associatie claim kijken, dan vragen we ons af of we de associatie kunnen generaliseren naar andere mensen, plaatsen en tijden. Hierbij oefent de grootte van een steekproef minder invloed uit dan de manier waarop we de steekproef uit de populatie getrokken hebben. Meestal is de externe validiteit goed op het moment dat er gebruik is gemaakt van een vorm van random sampling. Hier moet wel bij gezegd worden dat we onderzoek niet zomaar mogen afschrijven op het moment dat er geen gebruik gemaakt is van random sampling, omdat soms de conclusies nog steeds valide zijn. Dit hangt van de studie af.

Het kan voorkomen dan de relatie tussen twee variabelen verandert, afhankelijk van het niveau van een andere variabele. Deze andere variabele wordt dan een moderator genoemd. Een voorbeeld hiervan is dat Lister-Landman een relatie vond tussen compulsief Whatsappen en schoolprestaties, maar alleen voor meisjes. In dit geval was geslacht dus een moderator van de relatie tussen compulsief Whatsappen en schoolcijfers.

Wat houdt multivariaat correlationeel onderzoek in? - Chapter 9

Associatie claims kunnen veel informatie geven. Een bekend voorbeeld van een associatie is dat kinderen die veel geweld op tv zien zich ook agressief gedragen. Toch zegt dat niks over de causaliteit. We zijn vaak niet alleen maar geïnteresseerd in correlatie, we willen weten wat de oorzaak was van het gevolg. Je wilt echt weten of kinderen agressief worden door het kijken naar gewelddadige tv-programma’s. De reden dat we zulke dingen willen weten, is natuurlijk omdat we een interventie willen bedenken. Als kinderen echt gewelddadig worden door gewelddadige programma’s, dan zouden ouders ervoor moeten zorgen dat ze deze programma’s niet meer kijken. De beste manier om causaliteit te testen, is door een experiment te gebruiken. Echter, soms kom je al een heel eind door andere technieken. In dit hoofdstuk worden technieken besproken die verder dan correlaties gaan en causaliteit benaderen.

In het vorige hoofdstuk werd bivariate correlationeel onderzoek besproken. Dat onderzoek keek telkens alleen naar twee gemeten variabelen. Longitudinaal onderzoek en multiple-regressie designs gaan over meer dan twee gemeten variabelen en ze worden daarom ook wel multivariate designs genoemd. Deze designs zijn niet de oplossing voor het causaliteits-criterium, maar ze zijn erg nuttig, worden vaak gebruikt en zijn een oplossing wanneer men geen experimenten kan gebruiken. Het onderzoek naar de relatie tussen gewelddadige programma’s kijken en agressief gedrag is een voorbeeld van bivariate correlationeel onderzoek. Deze voldoet niet aan de drie criteria voor causaliteit. Er kan in dat onderzoek wel vastgesteld worden dat er covariantie is, omdat onderzoek heeft aangetoond dat de correlatie tussen het kijken van gewelddadige programma’s en agressief gedrag .35 is. Echter, het is niet mogelijk om met dit design vast te stellen wat er eerst kwam: de gewelddadige programma’s kijken en dan agressief worden of agressief zijn en gewelddadige programma’s kijken? Ook is er geen goede interne validiteit, omdat de relatie tussen gewelddadige programma’s kijken en agressief gedrag verklaard zou kunnen worden door een derde variabele. Met bivariate designs kun je dus niet goed vaststellen wat er eerst kwam en of andere variabelen invloed hebben uitgeoefend op de relatie.

Hoe kun je temporele precedentie vaststellen met longitudinale designs?

Longitudinale designs kunnen temporele precedentie vaststellen door dezelfde variabelen bij dezelfde persoon op verschillende tijdspunten te meten. Longitudinale designs worden vaak gebruikt in de ontwikkelingspsychologie om de veranderingen in bepaalde karaktereigenschappen van mensen te bestuderen. Eron voerde in de jaren ’60 en ’70 van de vorige eeuw een onderzoek uit naar gewelddadige programma’s kijken en agressiviteit. Hij vroeg kinderen op een basisschool wat hun vier favoriete tv-programma’s waren en hij vroeg elk kind uit de klas ook welke kinderen uit de klas de meeste ruzie maakten, sloegen, gemeen waren en duwden. Tien jaar later stelde hij weer dezelfde vragen aan dezelfde kinderen (die nu tieners waren). Dit onderzoek is longitudinaal omdat Eron dezelfde variabelen in dezelfde groep mensen tien jaar later opnieuw gemeten heeft. Ook is het een voorbeeld van een multivariate correlationeel onderzoek, omdat het vier variabelen meenam: agressieve programma’s kijken op tijdstip één, agressieve programma’s kijken op tijdstip twee, agressie op tijdstip één en agressie op tijdstip twee.

Hoe moet je de resultaten van longitudinale onderzoeken interpreteren?

Er zijn meer dan twee variabelen betrokken in een multivariate correlationeel design en je design zal daarom ook meerdere correlaties geven. Dit kunnen de volgende zijn:

  • Cross-sectionele correlaties: kijken of twee variabelen die op hetzelfde punt in de tijd gemeten zijn met elkaar correleren. Een voorbeeld uit Erons studie zou de correlatie tussen agressieve programma's kijken op tijdstip één met agressie op tijdstip één zijn.
  • Autocorrelaties: de correlatie van een bepaalde variabele met zichzelf als we deze op twee verschillende tijden meten. Een voorbeeld uit Erons studie is hier de correlatie tussen agressie op tijdstip één en agressie op tijdstip twee.
  • Cross-lag correlaties: laten zien of de eerdere meting van één variabele geassocieerd is met een latere meting van een andere variabele. Deze correlaties pakken dus het directionaliteitsprobleem aan en zorgen ervoor dat we temporele precedentie kunnen vaststellen. Een voorbeeld is de correlatie tussen agressieve programma's kijken op tijdstip één met agressie op tijdstip twee.

Hoe zit het met de drie criteria voor causaliteit in longitudinale onderzoeken?

Longitudinale studies kunnen ten eerste covariantie vaststellen. Dit kan als de twee variabelen die onderzocht worden met elkaar correleren en hun 95% betrouwbaarheidsintervallen het getal nul niet bevatten. Dan is er sprake van covariantie. Daarnaast kan een longinaal onderzoek ook temporele precedentie vaststellen doordat elke variabele op verschillende tijden gemeten wordt. Onderzoekers vergelijken dan de cross-lag correlaties en kijken welke sterker is. Als slechts één statistisch significant is dan is het waarschijnlijker dat oorzaak variabele uit die correlatie eerst komt en dus de andere variabele beïnvloedt. Een probleem ontstaat echter bij het vaststellen van de interne validiteit. Longitudinaal onderzoek kan geen interne validiteit vaststellen, omdat er slechts twee variabelen gemeten worden. Of er een derde variabele in het spel is, kan dus niet worden uitgesloten.

Waarom zouden we kiezen voor een longitudinaal onderzoek in plaats van een experiment?

Sommige mensen zullen zich afvragen waarom onderzoekers van longitudinale studies zo veel moeite doen om dezelfde proefpersonen tien jaar later weer op te sporen en er niet gewoon voor kiezen om een experiment te doen. De reden is dat mensen vaak niet toegeschreven kunnen worden aan condities zoals dit bij een experiment wel gebeurt. Het is dus soms lastig om variabelen te manipuleren. Zo kun je bijvoorbeeld een persoon niet opdragen wat zijn lievelingsprogramma op de televisie moet zijn. Daarnaast kan het in sommige gevallen onethisch zijn om personen aan een bepaalde groep toe te schrijven. Zo zou het onethisch zijn geweest als Eron kinderen toegewezen had aan de groep die gewelddadige programma’s op tv moest kijken.

Hoe kunnen multiple-regressie designs derde variabelen buiten sluiten?

Multipele regressie of multivariate regressie is een statistische techniek waarbij we bepaalde derde variabelen kunnen uitsluiten. Ze oefenen hierdoor geen invloed meer uit op de relatie tussen twee bepaalde variabelen en hierdoor kunnen we de interne validiteit van een onderzoek waarborgen. Dit betekent dat multipele regressie controleert voor de invloed van een mogelijke derde variabele op de relatie tussen twee anderen. Om multipele regressie te kunnen uitvoeren, moet je altijd naast de twee hoofdvariabelen die je wil onderzoeken ook nog een aantal andere variabelen meten zodat je hun onderlinge relaties kan onderzoeken. Dit wordt een multivariate correlationele studie genoemd.

Er wordt bij een multipele regressie dus gekeken naar drie of meer variabelen. De variabele waar de onderzoeker het meest geïnteresseerd in is noemen we de criterion variabele of de afhankelijke variabele. De overige variabelen in een regressie analyse worden de predictor variabelen of de onafhankelijke variabelen genoemd. De statistische maat van een multipele regressie is geen r-waarde, maar in plaats daarvan wordt er gebruikgemaakt van een bèta. Elke predictor variabele krijgt een bèta waarde, welke de richting en de sterkte van de relatie tussen de predictor en criterion variabele laat zien als we zouden controleren voor de invloed van de andere predictor variabelen. Hoe hoger de bèta, hoe sterker de relatie. Deze bèta is een gestandaardiseerde waarde. Dit betekent dat ondanks dat je bijvoorbeeld één predictor variabele in centimeters gemeten kan hebben en weer een andere in aantal minuten, je de bèta's onderling kan vergelijken omdat ze een standaard maat hebben. We kunnen voor deze bèta's ook betrouwbaarheidsintervallen maken of er een p-waarde aan geven. Als een 95% betrouwbaarheidsinterval de waarde nul niet bevat of de p-waarde is lager dan 0.05, dan spreken we van een statistisch significant resultaat.

Aan een multipele regressie kunnen verschillende predictor variabelen toegevoegd worden. Dit hoeft er dus niet maar één te zijn. Dit heeft als voordeel dat er op deze manier gelijk gecontroleerd wordt voor verschillende derde variabelen tegelijkertijd. Daarnaast kan het zo zijn dat je op deze manier variabelen ontdekt buiten de variabelen waarin je in eerste instantie geïnteresseerd in was om, die ook een belangrijke invloed op de relatie uitoefenen.

In populaire tijdschriften of kranten worden vaak ook resultaten van een onderzoek uitgelicht. Vaak is het wel zo dat termen zoals ‘bèta,’ ‘p’ en ‘significantie’ niet genoemd worden. Toch kun je aan de hand van enkele termen zien dat het gaat om een multipele regressie. Termen zoals ‘controleren voor andere variabelen,’ ‘rekening houden met andere variabelen,’ en ‘correctie voor andere variabelen’ laten zien dat er gebruik is gemaakt van multipele regressie.

Kan regressie causaliteit vaststellen?

Ook al voeg je 20 variabelen toe die als potentiële derde variabelen gezien kunnen worden, dan betekent het niet dat je aan alle voorwaarden voor causaliteit hebt voldaan. Multipele regressie designs kunnen bepaalde derde variabelen uitsluiten, maar ze kunnen geen temporele precedentie vaststellen. Daarnaast kunnen ze ook niet controleren voor derde variabelen die niet opgenomen zijn in het onderzoek. Het kan voorkomen dat onderzoekers er zich niet bewust van zijn dat er een bepaalde variabele is die invloed uit zou kunnen oefenen op de relatie tussen de criterion en predictor variabele. Deze variabele zal dan niet opgenomen worden in het onderzoek en de conclusie die men trekt aan de hand van de resultaten van het onderzoek zal vertekend zijn. Het probleem met potentiële derde variabelen kan eigenlijk alleen maar opgelost worden door experimenten uit te voeren. Door het willekeurig toeschrijven van proefpersonen aan bepaalde condities sluit je invloed van derde variabelen zo goed mogelijk uit. Alleen experimenten kunnen dus causaliteit vaststellen.

Wat betekenen pattern en parsimony voor causaliteit?

Parsimony is de mate waarin een goede wetenschappelijke theorie de meest simpele verklaring kan bieden voor een fenomeen. In causale claims refereert parsimony naar de simpelste verklaring voor een patroon in je data.

Een bekend fenomeen dat vaak onderzocht is, wordt als voorbeeld genomen; tientallen jaren geleden zag men in dat er meer rokers dan niet-rokers waren die longkanker hadden. Fabrikanten van sigaretten wilden natuurlijk niet dat hun verkoop zou dalen en zij beweerden dat er andere factoren waren die invloed hadden op de gevonden correlatie tussen roken en longkanker. Multipele regressie analyses zouden bepaalde derde variabelen kunnen uitsluiten, maar omdat het onmogelijk was om alle derde variabelen in onderzoek op te nemen en uit te sluiten bleven mensen met alternatieve verklaringen komen, zoals bijvoorbeeld stress of het drinken van koffie. Ook konden er geen experimenten uitgevoerd worden, omdat het niet ethisch is om bepaalde proefpersonen toe te schrijven aan een roker conditie. De enige gegevens die onderzoekers hadden, waren gegevens uit correlationeel onderzoek.

Met de correlationele gegevens moest men een simpel mechanisme bedenken, dat roken met longkanker verbond. Het meest logische was om te zeggen dat er in de rook van sigaretten chemicaliën zitten die giftig zijn wanneer ze in contact komen met menselijk weefsel. Hoe meer contact een persoon heeft met deze chemicaliën, hoe meer hij of zij blootgesteld wordt aan de giftige stoffen. Aan de hand hiervan konden voorspellingen worden gemaakt, zoals dat stoppen met roken de kans op kanker vermindert, dat mensen die met rokers wonen vaker kanker krijgen dan mensen die niet met rokers wonen en dat mensen die filtersigaretten roken iets minder kans op kanker hebben dan zij die ongefilterde sigaretten roken. Deze konden vervolgens worden getest.

Voor al deze aparte voorspellingen werd bewijs gevonden. Omdat deze allemaal gebaseerd waren op dezelfde verklaring/hetzelfde principe, namelijk "sigaretten rook bevat chemicaliën die giftig zijn voor menselijk weefsel en hoe meer je daarmee in aanraking komt hoe hoger je kans op kanker" werd er dus geconcludeerd dat er sterke parsimony was: dit was waarschijnlijk de simpelste, beste verklaring. Door de diversiteit van de voorspellingen en bevindingen bleek het ook moeilijker om met nieuwe verklaringen te komen gebaseerd op derde variabelen. Het drinken van koffie zou bijvoorbeeld wel samen kunnen gaan met lang roken en zo kanker kunnen helpen veroorzaken, maar het kan het vaker voorkomen van kanker bij mensen die met rokers wonen, niet verklaren.

Wat is mediatie?

Vaak willen wetenschappers weten waarom er een bepaalde relatie bestaat tussen twee of meer variabelen. Erg vaak is er sprake van een mediator: een variabele via waar de relatie tussen andere variabelen verloopt. Een voorbeeld hiervan is dat er een relatie bestaat tussen de hoeveelheid diepzinnige gesprekken die iemand heeft en hun welzijn. Echter loopt deze relatie via de kwaliteit van je sociale contacten. Dus: een grote hoeveelheid diepzinnige gesprekken met iemand leidt tot een hogere kwaliteit van je sociale contact en de hogere kwaliteit van dit contact leidt uiteindelijk tot beter welzijn.

Hypotheses over een mogelijke mediator zijn dus causale claims, omdat ze ervan uitgaan dat één variabele iets anders veroorzaakt. Hierom kunnen we alleen zeggen dat er sprake is van mediatie als er ook sprake is van temporele precedentie: de causale variabele moet eerst gemeten of gemanipuleerd zijn, gevolgd door de mediator en daarna gevolgd door de uitkomst variabele.

Mediatoren lijken op derde variabelen omdat we ze allebei kunnen testen met multipele regressie. Echter is er wel een verschil. Als we zeggen dat een derde variabele een relatie kan verklaren, dan komt dit doordat beide andere variabelen een relatie hebben met de derde en het daardoor lijkt alsof deze andere variabelen ook een relatie hebben. Een voorbeeld hiervan is dat we zouden kunnen denken dat er een relatie bestaat tussen de hoeveelheid diepzinnige gesprekken en welzijn, terwijl dit eigenlijk komt door je opleidingsniveau. Met andere woorden: de hoeveelheid diepzinnige gesprekken die je hebt, wordt verklaard door je opleidingsniveau (hoe hoger hoe vaker) en je welzijn wordt verklaard door je opleidingsniveau (hoe hoger hoe beter) en daardoor denken we dat deze twee variabelen ook een relatie zouden hebben met elkaar, terwijl dit niet het geval is. Contrasterend is een mediator een variabele via waar de relatie verloopt, bijvoorbeeld: diepzinnige gesprekken voeren leidt tot goede sociale contacten wat dan weer leidt tot welzijn.

Wat is het verschil tussen mediatoren en moderatoren?

Als wetenschappers kijken naar een mediator vragen ze zich af waarom twee andere variabelen met elkaar in verband staan. Als wetenschappers kijken naar een moderator kijken ze echter naar of de twee variabelen altijd op dezelfde manier met elkaar in verband staan en of dit gelijk is voor iedereen in elke situatie. Mediatoren verklaren dus 'waarom', terwijl moderatoren kijken naar 'wanneer, hoe en voor wie' een relatie geldt.

Hoe zit het met de vier validiteiten in multivariate designs?

Bij multivariate designs wordt gebruikgemaakt van multipele regressie, waardoor interne validiteit vaak redelijk goed is. Toch moeten we ook nog kijken naar de construct, externe en statistische validiteit. Dus: we moeten kijken naar hoe goed elke variabele gemeten is, of we de resultaten van het onderzoek kunnen generaliseren en of er sprake was van een random steekproef en of er sprake is van statistische significantie en replicatie van het onderzoek.

Hoe kunnen causale claims geëvalueerd worden met behulp van experimenten? - Chapter 10

 

Wat zijn de variabelen in een experiment?

In de psychologie betekent experiment dat een onderzoeker minimaal één variabele manipuleert en een andere variabele meet. Experimenten kunnen in een laboratorium plaatsvinden of ergens anders, zolang er maar minimaal een variabele gemanipuleerd en een variabele gemeten kan worden. Een gemanipuleerde variabele is een variabele die de onderzoekers proberen te controleren, door bijvoorbeeld participanten bij een bepaald niveau van de variabele in te delen. Gemeten variabelen zijn vastgelegde gedragingen of attitudes. Dit gebeurt vaak via zel-rapportage, gedragsobservatie of fysiologische metingen. De variabele die gemanipuleerd wordt, wordt ook wel de onafhankelijke variabele genoemd, terwijl de gemeten variabele ook wel bekend staat als de afhankelijke variabele. De verschillende niveaus van de gemanipuleerde/onafhankelijke variabele waar onderzoekers participanten aan toeschrijven worden ook wel condities genoemd. De gemanipuleerde variabele 'bepaalt' als het ware hoe proefpersonen zich gedragen op de gemeten variabele.

Een experiment moet minimaal één onafhankelijke en één afhankelijke variabele hebben. Vaak bestuderen onderzoekers echter meerdere afhankelijke variabelen met één experiment. Als deze afhankelijke variabelen op verschillende schalen gemeten worden dan moeten deze weergegeven worden in verschillende grafieken. In een grafiek staat de onafhankelijke variabele vrijwel altijd op de x-as en de afhankelijke variabele op de y-as.

Onderzoekers moeten altijd zorgen dat ze maar één ding tegelijkertijd variëren, namelijk de mogelijke oorzaak van de verschillen op de afhankelijke variabele. Hierom is het belangrijk dat onderzoekers controleren voor derde variabelen. Dit doen ze door alleen de onafhankelijke variabele te variëren en verder alle overige factoren constant te houden. Een variabele die een onderzoeker bewust constant probeert te houden noemen we een controle variabele. Door dit te doen sluiten onderzoekers alternatieve verklaringen voor gevonden resultaten uit. Dit betekent dat controle variabelen erg belangrijk zijn voor het vaststellen van interne validiteit.

Waarom steunen experimenten causale claims?

Hoe zit het met de covariantie en temporele precedentie in experimenten?

In experimenten komen vergelijkingsgroepen voor. Experimenten zijn dus betere bronnen van informatie dan je eigen ervaring, omdat je je eigen ervaring niet echt kunt vergelijken met een andere groep. Experimenten manipuleren een onafhankelijke variabele en elke onafhankelijke variabele heeft twee levels, dus ware experimenten proberen altijd naar covariantie te kijken. Een onafhankelijke variabele kan op bepaalde manieren covarianties laten zien. Een controlegroep is een level van de onafhankelijke variabele die ‘geen behandeling’ of een neutrale conditie voorstelt. Wanneer een onderzoek een controlegroep heeft, dan wordt/worden andere level/levels de behandelgroep(en) genoemd. Een behandelgroep is een groep waarin het niveau van de onafhankelijke variabele wel gevarieerd is. Als we een controlegroep wel blootstellen aan een behandeling, maar deze behandeling doet of verandert eigenlijk niks, dan noemen we dit een placebogroep of een placebo controlegroep. In het kort: door het hebben van verschillende groepen die we kunnen vergelijken, kunnen we vaststellen dat er een verband bestaat tussen het niveau van de ene variabele en de andere variabele, of zelfs meer dan twee variabelen.

In experimenten kan temporele precedentie ook gecontroleerd worden. Immers, onderzoekers manipuleren eerst een onafhankelijke variabele en kijken dan naar de afhankelijke variabele. Een experiment zorgt er dus voor dat de oorzaak variabele voor de effect variabele komt.

Hoe zit het met de interne validiteit van experimenten?

Voor causale claims is interne validiteit belangrijk. Een onderzoek heeft goede interne validiteit als het verzekert dat de causale variabele als enige verantwoordelijk is voor de verandering in de effect of uitkomst variabele en er geen andere factoren bij betrokken zijn. Deze andere factoren of alternatieve verklaringen worden confounds genoemd en ze vormen een bedreiging voor de interne validiteit. Er zijn verschillende confounds voor interne validiteit.

Een design confound: een vergissing van een onderzoeker bij het ontwerpen van de onafhankelijke variabele, waarbij een tweede variabele toevallig systematisch mee-varieert met de onafhankelijke variabele waar de onderzoeker interesse in heeft. Deze andere variabele die systematisch mee-varieert is in dit geval dus een alternatieve verklaring voor gevonden resultaten en hiermee een bedreiging voor de interne validiteit. Hierbij moet echter wel gezegd worden dat niet elke andere variabele een confound is en dus een dreiging vormt voor de interne validiteit. Andere variabelen zijn alleen een bedreiging op het moment dat ze systematische mee-variëren met de onafhankelijke variabele. Als er sprake is van niet systematische variatie dan is het geen confound.

Er is sprake van een selectie effect wanneer de soort proefpersonen in één level van de onafhankelijke variabelen systematisch anders zijn dan de proefpersonen in een andere level van de onafhankelijke variabele. Selectie effecten kunnen gebeuren wanneer onderzoekers de proefpersonen laten kiezen in welke groep ze willen zitten. Er is ook sprake van een selectie effect als een onderzoeker één bepaald soort participant aan één conditie toeschrijft en een ander type participant aan een andere conditie (bijvoorbeeld één conditie met voornamelijk vrouwen en één conditie met voornamelijk mannen). Om dit te vermijden kan gebruikgemaakt worden van random toeschrijving: participanten worden random aan condities toegewezen. Elke participant heeft nu een even grote kans om in elke groep terecht te komen. Op deze manier worden alle groepen in het experiment gemiddeld ongeveer gelijk nog voordat we de onafhankelijke variabele variëren.

Naast deze simpele variant van randoem toeschrijving is er ook nog een variant waarbij onderzoekers nog harder hun best doen om te zorgen dat de experimentele groepen zo gelijk mogelijk zijn als maar kan voordat ze de onafhankelijke variabele variëren. Dit wordt matched groups of matching genoemd. De onderzoekers meten dan participanten op een bepaalde variabele die mogelijk invloed uitoefent op de afhankelijke variabele en delen de participanten daarna op in paren, waarbij elk van de personen in het paar een ongeveer gelijk niveau van de variabele vertoond. Een voorbeeld hiervan zou zijn om twee participanten met een ongeveer gelijk IQ, of gelijk gemiddeld cijfer als paar in te delen. Daarna schrijven ze dan één participant uit het paar random toe aan de ene conditie, terwijl de andere participant in de andere conditie ingedeeld wordt. Ook dit voorkomt selectie effecten en zorgt ervoor dat participanten op belangrijke variabelen die mogelijk invloed uitoefenen, gemiddeld genomen gelijk zijn.

Wat zijn independent-groups designs?

Experimenten kunnen vele vormen aannemen. In een independent-groups design worden verschillende groepen proefpersonen in verschillende levels van de onafhankelijke variabele geplaatst. Dit wordt ook wel een between-group design genoemd.

Twee vormen van de independent-groups design zijn de posttest-only design en de pretest/posttest design. In het posttest-only design worden proefpersonen op een random manier in de groepen van de onafhankelijke variabele ingedeeld en vervolgens één keer op de afhankelijke variabele getest. Het posttest-only design voldoet aan alle drie criteria van causaliteit. In een pretest/posttest design worden proefpersonen op een random manier in twee groepen ingedeeld en ze worden twee keer getest op de afhankelijke variabele: één keer voor de blootstelling aan de onafhankelijke variabele en één keer na de blootstelling aan de onafhankelijke variabele. Onderzoekers kunnen een pretest/posttest design gebruiken als ze willen evalueren of de random toeschrijving de groepen gelijk heeft gemaakt. Dit wordt vooral gedaan wanneer groepen klein zijn. Onderzoekers kunnen er op deze manier zeker van zijn dat er geen selectie effect is. Een pretest-posttest design kan ook laten zien hoe proefpersonen in de experimentele conditie zijn veranderd door de tijd heen. Een pretest/posttest design is handig, maar het kan niet altijd uitgevoerd worden. Echter, het posttest-only design is al een goede manier om onderzoek te doen.

Wat zijn within-groups designs?

In een within-groups design of within-subjects design is er maar een groep van proefpersonen en elk persoon wordt aan elk level van de onafhankelijke variabele blootgesteld.

Er zijn twee typen van within-groups designs. In het concurrent-measures design worden proefpersonen blootgesteld aan alle levels van een onafhankelijke variabele op ongeveer hetzelfde moment, waarbij een enkele gedraging of attitude de afhankelijke variabele is. Een voorbeeld hiervan is een onderzoek waarin wetenschappers keken of baby's een voorkeur hadden voor mannengezichten of vrouwengezichten. Ze lieten baby’s tegelijkertijd kijken naar foto’s van mannen- en vrouwengezichten. Een onderzoeker heeft toen gemeten naar welk gezicht ze het langst keken. De onafhankelijke variabele was het geslacht van het gezicht en de baby’s werden blootgesteld aan beide levels van de onafhankelijke variabele op hetzelfde moment. De voorkeur van de baby’s was de afhankelijke variabele. In een repeated-measures design worden proefpersonen meer dan één keer op de afhankelijke variabele gemeten- dus na blootstelling aan elk level van de onafhankelijke variabele.

Het voordeel van een within-groups design is dat het verzekerd dat de proefpersonen in de twee groepen gelijk zullen zijn, omdat het dezelfde proefpersonen zijn. Elk proefpersoon kan vergeleken worden met zichzelf. Een persoon is dus zijn of haar eigen controlepersoon. Met zo’n design kunnen onderzoekers ook met meer zekerheid zeggen dat er een effect te zien is tussen de condities. Dit komt omdat alle verschillen, behalve die in de onafhankelijke variabele, gelijk worden gehouden. Hierdoor is het waarschijnlijker dat onderzoekers een effect van de manipulatie van de onafhankelijke variabele zullen vinden, als er een is. Deze zekerheid wordt ook wel power genoemd. Power verwijst naar de mogelijkheid van een studie om een statistisch significant resultaat te laten zien wanneer een onafhankelijke variabele echt een effect heeft in de populatie. Een within-groups design kan ook als een fijne manier van onderzoek gezien worden, omdat er minder proefpersonen nodig zijn.

Hoe zit het met de drie criteria van causaliteit in within-groups designs?

Within-group design kunnen de interne validiteit soms ten slechte komen. Het blootgesteld worden aan de ene conditie kan veranderen hoe proefpersonen reageren op de andere condities. Dit verschil in reactie door eerst blootgesteld te worden aan een conditie en dan nog aan een andere wordt een order effect genoemd. Order effecten komen voor wanneer de blootstelling aan een level van de onafhankelijke variabele invloed heeft op de responsen van de volgende level van de onafhankelijke variabele. Deze order effecten zijn confounds. Order effecten kunnen bestaan uit oefening ('practice') effecten. Deze effecten worden ook wel vermoeidheid ('fatigue') effecten genoemd. Dit houdt in dat iemand na erg lang dezelfde taak te doen er of beter in wordt, of hem bijvoorbeeld saai gaat vinden. Order effecten kunnen ook carryover effecten bevatten, wanneer een bepaalde contaminatie overwaait van de ene conditie naar de volgende.

Om order effecten te voorkomen, kunnen onderzoekers counterbalancing toepassen. Dit houdt in dat onderzoekers de levels van de onafhankelijke variabelen in verschillende volgordes aan proefpersonen presenteren. Wanneer onderzoekers counterbalancing willen gebruiken, dan moeten ze de proefpersonen in groepen verdelen. Elke groep krijgt een van de volgordes. Door random toewijzing wordt er bepaald welke groep de ene volgorde krijgt en welke groep de andere. Een experiment kan vol of partieel counterbalanced worden. Wanneer een within-groups experiment maar twee of drie levels van een onafhankelijke variabele heeft, dan kunnen onderzoekers een full counterbalance toepassen. Dit betekent dat alle mogelijke verschillende volgordes van de condities gepresenteerd worden. Wanneer het aantal condities toeneemt, neemt ook het aantal mogelijke volgordes drastisch toe. Wanneer onderzoekers meerdere mensen in een volgorde willen, dan hebben ze veel proefpersonen nodig. Het is dus niet altijd praktisch om een full counterbalance te doen. Bij partial counterbalancing wordt maar een deel van de mogelijke verschillende volgordes gepresenteerd. Een bepaalde techniek van partial counterbalancing wordt een Latin square genoemd.

Within-groups designs kunnen covariantie vaststellen; ze kunnen voor temporele precedentie zorgen en als er voor order effecten gecontroleerd wordt, dan zit het ook goed met de interne validiteit van deze designs. Soms kiezen onderzoekers toch niet voor within-groups designs. Een van de redenen is vanwege de order effecten. Een ander nadeel van zulke designs is dat het niet altijd praktisch is. Een derde probleem komt voor wanneer mensen alle levels van een onafhankelijke variabele zien en daardoor hun gedrag veranderen (omdat ze doorhebben of denken door te hebben waar het onderzoek over gaat).

Is een pretest/posttest een herhaalde metingen design?

In een herhaalde metingen design worden participanten blootgesteld aan alle niveaus van een onafhankelijke variabele. De niveaus van deze onafhankelijke variabele kunnen ook ge-counterbalanced worden. In een pretest/posttest design worden participanten echter maar aan één niveau van de onafhankelijke variabele blootgesteld, niet allemaal.

Wat zeggen de vier validiteiten over causale claims?

In een experiment zijn er twee constructen geoperationaliseerd: de onafhankelijke variabele en de afhankelijke variabele. Constructvaliditeit zegt iets over hoe goed de variabelen gemeten en gemanipuleerd zijn. Wanneer je kijkt naar de constructvaliditeit van een experiment, dan moet je zowel naar de afhankelijke als de onafhankelijke variabele kijken. Soms gebruiken onderzoekers hierbij een manipulatie check om te zien of de constructvaliditeit van hun onafhankelijke variabele goed is. Een manipulatie check is een extra afhankelijke variabele die onderzoekers in een experiment stoppen om te controleren of hun manipulatie werkt. Deze worden vaak gebruikt als onderzoekers willen zorgen dat participanten zich op een bepaalde manier voelen of op een bepaalde manier denken. Een voorbeeld hiervan is een manipulatie waarbij een deel van de participanten verteld wordt dat ze een speech moeten geven, wat ervoor zorgt dat de onderzoekers een gevoel van angst en stress op kunnen wekken, of bijvoorbeeld het laten zien van zielige videos om zo empathie op te wekken. Pilotstudies kunnen ook gebruikt worden om te kijken of de manipulaties effectief zijn. Pilotstudies zijn onderzoekjes die met een paar proefpersonen gedaan worden en die voor of na het echte onderzoek uitgevoerd worden, om zo te laten zien dat de manipulaties die gebruikt worden effectief zijn.

Als je de externe validiteit van causale claims wilt onderzoeken, moet je kijken naar hoe de proefpersonen in de steekproef zijn opgenomen. Als het door random sampling is gedaan, dan zit het goed met de externe validiteit. Vaak is het zelfs zo dat externe validiteit niet een topprioriteit is voor onderzoekers die experimenten uitvoeren. Interne validiteit is belangrijker en als beide typen validiteit niet gegarandeerd kunnen worden, dan laten onderzoekers externe validiteit meestal vallen voor interne validiteit.

Bij statistische validiteit van experimenten moet er ten eerste gekeken worden naar effectgrootte. Deze kan op verschillende manieren weergegeven worden. Een eerste manier is om de maten uit het experiment zelf te gebruiken, bijvoorbeeld punten op een toets, lengte in centimeters, etc. Een tweede optie is gebruikmaken van een gestandaardiseerde effectgrootte, namelijk de correlatie coëfficiënt r. Wanneer er twee groepen zijn in een experiment maken onderzoekers echter vaker gebruik van d. Dit getal laat zien hoeveel twee groepen van elkaar verschillen wat de afhankelijke variabele betreft. De effectgrootte d neemt zowel het verschil in gemiddeldes tussen groepen als de spreiding van de scores binnen elke groep (de standaard deviatie) mee.

Als d groot is, dan heeft de onafhankelijke variabele een grote verandering in de afhankelijke variabele veroorzaakt relatief tot hoe verspreid de scores zijn. Als d klein is, dan overlappen de scores van de participanten in de verschillende groepen meer. Vaak kiezen onderzoekers ervoor om de maten uit het experiment zelf te gebruiken als ze de impact van een interventie in de echte wereld willen inschatten. Gestandaardiseerde effectgroottes worden vaak gekozen als ze dingen willen vergelijken die niet met dezelfde maat gemeten zijn. Bij statistische validiteit kunnen we ook nog kijken naar het 95% betrouwbaarheidsinterval. De breedte van dit interval reflecteert de precisie van de studie: hoe kleiner de steekproef en hoe meer variatie in de data, hoe breder de interval en dus hoe minder precies. Hoe groter de steekproef en hoe minder variabiliteit in de data, hoe smaller het interval en dus hoe preciezer. Naast de betrouwbaarheidsinterval kunnen we ook replicaties doen om het effect van een variabele in de populatie te kunnen schatten.

Interne validiteit is het belangrijkst voor causale claims. Als de interne validiteit van een experiment goed is, dan kun je er vrijwel zeker van zijn dat je causale claim accuraat is. Onderzoekers zorgen hiervoor door een belangrijke causale variabele te isoleren en manipuleren, terwijl ze alle overige variabelen controleren. Als er toch een confound in het experiment zat, dan mag je niet meer spreken van een causale claim; je spreekt in plaats daarvan dan over een associatie claim. Om interne validiteit van een experiment te evalueren kan je de volgende vragen stellen:

  • Waren er design confounds?
  • Als er gebruikgemaakt is van een independent-groups design, is er dan gecontroleerd voor selectie effecten door random toewijzing of matching?
  • Als er gebruikgemaakt is van een within-groups design, is er dan gecontroleerd voor volgorde effecten door counterbalancing?

Wat is de invloed van confounding en obscuring factors? - Chapter 11

 

Wat zijn bedreigingen voor de interne validiteit?

Er zijn meerdere bedreigingen voor interne validiteit. In het vorige hoofdstuk zijn er een aantal besproken:

  1. Ten eerste een design confound, waarbij er een alternatieve verklaring is voor de resultaten omdat het experiment slecht ontworpen blijkt en een andere variabele systematisch mee-varieert met de onafhankelijke variabele.
  2. Ten tweede een selectie effect, waarbij er een confound bestaat omdat de verschillende groepen van de onafhankelijke variabele systematisch verschillende types participanten hebben.
  3. Als laatste een orde effect waar er een alternatieve verklaring is voor de resultaten omdat de uitkomst mogelijk veroorzaakt is door de onafhankelijke variabele, maar ook veroorzaakt kan zijn door de volgorde waarin de niveaus van deze variabele zijn aangeboden. In dit hoofdstuk zullen er nog een aantal bedreigingen voor interne validiteit besproken worden.

Wat is een one-group, pretest/posttest design?

Een one-group, pretest/posttest design is een design waarin een onderzoeker een groep participanten recruteert, hen meet op een bepaalde variabele in een pretest, hen dan blootstelt aan een behandeling of interventie en hen vervolgens ook nog meet op een posttest. Dit ontwerp verschilt van de pretest/posttest zoals besproken in het vorige hoofdstuk omdat er hierbij maar één groep participanten is in plaats van twee. Dit is een problematisch ontwerp om aan te houden voor een experiment.

Welke bedreigingen voor de interne validiteit kunnen voorkomen in een one group, pretest/posttest design?

  • Maturation threat: wanneer er een verandering in gedrag spontaan ontstaat met de tijd. Een specifiek voorbeeld hiervan is spontane remissie: dit betekent dat symptomen van stoornissen met de tijd gewoon beter worden zonder specifieke reden. Doordat we bij een one group, pretest/posttest design maar één groep meenemen en geen vergelijkingsgroep, kunnen we dus niet bepalen of een verandering komt door de interventie die we toegepast hebben, of dat er gewoon sprake is van maturatie.
  • History threat: wanneer er een verandering in gedrag ontstaat doordat een historisch of externe factor systematisch de meeste leden van een behandelingsgroep beïnvloedt tegelijkertijd met de behandeling zelf. Hierdoor weten we niet zeker of een verandering veroorzaakt wordt door de behandeling, of door iets anders wat varieerde. Om te kunnen spreken van een geschiedenis bedreiging van de interne validiteit moet de externe factor de meeste mensen in een groep in dezelfde richting beïnvloeden (dus systematisch), en niet maar een paar mensen (niet systematisch). Voorbeelden van deze geschiedenis bedreigingen zijn grote dingen als oorlogen, maar kunnen ook kleine dingen zijn zoals het wisselen van de seizoenen. Om deze bedreigingen te voorkomen, kunnen we ook hier gebruikmaken van een controlegroep.
  • Regression threat: dit refereert naar een statistisch concept wat regressie naar het gemiddelde genoemd wordt. Hierbij is een groepsgemiddelde als je het voor de eerste keer meet erg extreem om de een of andere reden, wat betekent dat als we het dan na een bepaalde tijd nog een keer meten, het logisch is dat het groepsgemiddelde dan minder extreem is en dichter bij het gemiddelde ligt wat je verwacht te zien. Een voorbeeld hiervan is dat onze gemoedstoestand ook random fluctueert: soms is je dag ontzettende slecht omdat mensen onaardig zijn, het regent, je bus komt niet opdagen en omdat er nog meer negatieve dingen gebeuren. Toch voorspel je dan dat morgen waarschijnlijk beter is, omdat het niet vaak voorkomt dat al die negatieve dingen tegelijk de kop opsteken. Ook dit is regressie naar het gemiddelde. Dit kan beide kanten op: een extreem goede score wordt vaak wat slechter en beweegt zich richting het gemiddelde, maar ook een slechte score wordt vaak wat beter richting het gemiddelde. Vaak zijn deze extreme scores uit te leggen door een random combinatie van gebeurtenissen die het veroorzaakt hebben. Om de bedreiging voor interne validiteit te beperken kunnen we gebruikmaken van vergelijkingsgroepen.
  • Attrition threat: wanneer de hoeveelheid participanten in je studie afneemt doordat een deel stopt voordat deze afgelopen is. Dit wordt problematisch voor de interne validiteit als de meeste drop-outs specifieke types participanten zijn. Bijvoorbeeld: als voornamelijk hele depressieve mensen stoppen binnen je studie naar het effect van een nieuw soort therapie. Om invloed van attrition te voorkomen, worden vaak de scores van participanten ook uit de pretest verwijderd als ze voor de posttest stoppen, zodat deze geen effect meer hebben op de resultaten. Soms worden de pretest scores wel meegenomen, maar alleen als ze niet erg extreem zijn: extreme scores hebben namelijk meer invloed op de uitkomst van een studie en zijn dus een grotere dreiging voor de interne validiteit.
  • Testing threat: dit is een specifiek type volgorde effect waarin de participanten een verandering doormaken als gevolg van het meerdere keren doen van een test (afhankelijke variabele). Zo kan het zijn dat ze beter worden in het maken van de test omdat ze hem meerdere keren gedaan hebben, of kunnen ze bijvoorbeeld verveeld raken waardoor hun scores respectievelijk erg toenemen of afnemen. Om dit te voorkomen kan de pretest overgeslagen worden en kan er alleen een posttest gedaan worden. Als er wel een pretest gedaan wordt dan kunnen er bijvoorbeeld verschillende versies van de test gebruikt worden bij de pre- en posttest. Een vegelijkingsgroep helpt ook: als de vergelijkingsgroep dezelfde tests doet als een behandelingsgroep maar deze laatste laat grotere verschillen zien, dan is er geen testing threat.
  • Instrumentation threat: dit is wanneer een meetinstrument verandert door de tijd heen. Bijvoorbeeld: observatoren kunnen over de tijd hun standaarden voor het beoordelen van gedrag veranderen, waarbij ze strenger of juist minder streng worden voor wat ze zien. Een ander voorbeeld is wanneer een onderzoeker twee variaties van dezelfde test gebruikt, maar deze niet genoeg op elkaar lijken en er dus verschillende scores uitkomen. Om dit te voorkomen kan er een posttest only design gedaan worden, of kunnen ze zorgen dat de pretest en posttest instrumenten gelijk aan elkaar zijn. In het specifieke geval van observationeel onderzoek, kan dit gedaan worden door gebruik te maken van codebooks en bij de tests door te doen aan counterbalancing van de verschillende versies.
  • Gecombineerde bedreigingen: wanneer meerdere bedreigingen samen voorkomen. Een eerste voorbeeld hiervan is een selection-history threat: waarin een externe gebeurtenis of factor slechts invloed uitoefent op één niveau van de onafhankelijke variabele. Dan is er nog een selection-attrition threat: waarin er alleen maar attrition voorkomt bij één van de experimentele/behandelingsgroepen.

Welke drie bedreigingen voor de interne validiteit kunnen in elke studie voorkomen?

  1. Observer bias: wanneer verwachtingen van onderzoekers hun interpretatie van de resultaten beïnvloedt. Dit kan een bedreiging zijn voor de interne validiteit omdat er op deze manier een alternatieve verklaring bestaat voor de resultaten, maar het kan ook een bedreiging zijn voor de constructvaliditeit omdat het betekent dat de scores die een onderzoeker geeft aan een participant niet hun echte scores representeren. Je kan dit controleren door het doen van een dubbel blinde studie waarbij zowel de participanten als de onderzoekers die hen evalueren niet weten wie er in de behandelingsgroep of de vergelijkingsgroep zit. Een variatie hiervan is een masked design of blind design waarbij de participanten wel weten over de studie en in welke groep ze zitten, maar degene die hen beoordelen niet.
  2. Demand characteristics: wanneer de participanten gokken waar de studie over gaat en hun gedrag veranderen om zich te gaan gedragen naar wat ze verwachten dat een onderzoeker wil zien. Ook deze effecten kunnen voorkomen worden door een dubbel blinde studie of een masked design.
  3. Placebo-effecten: komen voor wanneer mensen een behandeling ontvangen en verbeteren, maar alleen omdat ze geloven dat ze een echte behandeling krijgen en ze denken dat deze effectief zal zijn. Placebo-effecten kunnen daadwerkelijk symptomen verbeteren, zowel fysiek als psychologisch. Symptomen van mensen reageren dus niet alleen op de 'actieve ingrediënten' van een behandeling, maar ook op hun eigen geloof in wat de behandeling voor hen kan doen. Om te controleren of een effect door de behandeling of door een placebo komt worden er vaak double blind placebo control studies gedaan, waarin één groep de echte behandeling krijgt terwijl een andere een placebo ontvangt. Zowel de mensen die de participanten behandelen als de participanten zelf weten niet in welke groep ze zitten.

Hoe bekijk je nul-effecten?

Wat gebeurt er wanneer een onderzoeker een nul-effect vindt? Een nul-effect houdt in dat de onafhankelijke variabele geen invloed heeft uitgeoefend op de afhankelijke variabele. Er lijkt geen significante covariantie tussen de twee te zijn. De meeste mensen zullen niet vaak over nul-effecten lezen. Het is natuurlijk interessanter om resultaten te presenteren waarbij de onafhankelijke variabele wel een invloed heeft gehad op de afhankelijke variabele. Toch komen nul-effecten vrij vaak voor. Vooral als je als student zelf begint met onderzoek doen, krijg je waarschijnlijk te maken met nul-effecten. Nul-effecten kunnen optreden wanneer de onafhankelijke variabele daadwerkelijk geen invloed heeft gehad op de afhankelijke variabele. Echter, nul-effecten kunnen ook plaatsvinden doordat het onderzoek niet nauwkeurig opgezet of uitgevoerd is. De onafhankelijke variabele beïnvloedt misschien een afhankelijke variabele wel, maar door een of andere obscuring factor konden de onderzoekers het ware verschil niet vinden. De obscuring factors kunnen twee vormen aannemen: er was niet genoeg verschil tussen groepen (between-groups) of er was te veel variabiliteit in groepen (within groups).

Hoe kan het komen dat er niet genoeg verschil is tussen groepen?

Als er niet genoeg verschil tussen groepen gevonden wordt en er daardoor een nul-effect gerapporteerd wordt, kan dit door verschillende dingen komen:

  • Zwakke manipulaties: je moet goed kijken hoe een onafhankelijke variabele geoperationaliseerd is en dus de constructvaliditeit van een studie bepalen. Als de operationalisatie van een variabele niet goed is, kan het zijn dat er geen effect gevonden wordt terwijl deze er wel is. Een voorbeeld hiervan is een studie waarin ze onderzoek deden naar het effect van geld op mensen hun gemoedstoestand. De groepen kregen respectievelijk nul euro, vijfentwintig cent en één euro. Er werd geen effect gevonden omdat de manipulaties mogelijk te zwak waren. In dit geval zou het dus beter geweest zijn om te werken met nul euro, vijf euro en honderdvijftig euro bijvoorbeeld.
  • De maten zijn niet gevoelig genoeg: soms wordt er een nul-effect gevonden omdat de afhankelijke variabele niet met genoeg sensitiviteit geoperationaliseerd is. Afhankelijke variabelen kunnen het best gemeten worden met maten die gedetailleerd zijn en werken op een kwantitatief niveau.
  • Plafond- en vloer-effecten: bij een plafond-effect bevinden alle scores van participanten zich aan het hoge uiteinde van een schaal, terwijl ze zich bij een vloer-effect allemaal aan het lage uiteinde bevinden. Dit kan komen door slecht geoperationaliseerde onafhankelijke of afhankelijke variabelen.

Alle bovenstaande problemen kunnen opgelost worden met een manipulatie check waarbij er een losse afhankelijke variabele wordt ingevoerd in een experiment welke er is om te controleren of de manipulatie gewerkt heeft. Als de manipulatie dan wel goed werkt, kunnen onderzoekers op zoek naar een andere reden waarom er een nul-effect gevonden is.

Hoe kan het komen dat er te veel binnen-groeps variabiliteit is?

Er zijn een aantal redenen waarom er veel binnen-groeps variabiliteit kan zijn:

  • Noise, error variantie of niet-systematische variantie: wanneer er te veel niet-systematische variatie of variabiliteit is binnen elke groep. Als dit het geval is, dan kan dit ervoor zorgen dat verschillen tussen groepen niet zichtbaar worden omdat de verschillen binnen elke groep al zo groot zijn en de scores daardoor veel overlappen. Dit zie je ook terug aan betrouwbaarheidsintervallen: hoe kleiner de variabiliteit binnen groepen, hoe preciezer dit interval en hoe groter de effectgrootte, terwijl hoe groter de variabiliteit binnen groepen, hoe groter hun overlap, hoe breder het interval en hoe kleiner de effectgrootte.
  • Meetfout: hoge binnen-groeps variabiliteit kan ook voorkomen omdat er een menselijke meetfout of een meetfout is gemaakt met een instrument waardoor iemands score op de afhankelijke variable niet goed weergegeven wordt. Dit kan opgelost worden door betrouwbare en precieze instrumenten te gebruiken. Daarnaast kan het ook opgelost worden door een grotere steekproef te gebruiken of meerdere metingen te doen bij je steekproef: de grote hoeveelheid fouten worden dan als het ware opgeheven door de grote hoeveelheid observaties.
  • Individuele verschillen: als er grote verschillen zijn tussen participanten kan dit vooral een probleem vormen voor een independent-groups design. Hierdoor kan het zijn dat er wel een verschil tussen de groepen is, maar je deze niet kan zien omdat de groepen te veel overlap vertonen. Een eerste oplossing zou zijn om geen independent-groups design te doen, maar in plaats daarvan een within-groups design te gebruiken. De participanten worden hier met zichzelf vergeleken en vormen dus hun eigen controle, wat helpt met het controleren op individuele verschillen. Een tweede oplossing is het toevoegen van meer participanten wanneer een within-group of matched-group design niet kan. Dit helpt omdat hoe meer mensen je meet, hoe minder impact één enkele persoon heeft op het groepsgemiddelde. Door meer participanten toe te voegen neemt het effect van individuele verschillen binnen groepen af, waardoor we verschillen tussen groepen makkelijker vinden.
  • Situation noise: externe factoren in de omgeving die afleiden van een verschil tussen groepen. Onderzoekers kunnen situation noise zoveel mogelijk proberen te voorkomen door zo goed en kwaad als het gaat de omgeving waarin een experiment plaatsvindt te controleren.

Wat is de power?

Power is een aspect van statistische validiteit; de kans dat een onderzoek een accuraat resultaat laat zien als de onafhankelijke variabele daadwerkelijk een effect heeft op de afhankelijke variabele. De power wordt verhoogd door een within-groups design, sterke manipulatie, een grote hoeveelheid participanten en zo min mogelijk situation noise. De makkelijkste manier van dit rijtje om de power te verhogen, is door meer participanten toe te voegen aan je onderzoek. Onderzoeken met veel participanten hebben twee voordelen. Ten eerste maakt het betrouwbaarheidsintervallen smal, waardoor we een preciezere schatting kunnen geven van een verschil tussen groepen en dus wordt de kans groter dat we een statistisch significant verschil vinden. Ten tweede kunnen we effecten die we vinden in kleine steekproeven soms niet repliceren.

Hoe rapporteren we nul-effecten?

We moeten transparant zijn over nul-effecten als we resultaten van een studie rapporteren. Hierbij is het belangrijk dat we de factoren benoemen die mogelijk het nul-effect veroorzaakt hebben. Als deze factoren niet aanwezig zijn, de studie heeft maximale power en precisie, maar toch een smal betrouwbaarheidsinterval waar het getal nul binnen valt, dan kunnen we concluderen dat er bewijs is dat de onafhankelijke variabele weinig effect heeft op de afhankelijke variabele. Deze resultaten moeten ook gerapporteerd worden omdat we anders Merton's norm van disinterestedness breken: we moeten accepteren wat de data ons vertelt. Nul-effecten zijn ook informatief, omdat ze ons vertellen welke interventies niet werken en waar we dus niet meer te veel onderzoek naar hoeven te doen; ze helpen ons met het verbeteren of aanpassen van theorieën.

Hoe moet je omgaan met experimenten die meer dan één onafhankelijke variabele bevatten? - Chapter 12

 

Wat zijn interactie-effecten?

Onderzoekers kunnen vanaf het begin af aan al geïnteresseerd zijn in meer dan een onafhankelijke variabele of ze kunnen opeens een vervolgstudie verzinnen waarin er naar nog een extra onafhankelijke variabele gekeken wordt. Wanneer onderzoekers vragen naar het effect van een extra onafhankelijke variabele, dan zijn ze meestal geïnteresseerd in een interactie-effect. Een interactie-effect kijkt of het effect van de originele onafhankelijke variabele afhangt van de level van de andere onafhankelijke variabele. Een voorbeeld hiervan is te zien in een onderzoek naar handsfree bellen en reactietijd tijdens het rijden. Onderzoekers wilden weten of jongere mensen een slechtere reactietijd hebben tijdens het rijden wanneer ze handsfree aan het bellen zijn dan oudere mensen. Onderzoek had al aangetoond dat het bellen tijdens het rijden ervoor zorgt dat men minder goed reageert op ‘obstakels’ op de weg. In dat onderzoek is er maar één onafhankelijke variabele (het gebruik van de telefoon). Vervolgens wilde men weten of het effect afhing van leeftijd. Dat werd dus de tweede onafhankelijke variabele. Een interactie-effect kan mathematisch uitgelegd worden als een verschil van het verschil.

Er zijn verschillende soorten interacties. Stel dat je gevraagd wordt of je meer houdt van warm of koud eten. Je zult waarschijnlijk antwoorden dat dat van het eten zelf afhangt. Je wilt natuurlijk dat je soep warm is en je ijsje koud. Het eten waar je een oordeel over moet maken is een onafhankelijke variabele en de temperatuur van dat eten is een andere onafhankelijke variabele. Als je dit in een figuur uit zou zetten, dan zou je een interactie-effect zien. De twee lijnen van de onafhankelijke variabele zullen elkaar kruisen. Deze interactie wordt een crossover interactie genoemd. Wanneer de lijnen van twee onafhankelijke variabelen niet parallel lopen en elkaar niet kruisen, dan spreken we van een gespreide ('spreading') interactie. Wanneer er een interactie is, dan kun je het nauwkeurig via beide richtingen beschrijven. Het maakt dan ook niet uit welke onafhankelijke variabele je op de x-as zet.

Welk design kan er gebruikt worden om twee variabelen te onderzoeken?

Onderzoekers gebruiken factorial designs om interacties te testen. Een factorial design is een design met twee of meer onafhankelijke variabelen (factoren genoemd). Meestal worden de twee onafhankelijke variabelen gekruist. Dat houdt in dat onderzoekers elke mogelijk combinatie van de onafhankelijke variabelen testen. In het voorbeeld van mobiel gebruik, leeftijd en reactiesnelheid tijdens het rijden, zijn er twee factoren: leeftijd en telefoongebruik. Wanneer de twee onafhankelijke variabelen gekruist worden, ontstaan er vier condities, welke we cellen noemen: oude mensen die rijden en een telefoongesprek voeren, oude mensen die rijden en geen telefoongesprek voeren, jonge mensen die rijden en een telefoongesprek voeren en jonge mensen die rijden en geen telefoongesprek voeren. Er zijn twee onafhankelijke variabelen en elke variabele heeft twee levels (jong vs. oud en bellen vs. niet bellen). Dit design wordt daarom ook wel een 2 x 2 design genoemd. Factorial designs kunnen gebruikt worden om gemanipuleerde variabelen (wel of niet telefoon gebruiken) en participant variabelen (leeftijd) te testen. Participant variabelen zijn variabelen waarvan we de niveaus selecteren of meten en dus niet manipuleren. Deze participant variabelen zijn dus geen 'echte' onafhankelijke variabelen, maar zo worden ze door onderzoekers wel genoemd ter versimpeling.

Kunnen factorial designs gebruikt worden om limieten en theorieën te testen?

Factorial designs worden gebruikt om te onderzoeken of een onafhankelijke variabele verschillende soorten mensen, of mensen in verschillende soorten situaties op dezelfde manier beïnvloedt. Het onderzoek van telefoongebruik, leeftijd en reactiesnelheid werd ook met een factorial design uitgevoerd en is hier een goed voorbeeld van. Er werd geen interactie tussen de onafhankelijke variabelen gevonden. Dat wil zeggen dat er geen verschil was in reactiesnelheid met of zonder telefoongebruik tussen jonge en oude bestuurders.

Het testen van limieten in een onderzoek lijkt op het testen van de externe validiteit. Wanneer een onafhankelijke variabele in meer dan één groep getest wordt, dan testen onderzoekers in feite of het effect generaliseerbaar is. In het voorbeeld over reactiesnelheid en telefoongebruik reageren beide groepen hetzelfde. Het effect generaliseert naar bestuurders van alle leeftijden. Er zijn natuurlijk ook onderzoeken waarbij groepen anders reageren op een onafhankelijke variabele. Wanneer factorial designs gebruikt worden om limieten van een effect te testen wordt ook wel het zoeken naar moderatoren genoemd. In een factorial design is een moderator een onafhankelijke variabele die de relatie tussen een andere onafhankelijke variabele en afhankelijke variabele verandert. Met andere woorden: een moderator resulteert in een interactie; het effect van een onafhankelijke variabele hangt af van (of wordt gemodereert door) het niveau van een andere onafhankelijke variabele.

Factorial designs worden niet alleen gebruikt om de generaliseerbaarheid van een oorzakelijke variabele te testen, maar ook om theorieën te testen. Veel theorieën zeggen iets over hoe variabelen met elkaar interacteren. De beste manier om dit te onderzoeken is door ze te combineren in een factorial design en te meten of de resultaten van het onderzoek passen bij de theorie.

Hoe interpreteer je de resultaten van een factorial studie?

In een analyse met twee onafhankelijke variabelen, kun je drie dingen inspecteren: twee hoofdeffecten en een interactie-effect. Een hoofdeffect is het algemene effect van één onafhankelijke variabelen op de afhankelijke variabele, gemiddeld over de niveaus van de andere onafhankelijke variabele. Het is met andere woorden het algemene effect van één onafhankelijke variabele tegelijkertijd. Met twee onafhankelijke variabelen onderzoek je dus twee hoofdeffecten. De gemiddeldes die hieruit komen wordt ook wel marginale gemiddelden genoemd: het gemiddelde van elk level van een onafhankelijke variabele, gemiddeld over de niveaus van de andere onafhankelijke variabele.

Om te onderzoeken hoe groot het verschil is tussen de marginale gemiddeldes is, maken onderzoekers vaak gebruik van een 95% betrouwbaarheidsinterval. Daarnaast inspecteer je dus een interactie-effect. Dit kan je zien door te kijken naar een tabel, waar je het verschil in gemiddeldes tussen de verschillende condities kan aflezen. Ook kan je een interactie-effect aflezen aan een grafiek: als de gemiddeldes afgebeeld worden als lijnen en ze lopen niet parallel, dan is er mogelijk een interactie. Dit zoek je dan verder uit aan de hand van statistische toetsen. Wanneer we zowel een hoofdeffect als interactie-effect vinden, dan is het interactie-effect bijna altijd belangrijker.

Welke factorial variaties zijn er?

In het voorgaande stuk werd een 2 x 2 design besproken. Onderzoekers kunnen natuurlijk ook een onafhankelijke variabele uitzoeken die meer dan twee levels heeft of ze kunnen drie of meer onafhankelijke variabelen gebruiken.

  • In een independent-groups factorial design of between-subjects factorial worden beide onafhankelijke variabelen bestudeerd als onafhankelijke groepen. Als het om een 2 x 2 factorial design gaat, dan zijn er dus vier verschillende groepen proefpersonen in het experiment. Bijvoorbeeld: DeWall deed een onderzoek naar alcohol, agressie en lichaamsgewicht. Hiervoor liet hij een aantal lichtgewicht mannen een placebo drankje drinken, een aantal lichtgewicht mannen alcohol drinken, een aantal zwaardere mannen een placebo drinken en een aantal zwaardere mannen alcohol drinken. Er waren dus verschillende participanten in elke cell.
  • In een within-groups factorial design of repeated-measures factorial worden beide onafhankelijke variabelen gemanipuleerd binnen groepen. Wanneer er een 2 x 2 factorial is, dan is er een groep proefpersonen en al deze proefpersonen nemen deel aan alle vier cellen van het design. Bijvoorbeeld: alle participanten kijken zowel naar foto's van alcohol als naar foto's van planten en daarnaast reageren ze ook allemaal op agressie gerelateerde en neutrale woorden.
  • In een mixed factorial design wordt een onafhankelijke variabele gemanipuleerd als een independent-groups variabele en de andere onafhankelijke variabele wordt gemanipuleerd als een within-groups variabele. Een voorbeeld is de studie naar telefoongebruik en leeftijd. Leeftijd was hier een independent-groups variabele: participanten in één groep waren jong en in een andere groep waren ze oud. Het telefoongebruik werd echter within-groups gemanipuleerd: elke participant reed één keer auto terwijl ze hun telefoon gebruikten en één keer terwijl ze dat niet reden.

Wat gebeurt er als het aantal levels of het aantal onafhankelijke variabelen toeneemt?

Wanneer een van de onafhankelijke variabelen drie levels heeft en de andere onafhankelijke variabele twee, dan spreken we van een 2 x 3 design. Er zullen dan 2 x 3 = 6 cellen zijn. Uiteraard bestaan er meerdere combinaties voor designs. Wanneer onafhankelijke variabelen meer dan twee levels hebben, dan kunnen onderzoekers ook gewoon naar de hoofdeffecten en interactie-effecten kijken door de marginale gemiddelden te berekenen en vervolgens te kijken of deze verschillen. De makkelijkste manier is nog altijd om een lijndiagram te maken in SPSS en te kijken of de lijnen parallel zijn. Natuurlijk moet er ook gekeken worden of de effecten significant zijn.

Wanneer onderzoekers een derde onafhankelijke variabele toevoegen en alle onafhankelijke variabelen twee levels hebben, dan spreken we van een 2 x 2 x 2 factorial design, ofwel een drie-weg design. In dit design zijn er 2 x 2 x 2 = 8 cellen of condities. De beste manier om zo’n design te weergeven is om twee keer een tabel van je originele 2 x 2 studie uit te voeren. Een keer voor elke level van de derde onafhankelijke variabele. Wanneer je het in een grafiek wilt weergeven, dan moet je twee lijndiagrammen die naast elkaar staan maken. In een drie-weg design kunnen ook drie hoofdeffecten en twee interactie-effecten zijn of een grote drie-weg interactie. Een drie-weg interactie betekent dat de twee-weg interactie tussen twee van de onafhankelijke variabelen afhangt van de level van een derde onafhankelijke variabele.

Hoe kun je in artikelen ontdekken dat het ging om een factorial design?

In empirische artikelen wordt er vrijwel altijd beschreven welk design er is gebruikt. Zij gebruiken vaak de termen 2 x 2 of 2 x 3. Deze getallen laten mooi zien hoeveel onafhankelijke variabelen er zijn en hoeveel levels elke variabele heeft. Daarnaast gebruiken empirische artikelen ook vaak de termen ‘hoofdeffect’ en ‘interactie.’ Populaire artikelen in tijdschriften of kranten vermelden vaak niet welk design er gebruikt is. Toch zijn er bepaalde aanwijzingen waar je aan kunt zien of het om een factorial design ging of niet. Zo kun je kijken naar het woord ‘het hangt af van…’. Dit laat zien dat een bepaald effect afhangt van de level van een andere variabele. Ook kun je factorial designs herkennen doordat er participant variabelen gebruikt zijn.

Wat zijn quasi-experimenten en kleine - N designs? - Chapter 13

Een quasi-experiment verschilt van een experiment op het gebied van controle. In een quasi-experiment hebben onderzoekers geen volledige controle over de condities omdat proefpersonen hier niet random aan toegewezen worden. Omdat onderzoekers meestal geen controle hebben over de onafhankelijke variabele wordt het ook wel een quasi-onafhankelijke variabele genoemd. Hieronder volgt een voorbeeld van een quasi-experiment.

Plastische chirurgie wordt vrijwel overal ter wereld uitgevoerd. Mensen die zulke procedures ondergaan, zeggen dat hun zelfvertrouwen en lichaamsbeeld beter zullen worden na de procedures. Maar is dat echt zo? Een manier om erachter te komen is door mensen op een random manier toe te schrijven in de plastische chirurgie conditie en de anderen niet. Dit is natuurlijk niet ethisch, omdat je niet tegen proefpersonen kan zeggen dat ze plastische chirurgie moeten ondergaan voor een onderzoek. Toch hebben onderzoekers een manier gevonden om de effecten van plastische chirurgie te testen. Onderzoekers hebben mensen die al op het punt stonden om plastische chirurgie te ondergaan gevraagd om deel te nemen aan hun onderzoek. Deze mensen werden getest op hun zelfvertrouwen voor het onderzoek begon en 3, 6 en 12 maanden na het onderzoek. De vergelijkingsgroep was een groep mensen die ook geregistreerd stonden bij dezelfde plastische chirurgie kliniek, maar die nog geen ingreep hadden laten doen. Ook zij beantwoordden vragen op dezelfde momenten als de eerste groep. Dit onderzoek leek op een experiment, maar het was een quasi-experiment omdat proefpersonen niet op een random manier toegeschreven waren aan een conditie.

Er zijn een aantal soorten quasi-experiment:

  • Het bovenstaande quasi-experiment is een voorbeeld van een nonequivalent control group pretest/posttest design: de participanten werden niet random toegewezen aan groepen en werden zowel voor als na een bepaalde interventie onderzocht.
  • Ook kunnen quasi-experimenten nonequivalent control group posttest-only designs zijn, waarin de participanten niet random aan groepen toegewezen worden en maar één keer getest worden: na blootstelling aan het ene of het andere niveau van de onafhankelijke variabele.
  • Verder is er het interrupted time-series design: een quasi-experimenteel design waarin een variabele herhaaldelijk gemeten wordt voor, tijdens en na een interventie of gebeurtenis.
  • Als laatste kan een nonequivalent control group interrupted time-series design gedaan worden, waarbij de participanten niet random toegewezen worden aan groepen en een variabele herhaaldelijk gemeten wordt.

Hoe zit het met de interne validiteit van quasi-experimenten?

De ondersteuning die een quasi-experiment kan bieden aan causale claims hangt af van het design en de resultaten.

  • Er is een selectie effect voor interne validiteit als de groepen van verschillende levels van de onafhankelijke variabele verschillende typen proefpersonen bevatten. Zo kun je niet met zekerheid stellen dat de onafhankelijke variabele een verandering heeft veroorzaakt in de afhankelijke variabele. Bijvoorbeeld: proefpersonen die plastische chirurgie ondergaan hadden, zouden wellicht anders kunnen zijn dan de proefpersonen die geen plastische chirurgie ondergaan hadden. Er kan gecontroleerd worden voor deze effecten door een wachtlijst design toe te passen: hierin worden alle participanten die van plan zijn om een bepaalde interventie te ondergaan toegestaan dit te doen, maar worden random toegewezen aan verschillende tijden om dit te doen.
  • Ook kunnen er design confounds optreden. Dit is het geval wanneer een derde variabele systematisch varieert samen met de levels van de onafhankelijke variabele waar men in geïnteresseerd is. Door extra data te verzamelen, kun je er voor zorgen dat er geen design confound voorkomt.
  • Een maturation threat kan gebeuren wanneer proefpersonen met een pretest en posttest een verbetering laten zien, maar het niet duidelijk is of de verandering veroorzaakt is door de behandeling of doordat de groep spontaan verbeterd is. Met een controlegroep is het wel makkelijker te zeggen of een verbetering komt door een behandeling of spontaan is ontstaan.
  • Een historical threat gebeurt wanneer een historische gebeurtenis voor alle proefpersonen in een onderzoek tegelijkertijd met de behandeling plaats vindt. Het is dan niet goed te zeggen of een uitkomst veroorzaakt is door de behandeling of door een externe gebeurtenis. Met een vergelijkingsgroep kunnen de effecten van historical threats meestal afgeschreven worden.
  • Regressie naar het gemiddelde gebeurt wanneer een extreem resultaat veroorzaakt wordt door een combinatie van random factoren die waarschijnlijk niet opnieuw in dezelfde combinatie zullen gebeuren. Je extreme resultaat zal dus minder extreem worden met de tijd. Regressie effecten vormen alleen een dreiging voor de interne validiteit als een groep geselecteerd is vanwege een extreem hoge of extreem lage score. Deze scores zouden extreem kunnen zijn door de combinatie van random factoren die niet meer samen zullen voorkomen.
  • Attrition gebeurt wanneer mensen niet meer deel willen nemen aan het onderzoek na een verloop van tijd. Het is een dreiging voor de interne validiteit wanneer mensen vanwege een systematische reden weggaan. Het kan zijn dat de mensen die het minst gelukkig waren na hun plastische chirurgie, stopten met het onderzoek. Het resultaat dat plastische chirurgie het zelfbeeld verbetert is dan toe te schrijven aan het feit dat alleen tevreden proefpersonen in het onderzoek bleven. Het is echter wel makkelijk om attrition te checken. Je hoeft alleen maar te kijken of de personen die weg zijn gegaan uit het onderzoek systematisch overeenkomen op bepaalde eigenschappen.
  • Wanneer proefpersonen meerdere keren getest worden, dan moeten onderzoekers goed uitkijken voor test effecten. Het herhaaldelijk testen kan er voor zorgen dat mensen beter worden omdat de test hun bekend voorkomt of dat ze slechter worden omdat de test saai is geworden. Onderzoekers gebruiken daarom soms verschillende, gelijkwaardige tests. Hierbij moeten ze wel rekening houden met de moeilijkheid van de tests. Het is niet de bedoeling dat de tests in moeilijkheid verschillen, anders kun je niet zien of de verandering wel echt veroorzaakt werd door de behandeling.
  • Een andere bedreiging voor de interne validiteit van quasi-experimenten is een observator bias. Soms kunnen de verwachtingen van een onderzoeker zijn interpretatie van de resultaten beïnvloeden. Ook kunnen proefpersonen denken dat ze weten waar een onderzoek over gaat en aan de hand daarvan hun gedrag aanpassen, of kunnen ze zo overtuigd zijn dat een behandeling hen gaat helpen dat deze ook daadwerkelijk werkt, ongeacht of het een daadwerkelijk helpende interventie was of niet. We spreken in de laatste twee gevallen van demand characteristics en een placebo-effect.

Waarom zouden we een quasi-experiment doen?

Ondanks de dreigingen voor interne validiteit zijn er een aantal redenen waarom een onderzoeker ervoor zou kunnen kiezen een quasi-experiment te doen:

  • Ze bieden de mogelijkheid om een fenomeen in de echte wereld te onderzoeken.
  • Ze hebben een goede externe validiteit omdat er in de echte wereld onderzoek gedaan wordt, waardoor de kans groter is dat de patronen die gevonden worden ook generaliseren naar andere settings en personen.
  • Het is soms niet ethisch om van een studie een experiment te maken, bijvoorbeeld: het is onethisch om kinderen toe te wijzen aan een conditie waarin ze heel gewelddadige tv kijken, echter, als ze dit uit zichzelf al doen kun je het wel bestuderen via een quasi-experiment.
  • Vaak hebben quasi-experimenten een erg goede constructvaliditeit voor de quasi-onafhankelijke variabele.

Verschillen quasi-experimenten en correlationele studies van elkaar?

De twee verschillende soorten studies lijken wel op elkaar, maar in quasi-experimenten kiezen onderzoekers hun steekproeven vaak intentioneler dan bij de meeste correlationele designs. In correlationele studies selecteren onderzoekers vaak een steekproef, meten twee variabelen en testen de relatie tussen die variabelen. In een quasi-experiment worden vaak groepen gekozen met specifieke eigenschappen of kwaliteiten, of wordt er gekeken naar een specifieke tijdsperiode.

Hoe verschillen quasi-independent variabelen van participant variabelen?

Een participant variabele is een categorische variabele welke we meten in plaats van manipuleren. Participant variabelen lijken op de nonequivalent control groups van quasi-experimenten omdat beiden gaan over gemeten variabelen die categorisch zijn. Studies waarin participant variabelen opgenomenw orden kijken vaak naar gelijkenissen en verschillen door sociale identiteit (bijvoorbeeld: sociale klasse, gender, ethniciteit, religie, seksualiteit), ontwikkeling (bijvoorbeeld: lichamelijke ontwikkeling) of persoonlijkheid (bijvoorbeeld: extraversie versus introversie). In een correlationele studie worden alle variabelen gemeten, dus een studie met een participant variabele en een andere gemeten variabele is automatisch een correlationele studie. Contrasterend focussen quasi-independent variabelen zich minder op individuele verschillen en meer op potentiële interventies zoals bijvoorbeeld wetten, exposure of educatie.

Wat zijn kleine-N designs?

Soms voeren wetenschappers onderzoek uit met weinig proefpersonen. Zoals eerder vermeld, is het niet altijd nodig om een hele grote steekproef te hebben. N is het aantal proefpersonen in een steekproef. Het is belangrijker voor de externe validiteit om een steekproef goed te selecteren dan om veel proefpersonen in de steekproef op te nemen. Wanneer onderzoekers een kleine N-design gebruiken, in plaats van weinig informatie te halen uit een grote steekproef, halen ze veel informatie uit een kleine steekproef. Ze kunnen zelfs kijken naar één dier of één persoon in een single N-design. Er zijn vier verschillen tussen grote- en kleine-N designs:

  1. Bij grote-N designs worden participanten gegroepeerd: de data van één enkele participant zijn op zichzelf niet interessant, maar data van de hele groep participanten wel. Dus wordt de data van de groep als geheel bestudeerd. Bij kleine-N designs gaat het vaak om repeated-measures designs waarbij onderzoekers kijken naar hoe een dier of mens reageert op verschillende condities.
  2. Bij grote N-designs wordt data weergegeven als groepsgemiddeldes, terwijl bij kleine N-designs de data van elk individu gerapporteerd wordt.
  3. Bij grote N-designs kunnen we groepsgemiddeldes precies schatten, terwijl we er juist bij kleine N-designs naar streven om naar elk individu te kijken, zowel tijdens de controle- als interventieperiodes.
  4. Grote N-designs worden ingezet voor zowel basis als toegepast onderzoek, terwijl kleine n-designs voornamelijk voorkomen in therapeutische settings om te controleren of een behandeling werkt voor een bepaald individu.

Wat zijn de nadelen van kleine-N designs?

Er zijn soms grote problemen met interne validiteit. Daarnaast kunnen er problemen met externe validiteit zijn omdat de kleine groep participanten die je hebt bij een kleine N-design niet altijd representatief is voor de algemene populatie en dus zijn de resultaten mogelijk ook niet generaliseerbaar.

Wat zijn drie verschillende kleine-N designs?

Goed doordachte en uitgevoerde kleine-N design onderzoeken kunnen wetenschappers helpen om erachter te komen of veranderingen door interventies tot stand zijn gekomen of door de invloed van een andere variabele. Er zijn verschillende designs die gebruikt kunnen worden:

  1. In een stabiele-baseline design observeren onderzoekers gedrag van een lange baseline periode voordat ze beginnen met een behandeling of interventie. Als het gedrag tijdens de baseline stabiel is, dan kunnen onderzoekers met meer zekerheid zeggen dat een behandeling effectief is. Een stabiele baseline zorgt voor interne validiteit.
  2. In een multiple-baseline design spreiden onderzoekers hun introductie van interventies over verschillende contexten, momenten of situaties om zo alternatieve verklaringen uit te kunnen sluiten. Door te kijken naar meerdere baselines en gedragingen, kunnen onderzoekers de interne validiteit vergroten en daarmee de causale conclusies te ondersteunen. Verschillende baselines kunnen verschillende gedragingen binnen een persoon zijn of verschillende situaties voor een persoon. Ook kunnen de baseline condities verschillende personen zijn. Hoe een multiple-baseline design er ook uitziet, het biedt een vergelijkingsgroep of vergelijkingsconditie waar een behandeling mee vergeleken kan worden.
  3. In een reversal design observeert een onderzoeker probleemgedrag met en zonder behandeling, maar hij neemt vervolgens de behandeling weer weg (reversal periode) om te zien of het probleemgedrag terugkomt. Als de behandeling echt werkt, dan hoort het gedrag weer achteruit te gaan wanneer de behandeling weggenomen wordt. Op die manier kan er voor interne validiteit getest worden en kunnen er causale beweringen gemaakt worden. Reversal designs zijn alleen geschikt voor situaties waarin de behandeling niet blijvende veranderingen zou veroorzaken. Je kunt geen reversal design uitvoeren om een onderwijsinterventie te onderzoeken. Als een leerling een bepaalde vaardigheid onder de knie heeft, dan zal deze vaardigheid niet opeens verloren gaan. Ook kan het soms onethisch zijn om een reversal design uit te voeren. Het is namelijk niet altijd ethisch verantwoord om een behandeling weg te nemen van iemand (bijvoorbeeld van depressieve mensen).

Een laatste, niet veel voorkomend type kleine-N design is een single-N design, waarbij slechts één persoon bestudeerd wordt.

Voldoen kleine-N designs aan de vier validiteiten?

In de voorgaande stukken tekst is behandeld hoe kleine-N designs ervoor kunnen zorgen dat interne validiteit vergroot wordt. Maar hoe staat het met de andere validiteiten? Kan een dier of een persoon een hele populatie representeren (externe validiteit)? Onderzoekers kunnen extra stappen nemen om de externe validiteit te vergroten. Zo kunnen onderzoekers trianguleren door de resultaten van kleine of single N-studies te combineren met andere studies die meer proefpersonen hadden.

Soms zijn onderzoekers helemaal niet geïnteresseerd in generalisatie naar een hele populatie. Onderzoek kan soms echt bedoeld zijn voor een kleine subgroep. Voor constructvaliditeit in kleine-N designs is het belangrijk dat er meerdere observatoren zijn en dat de inter-beoordelaar betrouwbaarheid gecontroleerd wordt. In kleine-N designs worden vaak geen traditionele statistische methodes gebruikt dus statistische validiteit wordt niet vaak gecontroleerd. Er moeten echter wel conclusies getrokken worden uit de data en de data moet op een goede manier behandeld worden.

Kunnen de resultaten van een onderzoek toegepast worden in het dagelijkse leven? - Chapter 14

 

Wat is repliceerbaarheid?

Wetenschappers zouden zich altijd moeten afvragen of de resultaten van hun onderzoek repliceerbaar zijn. Als iets repliceerbaar is, houdt dat in dat de bevindingen wanneer hetzelfde onderzoek opnieuw gedaan zou worden ook hetzelfde blijven. Repliceerbaarheid geeft een onderzoek geloofwaardigheid. Vaak is het zo dat onderzoekers hun resultaten repliceren voordat hun bevindingen gepubliceerd worden. Er zijn verschillende replicatie studies:

  • In directe replicaties herhalen onderzoekers het originele onderzoek zo nauwkeurig mogelijk. Zij proberen te achterhalen of het originele effect ook te vinden is met nieuwe data.
  • In een conceptuele replicatie onderzoeken wetenschappers dezelfde vraag maar zij gebruiken verschillende procedures. De variabelen worden op een andere manier geoperationaliseerd. Een voorbeeld is een onderzoek naar de grootte van porties eten, waarbij in het eerste onderzoek pasta gebruikt wordt en in het replicatieonderzoek patat gebruikt wordt.
  • In een replicatie-plus-extensie onderzoek repliceren de onderzoekers het originele onderzoek, maar voegen ze ook variabelen toe om meer vragen te testen. Een voorbeeld hiervan is het onderzoek naar reactiesnelheid en bellen tijdens het rijden. Eerst keken onderzoekers alleen maar of en hoe de reactiesnelheid veranderde tijdens het bellen en pas daarna besloten ze om ook te kijken of er een verschil was tussen jonge en oude chauffeurs. Het introduceren van een participant variabele is een manier om een replicatie-plus-extensie onderzoek uit te voeren. Een andere manier om zo’n onderzoek uit te voeren is door het introduceren van een nieuwe situationele variabele. Door deze variabele kan je bijvoorbeeld de data van één tijdsmoment vergelijken met de data van een ander tijdsmoment. Men kan bijvoorbeeld bestuurders testen die geen training hebben gehad met een rijsimulator en dezelfde mensen vier dagen nadat ze geoefend hebben met zo’n rijsimulator opnieuw testen. Je kunt veel verschillende situationele variabelen bedenken om toe te voegen aan een onderzoek.

Er wordt veel waarde gehecht aan replicatie van onderzoek door andere onderzoekers. Wanneer het niet mogelijk is om een studie te repliceren, dan zou het kunnen betekenen dat het originele effect alleen in hele speciale condities en omstandigheden gevonden kan worden. Men moet dan voorzichtig met het belang van het effect omgaan.

Wat zegt de literatuur over meta-analyses?

Wetenschappelijk literatuur is een serie gerelateerde studies die door verschillende onderzoekers uitgevoerd zijn en die soortgelijke variabelen getest hebben. Soms verzamelen onderzoekers zelf alle studies over een bepaald onderwerp en genereren het tot een review artikel. Een manier om zo’n review artikel te schrijven is door het opsommen van alle losse bevindingen. Een andere manier is door het maken van een wiskundige samenvatting van de wetenschappelijke literatuur. Dit wordt een meta-analyse genoemd. Dit is een manier om wiskundig een gemiddelde te berekenen van de resultaten van zowel gepubliceerde als niet gepubliceerde studies die onderzoek hebben gedaan naar dezelfde variabele om zo een conclusie te kunnen trekken over het geheel. In een meta-analyse worden vaak onderzoeken opgenomen die verschillende steekproefgroottes hebben. Vaak is het dan zo dat de onderzoeken met een hogere steekproefgrootte ook zwaarder meetellen in de analyse. Onderzoekers kunnen ook een groep studies in categorieën sorteren en de effectgroottes voor alle categorieën berekenen.

Er zijn een aantal beperkingen van het gebruik van meta-analyses. Ten eerste, ondanks dat meta-analyses vaak studies bevatten die gepubliceerd zijn in empirische tijdschriften en men er dus vanuit gaat dat de kwaliteit van de data goed is, moeten we er rekening mee houden dat er sprake is van een publicatie bias binnen de psychologie. Dat houdt in dat significante relaties vaker gepubliceerd worden dan nul-effect relaties. Dit kan leiden tot een file drawer problem. Dat houdt in dat een meta-analyse de ware grootte van een effect kan overschatten omdat nul-effecten niet in de analyse opgenomen zijn, omdat deze nooit gepubliceerd zijn. Eigenlijk zouden onderzoekers die een meta-analyse uit willen voeren contact opnemen met hun collega’s en vragen naar gepubliceerde en ongepubliceerde data van hun projecten. Meta-analyses zijn sterk omdat ze de bevindingen van verschillende studies combineren, maar een meta-analyse is alleen zo sterk als de data die meegenomen wordt. Er moet rekening gehouden worden met ongepubliceerde studies en mogelijk studies met nul-effecten: als deze niet meegenomen worden in de analyse kan dit leiden tot vertekende conclusies.

Hoe zit het met transparantie binnen de wetenschap?

Welke 'questionable research practices' zijn er?

Questionable research practices zijn dingen in de wetenschap die tegen de normen van Merton ingaan. Deze normen zijn in een eerder hoofdstuk besproken:

  • Het niet rapporteren van een nul-effect. Dit betekent dat een onderzoeker wel de sterke en significante effecten uit zijn onderzoek rapporteert maar de zwakke effecten achterwege laat of niet noemt. Op deze manier zouden mensen kunnen denken dat bewijs voor een theorie heel sterk is, terwijl dat eigenlijk niet het geval is.
  • HARK-ing: 'hypothesizing after the results are known'. Dit betekent dat onderzoekers dus een hypothese bedenken nadat ze al onderzoek gedaan hebben, om te zorgen dat deze bij hun data past. HARK-ing zorgt ervoor dat mensen geloven dat bewijs voor een bepaald fenomeen heel sterk is, terwijl dit niet het geval is.
  • P-hacking: wanneer je explorerend uitbijters uit de data verwijderd, scores op een aantal manieren berekend, of verschillende statistische toetsingen doet om op deze manier een significante p-waarde te verkrijgen. Dit is misleidend omdat andere mensen niet weten dat je de data net zo lang geanalyseerd hebt tot daar wat uit kwam en de sterkste associaties hebt gerapporteerd.

Welke transparante research practices zijn er?

  • Open science: je data en materiaal delen met anderen, zodat andere mensen kunnen bijdragen aan het onderzoek, jouw materiaal kunnen gebruiken en onafhankelijk je resultaten kunnen bevestigen. Open data is het vrij delen van je dataset zodat andere wetenschappers de statistische resultaten kunnen reproduceren of er nieuwe analyses op los kunnen laten. Open materialen houdt in dat psychologen hun hele set metingen en manipulaties vrij deelt zodat anderen makkelijker replicatie studies kunnen doen, omdat ze allen condities en variabelen tot hun beschikking hebben.
  • Preregistratie: wanneer wetenschappers de methode, hypothesen en statistische analyses die ze gaan doen al publiceren voordat ze de data gaan verzamelen.

Moet een belangrijke studie externe validiteit hebben?

Replicaties kunnen ook helpen met het onderzoeken van bepaalde validiteiten. Externe validiteit gaat over de mate waarin de resultaten van een onderzoek generaliseerbaar naar andere personen en settings zijn. Directe replicatie studies steunen externe validiteit niet, maar conceptuele replicatie en replicatie-plus-extensie studies kunnen externe validiteit wel steunen. Wanneer er verschillende methodes worden gebruikt om hetzelfde te testen, kunnen onderzoekers dus beslissen om andere proefpersonen en andere settings mee te nemen in het onderzoek. Daarnaast is het belangrijk om te weten dat het voor generaliseerbaarheid belangrijker is om te kijken naar hoe proefpersonen geworven worden dan hoeveel proefpersonen er geworven worden.

De overeenkomst tussen de context van een onderzoek en de ‘echte wereld’ wordt soms ook wel de ecologische validiteit genoemd. Ecologische validiteit is een aspect van externe validiteit. Het hangt van het doel van de onderzoekers af hoe belangrijk de ecologische validiteit is. Als de onderzoekers hun theorie alleen maar op mannen willen toepassen, dan hoeven de resultaten natuurlijk niet generaliseerbaar zijn op vrouwen. Datzelfde geldt ook voor causale claims. In de theorie-test modus willen onderzoekers alleen maar een associatie testen die bij kan dragen aan de steun voor een theorie. Het is in dat geval belangrijker om interne validiteit te testen dan externe validiteit.

Toch zijn psychologen ook geïnteresseerd in het werken in een generaliseerbare modus. Deze psychologen willen de bevindingen van hun steekproef generaliseren naar een grotere populatie. Toegepast onderzoek wordt vaker gedaan in de generaliseerbare modus. Frequentie claims moeten altijd in de generaliseerbare modus getest worden. Je wilt natuurlijk een uitspraak doen over een grote groep mensen. Associatie en causale claims worden vaak in de theorie-test modus gedaan, maar het kan soms ook in de generaliseerbare modus getest worden. Culturele psychologie is geïnteresseerd in hoe een cultuur de manier van denken, gedragen en voelen van individuen bepaalt. Culturele psychologen gebruiken voornamelijk de generaliseerbare modus. Zij hebben laten zien dat veel theorieën die gesteund worden in één specifieke culturele context, niet altijd gesteund worden in een andere culturele context.

Een voorbeeld hiervan is de Müller-Lyer illusie (twee soorten lijnen die niet even lang lijken, maar die dit wel zijn). Blijkbaar hangt het vallen voor visuele illusies af van de cultuur waar je in opgegroeid bent. Mensen die opgegroeid zijn in een ontwikkeld land hebben meer ervaring met rechte hoeken en zij hebben dus een andere diepte perceptie dan mensen uit een ontwikkelend land zoals Afrika. Nederlanders zullen dus anders tegen de Müller-Lyer illusie aankijken dan Afrikaanse dorpelingen. Psychologen moeten er altijd rekening mee houden dat processen, zelfs basisprocessen, beïnvloed kunnen worden door cultuur. De meeste studies zijn gedaan met proefpersonen uit de Verenigde Staten, Australië en Europa. Deze proefpersonen worden ook wel de WEIRD populatie genoemd: western, educated, industrialized, rich en democratic. Deze WEIRD mensen representeren niet de hele wereld. Het is belangrijk om te beseffen dat je niet kan aannemen dat je resultaten generaliseerbaar zijn naar de hele wereld als ze generaliseerbaar zijn naar de WEIRD-populatie.

Moet onderzoek per se in een setting in de echte wereld uitgevoerd worden?

Veel mensen denken onterecht dat onderzoeken die in het veld (dagelijks leven) gedaan worden, belangrijker zijn dan onderzoeken die in een laboratorium worden gedaan. Onderzoeken die in het veld worden gedaan, hebben vrijwel zeker een goede externe validiteit. Echter, de ecologische validiteit van een setting is maar een klein aspect van de generaliseerbaarheid van de setting. Een setting kan dan wel realistisch zijn, maar het representeert niet alle settings die een persoon tegen kan komen. Vaak is het ook zo dat onderzoekers de settings in een laboratorium zo nauwkeurig mogelijk namaken. Emoties en gedragingen die vertoond worden tijdens het laboratoriumonderzoek kunnen net zo echt zijn als in de echte wereld.

Veel laboratoriumexperimenten zijn hoog in experimenteel realisme. Dat betekent dat de setting in het experiment zo realistisch is dat mensen oprechte emoties, motivaties en gedragingen vertonen. Door het verhogen van ecologische validiteit van een onderzoek kunnen wetenschappers ervoor zorgen dat hun bevindingen generaliseerbaar zijn naar niet-laboratorium settings. Onderzoeken die vanuit de theorie-test modus zijn gedaan, vinden het belangrijk om de interne validiteit goed te hebben, al gaat het ten koste van de externe validiteit. Dat wil echter niet zeggen dat deze onderzoeken niet belangrijk zijn. Veel van zulke studies hebben bijgedragen aan onze kennis over psychologie.

 

Join World Supporter
Join World Supporter
Log in or create your free account

Waarom een account aanmaken?

  • Je WorldSupporter account geeft je toegang tot alle functionaliteiten van het platform
  • Zodra je bent ingelogd kun je onder andere:
    • pagina's aan je lijst met favorieten toevoegen
    • feedback achterlaten
    • deelnemen aan discussies
    • zelf bijdragen delen via de 7 WorldSupporter tools
Follow the author: Psychology Supporter
Comments, Compliments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.