Waag jij binnenkort de sprong naar het buitenland? Verzeker jezelf van een goede ervaring met de JoHo Special ISIS verzekering
Deze samenvatting is geschreven in collegejaar 2012-2013.
College 8: Samping/ steekproeftrekken
M&M pp. 159-161, 3.2, IRM pp. 111-128
Veel termen in dit college zullen in het Engels zijn, omdat ze in het boek en in artikelen ook zo staan.
Deel 1:Introductie sampling
Sampling is het selecteren van subjecten uit de populatie waarvan jij iets te weten wilt komen. Het wordt vaak als niet zo belangrijk gezien, terwijl het juist de essentie van je onderzoek is. Je kan geen conclusies trekken als je steekproef niet goed is. De populatie zijn alle individuen (subjecten) waar je een uitspraak over wilt doen. Subjecten kunnen kinderen, ouders, organisaties, scholen enzovoort zijn. De populatie hangt af van je onderzoeksvraag. De steekproef is het deel van de populatie dat je werkelijk gaat onderzoeken. De steekproefkader is een lijst van de populatie die je gebruikt om je steekproef te trekken, zoals een register of telefoonlijst. Sample design is de methode die je gebruikt om tot een steekproef te komen.
Er zijn een aantal redenen waarom je niet de hele populatie onderzoekt. Qua tijd, geld en bereikbaarheid is het niet (altijd) mogelijk. Daarnaast is het de vraag of het wel nauwkeurig is. Je krijgt nooit 100% van je populatie te pakken, want er zijn bijvoorbeeld altijd mensen die uitvallen. Als die mensen juist verschillen van de grote groep, krijg je bias. Het is ook niet nodig omdat er technieken bestaan die de resultaten uit de steekproef kunnen generaliseren naar de populatie. Daarbij is het belangrijk dat de steekproef representatief is voor de populatie. De manier van steekproeftrekken is van belang. Je wilt dezelfde variatie van de populatie in je steekproef. Als je een uitspraak wilt doen over de populatie waarbij alle waarden van SES voorkomt moet dit ook in de steekproef terug te vinden zijn. Als je bijvoorbeeld alleen mensen met een hoge SES in je steekproef hebt, ontstaat er een bias. Je kan dan alleen een uitspraak doen over mensen met een hoge SES.
Oorzaken van bias zijn een verkeerde sampling methode, onderdekking (undercoverage) en non response. Bij sampling methode kan er een vertekend beeld ontstaan. Bij onderdekking kan je een essentieel deel van je populatie missen. Als je bijvoorbeeld een mening van alle Leidse studenten wilt hebben, maar je gebruikt een lijst van alle studentenvereniging als kader kunnen de studenten die niet lid zijn bij een studentenvereniging niet tot de steekproef behoren. Je verschuift zo je populatie. Bij non respons is er sprake van geselecteerde mensen die niet mee willen of kunnen doen. Als je bijvoorbeeld een uitspraak wilt doen over in welke mate ouders bezig zijn met de opvoeding zullen er ouders zijn die niet mee willen doen omdat ze weinig aan de opvoeding doen.
Soorten samples
Volgens Leary zijn er non-probability en probability samples. Bij non-probability is de kans dat een subject uit de populatie in de steekproef komt niet bekend. Je selecteert op beschikbaarheid, geschiktheid of theoretische ideeën. Er zijn vier soorten:
Voluntary response sample is een steekproef die tot stand komt door de vrijwillige keuze van individuen om mee te doen. De steekproef is bijvoorbeeld op basis van oproep. In de collegezaal werd opgeroepen dat studenten hun mening konden geven over het vorige tentamen. Mensen met een sterke (negatieve) mening laten zich eerder horen, dan mensen die neutraler denken. Daarnaast zijn er mensen die niet durven en is er geen anonimiteit. Ook reageer je op elkaar, omdat je ook niet hetzelfde wilt zeggen als iemand voor jou. Nadelig hieraan is dus dat vaak alleen extremen meedoen en niet de mensen die in het midden hangen, waardoor je een grote groep in je steekproef mist.
Convenience sample is een gelegenheidsproef van respondenten die (toevallig) makkelijk beschikbaar zijn. In praktijk zou je bijvoorbeeld alleen de mensen nemen die het dichtstbij je staan. Zo kan je bijvoorbeeld de eerste twintig mensen ondervragen die uit een trein stappen. Tijdens het college werd dezelfde vraag over het tentamen gesteld aan twaalf studenten die vooraan zaten. Het kan zo zijn dat studenten die het tentamen moeilijk vonden vooraan zitten en zo krijg je een vertekend beeld.
Quota sampling is een gelegenheidsproef waarbij a priori (van tevoren) vastgesteld wordt hoeveel respondenten met een bepaald attribuut nodig zijn. Zo kan je van tevoren zeggen dat je een sample wilt met respondenten uit verschillende leeftijdscategorieën. Als je dan alleen jonge mensen uit een trein ziet stappen zou je een deel missen. Je kunt vooraf stellen dat je tien mensen onder de 50 jaar wilt en tien mensen boven de 50 jaar. Als je dan al tien mensen onder de 50 jaar hebt gehad is nummer elf niet meer nodig.
Purposive sampling is een doelbewuste steekproef. Een onderzoeker kiest dan respondenten uit op basis van zijn of haar eigen oordeel. De onderzoeker kijkt naar welke mensen hij of zij in geïnteresseerd is. Hierbij is het van belang dat je als onderzoeker professioneel bent en inzicht hebt om dit op een goede manier te doen. Dit wordt vooral gebruikt in kwalitatief onderzoek en niet bij kwantitatief onderzoek. Met deze sampling kun je een goede steekproef pakken, maar niet goed generaliseren naar de populatie. Het is dus niet representatief, maar kan wel nuttig zijn als je alleen iets over je steekproef wil zeggen.
Deel 2:
Bij probability is de kans dat een subject uit de populatie in de steekproef komt wel bekend. Er zijn drie soorten:
Simple random sample (SRS) is een enkelvoudige aselecte steekproef. Er worden random mensen uit de populatie getrokken, waarbij alle mogelijke combinaties een even grote kans hebben om voor te komen. Het wordt dus random getrokken en het wordt gezien als een ideale situatie bij kwantitatief onderzoek, die bijna nooit lukt. Bijna in elke statistische methode staat: ‘We nemen een SRS’, dus dit is belangrijk om te weten.
Stratified random sample (gestratificeerde steekproef). De populatie wordt in groepen inidividuen ingedeeld die binnen de groep vergelijkbaar zijn (strata). Je verdeelt de populatie dus in strata met een bepaalde variabele. Je trekt dan uit ieder stratum een SRS. Je zorgt op deze manier voor variatie in de steekproef, omdat alle strata vertegenwoordig zullen zijn. Je kunt je sample nauwkeuriger samenstellen.Tijdens het college werd de woonsituatie van de aanwezige studenten als stratum genomen. Je kiest bijvoorbeeld de groepen thuiswonend, alleen-wonend, samenwonend en uit alle drie de groepen pak je een aantal mensen die uiteindelijk in de steekproef komen. Zo weet je dat elke variabele even vertegenwoordigd is.
Cluster sample (multistage-sampling). Hierbij slecteer je groepen (geografisch), zodat je individuen efficiënter kan benaderen. Allereerst verdeel je de populatie in logische/ praktische groepen en vervolgens kies je willekeurig een aantal groepen.Een groep wordt een cluster genoemd. Je kan dan nog binnen iedere groep een SRS kiezen (oftewel aselecte steekproef). Je kan aan de hand van de variabelen geboorteplaats, school enzovoorts een cluster samenstellen. Hoe meer random, hoe beter.
Het verschil tussen een cluster en een gestratificeerde steekproef is dat je bij een cluster steekproef hoopt op een heterogene groep. Bij een gestratificeerde steekproef kies je uit elk stratum een aantal mensen. De groep wordt homogeen.
Voordelen van een probability sample is dat er minder sampling error is en je kan beter redeneren van sample naar populatie (oftewel statistische inferentie). Een steekproef zal zelden of nooit een exacte representatie van de populatie zijn. Deze afwijking is niet erg. Je kan inschatten hoever de schatting afwijkt van de werkelijke waarde in de populatie door statistische inteferentie. Dit wordt gedaan met behulp van een foutenmarge (= bandbreedte). Het gemiddelde kan bijvoorbeeld 40 zijn op een leesvaardigheidstoets. De bandbreedte kan twee zijn, waardoor de foutenmarge tussen de 38 tot 42 ligt. Dit geeft een indicatie van de mate waarin de gegevens van de steekproef naar verwachting afwijken van de gegevens van de hele populatie. De foutenmarge is afhankelijk van de steekproefgrootte. Als er een steeproef van 170 mensen uit ene populatie van 180 mensen wordt getrokken ligt het gemiddelde dichtbij. Maar als de steekproef tien is, zal het gemiddelde meer variëren. Als er minder zekerheid is zal de bandbreedte groter worden en minder nauwkerig zijn. De foutenmarge is ook afhankelijk van de variantie van de data. Als de steekproef heel dicht bij elkaar ligt kun je nauwkeuriger inschatten dan bij veel verschillende data.
Nadelen van een probability sample is dat het tijdrovend, lastig, meestal niet vrij van sampling error en soms niet nodig is. Het kan bijvoorbeeld niet nodig zijn, doordat je helemaal niets wil zeggen over de populatie, maar alleen over je steekproef. Doordat het nogal lastig kan zijn, wordt het trekken van een steekproef vaak nogal makkelijk gedaan. Non-probability samples zijn soms een aanvaardbare/ betere keuze.
Non respons
Dit houdt in dat geselecteerde mensen niet meedoen omdat ze niet willen, niet kunnen of niet bereikt konden worden. Dit kan bias opleveren. In de pedagogiek komt dit zeer vaak voor. Als je bijvoorbeeld onderzoek doet in gezinnen kun je altijd factoren hebben als verhuizing, scheiding etc. waardoor ze over een langere tijd niet meer mee willen doen. Het is van belang vooraf na te denken over hoe je mensen gaat benaderen. Zorg ervoor dat je beleefd bent en dingen duidelijk uitlegt. Je kan bijvoorbeeld mensen ruimte geven voor vragen of contact zoeken via het balkon in plaats van de deur als je aanbelt bij een flat. Non response zal je altijd hebben, maar het is essentieel om erachter te komen of er een afwijking is. Achteraf kun je kijken of de mensen die niet reageerden structureel afwijken van de mensen die wel reageerden.
Ten slotte zijn er twee zaken in het boek niet helemaal duidelijk:
- Een survey kan én beschrijven én correlationeel zijn, in plaats van alleen beschrijvend.
- Sampling is nodig bij elke vorm van onderzoek en niet alleen bij experimenteel.
College 9: Betrouwbaarheid, validiteit en causaliteit
M&M 2.6, IRM pp. 61-80
Deel 1: Definities
Het trekken van conclusies is alleen mogelijk bij een goede onderzoeksopzet en goede instrumenten. Dit college gaat over hoe je ervoor zorgt dat je de goede onderzoeks-instrumenten hebt om conclusies te kunnen trekken. Cruciaal hierbij zijn betrouwbaarheid en validiteit.
Betrouwbaarheid heeft te maken met vertrouwen, behulpzaamheid, altijd aanwezig zijn, stevigheid bieden, waarheid. Samenvattend: voorspelbaarheid. Betrouwbaarheid houdt in dat je iets herhaald meet onder dezelfde omstandigheden en dat je daar dezelfde conclusie uit trekt. Als je bijvoorbeeld een tafel met een meetlat meet zal er steeds hetzelfde getal uitkomen. Als je dit met een touwtje meet is deze onbetrouwbaar aangezien deze de ene keer meer oprekt dan een andere keer.
Validiteit heeft te maken met waarde, waardering en geldigheid. Samenvattend: Doeltreffendheid. Validiteit gaat er om dat je meet wat je wilt meten. Als je de lengte van een tafel wilt meten dan is een weegschaal geen valide instrument. Deze is wel betrouwbaar omdat je dezelfde waardes krijgt. Door operationalisatie verbindt je het begrip zoals bedoeld aan het begrip zoals bepaald. Deze operationalisatie doe je met meetinstrumenten.
Er wordt een video afgespeeld waarin de onderzoeker een test doet om bij jonge baby’s al autisme te kunnen herkennen. Deze test is betrouwbaar, omdat als je de test een paar keer met dezelfde baby doet er hetzelfde zal gebeuren. De test is echter niet valide, omdat bij 70% van de gevallen met de test voorspelt kan worden dat een kind autistisch is. Het is dus geen directe test voor autisme, maar een soort screeningtest, waarna je verder zou moeten gaan met echte goede testen.
Een valide meting is altijd betrouwbaar. Een betrouwbare meting kan valide zijn (het voorbeeld met de tafel en de weegschaal is invalide). Een onbetrouwbare meting is invalide. De oplossing hiervoor is herhaald meten en waarbij je het gemiddelde als uitgangspunt neemt. Je bepaalt of een instrument valide of betrouwbaar is door te kijken of dit is vastgesteld bij eerder onderzoek of dit zelf vast te stellen in een eigen onderzoek.
Meetfouten
De gemeten variabale bestaat uit het bedoelde construct (dit is de ware score) en toevallige en systhematische meetfouten. Een toevallige meetfout hangt samen met betrouwbaarheid en door herhaald te meten heffen deze meetfouten elkaar op. Het zijn fouten die komen door onvoorziene omstandigheden. De ene keer gaan ze de ene kant op en de andere keer de andere kant. Een systhematische meetfout hangt samen met validiteit. Deze fouten zullen altijd dezelfde kant op gaan. Herhaald meten helpt in dit geval niet omdat je niet meet wat je wilt meten en er dus altijd naast zit. Het is lastig om deze fouten op te lossen.
Oorzaken van meetfouten:
Eigenschappen van proefpersonen: states zijn tijdelijk en toevallig, zoals ziekte of humeur en traits zijn systhematisch en zijn stabiele persoonlijke kenmerken zoals intelligentie en karakter.
Eigenschappen van meetinstrumenten, zoals een ongunstige lay-out. Dit is systhematisch.
Omgevingsfactoren. Prestatieverschillen reflecteren geen verschillen in vaardigheden, maar in omstandigheden. Dit kan toevallig of systhematisch zijn. Een voorbeeld is temperatuur in de tentamenzaal.
Codeerfouten, zoals intypen. Dit is toevallig.
Als je kijkt naar de meetfoutenvariantie bestaat de variantie variabele uit de ware score variantie en meetfoutenvariantie. Het is moeilijk om ware score variantie en systhematische meetfouten te onderscheiden, aangezien ze beide systhematisch zijn.
Betrouwbaarheid van meetinstrumenten
Dit wordt vaak uitgedrukt in correlatiecoëfficient (r), waarbij de r tussen de 0.00 en 1.00 ligt. Hoe dichter bij de 1.00, hoe betrouwbaarder. Er moet een positief verband zijn. Als dit niet het geval is, is dit raar. Het instrument is dan niet valide, omdat er verschillende scores met hetzelfde instrument onder dezelfde omstandigheden voorkomen. De vuistregel is: r > 0.80. Pas op met deze vuistregel, want deze geldt alleen voor betrouwbaarheid. Generaliseer deze niet naar validiteit. Om betrouwbaarheid te krijgen moet je van tevoren zorgen dat het een instrument is dat heel duidelijk omschreven staat, zodat iedereen hem hetzelfde gebruikt.
Je hebt verschillende soorten betrouwbaarheid.
Test-hertest
Je bepaalt de overeenstemming bij herhaald meten met dezelfde instrumenten, omstandigheden en personen door middel van de correlatie tussen de scores op twee verschillende momenten. Als de correlatie laag is, is het instrument onbetrouwbaar of verandert het concept over de tijd. Als je dezelfde test binnen korte tijd weer afneemt, krijg je waarschijnlijk een hogere score. Om dit leereffect te voorkomen pas je de paralleltest toe. Je neemt een gelijkwaardige testvorm af bij dezelfde groep mensen en berekent de correlatie scores op beide vormen (bijvoorbeeld tentamen en hertentamen). Zo ga je het ‘leereffect’ tegen, waarbij de test de 2e keer al beter zou worden gemaakt omdat de vragen al bekend zijn.
Inter-item (interne consistentie)
Je bekijkt de samenhang tussen de verschillende onderdelen van een test. Bij item-rest kijk je naar de correlatie tussen de score op een item en de somscore over de rest. Bij item-totaal kijk je naar de correlatie tussen de score op een item en de totaalscore op de test. De correlatie van item-totaal is sterker, want dan neem je hetzelfde getal mee in je vergelijking. Als je kunt kiezen kun je dus altijd beter de item-rest betrouwbaarheid gebruiken. Bij testhalvering reken je de correlatie uit tussen scores op twee helften van een test. Er zijn veel manieren om twee helften te maken. Cronbach’s alpha is het gemiddelde over alle mogelijke testhalveringsbetrouwbaarheden. Dit wordt vaak gebruikt. De vuistregel is dat de Cronbach’s alpha redelijk/ matig is bij 0.60, voldoende bij 0.70 en goed vanaf 0.80 is. Bij een lange test stijgt Cronbach’s alpha vanzelf. Dit is kunstmatig. Waar je rekening mee moet houden is dat hij hoger wordt als je meer vragen stelt. Hij zal dus altijd hoog zijn bij veel vragen, dan zegt het dus niet zoveel.
Interbeoordelaar
Hier gaat het om de overeenstemming tussen observatoren waarbij sprake is van dezelfde kenmerken, timing en instrumenten. Je moet hierbij geen correlatie gebruiken, maar bijvoorbeeld kijken naar in hoeveel procent van de gevallen ze het eens zijn.
Deel 2:Validiteit van meetinstrumenten
Hierbij wordt gekeken of het instrument meet wat het zegt te meten. Een instrument is valide wanneer systhematische fouten afwezig zijn. Bij een IQ-test kan de leesvaardigheid gemeten worden in plaats van de intelligentie door moeilijk taalgebruik. Er is sprake van een bias als er een groep benadeeld wordt door de inhoud van testitems. Zo scoorden jongens tijdens de CITO-toets beter op een vraag over een voetbalveld dan meisjes. Het bepalen van validiteit kan theoretisch door redenatie of praktisch door correlatie.
Er zijn verschillende soorten validiteit van instrumenten:
Inhoudsvaliditeit (content)
Hierbij is het van belang te kijken of het instrument het volledige domein dekt van een construct. Een voorbeeld is of een IQ-test alle domeinen van intelligentie meet of alleen rekenvaardigheid. Deze is alleen theoretisch vast te stellen, bij voorkeur door experts voorafgaand aan de afname.
Indruksvaliditeit (face)
Dit is een soort (oppervlakkige) inhoudsvaliditeit. Er wordt gekeken of de test er op het eerste gezicht valide uitziet, qua lay-out, formulering van de vragen enzovoort. De respondenten beoordelen het. Dit is erg belangrijk omdat er van af hangt of respondenten de test serieus zullen nemen. Deze is ook alleen theoretisch vast te stellen.
Constructvaliditeit
Dit is de meest pure vorm van validiteit. Hier wordt gekeken naar de overeenstemming tussen begrip-zoals-bedoeld en begrip-zoals-bepaald.Meet mijn onderzoek wat ik wil meten? Dit kan met correlatie worden onderzocht. Een intelligentie score moet bijvoorbeeld samenhangen met scores op andere intelligentietests. Bij een score op het gehechtheidsbiografische interview is het van belang dat deze sterk samenhangt met andere maten van gehechtheid en zwak samenhangt met bijvoorbeeld intelligentie en geheugen. Bij een sterke samenhang is er sprake van convergente validiteit. Dit gaat er om dat de correlatie hoog is tussen de score op het instrument en de score op een ander instrument dat een gerelateerd (correlatie moet hoog zijn) of hetzelfde begrip (correlatie moet nog hoger zijn) meet. De parallelbetrouwbaarheids-test meet twee keer met hetzelfde instrument, maar dan in een andere vorm. Dit is een verschil. Bij discriminante validiteit moet de correlatie laag zijn tussen de score op het instrument en de score op een ander instrument dat een niet-/ of weinig gerelateerd begrip meet. Het gaat hierbij om zaken die samenhangen met je onderwerp, maar niet persé wil meten. Het is van belang dat bij zowel discriminante als convergente validiteit het vergeleken instrument betrouwbaar en valide is.
Criteriumvaliditeit
Criterium bepaalt de inhoudelijke relevantie van het instrument. Het gaat erom of je instrument relevantijk is voor de praktijk. Je voorspelt aan de hand van instrumenten. Een voorbeeld van praktische bruikbaarheid is het voorspellen van een wiskundecijfer van jongeren in de brugklas (criterium) uit de scores die zij kregen op rekenen uit de CITO-toets. De CITO-score is alleen relevant als deze de prestatie op de middelbare school kan voorspellen. Je kan je richten op het heden, dit wordt concurrente validiteit genoemd, zoals klinische diagnoses. Ook kan je je richten op de toekomst, dit wordt predictieve validiteit genoemd en de CITO-toets is daar een voorbeeld van. De nadelen van het voorspellen van de toekomst is dat het kosten en moeite meebrengt en dat het te meten begrip instabiel is.
Soms is een instrument valide op bepaalde aspecten, maar niet op andere aspecten. Dan ligt het er maar aan of die aspecten van belang zijn.
Bij de validiteit van een heel onderzoek kijk je naar de construct, waar gekeken wordt of het onderzoek geschikt is om de vraag te beantwoorden. Ook wordt er intern gekeken naar het effect en of deze alleen toe te schrijven is aan manipulatie. Extern kijk je naar de generaliseerbaarheid qua populatie, situaties en over tijd.
Causaliteit
Dit is het verband tussen twee zaken. Een voorbeeld is of de hoogte van de BMI van de moeder de hoogte van het BMI van haar dochter veroorzaakt. Het is van belang te weten dat een geobserveerde relatie niet hetzelfde is als een causale relatie. Als je onderzoek doet is het verleidelijk om een effect te verklaren door een causaal verband, maar het probleem is dat een geobserveerde relatie ook op andere manieren kan worden geïnterpreteerd.
De problemen met causaliteit zijn dat relaties in de sociale wetenschappen niet perfect zijn: een fenomeen heeft meerdere oorzaken. Ook spelen lurking (derde/ op de loer liggende) variabelen een rol. Hierbij wordt een verband verklaard door een variabele die je helemaal niet gemeten hebt. Daarnaast kan er sprake zijn van een omgekeerde causale relatie. Common response betekent dat een derde/ lurking variabele (z) zowel x als y kan
veroorzaken, terwijl x niet y veroorzaakt. Bij confounding veroorzaakt z y en is onlosmakelijk verbonden met x. Het is dan onduidelijk of x en/ of z de oorzaak vormt van y. Bij de indirecte causale relatie is de variable x geen direct oorzaak van y, maar veroorzaakte deze z, en z veroorzaakt vervolgens y.
Een heel sterk verband is echter geen bewijs voor een causale relatie. Causaliteit is vast te stellen door een experiment. Als we kijken naar een experiment is interne validiteit van belang. Daarbij wordt nagegaan of een effect het gevolg is van manipulatie. Voorbeelden van bedreigingen van interne validiteit zijn geschiedenis, rijping, leereffect/ test-hertesteffect en overdracht van experimentele naar controlegroep. Dit vormt de invloed van de derde variabele. Als een experiment niet mogelijk is, zijn er een aantal indicaties voor de causaliteit. Je moet nagaan of het oorzakelijk plausibel en zinvol is. Ook kijk je of het gevonden verband sterk en consistent is. De oorzaak moet ook vooraf gaan aan het gevolg. Dosis-response betekent dat een verhoging op x samengaat met een verhoging van y.
Belangrijk om te onthouden is dat de validiteit en betrouwbaarheid van meetinstrumenten altijd onderzocht en vermeld moeten worden. Betrouwbaarhied/ validiteit op één gebied betekent niet dat dit voor alle gebieden zo is. Onderzoek moet uitwijzen wat relevante vormen zijn. Causaliteit moet onderzocht worden met een experiment en indien er een niet-experimenteel onderzoek plaatsvindt dat je oppast voor (ontzichtbare) lurking variabelen.
College 10: Experimenteel onderzoek en kansrekening
M&M 3.1 (niet p. 177-179), 3.4, 4.1, IRM P1, C8.
Deel 1:
Bij experimenten worden variabelen gemanipuleerd. Op die manier kunnen oorzaak en gevolg vastgesteld worden. Bij een onafhankelijke variabele experiment wordt de invloed gemeten van een onafhankelijke variabele op een afhankelijke variabele. De onafhankelijke variabele kan verschillende niveau’s hebben die levels/ condities worden genoemd. Als je bijvoorbeeld geïnteresseerd bent in de invloed van muziek op de achtergrond tijdens het huiswerk maken, kan je de radio hard, zacht of uit zetten. De radio is de onafhankelijke variabele en de levels zijn hard, zacht of uit. Er zijn drie typen onafhankelijke variabelen:
- Environmental manipulations: je manipuleert iets uit de omgeving (bijvoorbeeld geluid).
- Instructional manipulations: verschillende levels ontstaan door verschillende instructies aan de proefpersonen, je geeft de ene groep de instructie om een blije tekening te maken en de andere groep om een droevige tekening te maken.
- Invasive manipulations: het manipuleren van de mentale/ fysieke staat van een mens, door bijvoorbeeld een pil te geven.
De experimentele groep is de in een experiment die wordt blootgesteld aan manipulatie. De controlegroep krijgt geen manipulatie. Zo kun je de impact van de onafhankelijke variabele vaststellen. Zo kan je twee experimentele groepen hebben waarbij de radio hard of zacht staat tijdens het huiswerk maken en een controlegroep waarbij de radio uit staat. Bij een experiment heb je meestal één controlegroep en kunnen er meerdere experimentele groepen zijn. De impact van onafhankelijke variabelen kan vastgesteld worden op twee manieren:
- Pilot test vindt vóór het experiment plaats. Er wordt bij een kleine groep mensen vooraf getest of de manipulatie effect heeft. Als zij vinden dat het geluid niet storend genoeg is, wordt de radio harder gezet tijdens het experiment. Zo kun je een goed niveau kiezen voor je experiment, waarbij je weet dat er effect zal zijn.
- Manipulation check gebeurt tijdens het experiment om te checken of de manipulatie gelukt is. Leary beperkt zich tot vragen, maar er kan ook gekozen worden om bijvoorbeeld bloed af te nemen om te kijken of er toename van adrenaline is. Als hieruit blijkt dat het geen impact heeft gehad kun je er echter niks meer aan doen, maar dan weet je het tenminste.
Proefpersonen
Proefpersonen variabelen zijn variabelen die samenhangen met de proefpersonen zelf en niet door de onderzoeker gemanipuleerd zijn, zoals geslacht of opleiding. Ze zijn geen onafhankelijke variabelen omdat ze niet door de onderzoeker gemanipuleerd zijn. Als je bijvoorbeeld verschillen meet in je proef tussen mannen en vrouwen, weet je nooit zeker of dat invloed heeft gehad op het resultaat.
Afhankelijke variabele is de respons die gemeten wordt in het experiment, zoals maten van zelfrapportage, gedrag dat opgenomen is op video, fysiologische maten. De afhankelijke variabele wordt beïnloed door de onafhankelijke variabele.
Er is bijvoorbeeld onderzoek gedaan naar de invloed van het drinken van alcohol op de reactietijd. Groep 1 krijgt geen bier, groep 2 krijgt twee glazen bier, groep 3 krijgt 4 glazen bier. De reactietijd werd gemeten in een verkeerssimulator. De onafhankelijke variabele is de mate van alcohol.De levels zijn 0, 2, 4. Er is sprake van invasive manipulatie. De personen krijgen bier binnen, wat hun stemming verandert.
Er is een controlegroep, namelijk de groep die geen bier drinkt. De afhankelijke variabele is de reactietijd.
Bij het toewijzen van proefpersonen aan condities moet je de invloed van achtergrondvariabelen zoveel mogelijk uitsluiten. Dit betekent dat de groepen op alle achtergrondvariabelen vergelijkbaar moeten zijn. Er zijn verschillende manieren:
- Simple random toewijzing is het plaatsen van proefpersonen in condities waarbij er gelijke kans is voor iedere proefpersoon om geplaatst te worden in elke experimentele conditie, bijvoorbeeld kop of munt.
- Matched random toewijzing is de aselecte toewijzing die gedaan wordt op basis van de scores op een variabele die samenhangt met de afhankelijke variabele. Groepen kunnen ingedeeld worden op basis van een voormeting. Bijvoorbeeld bij het alcoholexperiment, voordat het experiment begint laat je ze een reactietijdentaakje op de computer doen. Zo krijg je snellere en langzamere mensen. Je neemt dan de drie snelste die je over de drie groepen verdeeld. Vervolgens neem je de drie mensen die daarna het snelst zijn. Op basis van toeval verdeel je zo dus de proefpersonen. Het idee daarachter is dat je drie verschillende groepen hebt die zoveel mogelijk op elkaar lijken qua hoe snel ze zijn.
Beide worden ook wel randomized groups design, between-subjects design of between-groups design genoemd.
Random toewijzing betekent niet dat de steekproef random is. De eerste stap is een steekproef trekken uit je populatie. De tweede stap bestaat uit het aselect toewijzen van personen aan je condities. Als je als populatie de Nederlandse bevolking hebt is je steekproef niet representatief als je steekproef uit alleen psychologiestudenten bestaat. Zij zijn homogeen qua opleiding, leeftijd enzovoort. Ze zijn niet aselect getrokken, maar kunnen wel aselect toegewezen worden.
Repeated measures design
Een alternatief voor random toewijzing is het repeated measures design. De proefpersonen worden aan alle experimentele condities blootgesteld op verschillende tijdstippen. Elke proefpersoon is zijn of haar eigen controle. De eerste dag moeten ze nuchter een taak doen, vijf dagen later doen ze dezelfde taak met twee glazen alcohol op en weer vijf dagen later met vier glazen alcohol op. Dit wordt ook wel within-subjects design genoemd.
De voordelen zijn dat het meer power bevat (effecten worden sneller gedetecteerd) en er zijn minder proefpersonen nodig. De nadelen zijn volgorde effecten.
- Door de taak herhaald uit te voeren treedt het practice (leer) effect op. De proefpersonen worden beter in de taak naarmate hij vaker gedaan is .
- Het fatigue (vermoeidheids) effect ontstaat als de proefpersonen genoeg krijgen van de taak en ze minder nauwkeurig worden.
- Sensitization is dat de proefpersonen doorkrijgen wat het doel van het onderzoek is en mogelijk anders gaan reageren. Effect hiervan is dat ze zich naar een hypothese kunnen gaan gedragen, bijv. expres slechter presteren.
- Overdrachtseffecten kunnen ook voorkomen. De manipulatie van de vorige dag kan de volgende dag nog invloed hebben en op die manier invloed hebben op bijvoorbeeld de reactietijd van proefpersonen als er alcohol gebruikt wordt.
De oplossing voor deze problemen is om de volgorde te laten variëren voor elk persoon op grond van toeval.
Deel 2:
Experimentele controle
Als er bij een onderzoek variantie voorkomt resteert de vraag in welke mate dit door manipulatie veroorzaakt wordt en in welke mate door individuele verschillen.
- Systematische variantie (between-group variance) bestaat uit twee onderdelen:
- Treatment variantie beslaat het deel van de variantie dat verklaard wordt door de experimentele manipulatie. Een voorbeeld is de verschillen in eindcijfers van een bepaald vak wat veroorzaakt wordt door het wel of niet krijgen van bijles.
- Confound variantie ontstaat door ongelijke behandeling. De variantie wordt dan niet veroorzaakt door de onafhankelijke variabele. Dit bedreigt de interne validiteit en moet voorkomen worden. Een voorbeeld is om groepen kinderen naar verschillende filmpjes te laten kijken die neutraal, eng of vrolijk zijn. De kinderen die het enge filmpje gaan zien worden vanwege ethische redenen vooraf gewaarschuwd. De andere kinderen krijgen geen waarschuwing bij hun film en ontstaat er een ongelijke behandeling. Het is mogelijk dat de angstrapportage verband houdt met de andere behandeling.
- Error variantie (with-in group variance) zijn de toevallige verschillen tussen individuen, zoals moeheid. Error variantie komt door alle factoren die ervoor zorgen dat mensen een verschillend resultaat hebben. Aan deze verschillen is weinig te doen. De fouten in de procedure worden zo klein mogelijk gehouden.
Totale variantie bestaat uit treatment variantie, confound variantie en error variantie. De eerste twee vormen samen de systematische variantie en de error variantie houdt toevallige foutenvariantie in.
Interne validiteit
Dit is de mate waarin een onderzoeker goede conclusies trekt over effecten van een onafhankelijke variabele. Bedreigingen zijn:
- Biased assignment, waarbij geen of mislukte random toewijzing plaatsvindt. Dan weet je niet meer of de verschillen tussen de groepen door de manipulatie komt.
- Differentiële uitval. Mensen kunnen bijboorbeeld wegblijven van hun therapie. Mensen die uitvallen kunnen voor een vertekend beeld zorgen in het resultaat. De groepen zijn dan niet meer vergelijkbaar.
- Pretest sensitisatie. Hierbij kunnen mensen na aanleiding van de voormeting een mening hebben gevormd dat de antwoorden op de vragen kan beïnvloeden. Er kan bijvoorbeeld tijdens een voormeting gevraagd worden naar hoe trots de proefpersoon is op zijn Nederlandse burgerschap. De proefpersoon wordt bewust van die vraag, terwijl hij daarvoor er misschien niet zo bij stil had gestaan. Oplossing is een controlegroep.
- Historie komt voor als er bijvoorbeeld tegelijkertijd met een therapie een gebeurtenis van buitenaf plaatsvindt wat invloed uitoefent op de therapie. Oplossing is een controlegroep.
- Rijping (maturation) houdt de natuurlijke ontwikkeling van proefpersonen in. Oplossing is een controlegroep.
- Verwachtingen van de onderzoekers of van de proefpersonen. Zij kunnen bepaalde uitkomsten van het experiment verwachten. De oplossing is de double-blind procedure waarbij beide partijen niet weet welke interventie bij wie zal worden toegepast.
- Placebo effecten zijn veranderingen door suggestie, zoals het innemen van een pil die niet werkt, maar men daar wel verschil van opmerkt. Oplossing is een nutteloos middel toedienen aan de controlegroep.
Bronnen van errorvariantie
- Individuele verschillen zijn verschillen die vaststaan op cognitief, fysiologisch, emotioneel, gedragsmatig gebied. Het advies van Leary is om een groep te onderzoeken die qua achtergrondskenmerken homogeen is.
- Tijdelijke (emotionele) staten, zoals moeheid van proefpersonen, stemming, ziekte.
- Omgevingsfactoren, zoals tijdstip, achtergrondlawaai, slecht weer.
- Verschillende behandelingen, zoals de stemming van de proefleider, gevoel van de proefleider, kleine verschillen in instructies.
- Meetfouten, zoals fouten van meetinstrumenten.
Kansbegrip en kansrekening
Een fenomeen is random als de uitkomsten niet van te voren vaststaan, maar bij veelvuldige herhaling wel aan een patroon voldoen. Een voorbeeld hiervan is het oneindig vaak een muntstuk opgooien. De uitkomsten stabiliseren zich tot 50%.
De probability/ kans op een gebeurtenis is de proportie van het aantal keren dat de gebeurtenis voorkomt in een lange serie van herhalingen. De kans dat je kop gooit bij een muntstuk is bijvoorbeeld 0.5.
College 11: Steekproevenverdeling en betrouwbaarheids-intervallen
M&M 3.3, 5.1, 6.1
Deel 1:
Dit college zal gaan over wat geconcludeerd kan worden uit verantwoord onderzoek en hoe je conclusies trekt met steekproefgegevens over de populatie. De vraag die je in je onderzoek stelt gaat over de populatie, terwijl de gegevens over de steekproef gaan. De steekproef is slechts deel van de populatie. Je moet goed kijken wat de steekproefgegevens zeggen en of je het kan generaliseren naar de populatie. Statistiek is een middel om tot een antwoord op je onderzoeksvraag te komen. Het is geen doel. Statistiek wordt gebaseerd op theorie. Daarna maak je een goed overwogen opzet voor de vraag die je wil beantwoorden. Vervolgens voer je die nauwkeurig uit en interpreteer je de uitkomsten verstandig.
Van steekproef naar populatie
Uit je populatie trek je een steekproef. Het is van belang dat je de gegevens die je uit je steekproef krijgt terug kunt koppelen naar de populatie. Gemiddelen zijn belangrijk als je van je steekproef naar de populatie wil. Een steekproefgemiddelde is beter dan een losse waarneming. Met Z-scores kun je één persoon vergelijken met de populatie. Dan wordt er dus een ruwe score vergeleken met de populatieverdeling. Als je een steekproef als groep wil vergelijken met de populatie, neem je dus het gemiddelde als ‘samenvatting’. De vraag is altijd of je steekproef representatief is voor de populatie. Om iets over de populatie te zeggen neem je meerdere steekproeven die samen gemiddeld iets zeggen over het punt in de populatie. We willen een betrouwbare en valide meting. Je kan ook beter met gemiddelden werken dan met ruwe scores, omdat een losse score makkelijker een extreme waarde kan zijn,.
Een onzuivere schatting is als het steekproefgemiddelde ver van de populatiewaarde ligt. Bij een onnauwkeurige schatting is er veel spreiding in je schatting. Hoe meer steekproeven, hoe zuiverder de schatting naar het populatiegemiddelde. Gemiddelde van steekproefgemiddelden is een zuivere schatter populatiegemiddelde (μ). Toch kun je ook met maar één steekproef informatie krijgen over hoe alle steekproefgemiddelden er uit zouden zien.
Steekproevenverdeling
De steekproevenverdeling is de tussenstap tussen steekproef en populatie: verdeling van alle gemiddelden van veel verschillende steekproeven. Bij populatieverdelingen werk je juist altijd met losse scores. Een steekproevenverdeling is een theoretische verdeling, want je moet alle mogelijke steekproeven van een bepaalde grootte van een populatie nemen. Het is handig, aangezien je met de steekproevenverdeling eigenschappen van de populatie kunt schatten, maar je zal hem nooit met de hand vaststellen.
Bij een populatieverdeling heb je alle waarden van de populatie. Het gemiddelde is gelijk aan het populatiegemiddelde (μ). Bij een steekproefverdeling wordt er uitgegaan van een verdeling van een variabele in één steekproef. Deze steekproefverdeling is niet gelijk aan een populatieverdeling. Het gemiddelde is gelijk aan het steekproefgemiddelde. Bij een steekproevenverdeling heb je een populatie waaruit je een aantal even grote steekproeven uittrekt. Daar reken je de gemiddelden van uit. Het gemiddelde is dan een zuivere schatter voor μ. Stel je neemt twee steekproeven van elk vijf personen. Deze kunnen heel verschillend zijn op één variabele. De twee gemiddelden zijn samen een benadering van de steekproefverdeling. Voor de echte steekproefverdeling moet je alle mogelijke steekproeven nemen. Hoe groter de populatie, hoe groter het aantal mogelijke steekproeven.
Alle steekproeven moeten altijd van dezelfde grootte zijn. Elke steekproefgrootte heeft zijn eigen steekproevenverderdeling. Een te kleine steekproef zorgt voor veel variatie in gemiddelden. Een grotere steekproef zorgt voor een betere schatting van het populatiegemiddelde, omdat je minder variatie hebt.
Het nut van een steekproevenverdeling is dat het mogelijk is om uitspraken te doenover de populatie op basis van een steekproef, aangezien een steekproef onderdeel is van de steekproevenverdeling. Dus geeft elke steekproef een stukje informatie over de steekproevenverdeling.
De steekproefgrootte beïnvloedt de vorm van de steekproevenverdeling, aangezien grotere steekproeven meer op de populatie lijken variëren de gemiddelden minder rond μ.
Vorm van de steekproevenverdeling
Een steekproevenverdeling kun je alleen trekken als je alle eigenschappen kent. De vorm, het gemiddelde en de spreiding is vaak al genoeg. De vorm is net als een normaalverdeling die je kan omzetten naar standaardnormaalverdeling. De eigenschappen zijn bekend en staan in tabel A. Er wordt gesproken van een normaalverdeling als het populatieverdeling normaal is en de gemiddelden van normaal verdeelde variabele ook normaal verdeeld zijn en als de steekproef voldoende groot is, ongeveer 50 (centrale limietstelling: ongeacht vorm populatieverdeling). Bij de centrale limietstelling is het zo dat als de N groter wordt, de steekproevenverdeling meer op een normaalverdeling gaat lijken.
De spreiding in een steekproevenverdeling is altijd kleiner dan in een populatie omdat deze wordt berekend door de spreiding te delen door de wortel van de steekproefgrootte (N). Een grotere N betekent een kleinere spreiding in de steekproevenverdeling. Een steekproevenverdeling is een normaalverdeling met gemiddelde μ en standaarddeviatie.
Statistische interferentie betekent dat er vanuit de steekproef iets over de populatie gezegd wordt. Dit is alleen zinvol als de steekproef een redelijke afspiegeling van de populatie is en als de eigenschappen van de steekproevenverdeling bekend zijn. De steekproef moet dus representatief zijn. Dit is het geval als hij normaal verdeeld is. Toepassingen zoals betrouwbaarheidsintervallen of hypothesetoetsen doe je als je weet dat de steekproevenverdeling een normaalverdeling is.
Betrouwbaarheidsintervallen
Betrouwbaarheidsintervallen zijn een manier om te schatten waar μ ligt en je bepaald het op basis van één steekproefgemiddelde en de steekproevenverdeling.Het is een interval waarbinnen je denkt dat het populatiegemiddelde ligt. Een betrouwbaarheidsinterval van 95% geeft 95% zekerheid. Betrouwbaarheidsinterval is alleen te vertrouwen bij random steekproeftrekking. Alleen dan kun je statistisch infereren.
Berekening betrouwbaarheidsinterval
Bij het berekenen maak je gebruik van z-scores en neem je als uitgangspunt de standaarddeviatie in de populatie, maar dit is niet realistisch. Bij zowel een steekproevenverdeling als een normaalverdeling geldt de 68-95-99.7% regel. In bijvoorbeeld 95% van de steekproeven ligt het steekproefgemiddelde binnen twee standaardeviaties van μ. μ ligt dus ook binnen twee standaardeviaties van het steekproefgemiddelde. Van Leiden naar Amsterdam is immers net zo ver als van Amsterdam naar Leiden.
In de praktijk pas je betrouwbaarheidsintervallen toe van steekproef naar de populatie en niet andersom. Zo schat je de μ. De vuistregel is dat het onnauwkeurig is. De exacte berekening doe je aan de hand van de z-tabel. Bij een 95% interval kijk je dus naar de z-score in tabel A bij P= 0,975. De z-score die hierbij past is 1,96.
Het betrouwbaarheidsinterval interpreteer je door bij bijvoorbeeld een interval van 95% bij 100 steekproeven te stellen dat in 95 gevallen μ in het interval ligt. Dus dat in 95% van de steekproevenhet betrouwbaarheidsinterval een juiste schatting doet van het populatiegemiddelde. Je zou ook kunnen zeggen dat je met 95% zekerheid kan zeggen tussen welke twee waarden het populatiegemiddelde ligt.
Meer nauwkeurigheid met gelijkblijvend vertrouwen doe je door de steekproeven te vergroten of de standaarddeviatie te verkleinen. Dit laatste is niet realistisch. Let op bij betrouwbaarheidsinterval dat de kwaliteit van je onderzoeksopzet en steekproef belangrijk zijn. Interval is alleen geldig bij strikt random trekken wat zeldzaam is. Verwijder je uitbijters bij berekeningen en je moet de standaardeviatie kennen in de populatie.
- 1 of 2153
- next ›
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why would you use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, study notes en practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the menu above every page to go to one of the main starting pages
- Starting pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
- Use the topics and taxonomy terms
- The topics and taxonomy of the study and working fields gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
- Check or follow your (study) organizations:
- by checking or using your study organizations you are likely to discover all relevant study materials.
- this option is only available trough partner organizations
- Check or follow authors or other WorldSupporters
- by following individual users, authors you are likely to discover more relevant study materials.
- Use the Search tools
- 'Quick & Easy'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject.
- The search tool is also available at the bottom of most pages
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Field of study
- All studies for summaries, study assistance and working fields
- Communication & Media sciences
- Corporate & Organizational Sciences
- Cultural Studies & Humanities
- Economy & Economical sciences
- Education & Pedagogic Sciences
- Health & Medical Sciences
- IT & Exact sciences
- Law & Justice
- Nature & Environmental Sciences
- Psychology & Behavioral Sciences
- Public Administration & Social Sciences
- Science & Research
- Technical Sciences
Add new contribution