ARMS - Collegeaantekeningen voor Psychologen en Pedagogen - UU (2014 - 2015)

Deze aantekeningen zijn gemaakt in het studiejaar 2014 - 2015. Hoewel de behandelde onderwerpen ondertussen veranderd kunnen zijn, blijven de gebruikte statistische methoden gelijk en zeer bruikbaar voor elke psychologie en pedagogische wetenschappen student


Hoorcollege 1: Betrouwbaarheid en validiteit

Door: Nijs Lagerweij

Inhoud van het college

Dit college gaat over de termen betrouwbaarheid en validiteit. De onderwerpen die in dit college aan bod komen zijn: Allereerst het Model klassieke testtheorie. Dit is een model voor testscore (KTT). De testscore is de ware score + meetfout (X = T + E). Ten tweede betrouwbaarheid. En tot slot wordt er gesproken over validiteit.

Voor theoretische constructen moet je operationaliseren. Vervolgens wordt er gekeken welke meetinstrumenten gebruikt kunnen worden. Welke variabelen horen daarbij? En wat is de kwaliteit van deze variabelen?

Het kan nooit zo zijn dat constructen helemaal geoperationaliseerd kunnen worden. Daarom is er altijd sprake van een beetje onbetrouwbaarheid van de metingen. Deze onbetrouwbaarheid moet wel geprobeerd worden om te kwantificeren. Want met welke mate is er sprake van onbetrouwbaarheid? Dit getal is de standaard meetfout.

Een instrument moet ook meten wat je wil meten. Dit is validiteit.

Het voorbeeld wat gebruikt wordt voor dit college gaat over pesten. De probleemstelling hierbij is als volgt: In hoeverre heeft beleving door leraren van pesten van leerlingen, invloed op hun handelen in situaties waarin gepest wordt? Pesten is hierbij een abstract kenmerk/theoretische construct. Allereerst moet dit construct gedefinieerd worden. Er kan bekeken worden naar dader en slachtoffer perspectief. Als dit construct geoperationaliseerd wordt komt er een vragenlijst, met een subschaal voor het dader perspectief en een subschaal voor het slachtoffer perspectief.

Er wordt gebruikt van de Likertschaal (van helemaal niet waar naar waar). Voor de pester zijn de vragen als volgt: Ik heb soms zin andere kinderen uit mijn groep te plagen, Ik heb soms zin gemene en vervelende dingen tegen andere kinderen te zeggen, Ik heb soms zin andere kinderen te schoppen of te slaan en Er wordt bij ons in de groep veel gepest.

Enkele voorbeelditems voor ‘slachtoffer’ zijn: Ik word vaak geplaagd in onze groep, Ik word vaak geschopt en geslagen door andere kinderen en Ik voel me vaak bedreigd door andere kinderen uit mijn groep.

De puntschatting is de score die uiteindelijk gemeten wordt. Dit wordt gemeten door gebruik te maken van de Likert schaal. Een voorbeeld van zo’n stelling is: ik sla graag anderen. Deze wordt dan beantwoord met, helemaal waar, er tussen in, helemaal niet mee eens etc.. De scores op items worden op items weergegeven in de datamatrix. Een puntschatting is niet altijd perfect en daarom is het beter om een intervalschatting te geven.Om dit getal te kunnen interpreteren moeten we in dit college gaan kijken of dit betrouwbaar is.

Het werkelijke pestgedrag moet door de testscore werkelijk benaderd worden. Dus de ware score (in werkelijkheid) moet gelijk zijn aan de testscore. De geobserveerde score is hierbij de afbeelding van een theoretisch construct. Dit houdt in dat de score zowel laag als hoog kan zijn ten opzichte van de testscores die gemeten worden. Uiteindelijk zijn de meetinstrumenten zijn feilbaar. Dat betekent dat iemand met bijvoorbeeld score 80 ook testscore 85 of 75 kan hebben. Verder is het belangrijk dat de testscore ook geïnterpreteerd kan worden als ware score. Als dit kan, is er sprake van vertrouwen in de testscore. Als er sprake is van een brede range aan scores op de testscore (bijvoorbeeld 65 terwijl de ware score 80 is), dan is de meting minder betrouwbaar.

Er moet echter ook gekeken worden naar de validiteit. Want wat als de antwoorden van het kind beïnvloedt worden door sociale wenselijkheid? Wanneer er sprake is van sociale wenselijkheid heeft dit invloed op de socre. Dit is dan een systematische meetfout en de testscore is hierbij niet valide voor pestgedrag. Voor de pester is de ware score dan bijvoorbeeld hoog, terwijl de testscore veel lager uit komt. Een meting kan wel betrouwbaar zijn maar niet valide.

Klassiek meetmodel

De testscore X wordt bepaald door de niet gemeten latente of ware score T (true score) en meetfout E (error). De E houden alle overige invloeden in die invloed hebben op de testscore, maar het zijn toevallige fouten. Bijvoorbeeld afgeleid worden of een zin verkeerd interpreteren. Verder heeft de werkelijke kennis van een persoon ook invloed op de testscore van deze persoon zelf.

Oftewel: X= T + E

De T bestaat uit systematische invloeden: wat de test beoogd te meten (theoretisch construct), maar ook de systematische fouten. Er is ook sprake van toevallige invloeden, bijvoorbeeld sociale wenselijkheid.

Bij pestgedrag is er sprake van sociale wenselijkheid. De sociale wenselijkheid wordt hier dan de E. Verder kan de cultuur bijvoorbeeld ook van invloed zijn op de testvaardigheid en ook dit zorgt voor ongewenste systematische invloeden.

Een betrouwbare meting krijg je als er bijvoorbeeld een rustige omgeving is, de toevallige invloeden moeten zo veel mogelijk uitgesloten worden. Dan krijg je namelijk een exacte meting. De scores moeten onafhankelijk zijn van tijd, plaats en omgeving. De test is betrouwbaar als men op hetzelfde moment de test nog een keer afneemt en er dezelfde scores uitkomen.

Een valide meting is betrouwbaar, maar ook de afwezigheid van systematische meetfouten. Bij validiteit moet er gemeten worden wat men wil meten met het liefst zo min mogelijk hinderlijkheid van andere invloeden. Een test mag wel een systematische afwijking hebben, maar dit moet wel geïnterpreteerd worden. Zonder betrouwbaarheid is het dus per definitie niet valide.

Stel we hebben een testscore. Volgens het meetmodel kunnen er drie componenten onderscheiden worden: ware score, systematische fout en de toevallige fout. Bij een betrouwbare meting moet er een kleine toevallige fout zijn. Het aandeel van deze toevallige fout is bij de betrouwbaarheid heel klein. Bij een valide meting moet er een kleine systematische fout zijn en een kleine toevallige fout zijn. De ware score heeft hierbij een groot aandeel.

Als er aan iemand oneindig veel vragen gesteld worden, dan wordt de verdeling nominaal. Het gemiddelde is dan T. De toevallige fout is het verschil tussen de ware score van de persoon en de geobserveerde score van een persoon. De standaardmeetfout is de gemiddelde fout die je maakt bij een test. Dit is van belang voor een nauwkeurige meting, omdat dan resultaten uiteindelijk geïnterpreteerd kunnen worden. De standaardmeetfout is dus een maat voor nauwkeurige meting.

Klassieke testtheorie:

Dit model kent enkele aannames (model assumpties). Allereerst is de verwachtingswaarde E bij replicaties 0. Dus: per persoon is de gemiddelde meetfout gelijk aan nul. De meetfout is voor elk individu is even groot. Maar ook: in de populatie is de gemiddelde meetfout gelijk aan nul.

Ten tweede correleren meetfouten niet met de ware score. De meetfouten komen door toevallige invloeden tot stand, ze staan onafhankelijk van je vaardigheden en dergelijke.

Tot slot correleren de meetfouten niet onderling. Als we dus een taaltoets, een rekentoets en een topografietoets afnemen, zien we geen systematisch grote fouten vanuit de participant of vanuit de afnemers. Er is geen sprake van een correlatie. We hebben te maken met toevallige meetfouten, omdat de klassieke testtheorie alleen hier iets over zegt.

Betrouwbaarheid bij een groep:

De betrouwbaarheid is de verhouding tussen de ware scorevariantie en de testscore variantie. Er is sprake van testvariatie, of variantie bij de betrouwbaarheid van een test die afgenomen is bij een groep. De testvariantie is gelijk aan de som van de ware variantie + de errorvariantie + twee keer de covariantie. De covariantie geeft de samenhang aan tussen de variantie en errorvariantie. Volgens de assumptie, zie hierboven, is er nooit onderlinge correlatie. Daarom kan het laatste deel van de formule geskipt worden en houden we over: testvariantie = som van de ware variantie + de errorvariantie.

Het probleem is echter dat we niet weten wat de variantie van ware scores is. De testscores die wat zeggen over de ware scores hebben we niet, dus daarom moeten we op andere manieren moeten we dus achter de betrouwbaarheid zien te komen. De betrouwbaarheid kan dus bijvoorbeeld geschat worden.

Een bijzonder geval is een perfect betrouwbare meting. Hierin moeten er geen toevallige fouten zijn. De X is gelijk aan T. Voor de rest van de formules, zie de sheets van hoorcollege 1. Betrouwbaarheid is het getal 1 als er sprake is van maximale betrouwbaarheid en 0 als er sprake is van geen betrouwbaarheid. Bij 0 is de lijn van de normaalverdeling een rechte lijn stijl omhoog. Bij een standaardafwijking (error) van 0 komt de spreiding van de testscores overeen met de ware scores.

Methoden:

De vraag, om terug te komen op het voorbeeld, is dan: Hoe betrouwbaar zijn daderschaal en slachtofferschaal?

Er zijn verschillende methoden om dit te bekijken:

  1. Methoden via twee testafnames (een groep, twee keer afnemen)

  2. Test-hertest methode (1)

  3. Paralleltest methode (2)

  4. Methoden via één testafname (een groep, een keer afnemen)

  5. Split–half methode (3)

  6. Cronbachs alfa (4)

De eerste methode is de Test-hertest methode. Hierbij worden dezelfde groepen gemeten op twee gelegenheden. Of bij elke persoon twee testen op twee gelegenheden. Vervolgens wordt de correlatie tussen de twee metingen berekend. Er is sprake van betrouwbaarheid als de correlatie tussen de metingen overeenkomt. Wanneer de samenhang van de metingen hoog is er sprake van een hoge correlatie.

Er zijn wel enkele bezwaren, namelijk een mogelijk leereffect waardoor overschatting, twee afnames is belastend voor respondenten en het kost veel tijd. Verder kunnen herinneringen ook van invloed zijn op de hertest, omdat respondenten zich de vragen nog kunnen herinneren.

De tweede methode is de Paralleltest methode. Er is sprake van een parallelle test: even lang en meet hetzelfde. Maar: de vragen zijn anders gesteld, zodat het leereffect verminderd/uitgesloten wordt. De vragen zijn overigens wel gelijkwaardig. Vervolgens wordt opnieuw de correlatie berekend. Bij een sterke correlatie tussen de overeenkomstige testen is er sprake van betrouwbaarheid.

Ook hierbij zijn enkele bezwaren, namelijk: soms is het lastig om twee parallelle testen te maken, belastend voor respondenten en kost veel tijd (geld).

De derde methode is de Split-half methode. Hierbij wordt de test bij één groep één keer afgenomen. De test wordt verdeeld in twee even grote delen, waaraan een testscore kan worden afgeleid. Vervolgens wordt de correlatie berekend.Wanneer deze correlatie overeenkomstig is is er sprake van een grote betrouwbaarheid. Het is echter problematisch dat ook het aantal items invloed heeft op de betrouwbaarheid (veel items leidt tot een hogere betrouwbaarheid). De Spearman-Brown correctie is daarom nodig voor de betrouwbaarheid hele test. Deze formule is te vinden in sheet 25.

Er zijn echter wel bezwaren tegen deze methode. Er zijn namelijk veel items nodig voor nauwkeurige schatting. Bovendien moet je de schatting afhankelijk opsplitsing in twee helften (bovenste helft/onderste helft, even/oneven).

De vierde methode is die van Cronbachs alfa. Deze methode neemt het gemiddelde van alle mogelijke correlaties. Dit is een procedure die kan worden toegepast als er sprake is van gelijkwaardige items. Belangrijk is een aselecte steekproef uit de doelpopulatie, waarna de data geanalyseerd kunnen worden. Vervolgens kan Cronbachs alfa berekent worden. Er is hier vaak een kleine onderschatting van de betrouwbaarheid. Dit moet je snappen, maar hoef je niet zelf uit te kunnen rekenen.

De interpretatie alfa is als volgt. De gemiddelde van alle split-half betrouwbaarheden is de alfa. Daarom mogen we het interpreteren als de ondergrens van de betrouwbaarheid. Een alfa van .80 betekent dat minimaal 80% van variantie in testscores wordt veroorzaakt door variantie in ware scores.

Hoe betrouwbaar zijn nu de daderschaal en de slachtofferschaal? Dit kan ook uitgerekend worden via SPSS. Zie slide 30 voor de outputs van SPSS.

COTAN

Criteria voor de betrouwbaarheid zijn te vinden in een schemaatje op sheet 29. De COTAN test de kwaliteit van de testen op zeven kenmerken. Het gaat hierbij over tests bij onomkeerbare beslissing op individueel niveau, tests bij minder belangrijke beslissing op individueel niveau en tests bij onderzoek op groepsniveau.

Deze criteria komen bij COTAN vandaan. De officiële testbeoordeling van COTAN:

  1. Uitgangspunten van de testconstructie
  2. Kwaliteit van het testmateriaal
  3. Kwaliteit van de handleiding
  4. Normen
  5. Betrouwbaarheid
  6. Begripsvaliditeit
  7. Criteriumvaliditeit

Itemselectie:

Item-restcorrelatie (ri,r) is om te kijken of er sprake is van een correlatie tussen itemscores en somscore overige items (restscore) En dit moet relevant zijn (ri,r ≥ .3).

Criteria voor verwijderen item zijn als volgt: ri,r < .3, Cronbachs alfa is hoger of andere inhoudelijk argumenten.Dit is een vuistregel, hoe meer items er verwijdert worden hoe hogere schatting voor de betrouwbaarheid.

Validiteit meetinstrument: Mate waarin test/ toets/ schaal meet wat bedoeld wordt te meten.

Typen validiteit: Onderscheidingen naar manier valideren:

  1. Inhoudsvaliditeit (content validity)

In hoeverre representeert gehele test (kennis)domein?

Voorbeeld: In hoeverre representeren tentamenvragen gehele leerstof?

Beoordeling:

  • Deskundigen gaan systematisch na in hoeverre testitems het gehele domein (universum van situaties of onderwerpen) dekken.

  • Gebruikers geven een globale indruk over test: indruksvaliditeit of face validity

Begripsvaliditeit (construct validity).

Dit komt aan de orde als we iets moeten beschrijven. Dit bestaat uit de interne en externe structuur.

Hoe goed representeren testitems het psychologisch construct (= abstract begrip) dat niet direct geobserveerd kan worden?

Voorbeeld: In hoeverre meet IQ-test intelligentie?

Beoordeling

  • Ga de interne structuur van de test na en beoordeel of binnen een test de verwachte relaties volgens verwachting aanwezig zijn.

  • Ga de externe structuur van de test (nomologisch netwerk) na en beoordeel of testscores verwachte relaties met andere variabelen vertonen.

  • Criteriumvaliditeit (criterion validity).

Dit komt aan de orde als er iets voorspelt moet worden. Dit bestaat uit: verleden (postdictie), heden (paradictie) en toekomst (predictie).

Voorbeeld: Hoe hoog correleren testscores met concreet criterium (= gedrag of prestatie dat niet met test wordt gemeten)?

  • Toekomst (predictieve validiteit): Geschiktheidtest voor baan en succes baan

  • Heden (concurrente validiteit): Test voor kennis op bepaald gebied (vliegsimulator) en

  • vaardigheid zelfde gebied (echt vliegen)

  • Verleden: Test voor stoornis en mate traumatische beleving in verleden

Standaardmeetfout:

  • spreiding toevallige meetfout bij oneindig aantal replicaties

  • indicatie voor hoe precies je meet (hoe kleiner standaardmeetfout hoe preciezer de meting)

  • met E betrouwbaarheidsinterval afleiden voor ware score

Hoorcollege 2: Factoranalyse

Door: Nijs Lagerweij

Factoranalyse probeert over een verzameling van kenmerken één kernfactor te vinden die deze kenmerken verklaard. Dus alle items proberen één item te meten. Dit is een techniek om theoretische constructen te meten. Achter elk items is één centraal antwoord bepalend. Dit is de factor.

Doelen factoranalyse:

Het eerste doel is het beoordelen van de dimensionaliteit van een test (begripsvaliditeit). Dit houdt in dat alles betrekking heeft op het instrument zelf. De vraag hierbij is: Vind je de aantal theoretisch veronderstelde dimensies (factoren)? Dus als er bijvoorbeeld een persoonlijkheidstest afgenomen wordt, zullen binnen de vragen de Big Five persoonlijkheidskenmerken terugkomen. Als de verwachtingen over deze vragen bevestigd worden in de antwoorden worden de theoretische veronderstelde dimensies gevonden. Dit noemen we ook wel de confirmerende factoranalyse. Soms is dit moeilijk te onderscheiden van de verwachting.

Het tweede doel is de datareductie methode: Kunnen we informatie uit een groot aantal items samenvatten in een klein aantal nieuw te construeren variabelen (factoren)? Hier wordt gezocht naar het aantal zinvol te onderscheiden achterliggende dimensies. Dit kan alleen als alle factoren één kenmerk meten, anders moeten er meerdere dimensies gemeten worden. Bijvoorbeeld tien items over slachtofferschap kunnen genoemd worden onder één dimensie. Dit is een meer explorerende vorm van analyse, ook wel de explorerende factoranalyse genoemd.

In het voorbeeld van Rekenen (sheet 4) zie je de mate van correlaties tussen vragen. De vragen 1-5 en 6-10 hangen met elkaar samen, dat zie je aan de hogere correlatie. Deze samenhang van de correlerende items worden in een correlatiecoëfficient uitgedrukt. Er zijn dus twee clusters van items te vinden. De redactiesommen correleren relatief hoog, de rekensommen correleren relatief hoog en de redactiesommen correleren relatief laag met de rekensommen. De tien items kunnen in twee factorscores gepresenteerd worden. Bij de eerste factor wegen de eerste vijf items zwaarder dan de laatste vijf items, terwijl alle informatie wordt gebruikt. Bij zowel factor 1 als factor 2 worden alle items gebruikt, sommige wegen dus zwaarder dan anderen. De conclusie is dat er een onderscheid is tussen de twee factoren, namelijk rekenkundige toepassing en de rekenvaardigheid.

In het voorbeeld van Taal zie je andere maten van correlaties. Hier worden tien items één factorscore. Alleen het items dat het meest overeenkomt met de taalvaardigheid weegt het zwaarste binnen deze factor.Er is geen sprake van bepaalde vragen die hoog met elkaar correleren. Dit kan komen doordat er sprake is van maar één achterliggende variabele. Er is dan sprake van een hoge correlatie van de aanvulitems, een hoge correlatie van de spellingitems en ook de aanvulitems correleren hoog met de spellingitems. Er is alleen sprake van de factor algemene taalvaardigheid.

Stappen in analyse

  • Keuze factormodel, bijvoorbeeld PCA en PAF

  • Bepalen aantal factoren

  • Interpreteren factoren

  • Bepalen kwaliteit factoroplossing

  • (Construeer schaal)

Een voorbeeld van een factoranalyse is de WAIS 3 test. Deze bestaat uit 11 subschalen (subtests die bestaan uit items). Dit is een eerste orde factoranalyse. In deze test hebben twee kenmerken invloed en deze kenmerken kunnen weer door achterliggende factoren bepaald worden.

Er wordt niet geanalyseerd op basis van de kenmerken, maar op basis van de scores van deze kenmerken. De factoranalyse wordt dus uitgevoerd op basis van de testscores, ook wel de hogere orde factoranalyse genoemd. Als je wel de kenmerken gebruikt om te analyseren noem je dit de nulde orde factoranalyse.

Conformerende factoranalyse: kijken of de dimensie terugkomt in je kenmerken. Dit kan met gebruik van de computer. In het voorbeeld om bijvoorbeeld te kijken of er inderdaad sprake is van een correlatie tussen het verbale en performale IQ.

Stap 1: Sheet 15: de Z-scores zijn de getransformeerde testscores. Door ze naar z-scores te veranderen kan de correlatie worden bepaald. Voor je analyse gebruikt je dus ook de z-scores. F1 en F2 hebben invloed op al de testscores. Bij deze analyse is er sprake van latente scores. Deze scores zijn niet zichtbaar, maar zijn theoretisch wel een verklaring voor invloed op de items. Het kan wel zo zijn dat F1 bijvoorbeeld meer invloed heeft op de eerste 5 vragen. Toch is er altijd sprake van een bepaalde mate van correlatie, zij het in meerdere of mindere mate. Het model wat je ziet in Sheet 14 noem je het hoofdcomponentenanalyse (Principal Components Analyses). Bij deze analyse wordt alle variantie verklaard door de factoren.

Een andere mogelijke analyse is de Principal Axis Factoring (factoranalyse in engere zin). De U hierin staat voor de errorinvloed. Deze errorinvloed komt niet naar voren in de PCA daar verklaren de kenmerken de correlatie. Bij de PAF wordt er rekening gehouden met de toevallige invloeden en is er onverklaarde variantie. Niet alle variantie wordt hier dus verklaard door de factoren.

Samengevat alle dingen die voorkomen in de modellen:

Geobserveerde variabele (X , ZX)

  • X = individuele score op item

  • ZX = X getransformeerd naar z-score

Factorlading (a) is de correlatie van item met factor. Het is hierbij belangrijk om te beseffen dat er concrete a-waarden worden geschat. Hoe hoger deze a, hoe sterker de relatie van de factor met die variabele. Het gaat hier om de absolute grootte en niet de richting. Met de factoranalyse wordt deze a geschat. Factor (F ) is de achterliggende verklaring voor variatie in en samenhang tussen items. De gewogen soms van de items gecombineerd met a.Tot slot is de unieke factor (u) de unieke factor voor de specifieke en error variantie. Er kan vervolgens een vergelijking gemaakt worden. Hierbij worden alle z-scores vermenigvuldigd met de factorlading, daarna worden ze opgeteld. Dit leidt tot de gewogen factorscore per persoon.

Kenmerken van de factorscore F:

  • Voor ieder individu een score op (elke) factor.

  • Voor persoon i is Fji de gewogen som (lineaire combinatie) van k gestandaardiseerde items.

  • F is een nieuwe variabele.

  • Verdeling factorscores: gemiddelde = 0 ; standaardafwijking = 1. Nul betekent hier niet dat er een kenmerk afwezig is, maar dat je dat scoort als gemiddelde van de groep op de test.

  • Kan lopen van – oneindig tot + oneindig

  • Het ligt ongeveer tussen de -3 en de +3

Stap 2: bepalen aantal factoren

Er kan vervolgens een correlatiematrix gemaakt worden van het voorbeeld over Intelligentie. De vraag die dan gesteld kan worden is of er twee statistisch zinvol te onderscheiden factoren zijn. Er is dus sprake van een conformerende factoranalyse, omdat er al gekozen is om de kenmerken onder te brengen in twee factoren. We willen namelijk met zo weinig mogelijk factoren zo veel mogelijk variantie in de items verklaren (datareductie). F is overigens alleen zinvol als het een deel van de variantie kan verklaren (bij de PAF is er altijd onverklaarde variantie). De maximale F is gelijk aan de k (het aantal items).

Verklaarde variantie factoren:

Factor 1 verklaart een zo groot mogelijk deel van testvariantie. Factor 2 verklaart een zo groot mogelijk deel van restvariantie. Factor k verklaart een zo groot mogelijk deel van restvariantie (dat is de U).

De keuze van het aantal factoren is gebaseerd op de verklaarde variantie door factoren (statistisch criterium).

De totale variantie in items: Per item is de variantie gelijk aan 1. De totale variantie is gelijk aan het aantal items, ook wel k.

De eigenwaarde van een van factor is ook wel de verklaarde variantie in alle items door een factor. De som van de eigenwaarde is gelijk aan het aantal items. Kies in eerste instantie altijd voor een aantal factoren met Eigenwaarde groter dan 1 (vuistregel!). Dan is het statistisch gezien namelijk een zinvolle factor. Zoals je kan zien in slide 21 is er sprake bij de tweede factor van een eigenwaarde kleiner dan 1. Daarom is er maar sprake van één factor. Dit is min of meer een subjectievee beoordeling.

Scree-plot: je moet de vuistregel toepassen door een rechte lijn te trekken dor de dots, zowel horizontaal als verticaal. Dan krijg je het knik-criterium: je moet het aantal factoren kiezen die gelijk zijn aan het aantal voor de knik in de grafiek.

Stap 3: Interpretatie factoren

De hoofdvraag hierbij is: Wat is de inhoudelijke betekenis van de factor?

Een manier van aanpak is het roteren van de factoroplossing. Hier worden de loodrechte assen gedraaid, waardoor er een duidelijk structuur ontstaat. De rotatie dient voor de interpretatie! Hierbij gebruik je de ladingen van items op factoren en letterlijke inhoud en krijg je een formulering van items:

  • Item met hoogste lading is meest kenmerkend voor factor

  • Loop items in aflopende lading af

  • Gebruik de items met |a| > .3 (of .4 of .5 of .6 ...)

Rotatie:

Het roteren is een hulpmiddel bij de interpretatie van factoren. Je draait de assen (factoren) zodat ze beter door de clusters van items gaan. Er bestaan twee verschillende vormen namelijk orthogonale (rechte) rotatie en oblique (scheve) rotatie. Dit heet ook wel een mathematische transformatie.

Na de rotatie laadt elk item hoog op een factor en laag op andere factor (‘simple structure’)

Eenvoud van structuur (Simple Structure) dit is een situatie waarin:

  • op elke factor een klein aantal items is met een sterke lading

  • op elke factor een groot aantal items is met een zwakke lading

  • elk item bij voorkeur op één factor een sterke lading heeft

Orthogonale rotatie:

Dit is voor rotatie bij twee factoren. De twee factoren worden als assen weergegeven in een tweedimensionaal vlak. Er is geen sprake van correlatie tussen de factoren. De factoren staan loodrecht op elkaar (= ongecorreleerd). Bovendien hebben de items in het assenstelsel ladingen op beide factoren als coördinaten.

Het resultaat van de orthogonale rotatie is dat er sprake is van ongecorreleerde factoren, de assen blijven ook na rotatie loodrecht op elkaar staan.

Na de rotatie kunnen de factorladingen geïnterpreteerd worden als correlaties tussen factoren en items.

Oblique rotatie:

Het resultaat van oblique rotatie is dat er gecorreleerde factoren mogelijk zijn. De assen hoeven bovendien niet loodrecht op elkaar te staan (zie in SPSS de factor correlatiematrix).

De interpretatie van factorladingen zijn (partiële) regressiegewichten in plaats van correlaties.

Keuze orthogonaal – oblique:

  • zo eenvoudig als mogelijk en zo ingewikkeld als nodig

  • orthogonale rotatie is eenvoudiger dan oblique rotatie

  • oblique rotatie als interpretatie duidelijker

Er is vaak weinig verschil tussen soorte rotatie, omdat we het alleen bij de correlatie houden.

Voorbeeld over Pesten:

De vraag is of de items tot veronderstelde dimensies behoren. Dit kan door middel van een hoofdcomponentenanalyse met een oblique rotatie op alle 41 items. Zie de laatste slides.

Kwaliteit factoroplossing:

Beoordeling kwaliteit:

  • Verschillen tussen geschatte en geobserveerde correlaties.

  • Eenvoud van structuur (‘simple structure’).

  • Proportie verklaarde variantie in alle items door factoren:

  • ‘matig’ bij ≈ 30% verklaarde variantie door factoren

  • ‘goed’ bij ≈ 50% verklaarde variantie door factoren

Proportie verklaarde variantie in afzonderlijke items door alle factoren in het model (communaliteit).

Proportie verklaarde variantie:

De totale variantie van items is de som van de gestandaardiseerde itemvarianties gelijk aan k x 1 = k. De proportie verklaarde variantie door een factor is de proportie door één factor verklaarde variantie in alle items! De proportie verklaarde variantie van meerdere factoren kan berekent worden door de proporties van de verklaarde varianties van factoren bij elkaar op te tellen.

Twee belangrijke begrippen:

Communaliteit

Communaliteit is de proportie door alle factoren gezamenlijk verklaarde variantie

van één item (h 2).

Uniciteit

Uniciteit is de proportie van de NIET verklaarde variantie in een item. Dit kan berekent worden door: 1 - h2.

Hoorcollege 3: Handelingsonderzoek & Delphi-onderzoek

Het kenmerk van handelingsonderzoek is evaluatie en zo gaandeweg te zoeken naar een oplossing. Zonder evaluatie is er sprake van praktijkonderzoek en dus geen handelingsonderzoek. Het kenmerk van Delphi-onderzoek is het gebruik maken van experts. Dat gaan we in dit college zien.

Handelingsonderzoek

In de praktijk zijn er vaak ingewikkelde problemen. Bovendien is er voor die problemen lang niet altijd een kant-en-klare oplossing. Je begint tijdens het onderzoek met een probleemanalyse. Vervolgens ga je gaandeweg zoeken naar oplossingen. Daarna is er sprake van evaluatie en eventueel bijstelling en/of rapportage van het proces. Het is dus essentieel dat alles geëvalueerd wordt!

De hele definitie van handelingsonderzoek is: een algemene gerichtheid op het oplossen van problemen door al onderzoekend het zelfstandig handelingsvermogen van individuen en groepen te verbeteren, waardoor het individu zelf zijn situatie kan veranderen of verbeteren.

De verschillende betrokkenen bij het probleem zijn de hulpverlener, geholpene en de onderzoeker. In principe hebben zij allemaal een gelijkwaardige inbreng.

Het doel van handelingsonderzoek is om het zelfstandig handelingsvermogen van cliënten verbeteren. Therapeut en cliënt zijn gelijkwaardige partners. De probleemanalyse, leren, handelen en uitproberen zijn onderdeel van het proces. Wanneer er ook gegevens worden verzameld zodat het handelingsproces geëvalueerd kan worden, is er sprake van handelingsonderzoek

Handelingsonderzoek is dus een proces dat bestaat uit een cyclus. Er zijn drie componenten aanwezig namelijk handelen, leren en onderzoeken.

In de regulatieve cyclus begin je met de probleemstelling -> diagnose -> doelstelling en handelingsplan -> ingreep -> evaluatie resultaat -> etc.

Er zijn verschillende doelstellingen:

  1. Leerdoelstellingen: wat moet iemand leren?

  2. Handelingsdoelstellingen: hoe moet X handelen om Y te helpen?

Handelen, onderzoeken en leren vinden allen plaats tijdens handelingsonderzoek. Er is alleen sprake van handelingsonderzoek als er wordt geëvalueerd.

Onderzoeken is vaak het in kaart brengen van het proces, leren is bijv. de leerprogramma’s weergeven. Als er bijv. sprake is van pesten (dit is een complex proces), en is er al een protocol, dan kan je vaak al beginnen met handelen. Als er echter sprake is van een kennisachterstand, is er sprake van leren. Je begint met het onderzoeken als er al sprake is van concrete meetinstrumenten. Zie de specifieke componenten in slide 22.

De kenmerken van handelingsonderzoek op een rij:

  1. Complex onderzoek

  2. Gaandeweg zoeken naar een oplossing

  3. Evaluatie van het handelen en/of leren

  4. Gelijkwaardige inbreng van betrokkenen

Handelingsonderzoek is bruikbaar als er sprake is van een achterstand, evaluatie en een zoektocht naar de beste behandelingsmogelijkheid.

Dus: de klinische behandeling plus de evaluatie is het handelingsonderzoek.

Ook het proces is altijd het zelfde, namelijk de voorbereiding (hulpvraag), de inrichting (planning, diagnostiek en handelingsplan), de uitvoering (nulmeting; meting voordat je gaat behandelen/basislijn, doelstellingsgericht) en de evaluatie (klaar of een nieuwe ronde?). Tot slot volgt de verslaggeving. Een stopcriterium voor handelingsonderzoek is als het doel behaald is, of als blijkt dat er gestart moet worden met een nieuw onderzoek vanuit een zijpad. Ook kan er sprake zijn van verzadiging als stopcriterium, dus als het resultaat niet beter wordt.

Wanneer kies je voor handelingsonderzoek? Het kan dat je je eigen handelen wil evalueren als je niet zeker bent van een bepaalde interventie. Het handelingsresultaat kan ook geëvalueerd worden aan de betrokkenen maar ook aan de buitenwereld; bijvoorbeeld: kijk het werkt! Ook de verschillende behandelingselementen kunnen onderzocht worden wat het beste bijdraagt. Er kan tot slot gestreefd worden naar een gestandaardiseerde behandelingsmethode (bijvoorbeeld protocolontwikkeling).

Handelingsonderzoek kan zowel kwalitatief als kwantitatief zijn. Als er sprake is van een brede onderzoeksvraag is kwalitatief onderzoek beter.Bij kwalitatief is het minder specifiek en wordt er meer ingegaan op de argumenten die worden gegeven. Is er echter sprake van een hulpvraag als tekort in kennis of vaardigheden, is er een instrument en is er de mogelijkheid voor herhaalde metingen, dan is kwantitatief onderzoek handig. Hierbij worden er vooral individuele gevallen en groepen met elkaar vergeleken.

Er kunnen geen causale conclusies getrokken worden, want misschien is er sprake van externe factoren.

Hoe zet je het onderzoeksdeel op?

Je begint altijd met een vraagstelling, een doel. Bij iedere ingreep wil je het meten weten voor de start van het handelen. Omdat het probleem complex is zijn er ook diverse meetinstrumenten en is er ook een complex resultaat.

Wat zijn de voor- en nadelen?

We vergelijken handelingsonderzoek met een enquete/vragenlijst.

Voordelen van handelingsonderzoek: afstemming op de personen waarom het gaat, ondersteuning van de behandeling, veel informatie over de praktische omstandigheden, je krijgt inzicht in de vooruitgang en er is sprake van gelijkwaardigheid/emancipatie.

Enkele nadelen kunnen bijvoorbeeld zijn: het verwaarlozen van onderzoeksdoelstellingen of het overtrokken engagement en het feit dat het onderzoek vaak niet representatief is, omdat het per individu verschilt. Ook vage doelstellingen zijn niet goed, omdat ze niet te evalueren zijn. Verder kan ook de rapportage verwaarloosd worden.

Wat is zo bijzonder aan handelingsonderzoek?

De rol van de onderzoeker is complex; hij/zijn moet communiceren en affiniteit hebben met het werkveld.Er is dus gelijk sprake van actie, niet eerst kijken wat er allemaal gedaan kan worden, omdat de onderzoeker direct contact heeft met de cliënt en de ouders.

Het is heel moeilijk om handelingsonderzoek te repliceren. Ook kunnen alternatieve verklaringen nooit worden uitgesloten (interne validiteit), omdat onderzoek daar niet op is gericht. Ook wat betreft externe validiteit gaat het om de betrokkenen en is het moeilijk te generaliseren. Er is dus altijd een lokale conclusie en vooruitgang.

Delphi-onderzoek

Delphi-onderzoek maakt doelgericht gebruik van een groep deskundigen waarbij door middel van ondervraging en rapportage de meningen van deskundigen worden verkregen, geïnventariseerd, geordend, uitgewisseld, gecombineerd en herzien in opeenvolgende ronden. Hierbij speelt de Delphi-onderzoeker een centrale rol. Anonimiteit is erg belangrijk, zodat ieder zijn mening kan geven; dus totale vrijwaarding van sociale druk. Ook zijn er meerdere rondes, en niet een vragenlijst.

Deskundigen

Panel (=deskundigen) wordt ondervraagd. De deskundigen worden op grond van

deskundigheid gevraagd (bijna altijd selecte groep). Deskundigen zijn vaak goed opgeleid. Dit geeft mogelijkheid om hen met complexe vragen te confronteren. Het nadeel hierbij is wel dat deskundigen weinig tijd hebben, de uitval vaak groot is (vooral bij een Delphi-onderzoek

dat lang duurt). Per ronde vallen er deskundigen af, waardoor er uiteindelijk weinig overblijven.

Enkele kenmerken van Delphi-onderzoek zijn het raadplegen van deskundigen, meningen en argumenten spelen een grote rol, eveneens als de onderzoeker. Er is ook sprake van herhaalde ondervraging. Na de eerste ronde worden de gemiddelden doorgegeven en wordt gevraagd of men het er nog mee eens is, in de hoop dat er bij meer rondes , meer consensu komt.. Tot slot is bescherming tegen sociale druk een belangrijk kenmerk!

Hoe zet je een Delphi-onderzoek op?

  1. Voorbereiding

Tijdens de voorbereiding wordt de vraagstelling uitgewerkt. Bovendien is er sprake van vooronderzoek. Ook wordt het ontwerp gekozen en is er sprake van selectie van panel van deskundigen (20 tot 100). Er kan sprake zijn van een smalle samenstelling: gespecialiseerde deskundigen of een brede samenstelling: verschillende belangengroepen.

  1. Eerste ronde

Tijdens de eerste ronde is er sprake van informatieverstrekking en inventarisatie

  1. Vervolgronden

Tijdens de vervolgronden is er sprake van tussenrapportage en wordt er gevraagd naar nieuwe reacties.

  1. Slotronde en eindrapport

Consensus is vaak het doel, er kan echter ook sprake zijn van andere doelen.

Bij de beleids-Delphi gaat het vaak om de argumentatie. Wel wordt aan de argumenten die vaker voorkomen meer aandacht gegeven. Het eindrapport kan een voorspelling zijn van de toekomst, maar ook voor een beleidsvoorstel of besluit.

Niet alleen consensus maar ook stabiliteit is een indicator voor de slotronde

Er zijn verschillende doelstellingen, zoals inhoudelijke doelstellingen: voorspelling, inventarisatie en beleidsontwikkeling maar ook procedurele doelstellingen: consensus, verschillende voorspellingen, één beslissing en de communicatie te verbeteren.

Echter, effecten als status, leeftijd en dergelijke moeten zoveel mogelijk gereduceerd worden. Iedere stem moet dus evenveel tellen.

Er zijn wel verschillen tussen de Delphi-onderzoeken.

Zo biedt de conventionele Delphi voor iedereen gelijke mogelijkheden. Het is van belang de verschillen tussen de verschillende Delphi’s te weten.

Wanneer gebruik je een Delphi? Als er sprake is van een open vraagstelling, waarbij het handig is dat experts hun mening geven. Het is niet gericht op causaliteitsvragen en generaliseerbaarheid.

De meest nuttige doelstellingen zijn het verkennen van een probleem, het afbakenen van meer of minder relevante deelgebieden en consensusvorming.

Veelkomende problemen zijn bijvoorbeeld het ontbreken van verificatie, groepsgewijze verkeerde inschatting en alternatieve uitkomsten door bijvoorbeeld de selectie van het panel.

Voor het testen van betrouwbaarheid is een Delphi niet geschikt, want het is niet repliceerbaar. Ook is er niet een oorzaak die leidt tot een bepaalde uitkomst (interne validiteit) Vaak is er sprake van een selectie van panelleden (externe validiteit). Delphi biedt dus geen garantie voor validiteit, omdat het vooral draait om de meningen van de deskundigen.

Hoorcollege 4: Multipele regressie

Door: Nijs Lagerweij

Onderzoek bestaat uit nadenken, verwachtingen en vervolgens data verzamelen. Hieraan moet wel een theorie ten grondslag liggen. In dit college een manier om inzicht te krijgen in bepaalde variabelen en een manier om inzichten te toetsen. Vandaag kijken we naar multipele regressie. Er is hierbij sprake van meer dan één variabele die gebruikt kan worden als verklaring voor de afhankelijke variabelen.

Een onderzoeksvraag zou bijvoorbeeld kunnen zijn: Kunnen we kennis van literatuur voorspellen met persoons-, gezins- en schoolkenmerken? Er zijn dan verschillende variabelen, allereerst de afhankelijke variabele Y (Kennis van literatuur bij jong volwassenen). De afhankelijke variabele moet normaal verdeeld zijn. Het doel van dit onderzoek is het beschrijven en toetsen van relaties van Y met onafhankelijke variabelen X (predictoren, voorspellers). Er worden groepen van factoren tegelijkertijd meegenomen in de analyse en zo wordt er onderzocht of er een relatie is. Als er daadwerkelijke relaties zijn tussen Y en X, kunnen de predictoren bepaalde uitspraken doen over deze relatie; bovendien kunnen er bepaalde dingen voorspelt worden. Vervolgens wordt er gekeken welke variabelen het meest van invloed zijn en of ze zinvol zijn.

Bij multipele regressie is er dus eerst sprake van beschrijven, vervolgens ook verklaren en voorspellen.

Multipele regressie algemeen: is een analysetechniek waarop we X voorspellen op een bepaalde persoon. Dit kan vervolgens een voorspelling of een verklaring zijn voor X.

De onderzoeksvraag is dus: kunnen we iemands waarde op een kenmerk voorspellen met

kennis over andere kenmerken?

Doelen van multipele regressie:

  • Beschrijven van relaties tussen variabelen (regressiemodel).

  • Toetsen hypothesen over relaties (significantie).

  • Kwantificeren van relaties (effectgrootte).

  • Kwalificeren van relaties (klein, middelmatig, groot).

  • Beoordelen relevantie relaties (subjectief; is verschillend per onderzoek).

  • Voorspellen van iemands waarde met regressiemodel (puntschatting en intervalschatting).

Afhankelijke variabele Y is een continu kenmerk gemeten op interval meetniveau

Het meetniveau van onafhankelijke variabelen Xk is:

  • Continu of discreet kenmerk gemeten op interval meetniveau

    • Continue: leeftijd (1,5 jaar)

    • Discreet: aantal kinderen ( is altijd een heel getal)

  • Categorische kenmerk met twee categorieën krijgt een nominaal meetniveau met twee categorieën. Dit noemen we dichotoom.

  • Zoals de variabele sekse: jongen/meisje

  • Categorisch kenmerk met meer dan twee categorieën, dan wordt het nominale meetniveau omgezet in dummyvariabelen.

Het voordeel van multipele regressie in vergelijking met enkelvoudige regressie is dat multipele regressie ook rekening houdt met de relaties tussen de verschillende variabelen X.

 

De formules voor het regressiemodel zijn als volgt: de uitkomst van Y = het model (X) + error (voorspellingsfout). Het model is altijd lineair, je verwacht een rechtlijnige correlatie. Dus als de predictor stijgt, zal de voorspelling ook stijgen en andersom. Het model is overigens niet altijd 100% juist en daarom is er altijd sprake van een voorspellingsfout.

Regressie

De regressievergelijking is het expliciteren van het model. Dit model stelt je in staat een voorspelling te doen van de waarde van Y. Dit model levert een geschatte uitkomst op (Y dakje). Elke waarde van Y wordt door de voorspellingsfout gemodelleerd.

De modelvergelijking gaat over de geobserveerde score van Y en de regressievergelijking gaat over het voorspellen van de geobserveerde score.

Zie sheet 15 voor de totale formule van het regressiemodel. Hierin tel je de beginwaarde (B0) op met de X keer de regressiecoëfficiënt (B1) en tel je dit op met de voorspellingsfout (E). De Bo is een mysterieus getal en wordt ook wel de constante (a) genoemd. De regressiecoëfficient geeft de sterke en relatie tussen X en Y weer. Dit wordt ook wel het effect van X op Y genoemd.

Spreiding

Er kan ook een spreidingsdiagram gemaakt worden. De best passende regressielijn volgens de kleinste kwadraten criterium. De afstand tussen de geobserveerde scores en de lijn is dan het kleinst. De relatie tussen X en Y wordt op deze manier weergegeven.

Er is dan sprake van een regressievergelijking. Er is een constante intercept (B0) en een regressiecoëfficiënt (B1). Dan volgt dakje Y= B0+B1X1. (Hier is er sprake van één variabele).

Er zijn verschillende opties van de regressiecoëfficiënt, terwijl de intercept gelijk is (sheet 19). Alle B0 is daar 5, een positief. De richting van het verband is bij het eerste voorbeeld er een positieve relatie is, met B1 van 0.5. Bij het tweede voorbeeld zie je echter een negatief verband, namelijk -0.5. De B1 van het laatste voorbeeld is 0, hierdoor zal deze variabele verwijderd worden, omdat de B1 kleiner of groter dan nul moet zij, omdat er anders geen sprake is van een relatie.

Als je gaat schatten is er een verschil in de geobserveerde Y en de geschatte Y. Dat verschil noem je de voorspellingsfout. Er kan sprake zijn van een positief residu (boven de lijn; onderschatting door het model) en een negatief residu (onder de lijn; overschatting door het model).

Een kleine voorspellingsfout is echter wenselijk, want dan kan er beter verklaren worden. Kijk bijvoorbeeld naar de puntenwolk. Als de punten dichter bij elkaar liggen, kan er beter voorspelt worden. Als de punten meer uit elkaar liggen, kan de voorspelling minder goed. De voorspelling van Y wordt bepaald door de intercept en de grootte van het effect (regressiecoëfficient). Met de intercept wordt de posiite van Y bedoelt waar de X nul is. In sheet 18 worden drie grafieken afgebeeld met ieder een ander verband, maar wel een gelijk intercept. Wanneer er geen verband is tussen X en Y, kan de informatie van X niet gebruikt worden om een voorspelling te doen over Y.

Goodness-of-fit

Het model (regressielijn) met kleinste residuele kwadratensom is het beste model voor multipele regressie. Hoe goed is dat dan, en welke lijn past het best? Het bepalen van Goodness-of-fit (R²) Vergelijking van beste model (regressielijn) met basismodel (basislijn). Hierbij wordt de Sum of Squares gebruikt. De Sum of Squares is de kwadratensom van het best passende model plus de totale kwadratensom. De geobserveerde scores verschillen dus van de basislijn, dat heet een deviatie. Alle deviaties kwadrateren geeft de Sum of Squares. De Sum of Squares is dus de som van de gekwadrateerde variaties. Dit is van belang, omdat hoe beter het model en de regressielijn, hoe nauwkeuriger de voorspelling.

Goodness-of-fit (R²)

Bij dit model word de Kwadratensom gedeeld door totale kwadratensom. Dan krijg je de proportie door X verklaarde variatie in Y. De R loopt van 0 tot en met 1. Hoe dichter bij 1 hoe beter het model

Hoe interpreteer je die R? De R wordt ook wel de multipele correlatiecoëfficiënt R genoemd. Dit is de correlatie tussen de geobserveerde Y en Y dakje. De R kwadraat wordt ook wel de determinatiecoëfficiënt genoemd. Dit zegt iets over het algemene model en of dit model relevant is en dit houdt de proportie in Y verklaarde variantie door het model in. Hier is de t de deviatie: de afstand tussen de observatie ten opzichte van het gemiddelde en is de m het verklaarde deel van t. Er blijft altijd een onverklaard deel over, namelijk het residu (r)

Wat is de waardering van dit model? Allereerst moet het model getoetst worden of er sprake is van toevallige factoren, er moet gekeken worden of de toets significant is. Vervolgens kan, als de toets significant is de relevantie beoordeeld worden. Dit is echter subjectief.

Terug naar het voorbeeld. In het voorbeeld moeten er dus twee toetsen uitgevoerd worden, namelijk het regressiemodel voor de variatie van Y en ten tweede het naar het effect van X op Y.

Bij het toetsen gebruik je de F-toets. Is de verklaarde variantie significant? Hoeveel verklaart het model ten opzichte van het deel dat het model niet kan verklaren? Bij de toetsingsgrootheid deel je de modelvariantie (Mean sum of squares; systematische variantie) door de errorvariantie. De F-ratio is hier de spreiding rondom de regressielijn. Hoe groter de F hoe kleiner de overschrijdingskans.

De Beta is de zogenaamde gestandaardiseerde regressiecoëfficiënt. Deze getallen stellen mij in staat om te kijken welke van de factoren het sterkst een invloed heeft op de onderzoeksvraag. Je gebruikt de gestandaardiseerde Beta dus voor het vergelijken van predictoren en het beoordelen van de invloed van predictoren. De gestandaardiseerde Beta is echter schaalonafhankelijk!

Je kunt modellen ook steeds ingewikkelder maken met meerdere factoren. Hierbij moet de R kwadraat constant vergleken worden, of de toevoeging aan het model statistisch zinvol is. Bij meer predictoren is er sprake van minder respondenten waardoor het R kwadraat altijd verandert. Hier wordt gebruik gemaakt van de R kwadraat delta. Er moet juist gekeken worden of de verklaarde variantie is toegenomen en of de toevoeging van deze predictor statistisch significant is.Dit moet je alleen doen als de verklaarde variantie toeneemt. Je gebruikt hiervoor een F-toets.

Categorische kenmerken

Stel dat Sekse en Cultuur, naast de genoemde variabelen, ook van invloed zijn op kennis van de literatuur (de voorbeeldvraag). De vraag is dan: kunnen we Sekse en Cultuur meenemen in een regressieanalyse? De meetniveau’s zijn als volgt. De variabele sekse is dichotoom. De variabele cultuur is van nominaal meetniveau.

Dichotome variabelen kun je wel/niet opnemen in een regressieanalyse. Nominale variabelen kun je wel/niet opnemen, maar moeten eerst omgevormd worden naar dummyvariabelen.

Er zijn verschillende aannames van het regressiemodel. Het toepassen van een multipele regressie kan dus ook niet zondermeer. Analysetechnieken kunnen namelijk niet zonder meer worden toegepast, er moeten bepaalde aannames zijn want anders kunnen je resultaten onbetrouwbaar zijn:

  1. Minimaal meetniveau van Y en X interval (of X dichtoom)
  2. De predictoren moeten variantie hebben (non-zero variance)
  3. De predictoren mogen onderling niet teveel samenhangen ((multi)collinearity)
  4. In model alle belangrijke variabelen opnemen (specification error)
  5. Spreiding van residuen per X-waarde gelijk (homoscedasticity / homogeneity of variance)
  6. Residuen per X-waarde normaalverdeeld (normally distributed errors)
  7. Onafhankelijkheid van waarnemingen (observaties) bij respondenten (independence)
  8. Relatie tussen X enY is lineair (linearity)
  9. Geen uitbijters (outliers) en ‘te’ invloedrijke respondenten (influential cases)

Dummyvariabelen representeren een nominale variabele, zodat opname in regressie-analyse mogelijk wordt. Een dummyvariabele heeft slechts twee waarden (bijv. 0 en 1).

Hoorcollege 5: Externe onderzoeksvaliditeit

Door: Vera Toepoel

Het doel van methodenleer in het algemeen is leren hoe je methodologische kennis kunt gebruiken om de kwaliteit van onderzoek te beoordelen. Dit geldt ook voor de kennismaking met de discrepanties die mogelijk zijn tussen de methodologische eisen die gesteld worden aan hoogwaardig onderzoek en de wijze waarop in onderzoekspublicaties de methodologie gehanteerd en gepresenteerd wordt.

Tegelijkertijd leer je ook de academische vaardigheden van methodenleer, namelijk

  1. Kritisch analyseren:

Operationalisatie, de onderzoeksopzet (design) ,de dataverzameling en de statistische analyse.

  1. Onderzoeken:

Het bepalen van de best passende onderzoeksmethode bij een gegeven pedagogische probleemstelling en het verantwoorden van deze keuze.

Wetenschappelijke publicaties zijn de meest betrouwbare informatiebronnen. Over het algemeen zijn deze publicaties geschreven door erg intelligente mensen die expert zijn op het onderwerp. Deze publicaties moeten onafhankelijk zijn en staan binnen een systeem van peer-reviews. Echter: Wetenschappers zijn ook mensen! Daarom presenteren onderzoekers hun onderzoek beter dan de werkelijkheid rechtvaardigt. Dit houdt in dat onvolkomenheden worden weggelaten omdat men graag wil dat deze resultaten gepubliceerd worden. Bovendien oordelen reviewers niet altijd objectief, met het belang om geciteerd te worden. Een ander belang is het tegengaan van publicaties die eigen onderzoek onderuithalen. Er bestaat dus een zekere mate van vriendjespolitiek

Ethiek: wetenschappelijk onderzoek

Wetenschappers hebben de sterke morele verplichting om altijd en in alle omstandigheden op een correcte manier onderzoek te verrichten. Maar helaas komt wetenschappelijk wangedrag wel voor. Bijvoorbeeld het schenden van algemeen geaccepteerde standaarden voor wetenschappelijk onderzoek, zoals fraude en plagiaat.

Een voorbeeld van onderzoeksfraude is het verzinnen of verdraaien van data of liegen over het verloop van een studie. Een bekend voorbeeld hierbij is Professor Diederik Stapel, TilburgUniversity. Hij verzon data van zijn (en dat van zijn coauteurs) onderzoek.

Plagiaat is het gebruiken van de woorden of ideeën van iemand anders zonder correcte referentie (en net doen alsof jij het hebt bedacht). Een voorbeeld hierbij is dat een student een paper schrijft zonder hierbij naar de theorie van iemand anders te verwijzen. Dit kan ook subtieler, door bepaalde informatie weg te laten. Wat kunnen we hiervan leren?

  • Werk en privé zijn strict te scheiden

  • Data verzinnen is niet ok (en manipuleren?)

  • Dit was een enkel geval. Sociale psychologie (of sociale wetenschappen) valt niets te verwijten

  • Iedereen (ook studenten!) moeten hun data controleren

  • Wetenschappers hebben teveel te verliezen en zijn daarom geen klokkenluiders

  • Er is teveel druk om te publiceren

  • Wetenschappers moeten een (cel)straf kunnen krijgen als zij onjuist omgaan met publiek geld (onderzoekssubsidies)

Wie maakt het onderzoek eigenlijk mogelijk?

Whistle-blowing is kijken wie het onderzoek doet. Als een onderzoeker onethisch gedrag ziet moet hij het (en na interne melding) publiek hierover informeren.

Er is een grote politieke invloed op wetenschappers en een druk om tot bepaalde resultaten te komen.

Objectief onderzoek

Objectief onderzoek is zonder assumpties, vrij van vooroordelen, objectief waarneembaar en er zijn duidelijke procedures die repliceerbaar zijn.

Externe validiteit:

  • “survey sampling .. is closely linked to the external validity or generalizability ..” (Robson, p. 260)

  • “Random samples are best to get an accurate representation of a population ..” (Neuman, p. 88)

  • De generaliseerbaarheid (externe validiteit) van de onderzoeksresultaten wordt voor een belangrijk deel bepaald door de wijze waarop de steekproef getrokken is (Ben Baarda).

Wat je gaat leren:

Een aselecte steekproeftrekking (sampling) is de beste weg naar externe validiteit. Je moet er dus voor zorgen dat elk individu een kans heeft om in de steekproef te komen. Hierbij is het nodig om een lijst hebben met alle mensen. Dit is vooral in de sociale wetenschappen niet altijd het geval. Een andere manier is dan herhalingsonderzoek. Door herhaling kan je controleren of dingen kloppen bij heel veel personen. Er zijn echter praktische omstandigheden die het trekken van een aselecte steekproef bemoeilijken. Gelukkig bestaan er wel alternatieven voor de aselecte steekproeftrekking.

Generaliserende vraagstelling

De vraag is of de onderzoeksresultaten ook geldig zijn als het onderzoek zou zijn uitgevoerd bij andere personen, andere onderzoeksomstandigheden en andere tijden. Bovendien wil je graag uitspraak doen over waarnemingen die je niet verricht hebt.

Externe validiteit zijn de onderzoeksuitkomsten ook geldig voor personen die niet in het onderzoek zijn betrokken.

Basis generalisatie theorie

De basis voor een hoge externe validiteit zijn a-specifieke waarnemingen. Je hebt bijvoorbeeld een aselecte steekproef van jongens. Hierbij sluit je meisjes uit en moet je goed kijken welke variabelen je onderzoekt.

Het is ook van groot belang dat de aselecte steekproef van voldoende omvang is. Dit zorgt er voor dat er allerlei verschillen zijn tussen de onderzochten en dat die verschillen niet systematisch of specifiek zijn. Vroeger had je een simpele vuistregel, namelijk n=50. Tegenwoordig is kan je de sampleomvang bepalen met statistiek (Power berekeningen).

Verschillende soorten steekproeven

Een aselecte met gelijke kans om in steekproef te worden opgenomen is de aselecte of random steekproef.

Een aselecte steekproef met ongelijke maar berekenbare kans om in steekproef te worden opgenomen noem je de gestratificeerde steekproef. Hierbij is er kennis nodig van deelpopulaties (strata). Dit kan bijvoorbeeld na de verkiezingen dat je kijkt naar de mensen die niet gestemd hebben met een bepaalde etniciteit. Een andere is de ongetrapte clustersteekproef. Er is een manier en je trekt een random sample uit bijvoorbeeld scholen om deze participanten mee te nemen in je onderzoek. Of een aselecte keuze van hele clusters uit een populatie van clusters, bijv. gezinnen. Een getrapte steekproef is een achtereenvolgende steekproeftrekking, bijvoorbeeld eerst school, dan de klas en dan alle individuen.

Select onbekende kans om in de steekproef opgenomen te worden, is niet aselect. Er is dus een ongelijke kans om in een steekproef te komen. Dit noemen we de selecte steekproef ofwel gelegenheidssteekproef. Net als de quota-steekproef bevraag je mensen totdat je tot het gewenste aantal bent gekomen.

Hoe en waarom werken steekproeven?

Een steekproef is een kleine collectie van eenheden genomen uit een grotere collectie

De populatie is de gehele collectie van eenheden die onderzocht wordt (en waaruit een steekproef wordt getrokken).

Een random steekproef is een steekproef waarbij eenheden getrokken worden uit de populatie op basis van een willekeurig proces. Dit is de beste manier om de steekproef een goede weergave te laten zijn van de populatie. Dit maakt het mogelijk om (statistisch) na te gaan hoe goed we kunnen generalizeren van de steekproef naar de populatie. Dit is moeilijk te maken, vooral in pedagogisch onderzoek, maar wel van belang.

Non-Random Samples

Convenience sample (gemakssteekproef): je gebruikt gewoon iedereen die voorhanden is

Dit is dus niet representatief. Een voorbeeld hierbij is dat je de klas als steekproef voor jongeren gebruikt. Dat is makkelijk, maar is het representatief?

Quota sample: je gebruikt iedereen die in een (vooraf )bepaalde categorie zit totdat je genoeg mensen hebt (quota is bereikt) Bijvoorbeeld in het winkelcentrum: 40% man en 60% vrouw.

Purposive sample/AKA Judgmental sample: Dit zijn verschillende manieren om mensen te

vinden die aan specifieke kenmerken voldoen (op basis van je eigen oordeel en kennis). Een voorbeeld is het zoeken naar experts.

Snowball sample (sneeuwbal steekproef)/AKA network sample: Dit is selectie op basis van een bestaand netwerk. Deelnemers recruteren nieuwe deelnemers. Een voorbeeld is dat je daklozen bevraagd, en dan aan hen vraagt of ze nog meer daklozen kennen.

Waarom wil je eigenlijk een kanssteekproef doen? Vanuit wiskundig oogpunt is er de mogelijkheid om de kans om in steekproef te komen te berekenen. Ieder lid in de populatie heeft een gelijke of berekenbare kans om in de steekproef te komen. Er is geen sprake van zelf-selectie. Maar: er is altijd sprake van een sampling error. Dit is de mate waarin de steekproef afwijkt van de populatie.

Er zijn wel manieren om de sampling error te reduceren. Dit kan door een grote steekproef en een grote homogeniteit van de populatie. Wat betreft homogeniteit zie je dat als er bijvoorbeeld veel meisjes meedoen in een onderzoek, zij vaker kiezen voor roze als lievelingskleur. Dat is een sampling error. Je ziet verder dat hoe kleiner de populatie, hoe groter de sampling ratio (steekproef/populatie) moet zijn. Dit is afhankelijk van de zekerheid waarmee je iets wil concluderen (foutmarge/betrouwbaarheidsinterval). Dit kan door middel van Power-berekeningen (bv. Programma Gpower). Meestal wil je minimaal een Power van 80.

Sampling frame (steekproefkader).

Dit is een lijst waarop alle leden van de populatie staan. Je maakt vervolgens verschillende stappen:

  • Stap 1: wat is je populatie

  • Stap 2: vind of maak een steekproefkader

Vroeger gebruikte je vaak een telefoonboek, nu vaak adressen. Dat is wel afhankelijk van het onderzoek wat je gaat doen, je kunt ook lijsten gebruiken van een bepaalde populatie (school, medisch, politie). Vervolgens kijk je in hoeverre steekproefkader overeenkomt met de populatie. Er is sprake van coverage errors:

  • Sommige mensen horen niet meer op de lijst te staan

  • Lijst bevat niet iedereen(informatie mist)

  • Onjuiste informatie op lijst

  • Individuen staan er dubbel op

Random Samples

Eenvoudige random steekproef is een willekeurige steekproef (gebruik computer, trek

lootjes). De eenheden worden op basis van een wiskundige formule willekeurig uit het steekproefkader geselecteerd.

Bij systematic sampling is er sprake van een groot steekproefkader. Hierbij ga je systematisch door de lijst. Vervolgens kies je de eerste van k elementen uit de lijst willekeurig. Daar na kies je dan elk k element op de lijst. De k = Sampling interval = de grootte van het steekproefkader gedeeld door de steekproefomvang.

Gestratificeerde random steekproef: de populatie bestaat uit gedefinieerde groepen. Je wilt zeker zijn dat elke groep in je steekproef voorkomt.

Bij de Cluster Steekproef bestaat de populatie uit gedefinieerde groepen. Elke groep is al een representatieve steekproef uit de populatie. Dit bespaart tijd en geld

Bij een getrapte steekproef trek je verschillende steekproeven. Voorbeeld: Clusters worden willekeurig getrokken, dan wordt er een random sample van individuen uit elk cluster getrokken. Bijvoorbeeld: random scholen, dan random kinderen binnen een school; of random scholen, random klassen, random kinderen binnen een klas.

Bij elke steekproef kun je een ander soort gebruiken.

De kernvraag voor generalisatie (externe validiteit) is: zijn geselecteerde individuen

representatief voor de populatie? Bij het antwoord ja is generalisatie mogelijk. Bij het antwoord nee is er geen generalisatie mogelijk. De belangrijkste vraag is: wat is populatie?!

Pedagogisch onderzoek in de praktijk

Vaak is er geen kanssteekproef mogelijk, omdat je werkt met bepaalde individuen uit bestaande groepen/clusters (klassen binnen scholen, kinderen binnen huishouden,

verslaafden binnen instituut)

Het is daarom extra moeilijk om onderzoek extern valide te krijgen. Is dat ook je doel?

Steekproeftrekking heeft hier niet alleen betrekking op onderzoeksobjecten

Want: Hoe is de steekproef van kinderen getrokken? Is er sprake van een aselecte steekproef of niet? Zijn er specifieke of a-specifieke behandelaars? Zijn de omstandigheden van het onderzoek aspecifiek of niet?

Bedenk hierbij altijd: specifiek of select is niet generaliseerbaar, maar a-specifiek of aselect is wel generaliseerbaar.

Wanneer heb je te maken met een selecte, niet-generaliseerbare steekproef?

In het algemeen is het zo dat bij het ontbreken van een steekproefkader er geen aselecte steekproef mogelijk is. Bij een specifiek selectiemechanisme zie je zelfselectie, bijvoorbeeld cliënten, doorverwijzing en al bestaande groepen, bijvoorbeeld klassen.

Als de populatie wordt gekenmerkt door een eigenschap die niet bij alle

leden van de populatie vaststaat heb je ook een probleem. Je mist namelijk een steekproefkader. Klinische steekproeven zijn vaak select! Dat betekent dat het niet generaliseerbaar is. Ook zijn de onderzoeksconclusies alleen geldig voor de onderzochte subjecten

Definities:

Generaliserende vraagstelling: een vraagstelling waarbij je een uitspraak doet die verder

reikt dan de binnen het onderzoek verrichte waarnemingen. Je doet dan ook een uitspraak over waarnemingen die nog niet hebben plaatsgevonden.

Externe validiteit: in hoeverre zijn uitspraken die op het onderzoek worden gebaseerd ook geldig voor waarnemingen die niet bij het onderzoek zijn verricht?

Selecte keuze: het selectieresultaat is specifiek,

Aselecte keuze: het selectieresultaat is niet specifiek dus generaliseerbaar (extern valide).

Kenmerken Pedagogisch onderzoek:

Pedagogisch onderzoek vindt meestal plaats in groepen (gezin; klassen; instellings-afdelingen) Clusters / Nesten / Gebonden data.

Voor generalisatie is de getrapte steekproef vaak noodzakelijk. Ook moet de steekproefomvang groter zijn als er kwalitatieve verschillen zijn: gebroken

gezinnen of complete gezinnen, verschillende leeftijden, etc. In pedagogisch onderzoek zie je vaak speciale populaties. De bijzondere eigenschappen kunnen sterk heterogeen zijn. Daardoor zijn er bijzondere eisen aan de selectie. Een andere manier van onderzoeken kan door middel van herhalingsonderzoek.

Opvoeding is ingewikkeld omdat er verschillende opvoeders zijn, er is sprake van interactie en opvoeding is langdurig. Vaak maak je gebruik van indirecte informatie via informanten.

Pedagogisch onderzoek bij bestaande groepen is bijvoorbeeld: Onderzoek bij gehandicapte kinderen, in klassen of in gezinnen.

Clustering of nesting: gemeenschappelijke kenmerken of omstandigheden die het onderzoeksresultaat mede bepalen zijn gebonden data. Je moet zorgen dat op alle levels er sprake is van generalisatie.

Alternatieven voor een enkelvoudige aselecte steekproef?

  • Geclusterde data: Clustersteekproef. Dit is een vorm van kanssteekproeftrekking

  • Ongetrapte met complete clusters

  • Getrapte met selectie binnen cluster

  • Moeilijk benaderbare groepen: Sneeuwbalsteekproef

  • Ingewikkelde selectie: Beschrijven selectiemechanisme

  • Praktijkgebonden selectieresultaat: Beschrijven steekproef: Is selectieresultaat betrouwbaar en voorspelbaar (repliceerbaar)?

Aandachtspunten bij de analyse van (pedagogisch) onderzoek:

  • Onderzoeksdoel en vraagstelling

  • Rationale / theorie

  • Onderzoekspretenties

  • Welke selecties zijn toegepast? Hoe verhouden deze zich tot de beoogde generaliseringen?

  • Operationalisering van de begrippen

  • Analyse presentatie van de resultaten (tabellen, figuren en tekst)

  • Welke conclusies worden er getrokken? Is dit in overeenstemming met de oorspronkelijke vraagstelling? Is dit in overeenstemming met de gepresenteerde resultaten?

Hoe verhoudt Methodenleer zich tot de Pedagogische praktijk? Methodenleer is van belang voor de onderbouwing van conclusies / standpunten en het maximaliseren van overtuigingskracht.

Methoden van onderzoek:

  • Onderzoeksmodellen die daartoe de meeste garantie beiden (ideaalmodellen). Hoe verhoudt het ideaalmodel zich ten opzichte van de pedagogische onderzoekspraktijk? Hoe verantwoorden onderzoekers tekortkomingen in onderzoekspublicaties?

  • Gebruikte methoden

  • Tekortkomingen

Hoorcollege 6: Meerweg ANOVA

Door: Nijs Lagerweij

Eerst nog even ter verfrissing de multipele regressie analyse, die bestaat uit een afhankelijke variabele (interval) en er is sprake van meer dan één predictor. Het meetniveau is interval of dichotoom.

Bij een eenweg ANOVA is er sprake van één afhankelijke variabele en één factor. Een meerweg ANOVA is dus als er sprake is van meer dan één factor. Dit zijn meerdere groepen met meerdere kenmerken. De onafhankelijke variabele heet bij variantieanalyse een factor, maar bij multipele regressieanalyse heet het een predictor.

Bij de meerweg ANOVA is er sprake van één afhankelijke variabele en meer dan één factor. Dus bijvoorbeeld tweeweg, drieweg, etc. Het doel van een meerweg ANOVA is om te kijken naar de verschillende invloed van groepen op de afhankelijke variabele.

Dit college wordt behandeld aan de hand van het volgende voorbeeld. Je wilt dat kinderen kennis hebben van getallen voordat ze naar school gaan. Een mogelijke onderzoeksvraag is dan: verschillen groepen gebaseerd op leeftijd en sekse in de kennis van getallen? Dus: verschillen twee of meer groepen op het gemiddelde van een variabele? Hierbij moet er altijd sprake zijn van een normaalverdeling. De grootte van de groepen maakt niet per se uit. Wel moet je rekening houden met het feit dat kleine groepen minder nauwkeurig zijn, in tegenstelling tot grote groepen.

De afhankelijke variabele is hierbij de kennis van getallen, op een intervalmeetniveau. Verder kan je voorspellen met de onafhankelijke variabelen. In het voorbeeld is dat sekse (nominaal/dichotoom) en de leeftijd in bijv. drie categoriën (ordinaal)

Door middel van deze onderzoeksvraag kan je de verschillen beschrijven

de verwachtingen toetsen (maar niet de resultaten aanpassen aan de verwachtingen) en de verschillen kwantificeren (effectgrootte) en kwalificeren (relevantie).

De hoofddoelen blijven echter het beschrijven, verklaren en voorspellen. Bijvoorbeeld dat een kind geholpen zal worden door een behandeling en dat dit gevolg heeft voor een bepaalde vaardigheid.

Meetniveau

Het minimale meetniveau van de afhankelijke variabele is interval. Het minimale meetniveau van de onafhankelijke variabelen is nominaal met a categorieën. Je wilt hierbij de gemiddelden in kennis van getallen en groepen vergelijken/toetsen.

Je gaat hierbij ook kijken naar de effecten tussen de groepen. Dus je gaat kijken naar de variantie tussen groepen. Als de variantie tussen alle groepen gelijk is zegt dit iets over de uitspraken die je kan doen over de voorspellingen. Er zijn hierbij dus ook vier nulhypothesen! Namelijk: model verklaart niets, er is geen hoofdeffect van sekse, er is geen hoofdeffect van leeftijd, er is geen interactie-effect van sekse x leeftijd.

De schema’s en tabellen in de Powerpoints laten alleen verduidelijking zien. Op basis hiervan kan je namelijk geen scores aflezen. Bij Slide 12 zie je bijvoorbeeld dat er geen hoofdeffect is van leeftijd, wel van sekse, en er is ook geen interactie-effect. Je ziet namelijk dat de gemiddeldes van de drie groepen niet van elkaar verschillen. Er is wel een hoofdeffect van sekse, want je ziet dat de meisjes hoger scoren dan de jongens. Bij B is er sprake van een hoofdeffect leeftijd en sekse maar er is geen interactie-effect. Dit figuur analyseer je op dezelfde manier als bij A. Bij figuur C zie je wel een interactie-effect, omdat de lijnen elkaar kruisen. Ook bij D is dit het geval, de verschillende leeftijden geven een verschillende score, net als de sekse. Hierdoor is er een interactie-effect.

F-ratio

De nulhypothese worden uitgevoerd aan de hand van SPSS. Onderaan deze tabel staat de R Squared. Dit geeft de hoeveelheid verklaarde variantie aan. Het corrected model is het gewone model met de drie effecten. Deze effecten vind je onder corrected model, zowel ook het percentage verklaarde variantie. In het voorbeeld is zichtbaar dat het model significant is (omdat een factor significant is), eveneens als leeftijd. Dit laat zien dat het gemiddelden model variantie verklaart in kennis van getallen, maar niets zegt over de verschillende factoren.

De F-ratio is handig voor het toetsen van het model. Dat kwam al aan bod bij multipele regressieanalyse. Let op. Bij multipele regressieanalyse is de toetsingsgrootheid een verklaarde variantie van een lineair model (R). Bij ANOVA is er echter sprake van een toetsingsgrootheid voor verklaarde variantie van gemiddelden. Als de groepsgemiddelden significant verschillen dan zijn de groepsgemiddelden een betere weergave van geobserveerde gegevens dan het algemeen gemiddelde (basismodel). We spreken van de eta.

Totale aantal mensen in de steekproef min het aantal groepen is de vrijheidsgraad. De toetsingsgrootheid F is een quotiënt van de systematische variantie (Ms) en de onsystematische variantie (MSr). Bovendien vergelijkt de F de door model verklaarde variantie (MSm) met de niet door model verklaarde variantie (MSr).

Ditzelfde zien we terug in het voorbeeld, maar dan iets complexer omdat er sprake is van drie groepen. Dus de verklaarde variantie (MSm) wordt bepaald door het effect van de eerste onafhankelijke variabele A (MSa), het effect van de tweede onafhankelijke variabele B (MSb) en het interactie-effect van A en B (MS axb).

De volgende stap is het kwantificeren en het beoordelen van effectgroottes. Dit kan door de significantie te toetsen, de effectgrootte te bepalen en door de relevantie te beoordelen.

Hoe zit het met de categorische kenmerken? Kunnen we categorische kenmerken meenemen als predictoren in een regressieanalyse? Dit kan door de nominale variabele te representeren door dummyvariabelen. In het voorbeeld is dat sekse, omdat het nominaal is. Dus leeftijd zou niet mogen, omdat het ordinaal is met drie categorieën, tenzij we de variabelen representeren als dummyvariabele.

Dummyvariabelen

Deze variabelen representeren nominale of ordinale variabelen met twee of meer categorieën. Deze variabele heeft slechts twee waarden, namelijk bijvoorbeeld 0 en 1. Door de representatie van nominale of ordinale variabelen met de dummy’s is een lineaire regressieanalyse mogelijk. ER is altijd sprake van K (categorieën) – 1 dummyvariabele. Dus als je drie variabelen hebt, gebruik je er eentje minder. De ‘oudste’ groep wordt gebruikt om te vergelijken en wordt ook wel de referentie groep genoemd. Dit wordt overzichtelijk weergegeven op slide 24.

Ook de aannames van de ANOVA-model zijn van belang, zie de slide 31.

Hoorcollege 7: ANCOVA

Door: Nijs Lagerweij

We gaan dit onderwerp behandelen aan de hand van een voorbeeld over voeding. Het gaat erover of er een verschil is in het gemiddelde lichaamsgewicht tussen

jongens en meisjes. De afhankelijke variabele is hierbij gewicht, en de groepsvariabele is sekse.

Een ANOVA kan gebruikt worden voor het gemiddelde, dus voor twee of meer groepen. Er is echter een verschil in leeftijd, zo ook in lengte, waardoor de meting niet meer zuiver is. Een ANCOVA kan dit corrigeren. De CO staat voor Covariance, bepaalde variabelen die de uitkomst kunnen zuiveren. We voegen dus variabelen toe die niet nominaal zijn, maar van een interval-meetniveau of hoger (ratio dus).

Even de verschillende technieken op een rijtje.

Allereerst de enkelvoudige ANOVA, met één afhankelijke variabele en één factor.

Ten tweede de meerweg ANOVA, met één afhankelijke variabele en meer dan één factor. Ook is er hier sprake van een interactie-effect, dus dat het effect van X2 op Y voor bepaalde categorieën verschillend is. Dit hoeft echter niet, er kan ook sprake zijn van geen interactie. Dat is als het effect van X2 op Y voor de categorieën gelijk is.

Ten derde is er de ANCOVA, waarbij er één afhankelijke variabele is, één of meerdere factoren (is er sprake van een eenweg of meerweg ANCOVA?) en één of meer covariaten.

Ook hier kan er sprake zijn van het interactie-effect. Bij het model met homogene (dan zijn de effecten voor beide categoriën hetzelfde) regressie is het effect van X2 op Y voor de categorieën gelijk. Bij het model zonder homogene regressie (dus ook geen ANCOVA) is er sprake van een verschillend effect.

De specifieke onderzoeksvraag voor ANCOVA wordt dan ook: verschillen twee of meer groepen in gecorrigeerde middelen (adjusted means) van een kenmerk?

Adjusted means

De adjusted means zijn de gemiddelden van Y van de groepen, gecontroleerd (of gecorrigeerd) voor verschillen van de groepen in de covariaat X. Het is ook het vergelijken van groepsgemiddelden, waarbij we er vanuit gaan dat de groepen hetzelfde gemiddelde hebben op de covariaat.

De adjusted means neem je op in het model, als je wilt corrigeren voor groepsverschillen op de covariaat en/of als de covariaat samenhangt met de afhankelijke variabele.

Er zijn verschillende toepassingen van de ANCOVA:

De Bias-correctie is omdat je door de covariaat op te nemen het effect van de groep gecorrigeerd wordt voor groepsverschillen, omdat het anders vertekend kan zijn door het verschil in de covariaat. Er is dus een eerlijkere vergelijking van groepen.

De Error-reductie zorgt voor het verkleinen van de voorspellingsfout, omdat er sprake is van een toename van de Power, doordat je meerdere variabelen hebt. De kans op een significant verschil wordt dan groter.

Bij ANOVA wordt er gekeken of er een verschil is. Dit wordt beredeneerd aan de hand van SPSS, en dan de significantie vast te stellen.

Bij ANCOVA stellen we eerst de hypothese of bijv. voorbereiding invloed heeft op rekenvaardigheid. We concluderen dan of er daadwerkelijk invloed is. De tweede hypothese is bijv. dat de gecorrigeerde gemiddelden van jongens en meisjes verschillen. We concluderen dan of er een verschil is in gemiddelde rekenvaardigheid tussen jongens en meisjes, gecorrigeerd voor voorbereiding.

De AN(C)OVA kan ook gezien worden als regressiemodel. De modelvergelijkingen hiervan staan op slide 19. Er wordt dan wel een nieuwe covariaat en een nieuwe groepsvariabele toegevoegd. Er wordt vervolgens getoetst, en we lezen de regressiecoefficienten (De B) af via SPSS. Vervolgens kan de regressievergelijking opgesteld worden, met behulp van de informatie via SPSS. Hier komen exact dezelfde resultaten uit. De intercept in de SPSS-output is de score die er is als de X-waarden nul zijn.

Enkele aannames voor het AN(C)OVA-model:

  • Meetniveau moet voor Y minimaal interval zijn en voor de verschillende X’en nominaal.

  • De spreiding (variantie) van de residuen per X-categorie is gelijk. Dit is homoscedasticiteit. Ook moet de spreiding normaalverdeeld zijn.

  • De residuen per X-categorie zijn normaalverdeeld.

  • Onafhankelijkheid van waarnemingen of observaties bij de respondenten. De respondenten moeten random worden toegewezen aan de groepen. En er moet sprake zijn van een aselecte toewijzing.

  • Er is geen sprake van uitbijters en ‘te’ invloedrijke respondenten.

Specifieke aannames voor het ANCOVA model:

  • De covariaat mag niet van invloed zijn op het experimentele effect.

  • De homogene regressie is dat de regressielijnen voor de verschillende groepen min of meer dezelfde steilheid hebben, ze lopen dus parallel. Er is bovendien geen interactie-effect factor en covariaat op de Y.

Nog even specifiek kijken naar de homogene regressie.

De hypothese voor homogene regressie is bijvoorbeeld de volgende. In de twee populaties is regressie van voorbereiding op prestaties gelijk (homogeen).

Dus, de twee regressielijnen zijn evenwijdig. Dit ga je toetsen door de toevoeging van interactieterm covariaat en de factor aan de regressievergelijking. Dus er komt een nieuwe vergelijking. Dit kan je vinden in slide 28. Als de lijnen in de grafiek niet evenwijdig zijn (ze snijden binnen het bereik van de covariaat), dan wordt homogene regressie geschonden en is de ANCOVA niet toegestaan.

Als de regressielijnen en vergelijkingen opgesteld zijn, kunnen er ook voorspellingen gedaan worden over de participanten, door de vergelijkingen in te vullen. 

Hoorcollege 8: Interne onderzoeksvaliditeit, causaliteit en onderzoeksontwerp bij praktijkonderzoek naar de effectiviteit van behandelingen

Door: Vera Toepoel

In dit onderzoek komen verschillende gebieden aan bod. Het onderzoeken van validiteit heeft een causale vraagstelling, zodat de interne validiteit gemeten kan worden. Er wordt hierbij vaak een experimentele opzet gebruikt en heeft achteraf een aselecte toewijzing, experimentele controle en statistische controle. Bij een quasi-experiment is er echter geen sprake van aselecte toewijzing. Dit worden ook wel enkelgevalstudies genoemd, omdat binnen de pedagogiek vaak een persoon behandelt wordt.

Experimenteel onderzoek heeft verschillende mogelijke vraagstellingen, bijvoorbeeld: Is de pedagogische behandeling effectief? Of: Heeft de behandeling het gewenste resultaat? (hier is er sprake van een absolute norm). Of: Werkt de behandeling beter dan geen behandeling? (Vergelijking 0).

Of: Werkt de behandeling beter dan de gebruikelijke behandeling? Dit is de Vergelijking 1 omdat je de behandeling een op een vergelijkt. Een andere mogelijke vraag: Verklaart de behandeling het vastgestelde resultaat? Is de behandeling de oorzaak voor de verandering in gedrag? Je probeert hierbij de alternatieve verklaringen uit te sluiten.

Doelen

Dit zijn de doelen van behandelingsonderzoek: Het eerste doel is het vaststellen of er een behandelingsresultaat is. Het tweede doel is het vaststellen of de behandeling de enige mogelijke oorzaak is van het behandelingsresultaat. Causaliteitsonderzoek heeft ook twee doelen namelijk: het vaststellen van het behandelingsresultaat en het uitsluiten van alternatieve verklaringen, omdat alternatieve verklaringen de interne

onderzoeksvaliditeit bedreigen.

Definitie: We noemen een onderzoeksresultaat intern valide als er geen andere plausibele verklaring is voor het onderzoeksresultaat dan de behandeling.

Bij externe validiteit geldt er het grote probleem dat de participanten vaak vrijwillig meedoen aan onderzoek.

 

Aselect toewijzen is personen uit een bepaalde populatie aselect toewijst aan de verschillende onderzoeksgroepen. Dit gebruik je bij causaal onderzoek, want dan heb je twee groepen nodig. Een aselecte steekproeftrekking is dat de steekproef aselect is gekozen uit de populatie.

 

Effect vaststellen bij behandelingsonderzoek:

De onafhankelijke variabele is een categorische variabele (groep- of periode-indeling). De afhankelijke variabele is de effectvariabele (continue variabele).

Het gaat bij behandelingsonderzoek om groepsverschillen (vergelijking tussen groepen), bijvoorbeeld AT X O1 en AT(aselecte toewijzing) O2. De statistische analyse hierbij is de Anova H0: O1 = O2 (T-test kan hier ook). Er kan ook onderzoek zijn naar periodeverschillen (vergelijking binnen groep). Dit kan door bijvoorbeeld te kijken naar: O1 O2 X O3. De statistische hypothese wordt dan als volgt: Anova: H0: O3 = O2, voorwaarde: O2 = O1. Of: O3 – O2 = O2 – O1. Een andere mogelijkheid is: Ancova: H0: c. (O3 = O2)O1 (gecorrigeerd voor O1). Je corrigeert voor de verschillen binnen de groepen. Dus stel dat in de O1 zware patiënten in de groep zitten, dan zullen je resultaten scheef trekken. Als je dit corrigeert stijgt de validiteit.

 

Voorbeeldonderzoek

Casus 4: Bevordert een training voor sociale redzaamheid de sociale vaardigheid, de

openheid in contacten en het zelfvertrouwen bij zwakbegaafde jongeren?

 

Een onderzoek is het volgende: Hoe kun je het resultaat van een pedagogische behandeling vaststellen? Leidt bij zwakbegaafde adolescenten een sociale redzaamheidstraining tot groter zelfvertrouwen? Dit voorbeeld wordt meegenomen om de rest van de theorie uit te leggen.

Quasi-experimenteel design (afgeleid uit tabel 6 bij casus 4):

O1 (Voormeting) X1 (behandeling) O3 (nameting) |groep 1|

O2 X2 O4 |groep 2|

Combinatie van twee soorten vergelijkingen!

Vergelijkingen binnen groepen:

H0: O1 = O3

H0: O2 = O4

Vergelijkingen tussen groepen is ook mogelijk:

H0: O1 = O2 (groepen zijn vergelijkbaar)

H0: O3 = O4 (groepen zijn vergelijkbaar)

Let op: er is hier geen controlegroep zonder behandeling! We zullen nog zien dat dit een nadeel is.

De grote vraag is: Wat is hier van belang voor de mogelijkheid om causale conclusies te trekken? Dat is het uitsluiten van alternatieve verklaringen. Er wordt een casus gegeven over sociale redzaamheidtraining.

 

Vaststellen interne validiteit

Vaststellen interne validiteit is het uitsluiten van alternatieve verklaringen, anders

dan de behandeling. Er zijn twee series van alternatieve verklaringen:

1. Alternatieve verklaringen voor groepsverschillen (tussengroepse verschillen)

2. Alternatieve verklaringen voor periode-verschillen (binnengroepse verschillen: vergelijking bij dezelfde personen)

Alternatieve verklaringen kunnen verworpen worden als ze (1) onjuist zijn, (a) op geen enkele manier te rijmen met wat je werkelijk vindt, (b) tegengesteld aan wat je werkelijk vindt en (c) leiden tot een voorspelling van resultaten die statistisch niet significant is.

(2) als de verklaringen onwaarschijnlijk zijn.

Alternatieve verklaringen blijven echter geldig als ze beredeneerbaar mogelijk en waarschijnlijk zijn.

 

Er is sprake van verschillen in resultaten. Resultaat op zelfwaardering Xm(SD):

51(11) 59(13)

53(9) 57(11)

Groep O1 en O2 zijn niet zondermeer met elkaar te vergelijken zijn. De verschillen tussen O3 en O4 zijn echter niet toegenomen.

De vraag die hierbij beantwoord moet worden is hoe deze groepsverschillen verklaard kunnen worden? Is selectie een mogelijke alternatieve verklaring? Ja, er is een verschil gevonden tussen de groepen. Het onderzoek is namelijk uitgevoerd in twee verschillende instellingen en dus zijn er allerlei groepsverschillen.

Is selectieve groei of rijping een verklaring? Ook dit is mogelijk, in beide groepen is een toename, en de participanten kunnen ontwikkeld zijn. Het grote punt is dat er in dit onderzoek een controlegroep mist, want in dat geval kan je selectieve groei en rijping uitsluiten. Is een differentieel extern voorval een mogelijke alternatieve verklaring? Dus stel dat er een volksoproer optreed bij instelling 1? Of stel dat de directeur een feest geeft? Nee, je weet niet in hoeverre dit invloed heeft. Het lastige is wel dat je de effecten lastig kan meten. Externe voorvallen kan je uitsluiten als de groepen op dezelfde tijd, op dezelfde plaats een behandeling krijgen. En zijn externe voorvallen voor beide groepen een plausibele verklaring? Dus bijvoorbeeld als er een autombom in België ontploft, dan zal dit wel van invloed zijn op beide groepen.

Verwacht je op grond van deze alternatieve verklaringen gunstigere of juist minder gunstige resultaten?

 

Kan er binnen de periode een testeffect geweest zijn? Ja, maar dit is moeilijk om uit te sluiten. Testeffecten zijn afhankelijk van de betrouwbaarheid van de test, maar ook een controlegroep kan laten zien of er wel of niet sprake is van een testeffect. Kan er binnen een periode instrumentverval opgetreden zijn? Het kan zo zijn dat instrumenten kunnen verslijten, bijvoorbeeld de IQ-test. Dit komt niet doordat mensen intelligenter worden, maar omdat mensen de vragen gaan herkennen. De resultaten kunnen dan zowel stijgen als dalen.

Kan er binnen de periode een regressie-effect zijn opgetreden? Een regressie-effect is een toevalseffect waarbij de groep in het algemeen bij beide metingen dezelfde score naar uitkomt (dezelfde normaalverdeling), maar als we gaan kijken naar individuen zien we dat er sprake is dat ze bij een latere meting een hogere scoren hebben. Bij een controlegroep zou er beter zicht zijn op de regressie ja of nee.

 

Is het waarschijnlijk dat één of meer van onderstaande verklaringen een rol speelt?

  • Overdracht (nee, er is geen contact tussen de groepen)

  • Compensatie (nee)

  • Compenserende rivaliteit (nee)

  • Ontmoediging (nee)

Is het een goed idee om de twee groepen in verschillende instellingen te behandelen? De omstandigheden op de verschillende instellingen zijn divers. De beste oplossing is om ervoor te zorgen dat de twee groepen wel op dezelfde plaats en tijd behandeld worden maar dat ze geen contact hebben.

 

Zou uitval een alternatieve verklaring kunnen vormen? Ja, maar je kunt het moeilijk voorkomen.

Zou differentiële uitval (uitval is verschillend voor de beide groepen) een alternatieve verklaring kunnen vormen? Ja

Maakt uitval de resultaten gunstiger of juist minder gunstig? Het zelfvertrouwen van de mensen die afhaken bij de behandeling zal laag zijn. Uitval kan hier inderdaad een rol in spelen.

 

Voor goed vergelijkbare groepen is het belangrijk dat er sprake is van:

  • Aselecte toewijzing (random assignment)

  • Gekoppelde aselecte toewijzing (matched random assignment): je maakt koppels van proefpersonen.

  • Zuiver experiment

  • Aselecte toewijzing: goed vergelijkbare groepen / controlegroep + alle elementen quasi-experiment

  • Manipulatie

  • Meting van het resultaat

  • Controle van de onderzoeksomstandigheden

 

Belangrijkste statistische eisen bij causaliteitsonderzoek (Field p. 324):

  • Assumptie van homogene variantie bij de metingen O1 en O2. Methodologische is hierbij is dat de groepen vergelijkbaar moeten zijn (PO p. 137). Dit doel wordt bereikt door aselecte toewijzing.

  • Assumptie van onafhankelijkheid bij de metingen O1 en O2. Methodologische eis hierbij is er mogen geen andere mogelijke verklaringen zijn voor het resultaat (PO p. 151). Dit doel wordt bereikt door het uitsluiten van alternatieve verklaringen.

Conclusies:

De methodologische eisen richten zich op het gehele onderzoek, de statistische eisen alleen op de afhankelijke variabele. De methodologische eisen omvatten de statistische eisen.

Het zuivere experiment voldoet aan alle statistische eisen. Bij het quasi-experiment is het verstandig dit te controleren.

 

We gaan nu over naar de interpretatie van onderzoeksresultaten. Dit kan aan de hand van de figuren in de slides. Hieruit kan gevonden worden hoe de verhoudingen van de resultaten onderling zijn. Dus ook in hoeverre er sprake is van effect op de behandeling.

 

Pedagogische enkelgeval studies (N = 1). De hamvraag is: Hoe kun je bij één, unieke cliënt de behandeling evalueren?

De onderzoeksvraag is: Gaat de cliënt aantoonbaar vooruit? Dit is echter nog geen causale vraagstelling! Een betere vraag is: Is de behandeling de oorzaak van de vooruitgang? Is er vergelijking mogelijk?

Herhaalde metingen zijn hierbij nodig, namelijk vergelijking binnen één persoon. Dus metingen over tijd, zodat zichtbaar is hoe de cliënt reageer. Er kan ook sprake zijn van vergelijking van perioden.

 

Aantonen dat de behandeling de vooruitgang heeft veroorzaakt kan door middel van het AB ontwerp. Toch is een AB-ontwerp niet helemaal ideaal. Het kan dat er tijdens de behandeling sprake is van externe voorvallen (history), maar dat dit onderwerp het niet controleert.Het kan ook zijn dat het kind ouder wordt, dus dat er sprake is van rijping (maturation), dit ontwerp controleert dat ook niet. Er kan ook sprake zijn van regressie (terugval), doordat je herhaalde metingen hebt, heb je daar minder last van. AB-design leent zich niet goed voor causale verklaringen. Wel zie je een bepaalde richting van effect van de behandeling, maar andere effecten zijn niet uit te sluiten.

Er zijn ook verschillende alternatieven:

  • ABAB – ontwerp

  • Meervoudige basislijn ontwerp

 

Wat zijn de voor- en nadelen van Pedagogische enkelgevalstudies?

Voordelen:

  • Toegesneden op de cliënt

  • Relatief eenvoudig toepasbaar

  • Gemakkelijk te herhalen

Nadelen:

  • Niet altijd praktisch toepasbaar

  • Statistische analyse niet goed mogelijk

  • Generalisering niet mogelijk

 

Contributions, Comments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Summaries & Study Note of Psychologie World Supporter
Join World Supporter
Join World Supporter
Log in or create your free account

Why create an account?

  • Your WorldSupporter account gives you access to all functionalities of the platform
  • Once you are logged in, you can:
    • Save pages to your favorites
    • Give feedback or share contributions
    • participate in discussions
    • share your own contributions through the 11 WorldSupporter tools
Content
Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
103 1
Promotions
special isis de wereld in

Waag jij binnenkort de sprong naar het buitenland? Verzeker jezelf van een goede ervaring met de JoHo Special ISIS verzekering