Samenvatting reader testtheorie- en praktijk

Inleiding - De testtheorie houdt zich bezig met de beoordeling van de kwaliteit van tests. Tests zijn een verzameling verbale, performale en/of motorische opdrachten of een toestel om één of meer variabelen (persoonlijke of situationele variabelen) te meten. Een test bestaat uit verschillende onderdelen die volgens een bepaald criterium bij elkaar horen, de zogenaamde subtests. Elke subtest bestaat uit een aantal items. Dit zijn de vragen of opdrachten waarop de participant één reactie moet geven. 

Binnen de testtheorie staat een vraag centraal: Hoe weet men of een test datgene meet waarvoor de test is gemaakt? Deze vraag wordt beantwoord aan de hand van de klassieke testtheorie, gebaseerd op de betrouwbaarheid en validiteit van testscores. De betrouwbaarheid zegt iets over de herhaalbaarheid van de testscores. De validiteit gaat over de mate waarin de testscores ook daadwerkelijk een afspiegeling zijn van datgene wat men probeert te meten. 

Door enkele tekortkomingen van de klassieke testtheorie is er een nieuwe, moderne testtheorie ontwikkeld: de item-responstheorie (IRT). Hierbij ligt de nadruk op de itemscores en antwoordpatronen van de respondenten. 

Wat is de klassieke testtheorie (KTT)?

De klassieke testtheorie is een theorie waarin de feilbaarheid van testscores centraal staat. Deze theorie is ontwikkeld door Spearman in 1904, maar is de jaren daarna verder ontwikkeld naar de theorie zoals deze nu bekend is. De theorie gaat er vanuit dat testen niet kan zonder fouten. Hierbij wordt onderscheid gemaakt tussen twee soorten meetfouten: de toevallige, onsystematische, meetfout en de systematische meetfout

  • Toevallige meetfouten zijn fouten die niet met de test samenhangen, maar toevallig optreden. Dit wordt ook wel een random meetfout genoemd. Toevallige meetfouten kunnen veroorzaakt worden door toevallige omstandigheden, zoals geluidsoverlast. Deze omstandigheden vallen de ene keer gunstig uit en de andere keer ongunstig, waardoor de testuitslag kan verschillen wanneer deze op verschillende momenten gemaakt wordt. De betrouwbaarheid van een test zegt iets over de grootte van de toevallige meetfout. Hoe minder toevallige meetfouten, hoe hoger de betrouwbaarheid van de test. 
  • Systematische meetfouten zijn fouten die gerelateerd zijn aan de test. Een voorbeeld van een systematische fout is een test waarbij het rekenvermogen wordt gemeten, maar waarbij de sommen bestaan uit verhaaltjes waarbij deze eerst goed gelezen moeten worden, wil de respondent de som juist kunnen maken. Wanneer de respondent onvoldoende leesvaardigheid heeft, zal dit de uitkomst van de test negatief beïnvloeden waardoor de test zowel de rekenvaardigheid als de leesvaardigheid meet. De validiteit van een test zegt iets over de mate waarin systematische meetfouten worden gemaakt. Hoe minder systematische meetfouten, hoe hoger de validiteit van de test. In andere woorden, hoe beter de test meet wat deze beoogt te meten. De systematische meetfout heeft geen invloed op de betrouwbaarheid van een testscore. Een lage betrouwbaarheid impliceert echter ook een lage validiteit. 

In de klassieke testtheorie wordt de testscore X uiteengelegd in twee delen: een systematisch deel, dit is de ware score (T) en een toevallig deel, dit is de random error (E). Het model voor de klassieke testtheorie ziet er dan als volgt uit: X = T + E. De ware score (T) bestaat uit wat de test beoogt te meten en uit de systematische meetfout. Hoe kleiner de systematische en toevallige meetfout, hoe dichter de testscore X bij datgene wat men beoogt te meten komt te liggen. 

Wat is betrouwbaarheid?

De betrouwbaarheid zegt iets over de mate waarin er toevallige meetfouten van invloed zijn op testscores en daarmee over de herhaalbaarheid van de testscores. Wanneer er zeer veel onafhankelijke afnamen van dezelfde test bij dezelfde respondent gedaan worden, verwachten we vanuit de klassieke testtheorie dat de testscores telkens van elkaar verschillen door de toevallige meetfout. De toevallige meetfout is bij de ene test voordelig en bij de andere test nadelig, waardoor bij het veelvuldig afnemen van dezelfde test deze elkaar zullen opheffen. Uiteindelijk zal de gemiddelde testscore gelijk zijn aan de ware score van de respondent, waarbij de afwijking van een bepaalde testscore van dit gemiddelde de toevallige meetfout representeert. Hoe groter deze afwijking, hoe groter de toevallige meetfouten en hoe lager de betrouwbaarheid. 

De verdeling van de toevallige meetfouten heeft altijd een gemiddelde van 0. De verdeling van de toevallige meetfouten heeft een standaardafwijking die gelijk is aan de standaardafwijking van de geobserveerde scores, dit is de standaardmeetfout (SE - standard error of measurement). De standaardmeetfout is een maat voor de nauwkeurigheid van de meting. Hoe kleiner deze is, hoe nauwkeuriger men de ware score kan schatten. De standaardmeetfout is identiek voor iedereen, maar is in de praktijk onmogelijk vast te stellen. 

Voor één persoon geldt dat de geobserveerde testscore X is opgebouwd uit een systematisch deel T en een toevallig deel E. Voor de hele populatie geldt dan dat de spreiding van testscores (SX) op te splitsen is in een systematisch deel (ST) en een toevallig deel (SE). Het systematische deel is dat deel van de spreiding in testscores dat daadwerkelijk het gevolg is van verschillen in ware scores. Het toevallige deel is het gevolg van de meetfouten van de personen. Dit geeft de volgende relatie: SX2 = ST2 + SE2. De betrouwbaarheid (rxx) is te berekenen door de ware score te delen door de testscore: rxx = ST2 /  SX2. Aangezien we in de praktijk alleen beschikken over de geobserveerde scores en nooit over de ware scores, kunnen we de betrouwbaarheid nooit precies bepalen. 

Hoe schat je de standaardmeetfout?

De standaardmeetfout van een testscore is een maat voor de nauwkeurigheid van de meting van het te meten begrip. Nauwkeurigheid is voornamelijk van belang voor individuele diagnostiek waarbij belangrijke beslissingen op het spel staan. De formule voor de standaardmeetfout is: SE = SX wortel (1 - rxx). Wanneer je betrouwbaarheid en standaardafwijking goed kunt schatten, kun je ook de standaardmeetfout schatten. 

Hoe schat je de betrouwbaarheid bij twee testafnamen?

Er zijn twee verschillende manieren waarop je de betrouwbaarheid kan schatten bij twee testafnamen: de test-hertestmethode en de paralleltest methode.

  • De test-hertestmethode wordt gebruikt om de betrouwbaarheid te schatten van een test wanneer deze tweemaal afgenomen kan worden, zonder dat de eerste meting van invloed is op de resultaten van de tweede meting. De betrouwbaarheid kan geschat worden door de correlatie te berekenen tussen de scores op beide afnamen. De correlatiecoëfficiënt geeft de samenhang aan tussen de systematische delen van de testscores van de twee afnemen. Hoe meer toevallige meetfouten, hoe zwakker de correlatie en hoe lager de betrouwbaarheid. De berekende correlatie noemen we ook wel de stabiliteitscoëfficiënt of test-hertestcoëfficiënt. Echter, een probleem is dat in de praktijk het bijna onmogelijk is dat de eerste afname de tweede afname niet beïnvloed. Als er wat langer wordt gewacht, kan het ook zo zijn dat persoonlijke ontwikkeling zelfs is veranderd waardoor de antwoorden ook verschillen. 
  • Bij de paralleltest methode worden twee zeer op elkaar gelijkende tests afgenomen, om het probleem bij de test-hertestmethode te voorkomen. Paralleltests zijn tests die precies dezelfde inhoud dekken, maar uit verschillende testvragen bestaan. De betrouwbaarheid kan hierbij ook geschat worden door de correlatie tussen de testscore X en de parallelle testscore X' te berekenen. Hierbij verwachten we dat de ware score op de beide tests gelijk is, zodat ook de systematische componenten aan elkaar gelijk zijn. In de praktijk blijkt het echter moeilijk om twee identieke tests te ontwikkelen. 

De problemen die zich voordoen bij de schatting van de betrouwbaarheid door meerdere tests af te nemen, probeert men op te lossen door de betrouwbaarheid te schatten terwijl men maar één test afneemt. 

Hoe schat je de betrouwbaarheid bij één testafname?

De betrouwbaarheid bij één testafname kan geschat worden met behulp van de split-halfmethode of met Cronbachs alfa

  • Bij de split-halfmethode wordt er eenmalig een test afgenomen bij alle respondenten, maar voor de schatting van de betrouwbaarheid wordt de test in twee zoveel mogelijk op elkaar gelijkende delen gesplitst waartussen de correlatie wordt berekend. Voor de split-halfmethode zijn een aantal voorwaarden opgesteld, namelijk dat de inhoud van beide testdelen geheel moet overeenkomen. Denk aan de inhoud, lengte en moeilijkheid van de vragen. De moeilijkheid van vragen met als antwoordcategorie goed of fout, worden uitgedrukt in de proportie p respondenten die de vraag goed hebben beantwoord. Hoe hoger de p, hoe makkelijker het item. Bij andere testvragen is het lastiger om de moeilijkheid te bepalen, dan wordt het op basis van willekeur gedaan. Het verkrijgen van twee vergelijkbare testhelften moet met grote zorgvuldigheid gedaan worden, aangezien een andere verdeling ook een andere schatting van de betrouwbaarheid kan opleveren. Verder wordt bij het berekenen van de correlatie tussen de testhelften rekening gehouden met de testlengte. We veronderstellen dat langere tests betrouwbaarder zijn. 
  • Cronbachs alfa is het gemiddelde van alle betrouwbaarheden wanneer je een test op alle mogelijke manieren door twee delen splitst. Deze schatting is gebaseerd op de interne consistentie van de test, dit is de samenhang tussen de items van een test. Als de items van een test dezelfde inhoud dekken, hangen de itemscores positief met elkaar samen en verkrijgt men een hoge Cronbachs alfa. De Cotan (2009) hanteert de volgende criteria voor de beoordeling van de betrouwbaarheid:
    • Tests voor belangrijke beslissingen op individueel niveau: onvoldoende: r < .80, voldoende: .80 < r < .90, goed: r > .90
    • Idem, maar minder belangrijke beslissingen: onvoldoende: r < .70, voldoende: .70 < r < .80, goed: r > .80
    • Tests voor onderzoek op groepsniveau: onvoldoende r < .60, voldoende: .60 < r < .70, goed: r > .70

Hoe schat je de betrouwbaarheid bij dichotome items?

Bij dichotome items, items waarbij vragen met goed of fout beoordeeld kunnen worden, bestaat er een variant op de formule voor Cronbachs alfa, namelijk de KR-20. Deze formule is opgesteld door Kuder en Richardson in 1937. Cronbachs alfa is eigenlijk een veralgemenisering van de KR-20 voor items met meer dan twee antwoordcategorieën.

Welke invloeden zijn er op betrouwbaarheid?

Er zijn drie factoren die van invloed zijn op de betrouwbaarheid van een test, maar niet samenhangen met de inhoud van de vragen. De factoren zijn de lengte van de test, samenstelling van de respondenten en de tijdsduur waarbinnen de test moet worden ingevuld. 

  • De invloed van de testverlenging kan worden bepaald met de Spearman-Brownformule voor testverlenging. Wanneer een test wordt uitgebreid met vragen die dezelfde inhoud dekken als de vragen waaruit de test al is opgebouwd, zal de betrouwbaarheid van de test toenemen. De verlengingsfactor (v) bepaal je door het nieuwe aantal items in de test (k') te delen door het oorspronkelijke aantal items in de test (k). 
  • De samenstelling van de respondenten kan van invloed zijn op de betrouwbaarheid doordat de antwoorden meer zullen variëren waardoor de toevallige meetfout relatief klein is. Hoe meer heterogeen de groep is met betrekking tot het kenmerk dat men wil meten, hoe hoger de betrouwbaarheidsschatting. 
  • De tijdsduur kan van invloed zijn op de betrouwbaarheid wanneer respondenten niet genoeg tijd hebben om hun test af te ronden, waardoor niet ingevulde vragen als foutief beoordeeld worden en dus niet de ware score weergeven.

Wat is de validiteit?

Een score van een respondent op een test is in te delen in een toevallig deel en systematisch deel. Het systematische deel is ook weer in te delen is in twee delen:

  • Een bedoeld deel: het deel van de score dat ook daadwerkelijk datgene meet waarvoor de test is ontwikkeld. Dit betreft de validiteit. 
  • Een onbedoeld deel: de systematische meetfout.

De validatie van een test is het proces waarin de testontwikkelaar bewijs verzamelt, welk de te maken gevolgtrekkingen uit de testscores ondersteunen. Er zijn drie typen validiteit: inhoudsvaliditeit, begripsvaliditeit en criteriumvaliditeit.

Wat is inhoudsvaliditeit?

Inhoudsvaliditeit betreft in hoeverre de inhoud van de test het gehele kennis-, gedrags-, of vaardigheidsdomein representeert. De vragen in een test moeten de gehele lading dekken van het kennis- of vaardigheidsdomein waarover de test gaat. De bepaling van inhoudsvaliditeit is te verdelen in vier fasen:

  1. Domein definiëren waarin men geïnteresseerd is.
  2. Selecteren van een aantal deskundigen op dit domein.
  3. Deskundigen moeten items matchen met het gekozen domein. 
  4. De resultaten van de matchen worden geanalyseerd. 

Er wordt vaak met meerdere deskundigen gewerkt om een meer objectief en absoluut beeld te verkrijgen dan wanneer slechts één beoordelaar zijn werk doet. De interbeoordelaarsbetrouwbaarheid is de mate waarin deskundigen het eens zijn. Dit wordt beoordeeld met de maat Cohens kappa

Bij het uitvoeren van een onderzoek naar de inhoudsvaliditeit zijn er een aantal problemen en vragen, waaronder:

  1. Bij de bepaling van het domein moet de belangrijkheid van elk deelgebied gewogen worden. 
  2. Het is onduidelijk hoe de matching van de items gestructureerd moet worden.
  3. Het is onduidelijk welke aspecten van de vraag beoordeeld moeten worden.
  4. Het beoordelen is een subjectief proces, waardoor enige kwantificering wenselijk is, zoals Cohens kappa

Wat is Cohens kappa?

Het beoordelen van een test gebeurt door bepaalde objecten of gegevens toe te wijzen aan categorieën in een vooraf opgesteld categorieënsysteem. Cohens kappa kan hierbij gebruikt worden als maat voor overeenstemming tussen twee beoordelaars waarbij de beoordelaars gebruik maken van dit categorieënsysteem. Hierbij ga je ervanuit dat elke categorie gebruikt wordt, als dit niet zo is verwijder je deze uit het systeem.

Wat is de begripsvaliditeit?

De begripsvaliditeit betreft de vraag in hoeverre de test het bedoelde psychologische begrip dekt. Een manier om de begripsvaliditeit na te gaan is door de uitkomsten van de meting van het begrip en de verwachte relaties met andere variabelen te analyseren. Het construct kent een operationele definitie, een definitie die aangeeft welke procedures gevolgd moeten worden om het begrip te meten, en een syntactische definitie, waarin relaties van het te meten begrip met zowel andere theoretische begrippen als met empirische waarneembare kenmerken worden gespecificeerd. Wanneer de test de verwachte relaties laat zien, betekent dit dat zowel het begrip als de meting bruikbaar is. Een andere manier voor begripsvalidatie is factoranalyse, waarin de analyse van de correlatiematrix van de items inzicht geeft in het aantal dimensies waaruit de test is opgebouwd. 

Hoe werkt de multitrek-multimethode benadering?

De multitrek-multimethode benadering werkt door verschillende trekken te meten met verschillende methoden. Hierbij krijg je verschillende waarden:

  • De b-waarden (centrale diagonaal) geven de correlaties weer van dezelfde trekken gemeten met dezelfde methoden. Dit is de betrouwbaarheid.
  • De v-waarden (drie subdiagonalen) geven de correlaties weer voor dezelfde trekken, maar gemeten met verschillende methoden. Dit zijn de convergente validiteitcoëfficiënten. Voor deze waarden verwachten we hoge waarden, omdat de correlaties tussen de trekken hoog moet zijn.
  • De m-waarden (onder de centrale diagonaal) geven de correlaties weer voor dezelfde methoden en verschillende trekken. Dit zijn de heterotrek-monomethodecoëfficiënten.
  • De d-waarden (rond de subdiagonalen) geven de samenhang voor verschillende methoden en verschillende trekken. Dit zijn de heterotrek-heteromethodecoëfficiënten.  

De correlaties moeten aan vier eisen voldoen om steun te geven aan begripsvaliditeit:

  1. v moet hoog zijn (convergentie).
  2. v moet groter zijn dan d (divergentie).
  3. v moet groter zijn dan m.
  4. Het patroon van correlaties tussen trekken moet voor dezelfde als voor verschillende methoden hetzelfde zijn. Dit gaat over de ordening van correlaties in de m-driehoeken en d-driehoeken. 

Wanneer moet er gecorrigeerd worden voor attenuatie?

Wanneer de correlaties worden berekend, wordt er geen rekening gehouden met de toevallige meetfouten, ondanks dat deze de correlatie wel beïnvloeden. Wanneer de geobserveerde scores onbetrouwbaar worden gemeten, is de toevallige meetfout groter en zal de validiteitscoëfficiënt lager uitvallen dan wanneer er met ware scores wordt gerekend. In dat geval moet er gecorrigeerd worden voor die verzwakking (correctie voor attenuatie). Hiervoor heb je de correlatie en de betrouwbaarheid van twee variabelen (tests) nodig. Hierbij gebruik je de volgende formule:

Ptxty = Pxy / wortel Pxx' * wortel Pyy'

Ptxty = correlatie tussen ware scores van X en Y
Pxy = correlatie tussen X en Y
Pxx' en Pyy' = betrouwbaarheid van X respectievelijk Y

Wat is de criteriumvaliditeit?

De criteriumvaliditeit betreft de vraag in hoeverre de testscore een voorspeller is van niet-testgedrag (verleden, heden, toekomst). Het gaat hierbij om de correlatie tussen de testscore en het criterium waarin men is geïnteresseerd. Deze correlatie is de validiteitscoëfficiënt van de test. Hoe hoger de correlatie, hoe hoger de validiteit. 

Wat zijn oorzaken van een lage validiteit?

Voor het beoordelen van de criteriumvaliditeit gaat men na of theoretisch veronderstelde samenhang ook in geobserveerde gegevens wordt teruggevonden. Dit is alleen mogelijk bij een sterk verband tussen de testscores en het criterium. De afwezigheid van een verwachte samenhang kan verklaard worden door:

  1. Een lage betrouwbaarheid van de test, waardoor de validiteit niet hoog kan zijn. 
  2. Een verkeerd gekozen correlatiemaat, waardoor de sterkte van de samenhang wordt onderschat. 
  3. Binnen heterogene groep zijn er homogene subgroepen, waardoor de validiteit wordt onderschat. 
  4. Contaminatie met criterium. Dit betekent dat als er informatie over de testscore bekend wordt, dit van invloed kan zijn op het criteriumgedrag. 
  5. Restriction of range. Dit is aan de orde als niet bij alle personen waarbij de test is afgenomen, ook het criteriumgedrag gemeten kan worden. Hierbij kunnen zowel expliciete (voorbeeld: alleen mensen met hoge score worden toegalaten tot een opleiding) als incidentele selectie (bijvoorbeeld: mensen met een lage score besluiten zelf niet aan een opleiding te beginnen) de oorzaak zijn. 

Hoe gebruiken we een multipele regressie analyse?

De multipele regressie analyse kunnen we gebruiken in onderzoek naar het gebruik van een test voor het voorspellen van een criterium. We kunnen er mee nagaan hoe goed een test het criterium voorspelt, biedt het de mogelijkheid om de beste test voor de voorspelling te selecteren en kunnen we rekening houden met de verschillen tussen groepen.

Bij onderzoek naar criteriumvaliditeit kan men nagaan of men op basis van testscore X een voorspelling kan doen over de criteriumscores Y. Als het verwachte verband lineair is, kan er gebruik gemaakt worden van een lineaire regressieanalyse: Y = b0 + b1X1. Wanneer er meer variabelen zijn, kan de formule verlengd worden met X2, X3, enz. Dan wordt het een multiple lineaire regressie, omdat men met meer dan één voorspeller te maken heeft. 

Hoe voer je een multipele regressie uit in SPSS?

Bij het uitvoeren van een multipele regressie in SPSS krijg je een tabel 'Model Summary', waarin de eerste waarde van de R, de correlatiecoëfficiënt tussen de geobserveerde Y score en de voorspelde waarden, gegeven wordt. Het kwadraat hiervan, R2, is de multipele determinatiecoëfficiënt, wat de verklaarde variantie weergeeft. De 'Adjusted R Square' is de schatting van de verklaarde variantie voor de populatie. Deze schatting is beter, omdat deze corrigeert voor het aantal predictoren. Het laatste gegeven in de tabel is de standaardschattingsfout (standard error of the estimate), wat de standaardafwijking van de residuen is. Dit geeft aan hoe groot de voorspellingsfouten in doorsnee zijn. De standaardschattingsfout wordt gebruikt bij het opstellen van het betrouwbaarheidsinterval = Y +/- 1.96 * SY.X, waarbij Y de voorspelde score van criterium is, 1.96 de z-waarde is en SY.X de standaardschattingsfout is.

De volgende tabel in SPSS is de tabel 'Coefficients'. In kolom B staan de regressiecoëfficiënten, waarmee je de regressievergelijking kan opstellen. In de laatste kolom (Sig.) wordt de overschrijdingskans van het steekproefresultaat gegeven. Om de b-coëfficiënten met elkaar te kunnen vergelijken, is er de gestandaardiseerde b-coëfficiënt (beta). 

Hoe kun je de validiteitscoëfficiënten toepassen?

Een eerste toepassing is de determinatiecoëfficiënt, die de proportie variantie van het criterium aangeeft die verklaard wordt door de testscore X. De tweede toepassing is het voorspellen van scores van personen, omdat met de regressiecoëfficiënt een puntschatting gemaakt kan worden van de verwachte score van een persoon.​

Hoe werkt een factoranalyse?

Factoranalyse is een statistische techniek die wordt gebruikt om de informatie uit een groot aantal geobserveerde variabelen te reduceren tot een kleiner aantal nieuw te construeren variabelen. Deze nieuw te construeren variabelen worden factoren genoemd. Het bestaan en de aard van de factoren wordt afgeleid uit de correlaties tussen geobserveerde variabelen. Het aantal te onderscheiden factoren is in hoge mate afhankelijk van het aantal en de inhoud van de gebruikte variabelen. Bij het reduceren van een groot aantal variabelen tot een aantal factoren gaat informatie verloren, omdat de factoren slechts een algemene weergeving zijn van de variabelen. De samenhang tussen factoren en geobserveerde variabelen kan worden weergegeven in een factorladingenmatrix of factormatrix. De correlaties tussen de geobserveerde variabele en een factor wordt factorlading of lading genoemd. Het benoemen van een factor is subjectief, verschillende onderzoekers kunnen een factor een andere naam geven.

De derde kolom in de factormatrix geeft de communaliteiten weer, dit is de proportie variantie van een variabele die door de gezamenlijke factoren wordt verklaard. Dit wordt berekend uit de factorladingen, namelijk de som van de gekwadrateerde factorladingen.

Elke onderscheiden factor heeft zijn eigen eigenwaarde. De eigenwaarde van een factor is de totale hoeveelheid verklaarde variantie, dit is gelijk aan de som van verklaarde varianties in de variabelen door deze factor. Het percentage verklaarde variantie gebruiken we voor een kwalitatieve beoordeling van de factoroplossing. Hierbij houden we de volgende beoordeling aan:

  • Matig = verklaarde variantie ligt rond de 30%
  • Goed = verklaarde variantie ligt rond de 50%

De factoren kunnen ook schematisch weergegeven worden. Wanneer de factoren ongecorreleerd zijn, vormen ze een assenstelsel waarbij de factoren loodrecht op elkaar staan. De coördinaten in het assenstelsel zijn de variabelen die de ladingen op de twee factoren weerspiegelen. 

Welke twee methoden zijn er voor factoranalyse?

Factoranalyse is een verzamelnaam voor analysetechnieken die alle uitgaan van de veronderstelling dat de geobserveerde variabelen gerepresenteerd kunnen worden door een lineaire combinatie van onderliggende factoren. Van deze technieken bespreken we de (hoofd)componentenanalyse (in SPSS: Principal Component Analysis) en factoranalyse in enge zin (in SPSS: Principal Axis Factoring). In de meeste gevallen zijn de uitkomstverschillen tussen de verschillende technieken gering. 

Hoe werkt de hoofdcomponentenanalyse?

De hoofdcomponentenanalyse, ook wel principale componentenanalyse genoemd, is een methode om een verzameling geobserveerde variabelen te reduceren tot een kleine aantal ongecorreleerde factoren. Hierbij wordt er vanuit gegaan dat de score van een persoon op een variabele volledig bepaald wordt door de factoren, waarbij geen meetfouten verondersteld worden. De factorladingen worden precies berekend, dit wordt gedaan door SPSS waarbij de factorladingen in een factormatrix weergegeven worden. Elke factor is een gewogen som van de naar z-scores getransformeerde variabelen. Alle informatie van de variabelen is terug te vinden in de factoren, er gaat geen informatie verloren. Dit maakt dat het optellen van de eigenwaarden van de factoren gelijk is aan de totale variantie en de communaliteiten alle gelijk zijn aan 1. 

Bij het kiezen voor het aantal factoren wordt gebruik gemaakt van het eigenwaardecriterium, die stelt dat als de eigenwaarde groter is dan 1, komt de factor in aanmerking om geselecteerd te worden. Ook is te stellen dat de eerste factor een maximale proportie variantie verklaart en de daaropvolgende factoren steeds de maximale proportie van de resterende variantie verklaren. De proporties verklaarde variantie dalen snel na de eerste factoren, waardoor de laatste factoren nauwelijks iets van de variabelen verklaren en daarom niet geselecteerd worden. Het uitgangspunt bij het selecteren van factoren is: zo weinig factoren als mogelijk, zo veel als noodzakelijk. 

Hoe goed een factormodel past op de geobserveerde data kan beoordeeld worden door het verschil tussen de werkelijke correlatie tussen de variabelen en de op de factoroplossing gebaseerde correlaties. Zolang de verschillen gering zijn, is het factormodel goed bruikbaar. Een ander kwaliteitscriterium is de proportie of percentage door het factormodel verklaarde variantie in de variabelen. Hoe minder factoren gekozen worden, hoe minder variantie in de variabelen verklaard wordt. Als de factoren niet onderling correleren (orthogonaal) kunnen de afzonderlijke factoren percentages verklaarde variantie opgeteld worden voor het totaal percentage. 

Over het algemeen geeft de hoofdcomponentenanalyse een overschattingen van de ladingen, communaliteiten en dus ook van het percentage verklaarde variantie in alle variabelen. Dit wordt veroorzaakt doordat deze analyse geen rekening houdt met mogelijke onbetrouwbaarheid van de metingen. De factoranalyse in enge zin geeft wat dat betreft betere schattingen. 

Hoe werkt de factoranalyse in enge zin?

Bij de factoranalyse in enge zin gaan we er vanuit dat de variantie van de geobserveerde variabelen naast de factoren ook voor een deel bepaald worden door onbekende toevallige invloeden. Elke variabele heeft zijn eigen, unieke variantie die niet samenhangt met andere variabelen. Deze variantie kan gebaseerd zijn op toeval of op systematisch fouten. Deze analyse schat dus meer de ware variantie, omdat men er vanuit gaat dat de variantie niet volledig bepaald wordt door de factoren. Hierdoor zijn de communaliteiten van de variabelen niet meer gelijk aan 1 en kunnen de ladingen niet meer volledig vanuit de variabelen berekend worden, maar moeten ze worden geschat. 

Wat houdt het roteren van factoren in?

Een overzichtelijk factorstructuur is wanneer de ladingen van een test hoog op de ene factor en laag op de andere factor zijn. Om dit te realiseren moet de factoranalyse vaak worden uitgevoerd met aanvullende mathematische rotatie, dit is het draaien van het assenstelsel waarop de factoren worden afgebeeld zodat het ene cluster van punten dicht bij de ene as komt te liggen en de andere as dicht bij het andere cluster. Bij een orthogonale rotatie draaien we de horizontale en verticale as 90 graden. Een andere rotatie is de oblique of scheve rotatie, waain de hoek tussen de assen na rotatie geen 90 graden hoeft te zijn en waarbij we correlatie tussen de factoren toestaan. Roteren is in feite het herschikken van dezelfde informatie.

Bij het roteren blijven de verklaarde variantie en de communaliteiten gelijk, maar veranderen alleen de ladingen. Het aantal factoren blijft ook gelijk en er gaat geen informatie verloren. Er wordt vaak gekozen voor de orthogonale factoranalyse, omdat orthogonale factoren op een efficiënte manier de variantie in de oorspronkelijke tests verklaren. 

Hoe werkt een factoranalyse bij dichotoom gescoorde items?

Bij dichotoom gescoorde items geldt dat de maximaal te bereiken correlatie sterk wordt beïnvloed door het verschil in moeilijkheden van de items. Hierdoor kunnen ze door het verschil in moeilijkheid wel anders laden op verschillende factoren, maar niet op basis van inhoud. Daarom wordt er bij dichotome items gebruik gemaakt van het moduul 'exploratory factor analysis of categorical data using weighted least squares estimation'. De item-responstheorie (IRT) en daaraan gekoppelde analysetechnieken biedt ook mogelijkheden voor het beoordelen van de achterliggende factoren van dichotome items.

Waarom voert men een factoranalyse uit?

Een factoranalyse geeft zicht op de interne structuur van een verzameling items en is daarmee een techniek die vaak wordt ingezet bij de beoordeling van de begripsvaliditeit van een test. Het helpt om meer inzicht te krijgen op de structuur in de correlaties. Ook kan een factoranalyse helpen bij het construeren van tests.

Een factoranalyse is meer of minder exploratief, afhankelijk van de mate waarin er expliciete verwachtingen zijn over de interne structuur van een verzameling items. Als er een verwachting is op basis van de theorie noemen we dit een toetsende of theoriegestuurde factoranalyse. Als er een verwachting is op basis van welke informatie de data ons geeft, noemen we dit een exploratieve of datagestuurde factoranalyse

Een factoranalyse is alleen zinvol uit te voeren wanneer er een samenhang is tussen de items, met als vuistregel: ten minste één correlatie moet groter zijn dan .3. Eerst moet er een keuze gemaakt worden tussen de hoofdcomponentenanalyse of de factoranalyse in enge zin. Het doel van een factoranalyse is datareductie. Hierbij wordt de informatie van alle variabelen gereduceerd tot kleinere, nieuw te construeren variabelen. Het aantal factoren selecteren we op basis van het eigenwaarde-criterium of het knik-criterium, waarbij gekeken wordt naar de overgang in een screeplot tussen het eerste aantal factoren welke veel variantie verklaren en de factoren die daarna komen, die alle ongeveer evenveel variantie verklaren, maar duidelijk minder dan het eerste aantal factoren. De definitieve factoroplossing baseren we op een combinatie van statistische criteria en een inhoudelijk criterium. Voor de interpretatie van factoren is het roteren van de factoren een hulpmiddel, waarbij een keuze dient gemaakt te worden tussen een orthogonale (in SPSS: Varimax) of oblique rotatie (in SPSS: Direct Oblimin). Na rotatie zal de verklaarde variantie per factor veranderen, maar de totale verklaarde variantie blijft gelijk. Het interpreteren van de factoren doen we na rotatie door de factorladingen te bestuderen. De items met een factorlading van ten minste .40 nemen we samen in hetzelfde cluster, met als gevolg dat de overige items verwijderd worden. Daarna kan worden nagegaan welke gemeenschappelijke inhoud de items hebben die samen één cluster vormen en indicatief zijn voor een factor, waarbij we de factoren benoemen. De laatste stap is het selecteren welke items we gebruiken voor de schaalconstructie.

Hoe kunnen items worden geanalyseerd?

Een test bestaat meestal uit een groot aantal items, omdat zo de betrouwbaarheid bepaald kan worden en omdat een enkel item maar een povere afspiegeling is van het begrip-zoals-bedoeld. Afhankelijk van het doel van de test zijn er verschillende procedures om items te selecteren en om de betrouwbaarheid te berekenen. Er zijn verschillende soorten tests, waaronder prestatieniveautests.

Wat zijn prestatieniveautests?

Prestatieniveautests zijn tests waarmee bij individuen een prestatie wordt gemeten en waarbij het gaat om de maximaal mogelijk prestatie waartoe de respondent in staat is vast te stellen. Hierbij worden meestal vragen beantwoord zonder tijdsdruk, zoals intelligentietests en studietoetsen. De resultaten van prestatieniveautests hebben tot doel om individuen te beoordelen of te vergelijken en kunnen gebruikt worden om het niveau van ontwikkeling of de vorderingen vast te stellen. Prestatieniveautests moeten over het algemeen verschillen tussen (en binnen) individuen betrouwbaar vaststellen. De regels voor testsconstructie zijn voor de meeste prestatieniveautests gelijk.

Wat zijn de selectiecriteria voor items?

We gaan uit van de situatie waarin we een test construeren waarmee we een zo groot mogelijke variantie van testscores vast willen leggen. De testvariantie is gelijk aan de som van de itemvarianties plus de som van de covarianties tussen de items. De testvariantie wordt zo groot mogelijk door de juiste items te selecteren. Er zijn verschillende mogelijkheden voor itemselectie, waaronder covarianties, inter-itemcorrelaties en item-restcorrelaties.

Hoe dragen covarianties bij aan testvariantie?

De testvariantie wordt groot door items met grote itemvarianties te selecteren en door itemparen te selecteren die sterk positief samenhangen. Hierbij kun je het beste kijken naar de covarianties, omdat daar er meer van zijn dan van de itemvarianties. Daarom dragen de covarianties het meeste bij aan de testvariantie. 

Hoe dragen inter-itemcorrelaties bij aan testvariantie?

Inter-itemcorrelaties worden gebruikt om te bepalen in hoeverre twee items variantie delen of anders gezegd, in hoeverre zij hetzelfde meten. Bij het construeren van tests is het vereist dat de items positief correleren. Hoge correlaties leiden ook tot een hoge Cronbachs alfa. De testvariantie is afhankelijk van de itemvariaties en de inter-itemcorrelaties, waarbij de testvariantie verhoogd kan worden door items te kiezen met een zo groot mogelijke inter-itemcorrelatie. Een grote testvariantie is wenselijk, omdat dit betekent dat er in een groep mensen die getest worden een zo groot mogelijk onderscheid tussen de personen gemaakt wordt. Daarbij moeten de scores wel betrouwbaar zijn, willen we ze goed kunnen interpreteren. De selectieregel voor de items is dat de inter-itemcorrelaties waar een specifiek item bij betrokken is sterk positief moeten zijn om dit item in de test op te nemen.

Aangezien het moeilijk is om over één item conclusies te trekken, is er ook een item-totaalcorrelatie of item-restcorrelatie. Bij de item-totaalcorrelatie bepalen we de samenhang tussen het item en de totaalscore op alle items. De restscore is de score op de totale test minus de itemscore. De restscore is bij testconstructie de best beschikbare en mogelijke metig van het construct, aangezien hierbij de samenhang met het item zelf is uitgesloten. De correlatie tussen een itemscore en de restscore geeft aan welk deel van de variantie gemeenschappelijk is. Voor alle items verwachten we positieve item-restcorrelaties. Mocht er een negatieve correlatie bestaan, moet men nagaan of dit een fout is in de codering of inhoud van het item. 

Welke criteria bestaan voor item-restcorrelaties?

  • Goed = r > .30
  • Voldoende = .20 < r < .29
  • Onvoldoende = r < .19

De item-restcorrelaties vallen vaak iets lager uit dan de item-totaalcorrelaties, maar als criteria voor de beoordeling kun je deze waarden aanhouden. De definitieve selectieregel voor items in een test luidt nu als volgt: kies bij het samenstellen van een test voor de items met de hoogste positieve item-restcorrelaties. 

Hoe vindt selectie op basis van p-waarden plaats?

De p-waarden staan voor de itemmoeilijkheid, namelijk de proportie respondenten die een vraag goed heeft beantwoord. Bij dichotome items, items met slechts twee antwoordcategorieën, selecteer je de items op basis van p-waarden, omdat anders bij selectie op basis van item-restcorrelaties automatisch de items met bepaalde p-waarden geselecteerd worden. Vaak zijn dit de items met een p-waarde in de buurt van de .5, waardoor er geen spreiding binnen de test aan items met verschillende moeilijkheid is.

Hoe betrouwbaar is selectie op basis van item-restcorrelaties?

Itemselectie op basis van items met hoge item-restcorrelaties leidt tot een grote testvariantie en bij benadering een normaalverdeling. De betrouwbaarheid betreft de correlatie tussen de scores op twee parallelle tests. De correlatie is hoger wanneer de scores van de persoon meer op elkaar lijken en de invloed van de toevallige meetfout kleiner is. In de klassieke testtheorie wordt er van uitgegaan dat de betrouwbaarheid voor alle personen gelijk is. Dit is het gevolg van de hoge mate gelijkheid van personen in het midden van de frequentieverdelingen. De betrouwbaarheid voor personen aan de uiteinden van de normaalverdeling is daardoor veel lager. 

Uiteindelijk is het doel om een test te verkrijgen met een optimale betrouwbaarheid en een optimale validiteit. Hierbij worden alle items geanalyseerd, waarbij de items die geen hoge correlatie laten zien of na verwijderen een hogere Cronbachs alfa tot gevolg hebben, verwijderd worden. Na elke verwijdering vindt een nieuwe analyse plaats. 

Hoe verloopt de selectie van items bij een selectietest?

Het doel is om een test samen te stellen waarmee zo betrouwbaar mogelijk een vastliggend percentage van respondenten onderscheiden kan worden van rest. Hierbij moeten de 30% hoogste en de 70% laagste testscores betrouwbaar worden onderscheiden. 

  1. Bepaal eerst de restscores gebaseerd op alle experimentele items behalve item x. Orden de restscores van laag naar hoog.
  2. Vervang de laagste 70% restscores door nullen en de hoogste 30% door enen.
  3. Bereken per item de correlatie met de gedichotomiseerde restscore door gebruik te maken van de phi-coëfficiënt. 
  4. Selecteer de items met hoge correlaties met de restscore. Dit zijn de items die sterk samenhangen met de indeling 70-30. 

Wat betekenen de testscores?

Een ruwe testscore (de geobserveerde testscore) is niet te interpreteren onafhankelijk van de gegevens van de test, de specifieke codering of het aantal vragen. Om uitspraken te doen over hoe goed een prestatie van een persoon is binnen een groep, moet je de resultaten van de normgroep kennen, dit is normgeoriënteerde of relatieve interpretatie. Om uitspraken te doen over de geschiktheid van een persoon moeten de resultaten vergeleken worden met een eerder vastgesteld criterium. Dit is criteriumgericht of absolute interpretatie. Een ruwe score krijgt pas betekenis als het is omgezet naar een standaardscore en deze te vergelijken met de norm. De normgegevens worden naast de betrouwbaarheid en validiteit ook beoordeeld om iets te zeggen over de kwaliteit van een test.

Wat is het verschil tussen normgerichte en criteriumgerichte interpretatie?

Voor de beoordeling van testscores onderscheiden we twee vormen: de normgerichte interpretatie of de criterium- of domeingerichte interpretatie. Voor de beoordeling moeten de ruwe scores omgezet worden in percentielscores of standaardscores. Deze transformatie maakt vergelijking mogelijk tussen testscores. Bij normgerichte interpretatie wordt een individu vergeleken met een groep, waarbij beoordeeld wordt of het individu beter of slechter dan het groepsgemiddelde heeft gepresteerd. Een voorbeeld hiervan is de IQ-test. 

Bij criteriumgerichte interpretatie wordt een individu beoordeeld op zijn eigen prestatie, zonder dit te vergelijken met andere mensen, maar met voorafgestelde standaarden. Een voorbeeld hiervan is een tentamen, waarbij een vast aantal vragen of percentage goed beantwoord moet worden, wil het resultaat voldoende zijn. 

Tests worden ook gebruikt als onderzoeksinstrumenten, bijvoorbeeld het bepalen van verschillen in persoonlijkheidskenmerken tussen groepen. Wanneer de beoordeling gaat over groepen en niet over individuen kunnen de eisen aan tests lager gesteld worden, omdat dit minder ernstige en onomkeerbare gevolgen met zich meebrengt. 

Het vaststellen van normen gebeurt aan de hand van de verdeling van scores in de populatie. De frequentieverdeling van testscores in de populatie worden vastgelegd in een normtabel. Hierin vind je de mogelijke testscores en de daarbij bepaalde getransformeerde scores. Met deze tabel is het mogelijk om aan te geven welke plaats een respondent inneemt binnen de populatie waarin de test genormeerd is. 

Welke transformaties van testscores zijn er?

Er zijn twee typen bewerkingen: een type dat gebaseerd is op de relatieve positie binnen een referentiegroep en een type dat is gebaseerd op een absolute standaard. 

Wat zijn standaardscores?

Standaardscores worden gebruikt wanneer bekend is dat de testscores normaal zijn verdeeld in de populatie waartoe de persoon behoort. Bij standaardscores worden de ruwe scores getransformeerd naar standaard Z-scores via een lineaire transformatie. Het resultaat van de transformatie is een verdeling van scores met een gemiddeld van 0 en een standaardafwijking van 1. Een Z-score geeft de plaats in de normaalverdeling aan en in een tabel met overschrijdingskansen van Z-scores kan opgezocht worden welk deel van de verdeling hetzelfde of hoger gescoord heeft. De eenheid van Z-scores is de standaardafwijking. Een Z-score van 1 betekent dat deze persoon 1 standaardafwijking boven het gemiddelde van de groep zit. Let op: deze transformatie is alleen zinvol wanneer de testscores normaalverdeeld zijn.

Een andere lineaire transformatie leidt tot T-scores, hierbij heb je een verdeling met 50 als gemiddelde en 10 als standaardafwijking. De gehele verdeling ligt drie standaardafwijkingen onder en drie standaardafwijkingen boven het gemiddelde, dus liggen de scores tussen de waarden 20 en 80.

Wat zijn percentielscores?

Als de scores niet normaalverdeeld zijn, kunnen scores met elkaar vergeleken worden door middel van percentielscores of percentielen. Dit is een punt op de meetschaal waar beneden een vast percentage van de verdeling valt. In een tabel wordt per ruwe score vermeld welk percentage daarbij hoort. Wanneer je het percentiel zelf berekent, is het gebruikelijk om de decimalen af te ronden naar boven. 

Wanneer gebruik je percentielscores en wanneer standaardscores?

Als de verdeling normaalverdeeld is, gebruik je standaardscores, omdat deze heel precies de relatieve positie van de respondent aangeven. Echter moet je wel enige achtergrondkennis hebben. Bij normaalverdeling kun je ook percentielscores gebruiken, maar is het nadeel dat binnen een percentielklasse wordt verwacht dat de scoreverdeling rechthoekig is en dat is bij een normaalverdeling niet zo. Als de verdeling niet normaal verdeeld is, kun je beter percentielscores gebruiken, omdat deze precies aangeeft waar beneden welk percentage van de verdeling valt. Het nadeel van deze transformatie is echter dat het interval meetniveau niet behouden blijft, waardoor de verhouding tussen de scores niet gelijk blijft. 

Wat zijn stanines?

Bij een transformatie tot staninescores is er een gemiddelde van 5 en een standaardafwijking van 2. De stanine is een negen-puntschaal die is gebaseerd op de standaardnormale verdeling. Elk interval binnen deze schaal, behalve de eerste en de laatste, is een halve standaardafwijking groot. 

Wat is normaliseren?

Wanneer de testscores niet normaalverdeeld zijn, maar het kenmerk in de populatie wel normaalverdeeld is, kunnen we er met een transformatie voor zorgen dat de getransformeerde scores wel normaalverdeeld zijn. Dit gebeurt door 1) de ruwe testscores om te zetten in percentielscores en 2) en bij de percentielscores de bijbehorende z-score te zoeken in de tabel van de standaardnormale verdeling. Deze z-scores vormen de genormaliseerde standaardscores.

Wat is de item-responstheorie?

De item-responstheorie (IRT) is een reactie en aanvulling op de klassieke testtheorie (KTT). De IRT biedt enkele voordelen en een oplossing voor enkele onvolkomenheden en nadelen van de KTT. Bij de IRT hoeven respondenten niet dezelfde test te maken om ze te kunnen vergelijken, is men onafhankelijk van testscores en itemkenmerken bij de interpretatie en biedt het de mogelijkheid om na te gaan of voor een theoretisch model empirische ondersteuning bestaat. De IRT is een theorie over de relatie tussen persoonlijke vaardigheid (latente trek) en toetsgedrag (reactie op een item i van een test). 

Hoe werkt de item-responstheorie?

De item-responstheorie beschrijft de kans dat een respondent met een bepaalde vaardigheid een bepaald item juist zal beantwoorden door een mathematisch model. Hierbij gaat de IRT er vanuit dat er één belangrijk persoonskenmerk is, de latente trek (θ), die de antwoorden op alle items van de test bepaalt. De gegevens die worden verkregen, worden dominantiegegevens genoemd: het item domineert de persoon (het antwoord is fout) of de persoon domineert het item (het antwoord is goed). Kortom, de IRT is een theorie waarbij de kans op een antwoord op een item door mathematisch model wordt beschreven (het latente trekmodel). 

De IRT is een theorie over itemscores, waarbij de scores van een persoon op de items uit de test centraal staan. Hierbij focussen we ons op dichotome items, waarbij het antwoord op een item goed (Xg = 1) of fout (Xg = 0) kan zijn. De score op het item g hangt dus af van de waarde één latente trek. Uit de kans op een goed antwoord is ook direct de kans op een fout antwoord af te leiden, dus hebben we het in het vervolg alleen over de kans op een goed antwoord. 

Wat is een item-responsfunctie?

Een item-responsfunctie drukt de relatie tussen de latente trek en het itemgedrag uit op een mathematische manier. Wanneer deze visueel gemaakt wordt, spreken we van een item karakteristieke curve (item characteristic curve of ICC). In een item-responsfunctie wordt de mate waarin personen een latente trek bezitten afgezet tegen de kans om een item goed te scoren (probability = p). De kans op een goed of fout antwoord kan nooit gelijk zijn aan 1 of 0, dus hebben we te maken met een probalistisch model.

Een voorloper van de probabilitische IRT-modellen is het deterministische Guttman-model. In dit model is de kans op het goed beantwoorden van het item gelijk aan 0 tot aan een bepaalde waarde van θ, namelijk θ'. Voor iederen met een θ-waarde gelijk aan of groter dan θ' is de kans op het goed beantwoorden van het item gelijk aan 1. 

Er bestaan verschillende soorten item-responsfuncties afhankelijk van het soort gegevens dat men verzameld en het bijbehorende mathematische model. Een voorbeeld hiervan zijn preferentiegegevens, dit heeft betrekking op preferenties van personen. Daarnaast zijn er dominantiegegevens. Hierbij loopt de curve zo dat een hogere waarde op de latente trek de kans om het item goed te beantwoorden vergroot (of gelijk blijft). De succeskans is monotoon niet dalende. De helling van de curve is niet overal hetzelfde, maar wordt in drie delen gesplitst:

  1. Een interval met relatief lage θ-waarden, die corresponderen met een (constante) lage succeskans. 
  2. Een interval met toenemende θ-waarden met een snel toenemende succeskans. 
  3. Een interval met relatief hoge θ-waarden, die corresponderen met een (constante) hoge succeskans. 

Een ICC laat zich beschrijven aan de hand van de volgende drie kenmerken: de giskans, de moeilijkheid en de discriminatieparameter. De waarden van deze drie kenmerken bepaalden het precieze verloop van de curve. De giskans (pseudokansniveau of gokkans) is de waarde op de y-as waar de ICC begint. Dit is de kans dat iemand met een lage waarde op θ toch het goed antwoord geeft. De moeilijkheid van een item kunnen we aflezen uit de locatie van ICC ten opzicht van θ-schaal. De ICC van een eenvoudig item zal verder naar links liggen dan de ICC van een moeilijker item. De bepaling van de moeilijkheidsparameter gaat als volgt: op de y-as (succeskans) zoekt men de waarde (1 + giskans)/2, dit is precies het middelpunt tussen de giskans en een succeskans van 1. De bijbehorende θ-waarde is de moeilijkheid van het item. De discriminatieparameter geeft de steilheid van de curve aan in het kritische gebied. Dit is de helling van de raaklijn in het punt (moeilijkheidsparameter; (1+giskans)/2)). Hoe steiler de functie, hoe beter personen van elkaar onderscheiden kunnen worden. 

Welke voorwaarden zijn er voor het opstellen van item-responsfuncties?

De eerste voorwaarde waaraan voldaan moet zijn om een item-responsfunctie op te kunnen en mogen stellen is eendimensionaliteit. Dit is als één persoonskenmerk de antwoorden op alle items van de test bepaalt. Bij eendimensionaliteit geldt dat in de gehele populatie de items afhankelijk zijn. Een andere voorwaarde is lokale onafhankelijkheid. Dit levert een mogelijk antwoordpatroon op waarmee de kans berekend kan worden op een bepaald antwoord. In een subpopulatie van personen met dezelfde latente trekwaarde zijn de items binnen die groep onafhankelijk (lokale onafhankelijkheid). Voor het beoordelen van de globale afhankelijkheid kunnen we nagaan of tussen alle items van een test een positieve samenhang wordt gevonden. Als items negatief samenhangen, wordt de aanname van globale afhankelijkheid geschonden.

Wat zijn Mokkenmodellen?

Binnen de IRT zijn er verschillende modellen waarin onderscheid gemaakt kan worden tussen parametrische (item-responsfunctie is gedefinieerd met een mathematische formule) en non-parametrische modellen (item-responsfuncties zijn niet gedefinieerd). De non-parametrische modellen zijn minder restrictief, maar hebben slechts als maximaal meetniveau ordinaal. Er zijn twee verschillende non-parametrische Mokkenmodellen: het Mokkenmodel met monotone homogeniteit en het Mokkenmodel met dubbele monotonie (DM). 

Wat kenmerkt het Mokkenmodel met monotone homogeniteit?

Bij het Mokkenmodel met monotone homogeniteit liggen drie assumpties ten grondslag:

  1. Eéndimensionaliteit
  2. Lokale onafhankelijkheid
  3. Monotonie naar θ = monotoon, niet-dalende ICC's

In een Mokkenmodel is het toegestaan dat ICC's elkaar snijden, waardoor items niet voor alle personen op dezelfde manier geordend kunnen worden wat betreft de moeilijkheid. Dit is verschillend per persoon afhankelijk van de proportie goede antwoorden.

Eén van de eigenschappen van de Mokkenmodellen is dat we empirisch na kunnen gaan of de modellen bij de geobserveerde data passen. Als de ene persoon een grotere succeskans heeft op één item dan een ander persoon, kunnen we stellen dat deze persoon op alles andere items van deze test ook hoger scoort dan de ander. De schaalbaarheidscoëfficiënt is een afnemende functie van het aantal foutenpatronen in de data. Hoe minder foutenpatronen men in de geobserveerde data aantreft, hoe hoger de waarde van H. Het is op die manier onmogelijk dat men een moeilijker item goed heeft, maar een makkelijker item fout. Het tellen van foutenpatronen is alleen mogelijk in deterministische modellen, zoals die van Gutman. In het Mokkenmodel nemen we aan dat 0 < H < 1. Met de H-coëfficiënt krijg je een indicatie van de mate waarin de geobserveerde data passen bij het Mokkenmodel met monotone homogeniteit. Hierbij gaan we ervan uit dat:

  • als h < g, dan is h een moeilijker item dan g, en is h goed en g fout dus een foutenpatroon.
  • als h > g, dan is h een makkelijker item dan g, en is g goed en h fout een foutenpatroon. 

Er is een tweede manier om na te gaan of de geobserveerde data passen bij het Mokkenmodel met monotone homogeniteit. 

  1. Bepaal voor alle personen de totaalscores op de test, waarbij de score op het item dat we gaan bekijken niet mee telt. Personen met dezelfde totaalscore vormen een groep. 
  2. Bepaal voor elke groep de kans op item g goed. 
  3. Teken, op basis van deze kansen de ICC.
  4. Als de ICC niet monotoon niet-dalend is, voer dan een toets uit, om na te gaan of de schendingen significant zijn of niet. 

Wat kenmerkt het Mokkenmodel met dubbele monotonie (DM)?

Bij het Mokkenmodel met dubbele monotonie mogen de curves elkaar niet snijden, waardoor de items wel op moeilijkheid geordend kunnen worden. Dit Mokkenmodel heeft dezelfde drie assumpties als bij het eerste Mokkenmodel: eendimensionaliteit, lokale onafhankelijkheid en monotonie naar θ. De vierde assumptie die hierbij komt is monotonie naar δ (= moeilijkheidsparameter). Deze assumptie stelt dat als er vier items zijn van makkelijk naar moeilijke items, bij dubbele monotonie geldt dat de item-responsfuncties elkaar niet snijden voor alle θ. Dit betekent dat voor elk item f geldt dat de kans op dit item goed en het moeilijkste item goed, kleiner is dan de kans of item f goed en het op één na moeilijkste item. De assumptie dat twee ICC's elkaar niet mogen snijden bij dubbele monotonie kunnen we nagaan door voor beide items de ICC's te tekenen. 

Welke toepassingen zijn er van de item-responstheorie?

Een eerste toepassing van de IRT-modellen is de betrouwbaarheid van een itemscore in het kritieke gebied. De betrouwbaarheden van de losse items mogen bij elkaar opgeteld worden tot de betrouwbaarheid van de test, omdat de items onafhankelijk zijn van elkaar. Een tweede toepassing is het adaptief testen, waarbij een beperkt aantal items leidt tot een betrouwbaar resultaat. 

Access: 
Public
This content is related to:
Samenvatting Onderzoeksmethoden (Boeije)
Check more of this topic?

Image

Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Comments, Compliments & Kudos:

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Promotions
special isis de wereld in

Waag jij binnenkort de sprong naar het buitenland? Verzeker jezelf van een goede ervaring met de JoHo Special ISIS verzekering

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why would you use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the menu above every page to go to one of the main starting pages
    • Starting pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Use the topics and taxonomy terms
    • The topics and taxonomy of the study and working fields gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
  3. Check or follow your (study) organizations:
    • by checking or using your study organizations you are likely to discover all relevant study materials.
    • this option is only available trough partner organizations
  4. Check or follow authors or other WorldSupporters
    • by following individual users, authors  you are likely to discover more relevant study materials.
  5. Use the Search tools
    • 'Quick & Easy'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject.
    • The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Field of study

Check the related and most recent topics and summaries:
Activity abroad, study field of working area:
Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
1497