Samenvatting Onderzoeksmethoden (Boeije)
- 9446 reads
Inleiding - De testtheorie houdt zich bezig met de beoordeling van de kwaliteit van tests. Tests zijn een verzameling verbale, performale en/of motorische opdrachten of een toestel om één of meer variabelen (persoonlijke of situationele variabelen) te meten. Een test bestaat uit verschillende onderdelen die volgens een bepaald criterium bij elkaar horen, de zogenaamde subtests. Elke subtest bestaat uit een aantal items. Dit zijn de vragen of opdrachten waarop de participant één reactie moet geven.
Binnen de testtheorie staat een vraag centraal: Hoe weet men of een test datgene meet waarvoor de test is gemaakt? Deze vraag wordt beantwoord aan de hand van de klassieke testtheorie, gebaseerd op de betrouwbaarheid en validiteit van testscores. De betrouwbaarheid zegt iets over de herhaalbaarheid van de testscores. De validiteit gaat over de mate waarin de testscores ook daadwerkelijk een afspiegeling zijn van datgene wat men probeert te meten.
Door enkele tekortkomingen van de klassieke testtheorie is er een nieuwe, moderne testtheorie ontwikkeld: de item-responstheorie (IRT). Hierbij ligt de nadruk op de itemscores en antwoordpatronen van de respondenten.
De klassieke testtheorie is een theorie waarin de feilbaarheid van testscores centraal staat. Deze theorie is ontwikkeld door Spearman in 1904, maar is de jaren daarna verder ontwikkeld naar de theorie zoals deze nu bekend is. De theorie gaat er vanuit dat testen niet kan zonder fouten. Hierbij wordt onderscheid gemaakt tussen twee soorten meetfouten: de toevallige, onsystematische, meetfout en de systematische meetfout.
In de klassieke testtheorie wordt de testscore X uiteengelegd in twee delen: een systematisch deel, dit is de ware score (T) en een toevallig deel, dit is de random error (E). Het model voor de klassieke testtheorie ziet er dan als volgt uit: X = T + E. De ware score (T) bestaat uit wat de test beoogt te meten en uit de systematische meetfout. Hoe kleiner de systematische en toevallige meetfout, hoe dichter de testscore X bij datgene wat men beoogt te meten komt te liggen.
De betrouwbaarheid zegt iets over de mate waarin er toevallige meetfouten van invloed zijn op testscores en daarmee over de herhaalbaarheid van de testscores. Wanneer er zeer veel onafhankelijke afnamen van dezelfde test bij dezelfde respondent gedaan worden, verwachten we vanuit de klassieke testtheorie dat de testscores telkens van elkaar verschillen door de toevallige meetfout. De toevallige meetfout is bij de ene test voordelig en bij de andere test nadelig, waardoor bij het veelvuldig afnemen van dezelfde test deze elkaar zullen opheffen. Uiteindelijk zal de gemiddelde testscore gelijk zijn aan de ware score van de respondent, waarbij de afwijking van een bepaalde testscore van dit gemiddelde de toevallige meetfout representeert. Hoe groter deze afwijking, hoe groter de toevallige meetfouten en hoe lager de betrouwbaarheid.
De verdeling van de toevallige meetfouten heeft altijd een gemiddelde van 0. De verdeling van de toevallige meetfouten heeft een standaardafwijking die gelijk is aan de standaardafwijking van de geobserveerde scores, dit is de standaardmeetfout (SE - standard error of measurement). De standaardmeetfout is een maat voor de nauwkeurigheid van de meting. Hoe kleiner deze is, hoe nauwkeuriger men de ware score kan schatten. De standaardmeetfout is identiek voor iedereen, maar is in de praktijk onmogelijk vast te stellen.
Voor één persoon geldt dat de geobserveerde testscore X is opgebouwd uit een systematisch deel T en een toevallig deel E. Voor de hele populatie geldt dan dat de spreiding van testscores (SX) op te splitsen is in een systematisch deel (ST) en een toevallig deel (SE). Het systematische deel is dat deel van de spreiding in testscores dat daadwerkelijk het gevolg is van verschillen in ware scores. Het toevallige deel is het gevolg van de meetfouten van de personen. Dit geeft de volgende relatie: SX2 = ST2 + SE2. De betrouwbaarheid (rxx) is te berekenen door de ware score te delen door de testscore: rxx = ST2 / SX2. Aangezien we in de praktijk alleen beschikken over de geobserveerde scores en nooit over de ware scores, kunnen we de betrouwbaarheid nooit precies bepalen.
De standaardmeetfout van een testscore is een maat voor de nauwkeurigheid van de meting van het te meten begrip. Nauwkeurigheid is voornamelijk van belang voor individuele diagnostiek waarbij belangrijke beslissingen op het spel staan. De formule voor de standaardmeetfout is: SE = SX wortel (1 - rxx). Wanneer je betrouwbaarheid en standaardafwijking goed kunt schatten, kun je ook de standaardmeetfout schatten.
Er zijn twee verschillende manieren waarop je de betrouwbaarheid kan schatten bij twee testafnamen: de test-hertestmethode en de paralleltest methode.
De problemen die zich voordoen bij de schatting van de betrouwbaarheid door meerdere tests af te nemen, probeert men op te lossen door de betrouwbaarheid te schatten terwijl men maar één test afneemt.
De betrouwbaarheid bij één testafname kan geschat worden met behulp van de split-halfmethode of met Cronbachs alfa.
Bij dichotome items, items waarbij vragen met goed of fout beoordeeld kunnen worden, bestaat er een variant op de formule voor Cronbachs alfa, namelijk de KR-20. Deze formule is opgesteld door Kuder en Richardson in 1937. Cronbachs alfa is eigenlijk een veralgemenisering van de KR-20 voor items met meer dan twee antwoordcategorieën.
Er zijn drie factoren die van invloed zijn op de betrouwbaarheid van een test, maar niet samenhangen met de inhoud van de vragen. De factoren zijn de lengte van de test, samenstelling van de respondenten en de tijdsduur waarbinnen de test moet worden ingevuld.
Een score van een respondent op een test is in te delen in een toevallig deel en systematisch deel. Het systematische deel is ook weer in te delen is in twee delen:
De validatie van een test is het proces waarin de testontwikkelaar bewijs verzamelt, welk de te maken gevolgtrekkingen uit de testscores ondersteunen. Er zijn drie typen validiteit: inhoudsvaliditeit, begripsvaliditeit en criteriumvaliditeit.
Inhoudsvaliditeit betreft in hoeverre de inhoud van de test het gehele kennis-, gedrags-, of vaardigheidsdomein representeert. De vragen in een test moeten de gehele lading dekken van het kennis- of vaardigheidsdomein waarover de test gaat. De bepaling van inhoudsvaliditeit is te verdelen in vier fasen:
Er wordt vaak met meerdere deskundigen gewerkt om een meer objectief en absoluut beeld te verkrijgen dan wanneer slechts één beoordelaar zijn werk doet. De interbeoordelaarsbetrouwbaarheid is de mate waarin deskundigen het eens zijn. Dit wordt beoordeeld met de maat Cohens kappa.
Bij het uitvoeren van een onderzoek naar de inhoudsvaliditeit zijn er een aantal problemen en vragen, waaronder:
Het beoordelen van een test gebeurt door bepaalde objecten of gegevens toe te wijzen aan categorieën in een vooraf opgesteld categorieënsysteem. Cohens kappa kan hierbij gebruikt worden als maat voor overeenstemming tussen twee beoordelaars waarbij de beoordelaars gebruik maken van dit categorieënsysteem. Hierbij ga je ervanuit dat elke categorie gebruikt wordt, als dit niet zo is verwijder je deze uit het systeem.
De begripsvaliditeit betreft de vraag in hoeverre de test het bedoelde psychologische begrip dekt. Een manier om de begripsvaliditeit na te gaan is door de uitkomsten van de meting van het begrip en de verwachte relaties met andere variabelen te analyseren. Het construct kent een operationele definitie, een definitie die aangeeft welke procedures gevolgd moeten worden om het begrip te meten, en een syntactische definitie, waarin relaties van het te meten begrip met zowel andere theoretische begrippen als met empirische waarneembare kenmerken worden gespecificeerd. Wanneer de test de verwachte relaties laat zien, betekent dit dat zowel het begrip als de meting bruikbaar is. Een andere manier voor begripsvalidatie is factoranalyse, waarin de analyse van de correlatiematrix van de items inzicht geeft in het aantal dimensies waaruit de test is opgebouwd.
De multitrek-multimethode benadering werkt door verschillende trekken te meten met verschillende methoden. Hierbij krijg je verschillende waarden:
De correlaties moeten aan vier eisen voldoen om steun te geven aan begripsvaliditeit:
Wanneer de correlaties worden berekend, wordt er geen rekening gehouden met de toevallige meetfouten, ondanks dat deze de correlatie wel beïnvloeden. Wanneer de geobserveerde scores onbetrouwbaar worden gemeten, is de toevallige meetfout groter en zal de validiteitscoëfficiënt lager uitvallen dan wanneer er met ware scores wordt gerekend. In dat geval moet er gecorrigeerd worden voor die verzwakking (correctie voor attenuatie). Hiervoor heb je de correlatie en de betrouwbaarheid van twee variabelen (tests) nodig. Hierbij gebruik je de volgende formule:
Ptxty = Pxy / wortel Pxx' * wortel Pyy'
Ptxty = correlatie tussen ware scores van X en Y
Pxy = correlatie tussen X en Y
Pxx' en Pyy' = betrouwbaarheid van X respectievelijk Y
De criteriumvaliditeit betreft de vraag in hoeverre de testscore een voorspeller is van niet-testgedrag (verleden, heden, toekomst). Het gaat hierbij om de correlatie tussen de testscore en het criterium waarin men is geïnteresseerd. Deze correlatie is de validiteitscoëfficiënt van de test. Hoe hoger de correlatie, hoe hoger de validiteit.
Voor het beoordelen van de criteriumvaliditeit gaat men na of theoretisch veronderstelde samenhang ook in geobserveerde gegevens wordt teruggevonden. Dit is alleen mogelijk bij een sterk verband tussen de testscores en het criterium. De afwezigheid van een verwachte samenhang kan verklaard worden door:
De multipele regressie analyse kunnen we gebruiken in onderzoek naar het gebruik van een test voor het voorspellen van een criterium. We kunnen er mee nagaan hoe goed een test het criterium voorspelt, biedt het de mogelijkheid om de beste test voor de voorspelling te selecteren en kunnen we rekening houden met de verschillen tussen groepen.
Bij onderzoek naar criteriumvaliditeit kan men nagaan of men op basis van testscore X een voorspelling kan doen over de criteriumscores Y. Als het verwachte verband lineair is, kan er gebruik gemaakt worden van een lineaire regressieanalyse: Y = b0 + b1X1. Wanneer er meer variabelen zijn, kan de formule verlengd worden met X2, X3, enz. Dan wordt het een multiple lineaire regressie, omdat men met meer dan één voorspeller te maken heeft.
Bij het uitvoeren van een multipele regressie in SPSS krijg je een tabel 'Model Summary', waarin de eerste waarde van de R, de correlatiecoëfficiënt tussen de geobserveerde Y score en de voorspelde waarden, gegeven wordt. Het kwadraat hiervan, R2, is de multipele determinatiecoëfficiënt, wat de verklaarde variantie weergeeft. De 'Adjusted R Square' is de schatting van de verklaarde variantie voor de populatie. Deze schatting is beter, omdat deze corrigeert voor het aantal predictoren. Het laatste gegeven in de tabel is de standaardschattingsfout (standard error of the estimate), wat de standaardafwijking van de residuen is. Dit geeft aan hoe groot de voorspellingsfouten in doorsnee zijn. De standaardschattingsfout wordt gebruikt bij het opstellen van het betrouwbaarheidsinterval = Y +/- 1.96 * SY.X, waarbij Y de voorspelde score van criterium is, 1.96 de z-waarde is en SY.X de standaardschattingsfout is.
De volgende tabel in SPSS is de tabel 'Coefficients'. In kolom B staan de regressiecoëfficiënten, waarmee je de regressievergelijking kan opstellen. In de laatste kolom (Sig.) wordt de overschrijdingskans van het steekproefresultaat gegeven. Om de b-coëfficiënten met elkaar te kunnen vergelijken, is er de gestandaardiseerde b-coëfficiënt (beta).
Een eerste toepassing is de determinatiecoëfficiënt, die de proportie variantie van het criterium aangeeft die verklaard wordt door de testscore X. De tweede toepassing is het voorspellen van scores van personen, omdat met de regressiecoëfficiënt een puntschatting gemaakt kan worden van de verwachte score van een persoon.
Factoranalyse is een statistische techniek die wordt gebruikt om de informatie uit een groot aantal geobserveerde variabelen te reduceren tot een kleiner aantal nieuw te construeren variabelen. Deze nieuw te construeren variabelen worden factoren genoemd. Het bestaan en de aard van de factoren wordt afgeleid uit de correlaties tussen geobserveerde variabelen. Het aantal te onderscheiden factoren is in hoge mate afhankelijk van het aantal en de inhoud van de gebruikte variabelen. Bij het reduceren van een groot aantal variabelen tot een aantal factoren gaat informatie verloren, omdat de factoren slechts een algemene weergeving zijn van de variabelen. De samenhang tussen factoren en geobserveerde variabelen kan worden weergegeven in een factorladingenmatrix of factormatrix. De correlaties tussen de geobserveerde variabele en een factor wordt factorlading of lading genoemd. Het benoemen van een factor is subjectief, verschillende onderzoekers kunnen een factor een andere naam geven.
De derde kolom in de factormatrix geeft de communaliteiten weer, dit is de proportie variantie van een variabele die door de gezamenlijke factoren wordt verklaard. Dit wordt berekend uit de factorladingen, namelijk de som van de gekwadrateerde factorladingen.
Elke onderscheiden factor heeft zijn eigen eigenwaarde. De eigenwaarde van een factor is de totale hoeveelheid verklaarde variantie, dit is gelijk aan de som van verklaarde varianties in de variabelen door deze factor. Het percentage verklaarde variantie gebruiken we voor een kwalitatieve beoordeling van de factoroplossing. Hierbij houden we de volgende beoordeling aan:
De factoren kunnen ook schematisch weergegeven worden. Wanneer de factoren ongecorreleerd zijn, vormen ze een assenstelsel waarbij de factoren loodrecht op elkaar staan. De coördinaten in het assenstelsel zijn de variabelen die de ladingen op de twee factoren weerspiegelen.
Factoranalyse is een verzamelnaam voor analysetechnieken die alle uitgaan van de veronderstelling dat de geobserveerde variabelen gerepresenteerd kunnen worden door een lineaire combinatie van onderliggende factoren. Van deze technieken bespreken we de (hoofd)componentenanalyse (in SPSS: Principal Component Analysis) en factoranalyse in enge zin (in SPSS: Principal Axis Factoring). In de meeste gevallen zijn de uitkomstverschillen tussen de verschillende technieken gering.
De hoofdcomponentenanalyse, ook wel principale componentenanalyse genoemd, is een methode om een verzameling geobserveerde variabelen te reduceren tot een kleine aantal ongecorreleerde factoren. Hierbij wordt er vanuit gegaan dat de score van een persoon op een variabele volledig bepaald wordt door de factoren, waarbij geen meetfouten verondersteld worden. De factorladingen worden precies berekend, dit wordt gedaan door SPSS waarbij de factorladingen in een factormatrix weergegeven worden. Elke factor is een gewogen som van de naar z-scores getransformeerde variabelen. Alle informatie van de variabelen is terug te vinden in de factoren, er gaat geen informatie verloren. Dit maakt dat het optellen van de eigenwaarden van de factoren gelijk is aan de totale variantie en de communaliteiten alle gelijk zijn aan 1.
Bij het kiezen voor het aantal factoren wordt gebruik gemaakt van het eigenwaardecriterium, die stelt dat als de eigenwaarde groter is dan 1, komt de factor in aanmerking om geselecteerd te worden. Ook is te stellen dat de eerste factor een maximale proportie variantie verklaart en de daaropvolgende factoren steeds de maximale proportie van de resterende variantie verklaren. De proporties verklaarde variantie dalen snel na de eerste factoren, waardoor de laatste factoren nauwelijks iets van de variabelen verklaren en daarom niet geselecteerd worden. Het uitgangspunt bij het selecteren van factoren is: zo weinig factoren als mogelijk, zo veel als noodzakelijk.
Hoe goed een factormodel past op de geobserveerde data kan beoordeeld worden door het verschil tussen de werkelijke correlatie tussen de variabelen en de op de factoroplossing gebaseerde correlaties. Zolang de verschillen gering zijn, is het factormodel goed bruikbaar. Een ander kwaliteitscriterium is de proportie of percentage door het factormodel verklaarde variantie in de variabelen. Hoe minder factoren gekozen worden, hoe minder variantie in de variabelen verklaard wordt. Als de factoren niet onderling correleren (orthogonaal) kunnen de afzonderlijke factoren percentages verklaarde variantie opgeteld worden voor het totaal percentage.
Over het algemeen geeft de hoofdcomponentenanalyse een overschattingen van de ladingen, communaliteiten en dus ook van het percentage verklaarde variantie in alle variabelen. Dit wordt veroorzaakt doordat deze analyse geen rekening houdt met mogelijke onbetrouwbaarheid van de metingen. De factoranalyse in enge zin geeft wat dat betreft betere schattingen.
Bij de factoranalyse in enge zin gaan we er vanuit dat de variantie van de geobserveerde variabelen naast de factoren ook voor een deel bepaald worden door onbekende toevallige invloeden. Elke variabele heeft zijn eigen, unieke variantie die niet samenhangt met andere variabelen. Deze variantie kan gebaseerd zijn op toeval of op systematisch fouten. Deze analyse schat dus meer de ware variantie, omdat men er vanuit gaat dat de variantie niet volledig bepaald wordt door de factoren. Hierdoor zijn de communaliteiten van de variabelen niet meer gelijk aan 1 en kunnen de ladingen niet meer volledig vanuit de variabelen berekend worden, maar moeten ze worden geschat.
Een overzichtelijk factorstructuur is wanneer de ladingen van een test hoog op de ene factor en laag op de andere factor zijn. Om dit te realiseren moet de factoranalyse vaak worden uitgevoerd met aanvullende mathematische rotatie, dit is het draaien van het assenstelsel waarop de factoren worden afgebeeld zodat het ene cluster van punten dicht bij de ene as komt te liggen en de andere as dicht bij het andere cluster. Bij een orthogonale rotatie draaien we de horizontale en verticale as 90 graden. Een andere rotatie is de oblique of scheve rotatie, waain de hoek tussen de assen na rotatie geen 90 graden hoeft te zijn en waarbij we correlatie tussen de factoren toestaan. Roteren is in feite het herschikken van dezelfde informatie.
Bij het roteren blijven de verklaarde variantie en de communaliteiten gelijk, maar veranderen alleen de ladingen. Het aantal factoren blijft ook gelijk en er gaat geen informatie verloren. Er wordt vaak gekozen voor de orthogonale factoranalyse, omdat orthogonale factoren op een efficiënte manier de variantie in de oorspronkelijke tests verklaren.
Bij dichotoom gescoorde items geldt dat de maximaal te bereiken correlatie sterk wordt beïnvloed door het verschil in moeilijkheden van de items. Hierdoor kunnen ze door het verschil in moeilijkheid wel anders laden op verschillende factoren, maar niet op basis van inhoud. Daarom wordt er bij dichotome items gebruik gemaakt van het moduul 'exploratory factor analysis of categorical data using weighted least squares estimation'. De item-responstheorie (IRT) en daaraan gekoppelde analysetechnieken biedt ook mogelijkheden voor het beoordelen van de achterliggende factoren van dichotome items.
Een factoranalyse geeft zicht op de interne structuur van een verzameling items en is daarmee een techniek die vaak wordt ingezet bij de beoordeling van de begripsvaliditeit van een test. Het helpt om meer inzicht te krijgen op de structuur in de correlaties. Ook kan een factoranalyse helpen bij het construeren van tests.
Een factoranalyse is meer of minder exploratief, afhankelijk van de mate waarin er expliciete verwachtingen zijn over de interne structuur van een verzameling items. Als er een verwachting is op basis van de theorie noemen we dit een toetsende of theoriegestuurde factoranalyse. Als er een verwachting is op basis van welke informatie de data ons geeft, noemen we dit een exploratieve of datagestuurde factoranalyse.
Een factoranalyse is alleen zinvol uit te voeren wanneer er een samenhang is tussen de items, met als vuistregel: ten minste één correlatie moet groter zijn dan .3. Eerst moet er een keuze gemaakt worden tussen de hoofdcomponentenanalyse of de factoranalyse in enge zin. Het doel van een factoranalyse is datareductie. Hierbij wordt de informatie van alle variabelen gereduceerd tot kleinere, nieuw te construeren variabelen. Het aantal factoren selecteren we op basis van het eigenwaarde-criterium of het knik-criterium, waarbij gekeken wordt naar de overgang in een screeplot tussen het eerste aantal factoren welke veel variantie verklaren en de factoren die daarna komen, die alle ongeveer evenveel variantie verklaren, maar duidelijk minder dan het eerste aantal factoren. De definitieve factoroplossing baseren we op een combinatie van statistische criteria en een inhoudelijk criterium. Voor de interpretatie van factoren is het roteren van de factoren een hulpmiddel, waarbij een keuze dient gemaakt te worden tussen een orthogonale (in SPSS: Varimax) of oblique rotatie (in SPSS: Direct Oblimin). Na rotatie zal de verklaarde variantie per factor veranderen, maar de totale verklaarde variantie blijft gelijk. Het interpreteren van de factoren doen we na rotatie door de factorladingen te bestuderen. De items met een factorlading van ten minste .40 nemen we samen in hetzelfde cluster, met als gevolg dat de overige items verwijderd worden. Daarna kan worden nagegaan welke gemeenschappelijke inhoud de items hebben die samen één cluster vormen en indicatief zijn voor een factor, waarbij we de factoren benoemen. De laatste stap is het selecteren welke items we gebruiken voor de schaalconstructie.
Een test bestaat meestal uit een groot aantal items, omdat zo de betrouwbaarheid bepaald kan worden en omdat een enkel item maar een povere afspiegeling is van het begrip-zoals-bedoeld. Afhankelijk van het doel van de test zijn er verschillende procedures om items te selecteren en om de betrouwbaarheid te berekenen. Er zijn verschillende soorten tests, waaronder prestatieniveautests.
Prestatieniveautests zijn tests waarmee bij individuen een prestatie wordt gemeten en waarbij het gaat om de maximaal mogelijk prestatie waartoe de respondent in staat is vast te stellen. Hierbij worden meestal vragen beantwoord zonder tijdsdruk, zoals intelligentietests en studietoetsen. De resultaten van prestatieniveautests hebben tot doel om individuen te beoordelen of te vergelijken en kunnen gebruikt worden om het niveau van ontwikkeling of de vorderingen vast te stellen. Prestatieniveautests moeten over het algemeen verschillen tussen (en binnen) individuen betrouwbaar vaststellen. De regels voor testsconstructie zijn voor de meeste prestatieniveautests gelijk.
We gaan uit van de situatie waarin we een test construeren waarmee we een zo groot mogelijke variantie van testscores vast willen leggen. De testvariantie is gelijk aan de som van de itemvarianties plus de som van de covarianties tussen de items. De testvariantie wordt zo groot mogelijk door de juiste items te selecteren. Er zijn verschillende mogelijkheden voor itemselectie, waaronder covarianties, inter-itemcorrelaties en item-restcorrelaties.
De testvariantie wordt groot door items met grote itemvarianties te selecteren en door itemparen te selecteren die sterk positief samenhangen. Hierbij kun je het beste kijken naar de covarianties, omdat daar er meer van zijn dan van de itemvarianties. Daarom dragen de covarianties het meeste bij aan de testvariantie.
Inter-itemcorrelaties worden gebruikt om te bepalen in hoeverre twee items variantie delen of anders gezegd, in hoeverre zij hetzelfde meten. Bij het construeren van tests is het vereist dat de items positief correleren. Hoge correlaties leiden ook tot een hoge Cronbachs alfa. De testvariantie is afhankelijk van de itemvariaties en de inter-itemcorrelaties, waarbij de testvariantie verhoogd kan worden door items te kiezen met een zo groot mogelijke inter-itemcorrelatie. Een grote testvariantie is wenselijk, omdat dit betekent dat er in een groep mensen die getest worden een zo groot mogelijk onderscheid tussen de personen gemaakt wordt. Daarbij moeten de scores wel betrouwbaar zijn, willen we ze goed kunnen interpreteren. De selectieregel voor de items is dat de inter-itemcorrelaties waar een specifiek item bij betrokken is sterk positief moeten zijn om dit item in de test op te nemen.
Aangezien het moeilijk is om over één item conclusies te trekken, is er ook een item-totaalcorrelatie of item-restcorrelatie. Bij de item-totaalcorrelatie bepalen we de samenhang tussen het item en de totaalscore op alle items. De restscore is de score op de totale test minus de itemscore. De restscore is bij testconstructie de best beschikbare en mogelijke metig van het construct, aangezien hierbij de samenhang met het item zelf is uitgesloten. De correlatie tussen een itemscore en de restscore geeft aan welk deel van de variantie gemeenschappelijk is. Voor alle items verwachten we positieve item-restcorrelaties. Mocht er een negatieve correlatie bestaan, moet men nagaan of dit een fout is in de codering of inhoud van het item.
De item-restcorrelaties vallen vaak iets lager uit dan de item-totaalcorrelaties, maar als criteria voor de beoordeling kun je deze waarden aanhouden. De definitieve selectieregel voor items in een test luidt nu als volgt: kies bij het samenstellen van een test voor de items met de hoogste positieve item-restcorrelaties.
De p-waarden staan voor de itemmoeilijkheid, namelijk de proportie respondenten die een vraag goed heeft beantwoord. Bij dichotome items, items met slechts twee antwoordcategorieën, selecteer je de items op basis van p-waarden, omdat anders bij selectie op basis van item-restcorrelaties automatisch de items met bepaalde p-waarden geselecteerd worden. Vaak zijn dit de items met een p-waarde in de buurt van de .5, waardoor er geen spreiding binnen de test aan items met verschillende moeilijkheid is.
Itemselectie op basis van items met hoge item-restcorrelaties leidt tot een grote testvariantie en bij benadering een normaalverdeling. De betrouwbaarheid betreft de correlatie tussen de scores op twee parallelle tests. De correlatie is hoger wanneer de scores van de persoon meer op elkaar lijken en de invloed van de toevallige meetfout kleiner is. In de klassieke testtheorie wordt er van uitgegaan dat de betrouwbaarheid voor alle personen gelijk is. Dit is het gevolg van de hoge mate gelijkheid van personen in het midden van de frequentieverdelingen. De betrouwbaarheid voor personen aan de uiteinden van de normaalverdeling is daardoor veel lager.
Uiteindelijk is het doel om een test te verkrijgen met een optimale betrouwbaarheid en een optimale validiteit. Hierbij worden alle items geanalyseerd, waarbij de items die geen hoge correlatie laten zien of na verwijderen een hogere Cronbachs alfa tot gevolg hebben, verwijderd worden. Na elke verwijdering vindt een nieuwe analyse plaats.
Het doel is om een test samen te stellen waarmee zo betrouwbaar mogelijk een vastliggend percentage van respondenten onderscheiden kan worden van rest. Hierbij moeten de 30% hoogste en de 70% laagste testscores betrouwbaar worden onderscheiden.
Een ruwe testscore (de geobserveerde testscore) is niet te interpreteren onafhankelijk van de gegevens van de test, de specifieke codering of het aantal vragen. Om uitspraken te doen over hoe goed een prestatie van een persoon is binnen een groep, moet je de resultaten van de normgroep kennen, dit is normgeoriënteerde of relatieve interpretatie. Om uitspraken te doen over de geschiktheid van een persoon moeten de resultaten vergeleken worden met een eerder vastgesteld criterium. Dit is criteriumgericht of absolute interpretatie. Een ruwe score krijgt pas betekenis als het is omgezet naar een standaardscore en deze te vergelijken met de norm. De normgegevens worden naast de betrouwbaarheid en validiteit ook beoordeeld om iets te zeggen over de kwaliteit van een test.
Voor de beoordeling van testscores onderscheiden we twee vormen: de normgerichte interpretatie of de criterium- of domeingerichte interpretatie. Voor de beoordeling moeten de ruwe scores omgezet worden in percentielscores of standaardscores. Deze transformatie maakt vergelijking mogelijk tussen testscores. Bij normgerichte interpretatie wordt een individu vergeleken met een groep, waarbij beoordeeld wordt of het individu beter of slechter dan het groepsgemiddelde heeft gepresteerd. Een voorbeeld hiervan is de IQ-test.
Bij criteriumgerichte interpretatie wordt een individu beoordeeld op zijn eigen prestatie, zonder dit te vergelijken met andere mensen, maar met voorafgestelde standaarden. Een voorbeeld hiervan is een tentamen, waarbij een vast aantal vragen of percentage goed beantwoord moet worden, wil het resultaat voldoende zijn.
Tests worden ook gebruikt als onderzoeksinstrumenten, bijvoorbeeld het bepalen van verschillen in persoonlijkheidskenmerken tussen groepen. Wanneer de beoordeling gaat over groepen en niet over individuen kunnen de eisen aan tests lager gesteld worden, omdat dit minder ernstige en onomkeerbare gevolgen met zich meebrengt.
Het vaststellen van normen gebeurt aan de hand van de verdeling van scores in de populatie. De frequentieverdeling van testscores in de populatie worden vastgelegd in een normtabel. Hierin vind je de mogelijke testscores en de daarbij bepaalde getransformeerde scores. Met deze tabel is het mogelijk om aan te geven welke plaats een respondent inneemt binnen de populatie waarin de test genormeerd is.
Er zijn twee typen bewerkingen: een type dat gebaseerd is op de relatieve positie binnen een referentiegroep en een type dat is gebaseerd op een absolute standaard.
Standaardscores worden gebruikt wanneer bekend is dat de testscores normaal zijn verdeeld in de populatie waartoe de persoon behoort. Bij standaardscores worden de ruwe scores getransformeerd naar standaard Z-scores via een lineaire transformatie. Het resultaat van de transformatie is een verdeling van scores met een gemiddeld van 0 en een standaardafwijking van 1. Een Z-score geeft de plaats in de normaalverdeling aan en in een tabel met overschrijdingskansen van Z-scores kan opgezocht worden welk deel van de verdeling hetzelfde of hoger gescoord heeft. De eenheid van Z-scores is de standaardafwijking. Een Z-score van 1 betekent dat deze persoon 1 standaardafwijking boven het gemiddelde van de groep zit. Let op: deze transformatie is alleen zinvol wanneer de testscores normaalverdeeld zijn.
Een andere lineaire transformatie leidt tot T-scores, hierbij heb je een verdeling met 50 als gemiddelde en 10 als standaardafwijking. De gehele verdeling ligt drie standaardafwijkingen onder en drie standaardafwijkingen boven het gemiddelde, dus liggen de scores tussen de waarden 20 en 80.
Als de scores niet normaalverdeeld zijn, kunnen scores met elkaar vergeleken worden door middel van percentielscores of percentielen. Dit is een punt op de meetschaal waar beneden een vast percentage van de verdeling valt. In een tabel wordt per ruwe score vermeld welk percentage daarbij hoort. Wanneer je het percentiel zelf berekent, is het gebruikelijk om de decimalen af te ronden naar boven.
Als de verdeling normaalverdeeld is, gebruik je standaardscores, omdat deze heel precies de relatieve positie van de respondent aangeven. Echter moet je wel enige achtergrondkennis hebben. Bij normaalverdeling kun je ook percentielscores gebruiken, maar is het nadeel dat binnen een percentielklasse wordt verwacht dat de scoreverdeling rechthoekig is en dat is bij een normaalverdeling niet zo. Als de verdeling niet normaal verdeeld is, kun je beter percentielscores gebruiken, omdat deze precies aangeeft waar beneden welk percentage van de verdeling valt. Het nadeel van deze transformatie is echter dat het interval meetniveau niet behouden blijft, waardoor de verhouding tussen de scores niet gelijk blijft.
Bij een transformatie tot staninescores is er een gemiddelde van 5 en een standaardafwijking van 2. De stanine is een negen-puntschaal die is gebaseerd op de standaardnormale verdeling. Elk interval binnen deze schaal, behalve de eerste en de laatste, is een halve standaardafwijking groot.
Wanneer de testscores niet normaalverdeeld zijn, maar het kenmerk in de populatie wel normaalverdeeld is, kunnen we er met een transformatie voor zorgen dat de getransformeerde scores wel normaalverdeeld zijn. Dit gebeurt door 1) de ruwe testscores om te zetten in percentielscores en 2) en bij de percentielscores de bijbehorende z-score te zoeken in de tabel van de standaardnormale verdeling. Deze z-scores vormen de genormaliseerde standaardscores.
De item-responstheorie (IRT) is een reactie en aanvulling op de klassieke testtheorie (KTT). De IRT biedt enkele voordelen en een oplossing voor enkele onvolkomenheden en nadelen van de KTT. Bij de IRT hoeven respondenten niet dezelfde test te maken om ze te kunnen vergelijken, is men onafhankelijk van testscores en itemkenmerken bij de interpretatie en biedt het de mogelijkheid om na te gaan of voor een theoretisch model empirische ondersteuning bestaat. De IRT is een theorie over de relatie tussen persoonlijke vaardigheid (latente trek) en toetsgedrag (reactie op een item i van een test).
De item-responstheorie beschrijft de kans dat een respondent met een bepaalde vaardigheid een bepaald item juist zal beantwoorden door een mathematisch model. Hierbij gaat de IRT er vanuit dat er één belangrijk persoonskenmerk is, de latente trek (θ), die de antwoorden op alle items van de test bepaalt. De gegevens die worden verkregen, worden dominantiegegevens genoemd: het item domineert de persoon (het antwoord is fout) of de persoon domineert het item (het antwoord is goed). Kortom, de IRT is een theorie waarbij de kans op een antwoord op een item door mathematisch model wordt beschreven (het latente trekmodel).
De IRT is een theorie over itemscores, waarbij de scores van een persoon op de items uit de test centraal staan. Hierbij focussen we ons op dichotome items, waarbij het antwoord op een item goed (Xg = 1) of fout (Xg = 0) kan zijn. De score op het item g hangt dus af van de waarde één latente trek. Uit de kans op een goed antwoord is ook direct de kans op een fout antwoord af te leiden, dus hebben we het in het vervolg alleen over de kans op een goed antwoord.
Een item-responsfunctie drukt de relatie tussen de latente trek en het itemgedrag uit op een mathematische manier. Wanneer deze visueel gemaakt wordt, spreken we van een item karakteristieke curve (item characteristic curve of ICC). In een item-responsfunctie wordt de mate waarin personen een latente trek bezitten afgezet tegen de kans om een item goed te scoren (probability = p). De kans op een goed of fout antwoord kan nooit gelijk zijn aan 1 of 0, dus hebben we te maken met een probalistisch model.
Een voorloper van de probabilitische IRT-modellen is het deterministische Guttman-model. In dit model is de kans op het goed beantwoorden van het item gelijk aan 0 tot aan een bepaalde waarde van θ, namelijk θ'. Voor iederen met een θ-waarde gelijk aan of groter dan θ' is de kans op het goed beantwoorden van het item gelijk aan 1.
Er bestaan verschillende soorten item-responsfuncties afhankelijk van het soort gegevens dat men verzameld en het bijbehorende mathematische model. Een voorbeeld hiervan zijn preferentiegegevens, dit heeft betrekking op preferenties van personen. Daarnaast zijn er dominantiegegevens. Hierbij loopt de curve zo dat een hogere waarde op de latente trek de kans om het item goed te beantwoorden vergroot (of gelijk blijft). De succeskans is monotoon niet dalende. De helling van de curve is niet overal hetzelfde, maar wordt in drie delen gesplitst:
Een ICC laat zich beschrijven aan de hand van de volgende drie kenmerken: de giskans, de moeilijkheid en de discriminatieparameter. De waarden van deze drie kenmerken bepaalden het precieze verloop van de curve. De giskans (pseudokansniveau of gokkans) is de waarde op de y-as waar de ICC begint. Dit is de kans dat iemand met een lage waarde op θ toch het goed antwoord geeft. De moeilijkheid van een item kunnen we aflezen uit de locatie van ICC ten opzicht van θ-schaal. De ICC van een eenvoudig item zal verder naar links liggen dan de ICC van een moeilijker item. De bepaling van de moeilijkheidsparameter gaat als volgt: op de y-as (succeskans) zoekt men de waarde (1 + giskans)/2, dit is precies het middelpunt tussen de giskans en een succeskans van 1. De bijbehorende θ-waarde is de moeilijkheid van het item. De discriminatieparameter geeft de steilheid van de curve aan in het kritische gebied. Dit is de helling van de raaklijn in het punt (moeilijkheidsparameter; (1+giskans)/2)). Hoe steiler de functie, hoe beter personen van elkaar onderscheiden kunnen worden.
De eerste voorwaarde waaraan voldaan moet zijn om een item-responsfunctie op te kunnen en mogen stellen is eendimensionaliteit. Dit is als één persoonskenmerk de antwoorden op alle items van de test bepaalt. Bij eendimensionaliteit geldt dat in de gehele populatie de items afhankelijk zijn. Een andere voorwaarde is lokale onafhankelijkheid. Dit levert een mogelijk antwoordpatroon op waarmee de kans berekend kan worden op een bepaald antwoord. In een subpopulatie van personen met dezelfde latente trekwaarde zijn de items binnen die groep onafhankelijk (lokale onafhankelijkheid). Voor het beoordelen van de globale afhankelijkheid kunnen we nagaan of tussen alle items van een test een positieve samenhang wordt gevonden. Als items negatief samenhangen, wordt de aanname van globale afhankelijkheid geschonden.
Binnen de IRT zijn er verschillende modellen waarin onderscheid gemaakt kan worden tussen parametrische (item-responsfunctie is gedefinieerd met een mathematische formule) en non-parametrische modellen (item-responsfuncties zijn niet gedefinieerd). De non-parametrische modellen zijn minder restrictief, maar hebben slechts als maximaal meetniveau ordinaal. Er zijn twee verschillende non-parametrische Mokkenmodellen: het Mokkenmodel met monotone homogeniteit en het Mokkenmodel met dubbele monotonie (DM).
Bij het Mokkenmodel met monotone homogeniteit liggen drie assumpties ten grondslag:
In een Mokkenmodel is het toegestaan dat ICC's elkaar snijden, waardoor items niet voor alle personen op dezelfde manier geordend kunnen worden wat betreft de moeilijkheid. Dit is verschillend per persoon afhankelijk van de proportie goede antwoorden.
Eén van de eigenschappen van de Mokkenmodellen is dat we empirisch na kunnen gaan of de modellen bij de geobserveerde data passen. Als de ene persoon een grotere succeskans heeft op één item dan een ander persoon, kunnen we stellen dat deze persoon op alles andere items van deze test ook hoger scoort dan de ander. De schaalbaarheidscoëfficiënt is een afnemende functie van het aantal foutenpatronen in de data. Hoe minder foutenpatronen men in de geobserveerde data aantreft, hoe hoger de waarde van H. Het is op die manier onmogelijk dat men een moeilijker item goed heeft, maar een makkelijker item fout. Het tellen van foutenpatronen is alleen mogelijk in deterministische modellen, zoals die van Gutman. In het Mokkenmodel nemen we aan dat 0 < H < 1. Met de H-coëfficiënt krijg je een indicatie van de mate waarin de geobserveerde data passen bij het Mokkenmodel met monotone homogeniteit. Hierbij gaan we ervan uit dat:
Er is een tweede manier om na te gaan of de geobserveerde data passen bij het Mokkenmodel met monotone homogeniteit.
Bij het Mokkenmodel met dubbele monotonie mogen de curves elkaar niet snijden, waardoor de items wel op moeilijkheid geordend kunnen worden. Dit Mokkenmodel heeft dezelfde drie assumpties als bij het eerste Mokkenmodel: eendimensionaliteit, lokale onafhankelijkheid en monotonie naar θ. De vierde assumptie die hierbij komt is monotonie naar δ (= moeilijkheidsparameter). Deze assumptie stelt dat als er vier items zijn van makkelijk naar moeilijke items, bij dubbele monotonie geldt dat de item-responsfuncties elkaar niet snijden voor alle θ. Dit betekent dat voor elk item f geldt dat de kans op dit item goed en het moeilijkste item goed, kleiner is dan de kans of item f goed en het op één na moeilijkste item. De assumptie dat twee ICC's elkaar niet mogen snijden bij dubbele monotonie kunnen we nagaan door voor beide items de ICC's te tekenen.
Een eerste toepassing van de IRT-modellen is de betrouwbaarheid van een itemscore in het kritieke gebied. De betrouwbaarheden van de losse items mogen bij elkaar opgeteld worden tot de betrouwbaarheid van de test, omdat de items onafhankelijk zijn van elkaar. Een tweede toepassing is het adaptief testen, waarbij een beperkt aantal items leidt tot een betrouwbaar resultaat.
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
Waag jij binnenkort de sprong naar het buitenland? Verzeker jezelf van een goede ervaring met de JoHo Special ISIS verzekering
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Field of study
Add new contribution