Analyse van tests - Artikel


In een test wordt getracht de meest geschikte items te selecteren. Ook wordt gestreefd naar een verzameling items die één schaal vormen (eendimensionaal is), die niet meer items heeft dan nodig, en die over het geheel (normgeorienteerd) of voor een deel van het continuüm (criteriumgeoriënteerd) betrouwbaar en valide is. Het selecteren van de meest geschikte items kan gedaan worden d.m.v. van klassieke testtheorie of op basis van latente trektheorie. In dit hoofdstuk word de klassieke testtheorie besproken.

Klassieke testtheorie

Onderzoekers beginnen vaak met het verzamelen van heel veel items, en gooien later de items eruit die niet relevant bleken. Er worden drie stappen gemaakt in de klassieke itemanalyse:

  1. De betrouwbaarheid wordt bepaald

  2. Items worden geanalyseerd en op basis hiervan herzien of verwijderd

  3. De verwijdering/herziening stopt als de onderzoeker zijn gestelde doel heeft bereikt

Betrouwbaarheid

Betrouwbaarheid (interne consistentie) van een test met 15 items wordt geschat door middel van Cronbach’s alpha en de formule van Spearman-Brown.

De eerste stap in de analyse van een test is het bepalen van de betrouwbaarheid van de totale itemverzameling. Wanneer deze erg laag is, moeten meer items worden verzameld. Wanneer deze redelijk is, kan er gekeken worden welke items weg kunnen.

Een test bevat vaak indicatieve en contra-indactieve items. Een contra-indictief item van het construct dominantie houdt in dat wanneer iemand hoog scoort op het item, dit wijst op een niet-dominante persoonlijkheid. Bij indicatieve items is het andersom. Wanneer iemand hoog scoort op het item, dan wijst dit op een dominante persoonlijkheid. Contra-indicatieve items moeten eerst omgerekend worden voordat ze geanalyseerd worden.

Chronbach’s alpha (α) kan berekend worden aan de hand van het aantal items, de testvariantie, en de som van de itemvarianties.

De Spearman-Brown formule wordt gebruikt voor de betrouwbaarheid van een test die bestaat uit verschillende parallelle delen die ieder een eigen betrouwbaarheid hebben. Wanneer je één test hebt, kun je de test in twee helften splitsen zodat je twee parallelle delen hebt, waardoor je de formule kan toepassen. De betrouwbaarheid van een test is over het algemeen goed te noemen als hij hoger is dan 0,80.

Na het vaststellen van de betrouwbaarheid worden de items afzonderlijk geanalyseerd. Wanneer de variantie van een item te klein is, of wanneer de correlatie met andere items laag is, levert dit item onvoldoende bijdrage aan de betrouwbaarheid. Op basis hiervan zijn er vijf kenmerken waarop items worden beoordeeld, ze zullen hieronder besproken worden.

  1. Itemmoeilijkheid

De itemmoeilijkheid is gelijk aan het itemgemiddelde. Hele moeilijke en hele makkelijke items hebben een kleine variantie, omdat ze over het algemeen door iedereen ongeveer hetzelfde gemaakt worden. Deze items wil je er daarom uit hebben. Vooral moeilijke items wil je eruit hebben aangezien die veel tijd van de test in beslag nemen.

  1. Itemvariantie

Een item met nul variantie is niet informatief, aangezien deze geen onderscheid laat zien tussen de respondenten.

  1. Inter-itemcorrelatie

De inter-itemcorrelatie geeft de correlaties tussen de items onderling weer. Wanneer een item helemaal niet correleert met de rest van de items, levert dit geen bijdrage aan de betrouwbaarheid van de test. Er kan een item-intercorrelatiematrix gemaakt worden waarin alle correlaties worden weergeven. Er zijn hiervoor twee richtlijnen: er mogen geen negatieve correlaties zijn, en er mogen niet té hoge correlaties zijn. Wanneer items een té hoge correlatie hebben dan zou dit erop wijzen dat de twee items precies hetzelfde meten waardoor eentje eigenlijk overbodig is. Op basis van de matrix kunnen de slechtste items geïdentificeerd worden.

  1. Itemdiscriminatie

Itemdiscriminatie geeft aan in hoeverre een item onderscheid kan maken tussen personen die hoog scoren op de gehele test en personen die laag scoren op de gehele test. Wanneer een item geen onderscheid kan maken tussen deze groepen, is hij niet informatief. Een goede maat voor de itemdiscriminatie is de item-testcorrelatie. De item-testcorrelatie geeft aan hoe homogeen een item met de test is, ook wel itemhomogeniteit genoemd. Maar, in de testscore zit ook de score op dat item. Daarom geeft de item-testcorrelatie een waarde die beïnvloed is door het item zelf en daarom niet betrouwbaar. Om hiervoor te corrigeren, bereken je de correlatie van het item met de rest van de test (item-restcorrelatie). Voor een informatief item is de ondergrens van de correlatie 0.20. Tussen 0.30 en 0.40 is de correlatie normaal.

  1. Itembetrouwbaarheidsindex

De itembetrouwbaarheidsindex is een combinatie van de itemvariantie en itemdiscriminatie. Hoe hoger de waarde van de itembetrouwbaarheidsindex, hoe beter.

  1. Van Naerssens f

Naerssens f is een waarde die aangeeft wat de bijdrage van een item aan de betrouwbaarheid van een test is. Deze waarde is de betrouwbaarheid van de totale test, waar de betrouwbaarheid van de test zonder item i vanaf is getrokken. Als Naerssens f een positieve waarde heeft, dan draagt het item iets bij aan de test. De Naerssens f is onafhankelijk van de testlengte.

Na de itemanalyse kunnen items verwijderd worden die niet aan bovenstaande normen voldoen. Meestal komen op basis van de item-restcorrelaties en de van Naerssen’s f dezelfde items naar boven die ongeschikt lijken. Na het verwijderen van de items kan de itemanalyse weer opnieuw uitgevoerd worden zonder deze items. Op deze manier kan een goede schaal geconstrueerd worden, waarbij er een alpha is hoger dan 0,8 en elk item een goede bijdrage levert aan de betrouwbaarheid.

Page access
Public
Comments, Compliments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.