Samenvatting van het boek Testleer en testconstructie (van den Brink & Mellenbergh)

Samenvatting bij de meeste hoofdstukken over Testleer en testconstructie (2006 editie).


Hoofdstuk 1: Inleiding

De relatie tussen het theoretisch begrip en het gemeten begrip is niet perfect. Deze relatie is belangrijk om conclusies op inhoudelijk niveau te kunnen rechtvaardigen. Dat wil zeggen dat fouten hebben op het gemeten begrip. Deze fouten kunnen toevallig zijn en systematisch. Een voorbeeld van een toevallige fout is een leerling die soms geluk en soms pech heeft door onder andere raadgedrag. Een voorbeeld van een systematisch fout is een fout in de leerling-administratie. De psychometrie houdt zich onder andere bezig met de relatie tussen theoretisch en gemeten begrip.

Soorten testtypen

Tests die trachten de maximale prestatie van de persoon te bepalen en tests die trachten de typische gedragswijze van de persoon te bepalen.

Voorbeelden van testen die trachten de maximale prestatie te bepalen zijn:

  • Enkelvoudige algemene niveautests; deze zijn bedoeld bijvoorbeeld om het algemeen intellectueel functioneren te meten.
  • Veelvoudige algemene niveautests: deze tests onderscheiden een aantal gebieden, bijvoorbeeld verbale en numerieke vaardigheden.
  • Speciale niveautests: deze tests richten zich op specifieke vaardigheden zoals technisch inzicht.
  • Vorderingentests / studietoetsen: dit gaat om resultaten van het onderwijs. Hierbij bestaan er twee soorten: criteriumgeoriënteerd gebruik en normgeoriënteerd gebruik. Criterium is een vergelijking van de prestatie van student met een onderwijsdoelstelling, het gaat dan om absolute scores. Norm is dat er onderling vergeleken wordt van studenten, het gaat dan om percentage scores.

Voorbeelden van tests die trachten de typische gedragswijze van een persoon te bepalen zijn:

  • Observatietests: Hierbij wordt een bepaald gedrag opgenomen en op basis daarvan beoordeelt een psycholoog.
  • Somato-fysiologische metingen: dit is een meting van lichamelijke kenmerken, zoals hartslag, bloeddruk.
  • Zelfbeoordelingen: Dit gebeurt meestal via vragenlijsten betreffende interesse en persoonseigenschappen.
  • Kwalitatieve prestatietests: bijvoorbeeld neuropsychologische tests. Dit gaat erom of een persoon een hersenbeschadiging heeft. Een ander voorbeeld zijn projectieve tests, dit is bijvoorbeeld, wat ziet een persoon in een inktvlek? Deze testen voldoen niet aan minimale eisen voor kwaliteit van metingen.

Reactieve metingen wil zeggen dat een persoon moet meewerken om de meting te kunnen verrichten, en dat is bij niet-reactieve meting niet het geval (voorbeeld van een niet-reactieve meting is het vaststellen van alcoholgebruik door flessen wijn te tellen).

Als kwalitatieve testgegevens bewerkt worden zodat ze op een schaal in te delen zijn, bestaan er de volgende schalen. Deze staan in volgorde van minste restrictie:

  • Nominale schaal; dit zijn ongeordende categorieën.
  • Ordinale schaal; hierbij kunnen testgegevens gedeeltelijk of geheel gerangordend worden.
  • Intervalschaal; hierbij hebben testgegevens intervaleigenschappen, waarbij de verhouding van de verschillen tussen de getallen betekenis heeft.

Een testsituatie is vaak gestandaardiseerd, dat wil zeggen dat de test zoveel mogelijk hetzelfde voor alle personen.

Er bestaan twee strategieën waarmee testitemscores omgezet kunnen worden zodat ze onderling verkeken kunnen worden:

  1. Met a priori gewogen somscore wordt aan ieder antwoord een score toegekend. Hierbij staat van tevoren vast aan welk antwoord, welk getal toegekend zal worden. De testscore is de som van de itemscores. De scores kunnen alleen gerangordend worden.
  2. Met de empirisch gewogen somscore worden itemscores verkregen door apart onderzoek te doen naar welke itemscores gebruikt moeten worden en hieraan worden schaalwaarden gegeven. Als voorbeeld kun je de volgende schaalwaarden hebben, item 1 is 0,7 en item 2 is 0,8 en item 3 is 1. Deze testscores hebben intervaleigenschappen.

In itemrespons worden items opgevat als indicatoren voor een latente variabele.

Er bestaan drie typen modellen, meetmodellen, structurele relatiemodellen en beslissingsmodellen (later aan de orde).

  • Meetmodellen: Testscore X is waargenomen variabele (aangegeven met een vierkant). Deze wordt bepaald door invloed van latente score T (aangegeven met een cirkel).

Zie figuur 1

In testscoremodel wordt een model gespecificeerd voor de somscore van de items. In itemrespons model wordt een model gespecificeerd voor het antwoord van de persoon op elk van de items.

  • Structurele relatiemodellen: op grond van een geschatte latente trek ^T wordt een criterium Z voorspelt. De latente trek is opgenomen in een netwerk van andere latente trekken.

Zie figuur 2

De acht fasen van testconstructie zijn als volgt:

  1. 1. Inhoudelijk theoretisch kader
  2. 2. Begripsanalyse
  3. 3. Specificatie van item- en testkenmerken
  4. 4. Genereren items
  5. 5. Beoordelen en reviseren van items
  6. 6. Samenstellen test
  7. 7. Onderzoek relaties van test met andere variabelen (validiteit)
  8. 8. Normering

Hoofdstuk 2: Klassieke testtheorie en itemsteekproefmodel

In de klassieke testtheorie worden alle scores op de testitems, opgeteld. De testscore X is de score waarop de klassieke testtheorie zich richt. De testscore Xj en de meetfout Ej zijn kansvariabelen. Het hangt van de meetfout af, welke waarde de testscore krijgt (en de meetfout is immers toevallig). De ware score tj is geen kansvariabele, maar een zogenaamde latente variabele. Een latente variabele is een hypothetisch construct dat niet rechtstreeks meetbaar is.

εr = de verwachte waarde voor de situatie met hhm binnen een vaste persoon. De variantie van tj is de variantie van een constante, is dus gelijk aan 0.

εpr = de verwachte waarde over personen en over herhaalde testafnamen.

Als het begrip ware score zinvol moet zijn, dan mogen er geen systematische fouten optreden.

De variantie van de testscores is gelijk aan de som van de ware score variantie en de meetfoutvariantie = σx2 = σt2 + σE2

Altijd geldt dat εpr (Ej) = 0 => alle meethouten in dat geval 0.

Hoe kleiner de standaardmeetfout van de test σE, hoe beter de test is als meetinstrument, want dan zijn verschillen in testscores tussen personen ook verschillen in ware scores.

Aannames

Het klassieke testmodel bestaat uit de volgende drie aannamen:

  • Εr (Xj) = tj
  • X = T + E
  • ρ(Xjg, Xjh) = 0

Testscores Xjg en Xjh van een willekeurige vaste persoon j op de verschillende tests g en h moeten ongecorreleerd zijn over hhm.

Betrouwbaarheid

Betrouwbaarheid is een precisiemaat. Hiermee kunnen verschillen tussen ware scores in personen geschat worden met behulp van de verschillen in testscores tussen die personen. Als deze precisie groot is, dan is de test betrouwbaar. Is deze precisie echter klein, dan is de test onbetrouwbaar.

Correlatie tussen X en T = ρXT = σt / σx

Betrouwbaarheidscoëfficiënt = ρ2XT = σt2 / σx2 =>de ware scorevariantie σt2 delen door de testscorevariantie σx2. De betrouwbaarheid is een getal tussen 0 en 1.

F is een signaal-ruisverhouding van een test, deze index is namelijk gelijk aan de verhouding ware scorevariantie (signaal) en de meetfoutvariantie (ruis) = σt2 / σE2

Eisen voor parallelle testen:

  1. Tj = Tj’
  2. σE2 = σE2

Scoreverdelingen op twee paralleltests hebben hetzelfde gemiddelde en dezelfde variantie.

Methoden om betrouwbaarheid te schatten:

  • Equivalentie coëfficiënt; als de betrouwbaarheid geschat wordt omdat twee parallelle testen gelijktijd afgenomen kunnen worden.
  • Stabiliteitscoëfficiënt; twee testen eentijdje na elkaar afnemen. Dit kan gebruikt worden als herinnering geen rol speelt. Dat is het geval bij precisietests of snelheidstesten.

ρXX’ = ρ2XT => De betrouwbaarheidscoëfficiënt ρ2XT is gelijk aan de correlatie ρXX’.

De methode van Spearman-Brown (met k = 2) gaat ervan uit dat de test in k parallelle delen gesplitst kan worden. Alle delen hebben dezelfde betrouwbaarheid vanwege parallelli. De betrouwbaarheid van een test neemt toe wanneer deze verlengd wordt, op voorwaarde dat alle delen hetzelfde begrip meten. De formule is: Zie figuur 3

Vanwege paralleli hebben alle tests dezelfde variantie van de scores op item i -> σi2. De ware scores op twee paralleltests zijn voor iedere persoon altijd gelijk, hebben alle paralleltests dezelfde ware scorevariantie σTi2 en geldt ρTiTg = 1 en dus geldt ook cov (Ti, Tg) = ρTiTg σTi σTg = σTi2

De split-halves methode geeft een schatting voor de betrouwbaarheid van interne consistentie van het meetinstrument. Als de delen sterk samenhangen, is de betrouwbaarheid hoog.

Naarmate de samenhang tussen de items toeneemt, wordt de alfa groter. Dan nemen de covarianties (teller van de breuk van de alfa formule) toe. Een alfa voor dichotome gescoorde items is de KR20.

Voor een betrouwbaarheidsinterval geldt: hoe hoger de betrouwbaarheid, hoe kleiner de Se, hoe smaller het interval en hoe nauwkeuriger het resultaat.

In een groepsmodel wordt meer informatie gebruikt dan in het individuele model. Het betrouwbaarheidsinterval is dan nauwkeuriger.

Correctie voor attenuatie: Dit is de bovengrens als de betrouwbaarheid 1 is. Het is een correlatie tussen ware scores = zie figuur 4

Correlatie ρTxTy = ρXT wanneer er geen meetfouten zijn. Deze correlatie kan niet hoger zijn dan 1, maar wel theoretisch 1,2 of iets. Deze overcorrectie ontstaat wanneer de betrouwbaarheden ρXX' en ρYY’ te laag geschat zijn of rXY te hoog geschat is.

De voorwaardelijke meetprecisie is de nauwkeurigheid van de meting bij één persoon. De standaardmeetfout is een maat voor deze precisie in de klassieke testtheorie.

De onvoorwaardelijke meetprecisie gaat om een populatie personen, het is de gekwadrateerde correlatie tussen ware score T en ware score X in een populatie. De betrouwbaarheidscoëfficiënt is een maat voor deze onvoorwaardelijke meetprecisie. Als deze erg laag is, dan is het item niet erg geschikt om te onderscheiden tussen personen uit de populatie.

De ware score is in de klassieke testleer altijd testafhankelijk. Als een andere test wordt gebruikt om dezelfde latente variabele te meten, dan zal die in principe ook een andere waarde opleveren voor de ware score van persoon j.

Itemsteekproefmodel

De verzameling items moet representatief zijn voor bijvoorbeeld de leerstof, dat is het itemdomein. De domeinscore tj is in het itemsteekproefmodel de ware score.

Random-paralleltoets is als een persoon j veel tests maakt, maar deze bestaan elke keer uit nieuwe aselecte steekproeven van n items uit het domein.

Als n items dichotoom gescoord worden, wordt het itemsteekproefmodel ook wel het binominale testmodel genoemd. Het is een individueel model (slechts betrekking op testscore Xj van persoon j), daarom is het vooral geschikt om criteriumgeoriënteerd (waarmee je absoluut kunt meten) te gebruiken.

Het klassieke testmodel is een groepsmodel om normgeoriënteerd mee te meten. Er bestaan dan wel verschillen tussen individuen, maar dit is relatief ten opzichte van een normgroep. Iedere persoon moet dezelfde test maken en de standaardmeetfout wordt geschat op grond van de gemiddelde standaardmeetfout van alle personen die de test maken.

Het itemsteekproefmodel is een individueel model. Hiermee kun je de individuele standaardmeetfout schatten, maar dit vereist wel het gebruik van dichotoom gescoorde items. Het model is vooral geschikt om er criteriumgeoriënteerd mee te meten, om absolute individuele beslissingen te nemen, zoals zak-slaag beslissingen bij toets.

Hoofdstuk 4: Itemrespons modellen

Een testscore is de som van alle itemscores.

Er zijn twee typen hoofdtaken:

  • constructie van het antwoord: de proefpersoon moet dan zelf het antwoord produceren, bijvoorbeeld hoeveel is 12 x 4?
  • keuze van het antwoord: de proefpersoon moet antwoord kiezen uit mogelijkheden, bijvoorbeeld hoeveel is 12 x 4 a) 13 b) 25 c) anders.

Deze voorbeelden zijn beide discrete responsen. Een kenmerk van een continue respons is dat tussen twee willekeurige punten men altijd nog een derde punt kan onderscheiden. Een continue respons is bijvoorbeeld een reactietijd.

Als een antwoord uit twee categorieën bestaat is het dichotoom. Polytoom is als een antwoord uit meer dan twee categorieën bestaat.

Er zijn drie soorten itemtypen:

  1. Continue, polytoom en metrisch met een gemiddelde τij en variantie σ2ij
  2. Discreet, dichotoom en ordinaal met τ’ij = τij1 is de kans om het item goed te beantwoorden en 1 - τ’ij is kans om het item fout te beantwoorden)
  3. Discreet, polytoom en ordinaal met kans om ke categorie te kiezen τijk = Zie figuur 5 en figuur 6

Het gemiddelde van τij, τ’ij en τijk zijn specifiek voor het item (door subscript i).

Latente klassenmodellen is een model met een discrete latente variabele.

Latente trekmodellen is een model met een continue latente variabele.

In de statistiek wordt gebruikt gemaakt van regressie functies om een variabele z te voorspellen uit een andere variabele y. Z wordt hier voorspeld uit y.

Zie figuur 7

Er wordt vaak gebruik gemaakt van lineaire regressie, als y en z continue en metrische variabelen zijn.

ε (Z|Y = yj) is bij een dichotome variabele een proportie. Deze kan maar variëren van 0 tot 1. Voor dichotome items wordt vaak gebruik gemaakt van de logistische regressiefunctie.

ε(Z|Y = yj) = figuur 8, figuur 9 e = 2,7182

ε(Xi|T=tj) = τij = bi + aitj => bi = intercept, ai = richtingscoëfficiënt, tj = waarde van pp.j op latente trek.

Het intercept en de richtingscoëfficiënt zijn hetzelfde voor alle ppn uit de populatie, daarom zijn de a en b parameters invariant.

Lokale onafhankelijkheid

Twee items zijn lokaal onafhankelijk als de itemresponsverdelingen van een persoon onderling onafhankelijk zijn. De samenhang tussen twee variabelen (items) wordt verkaard door een derde variabele (latente trek).

Dimensionaliteit is het aantal trekken dat door de test wordt gemeten. Als een test eendimensionaal is, dan zijn de items van de test lokaal onafhankelijk.

Meetprecisies

De voorwaardelijke meetprecisie is de variatie van de geschatte waarde van de latente trek van een bepaalde persoon over herhaalde testafname. De maat die hiervoor wordt gebruikt is de informatie.

De onvoorwaardelijke meetprecisie is in testscoremodellen de gekwadrateerde correlatiecoëfficiënt tussen de waargenomen en ware testscore in een populatie personen.

De keuze voor een itemresponsmodel wordt in de eerste plaats bepaald door de aard van de responsvariabele: bij een continue itemrespons is het een-factor model van toepassing, bij discrete itemrespons kan men bijvoorbeeld kiezen voor twee parameter logistisch model van Birnbaum.

Hoofdstuk 5: Een factormodel

Aannames in het een-factormodel voor itemresponsen:

  • één latente trek T bepaalt het responsgedrag van de ppn.
  • de score van persoon j op item i, Xij, is normaal verdeeld over herhaalde afnamen van item i bij persoon j = Xij = bi + ai tj + Eij
  • variantie van de normale verdeling is hetzelfde voor alle personen = Varr (Xij) = σ2Xij = σ2Ei. Deze meetfoutvariantie heeft geen index j, zodat deze variantie hetzelfde is voor alle personen; variantie is homogeen met betrekking tot personen.
  • correlatie tussen scores op items i en i’ bij pp. J over herhaalde afnamen blijft 0 = ρ (Xij, Xi’j’) = 0

Correlatie tussen de scores op twee items, gegeven waarde tj op latente trek is gelijk aan 0 = Corr (Xi, Xi’| T= tj) = 0.

T kun je niet meten, dus gaan we deze standaardiseren met εp (T) = 0 en Varp (T) = 0.

De latente trekwaarde tj van pp.j is een standaardscore op deze latente trek. Ai, en bi zijn constanten.

De gemiddelde itemscore is gelijk aan de b-parameter van item i. Congenerisch (gelijksoortig) is als n items aan het model van één-factor voldoen, omdat alle n items dezelfde latente trek meten.

In het één factormodel komen drie itemparameters ai, bi en σ2i en een persoonsparameter (tj) voor. Geldigheid van een model moet worden onderzocht via de volgende stappen:

  • afleidingen uit het model (gemiddelden, varianties en covarianties van itemscores in termen van theoretische parameters)
  • trekken van een steekproef (gemiddelden, varianties en covarianties van itemscores)
  • schatting van modelparameters (geschat op grond van de steekproef, deze moeten goed aansluiten bij de theoretische afleiding van stap 1)
  • houdbaarheid van het model (in hoeverre wordt het model ondersteund door empirische resultaten uit de steekproef)
  • beslissing over de voortgang (houdbaar = handhaven, niet houdbaar = model wijzigen of nieuw model opstellen)

Eerst wordt het verband tussen theorie en empirie gelegd door (theoretische) modelparameters te schatten vanuit (empirisch) steekproefgrootheden. Vervolgens wordt weer van empirie naar theorie teruggekeerd door na te gaan of het model houdbaar is.

In het model moeten de populatiegemiddelden van de scores op twee items en de populatievarianties van de scores op twee items aan elkaar gelijk zijn. Dit wordt onderzocht door twee nulhypothesen te formuleren:

  • H01 = εpr (X1) = εpr (X2)
  • H02 = σ2X1 = σ2X2

Dit kun je toetsen met t toets voor gemiddelden van gepaarde waarnemingen, gepaard vanwege dezelfde ppn beide items hebben beantwoord.

Het model wordt gehandhaafd als beide nulhypothesen niet verworpen worden. Als H01 verworpen wordt maar H02 niet, dan kan een nieuw model geformuleerd worden door nieuwe restrictie σ1 = σ2 = σ toe te voegen.

Als H02 verworpen wordt maar H01 niet, dan kan er nieuw model geformuleerd worden door de restrictie b1 = b2 = b toe te voegen. Als beide nulhypothesen verworpen worden kan men alleen werken met het oorspronkelijke model.

Meetprecisie

Meetprecisie is de kwaliteit van een test is de precies waarmee de test meet.

Voorwaardelijke meetprecisie is de variantie van de geschatte latente trek over herhaalde afnamen van dezelfde test bij dezelfde persoon. De formule is Varr (^tj | T = tj ) = zie figuur 10

De voorwaardelijke meetprecisie hangt niet af van een persoon, ai en σ2i hebben geen persoonsindex. Naarmate de Varr (^tj | T= tj) kleiner is, zal de geschatte latente trek minder variëren -> dan is de meting preciezer bij persoon j. Voorwaardelijke meetprecisie betreft de precisie van de meting bij een bepaalde persoon. Rond de latente trekwaarde kan een interval gebouwd worden: als men de lengte van dit interval te groot vindt, kan men deze vergroten door de variantie van de geschatte latente trek te verkleinen en dat kan door de testinformatie te vergroten door nieuwe items met voldoende grote iteminformatie toe te voegen. In testscore modellen wordt de voorwaardelijke meetprecisie aangegeven door de standaardmeetfout. In de itemresponstheorie wordt de voorwaardelijke meetprecisie aangegeven door de testinformatie.

Onvoorwaardelijke meetprecisie is de gekwadrateerde correlatie tussen de geschatte latente trek en de latente trek zelf in een gegeven populatie personen. Indien deze nul is, is het onmogelijk de latente trek te voorspellen uit de geschatte latente trek. Indien deze 1 is, kunnen verschillen op de latente trek tussen personen perfect voorspeld worden uit de geschatte latente trek.

Formule is: zie figuur 11

Onvoorwaardelijke meetprecisie is de precisie van de meting in een bepaalde populatie. In de klassieke testtheorie wordt de onvoorwaardelijke meetprecisie aangegeven door de betrouwbaarheidscoëfficiënt van de test. In het eenfactormodel voor continue itemresponsen kan de onvoorwaardelijke meetprecisie makkelijk berekend worden. In de parametrische modellen voor dichotome itemresponsen wordt meestal geen gebruik gemaakt van de onvoorwaardelijke meetprecisie (maar deze zou wel berekend kunnen worden).

In een bepaalde populatie is de latente trek gestandaardiseerd met een variantie van één. In een andere populatie kan deze variantie echter verschillen van één. De latente trek varieert meer in de tweede populatie als in een tweede populatie de variantie van de latente trek groter is dan één. Dit wil zeggen dat de tweede populatie heterogener is dan de eerste.

Als in een tweede populatie Varp (T) kleiner is dan één. Dat wil dan zeggen dat in de tweede populatie de latente trek minder varieert dan in de eerste, wat wil zeggen dat de tweede populatie homogener is dan de eerste.

In het algemeen wil je tests die één dimensie meten. Bij continue items wordt daarvoor het één factor model gebruikt. Als je je afvraagt welk item zwak is, kun je gebruik maken van de a parameters (richtingscoëfficiënten) en de voorwaardelijke meetprecisie (I). Als een a parameter een negatieve waarde heeft, blijkt dat de waargenomen itemscore lager wordt naarmate de latente trek tj hoger is. Dit wil je niet.

Informatie

I is de testinformatie en Ii is de iteminformatie. Hoe groter deze I hoe preciezer is de meting. Hoe preciezer de test, des te kleiner de variantie van de geschatte latente trek is, hoe kleiner de noemer in de formule. Gebruik dit voor het verwijderen van items.

I = zie figuur 12 = zie figuur 13

Een voorbeeld van een discrete, dichotome en ordinale item is: bent u langer dan 1.75 meter?

De itemrespons wordt echter wel bepaald door een onderliggende continue en metrische variabele, iemand die denkt 1,80 te zijn zal ja zeggen en iemand die 1,70 denkt zegt nee. De onderliggende responsvariabele moet worden onderscheiden van de latente trekwaarde. Iemand is 1,75675 meter dat is de ware latente trek van de persoon, maar die persoon denkt 1,75 te zijn. Dan beïnvloedt de latente trek de onderliggende responsvariabele en de onderliggende responsvariabele (continue) beïnvloedt de (discrete) geordende respons. Deze itemresponsvariabele is X*ij.

Voor X*ij ligt de schaaleenheid en oorsprong niet vast, omdat de onderliggende responsvariabele niet waargenomen is. Er wordt verondersteld dat er op de onderliggende continue responsvariabele een grens X*i = g is, als de waarde op de onderliggende responsvariabele van persoon j groter is dan g, dan kiest deze persoon de hoogste categorie van de dichotome responsvariabele en als de waarde op de onderliggende responsvariabele van persoon j kleiner is dan g, dan kiest deze persoon de laagste categorie.

Hoofdstuk 6: Item-respons voor discrete itemresponses

X’ij en τ’ij gebruik je de ‘ om aan te geven dat het item dichotoom is. Bij continue items worden geen ‘ accent gebruikt.

Itemresponsmodellen voor discrete ordinale itemresponsen (dichotome responsen en polytome responsen) -> Aannames hierbij zijn:

  • itemrespons wordt bepaald door een continue latente variabele (dat wil zeggen een latente trek)
  • n items van een test zijn eendimensionaal (dat wil zeggen één latente trek is voldoende om de samenhang tussen de items van een test te verklaren)

Gutmann model

Zie figuur 14

Dit is een deterministisch model omdat de kansen alleen de waarden 0 en 1 kunnen aannemen.

De parameter b*i is specifiek voor item i en is bij goed/ fout gescoorde items een itemmoeilijkheidsparameter: hoe groter b*i is (meer naar rechts op de as) des te beter moet de ppn zijn om het item goed te beantwoorden (Deze persoon heeft dan een hogere latente trekwaarde).

Item 1 Item 3 Item 2

0 0 0

1 0 0

1 1 0

1 1 1

De items zijn gerangordend naar moeilijkheid. Er is minder van de latente trek nodig om het eerste item goed te beantwoorden dan het derde item. Dit patroon is het enige mogelijke bij dit Gutmann model.

Bij dit Gutmann model zijn de items lokaal onafhankelijk (antwoorden op testitems zijn onderling onafhankelijk binnen zijn segment van de latente trek). Bij dit Guttman model zijn de itemresponsen in de totale populatie juist volledig afhankelijk van elkaar. De kans om twee items goed te doen is gelijk aan het product van de kans om het eerste item goed te beantwoorden en de kans om het tweede item goed te beantwoorden.

Stochastische modellen zijn zowel de niet-parametrisch als de parametrische modellen. In parametrische modellen is een kenmerk van de regressiefunctie εr (X’ij |T = tj) een of meer parameters, dit is bij de niet-parametrische modellen niet zo.

Mokkenmodel

Aannames van dit Mokkenmodel zijn:

  • itemrespons wordt bepaald door een continue latente variabele
  • n items van een test zijn eendimensionaal
  • de regressiefunctie is een monotoon stijgende functie van de latente trek (= niet deterministisch). De functie is niet parametrisch (dwz wordt niet gekenmerkt door parameters).

Zie figuur 15

Bij het dubbele monotoniemodel van Mokken is de aanname dat de regressiefuncties van de testitems monotoon stijgen, maar ook dat deze regressiefuncties elkaar niet mogen snijden.

Als een functie monotoom stijgend is, wil dat zeggen dat de regressiefuncties continue omhoog gaan als de latente trek toeneemt. De itemkarakteristiek curves snijden elkaar niet  de kans om item 1 goed te beantwoorden is groter dan de kans om item 2 goed te beantwoorden, welke waarde hij of zij ook heeft op de latente trek.

Bij het Mokkenmodel kan een persoon elk mogelijk patronen halen.

Bij het Mokkenmodel is de kans op een fout antwoord op item 1 en een goed antwoord op item 2 = (1 – τ’1j) x τ’2j.

Loevingers homogeniteitscoëfficiënt H is welke positie het Mokkenmodel inneemt ten opzichte van de twee extremen:

Hig = 1 – zie figuur 16

Hig = 1 betekent dat items i en g voldoen aan het Guttman model Hig = 0 betekent dat de regressiefuncties van items i en g constant zijn en voor het Mokkenmodel ligt Hig tussen 0 en 1. Als een regressiefunctiemodel constant is, maken de items geen onderscheid tussen personen met verschillende waarden op de latent trek; dan zijn de items I en g zijn dan ongeschikt om de latent trek te meten.

H geeft de sterkte van de schaalbaarheid van een test aan. Hoe hoger H, des te meer is de test een schaal in de zin van Guttman. Een model is zwak als H tussen 0,3 en 0,4 ligt, middelmatig als H tussen 0,4 en 0,5 ligt en sterk als H groter is dan 0,5. Items met een lage homogeniteitscoëfficiënt, kunnen uit de test verwijderd worden.

Parametrische modellen

De regressiefunctie wordt gekenmerkt door een of meer parameters. Dit is niet zo bij niet parametrische Mokken niet het geval is.

Aannames

  • itemrespons wordt bepaald door een continue latente variabele
  • n items van een test zijn eendimensionaal
  • de regressiefunctie is een logistische functie van de latente trek, met bi en ai itemparameters zijn.

Dit is de logistische functie: τ’ij =εr (X’i | Tj = tj) = zie figuur 17

Een parametrisch logistische model van Rasch

A-parameters van de n testitems zijn aan elkaar gelijk gesteld, a1 = a2 = a.

Zie figuur 18

De b parameter is de moeilijkheidsparameter, hoe grote b*i, hoe moeilijker het item. De regressiefuncties zijn ten opzichte van elkaar verschoven. Voor de kans goed te beantwoorden moet je kijken bij de kans = 0,5. Items die voldoen aan het Rasch-model voldoen ook aan het dubbele monotoniemodel van Mokken, de regressiefuncties stijgen monotoon en snijden elkaar niet. Want bij het Mokken-model kan alleen gezegd worden dat item 1 makkelijker is dat item 2. Bij het Rasch model kan meer, er kan ook nog worden gezegd hoeveel makkelijker item 1 is dan item 2, namelijk b*1 – b*2.

Bij twee items geldt: kans op een item goed = de som van de kansen op de patronen

01 en 10.

Als er geen persoonsparameter tj in de vergelijking staat wil dat zeggen dat dit hetzelfde is voor all ppn.

Als de nulhypothese (model past) niet wordt verworpen, kan het Rasch model worden gehandhaafd.

Voorwaardelijke meetprecisie: variantie van de geschatte latente trek over herhaalde afnamen van dezelfde test bij dezelfde persoon: Varr (^tj | T = tj) = zie figuur 19.

Bij het Rasch model is de voorwaardelijke meetprecisie een functie van de latente trek.

De test informatie is Ii (tj) = zie figuur 20. De testinformatie is de som van de afzonderlijke iteminformaties. De item- en testinformaties van de parameterische modellen voor dichotome itemsresponsen zijn afhankelijk van de latente trekwaarde tj, terwijl dat niet het geval is voor het eenfactor model voor continue itemresponsen.

Logistische model van Verhelst en Eggen

De alfa’s zijn geen parameters, dit zijn van tevoren vastgelegde indices. De alfa bepaalt de steilte van de regressiefunctie, hierbij betekent hoe groter alfa hoe steiler is de regressiefunctie. Restrictie van dit model is dat de som van de moeilijkheidsparameters van alle n items nul is.

Door de restrictie a1 = a = 1 verdwijnt deze parameter uit dit model. In het boek is te zien dat het verloop van het eerste item steiler is dan dat van het tweede item omdat alfa 1 > alfa 2. De alfa’s worden ook wel discriminatie-indices genoemd.

In het Rasch model hebben alle items dezelfde waarde voor a, dat wil zeggen dat de regressiefuncties elkaar niet kunnen snijden. Het Verhelst en Eggen model is flexibeler: de regressiefuncties van verschillen in items mogen best verschillen in steilte. Het voordeel van dit model is dat het eerder houdbaar zal zijn bij empirische testgegevens dan het Rasch model. In Verhelst en Eggen model moet de gebruiker zelf de discriminatieparameters specificeren.

Het twee parameter logistische model van Birnbaum

Hier zijn de discriminatieparameters vrije parameters die geschat moeten worden. Zie figuur 21. Aannames:

  • itemrespons wordt bepaald door een continue latente variabele
  • n items van een test zijn eendimensionaal

Alleen de discriminatieparameter van het eerste item wordt vastgelegd a1 = 1, de rest van de discriminatieparameters moeten worden geschat uit de steekproef.

De b*i parameter is de moeilijkheidsparameter en heeft dezelfde betekenis als Rasch en Verhelst en Eggen. Het Verhelst en Eggenmodel is een tussenstap tussen de modellen van Rasch en Birnbaum. Het Verhelst en Eggen is flexibeler dan het Rasch en daardoor eerder houdbaar dan het Rasch model. Het is echter minder flexibel dan het Birnbaummodel en zal daardoor minder vaak houdbaar zijn dan het Birnbaummodel.

In de een en twee parameter logistische modellen geldt steeds dat de kans op een goed antwoord 0,5 is als T = b*i. Dit is bij drie parametermodel niet het geval.

Het drieparameter logistische model van Birnbaum

Dit model heeft per item: moeilijkheidsparameter, discriminatieparameter en een raadparameter ci. Deze ci geeft de kans aan om het goede antwoord voor iemand met een zeer lage waarde op de latente trek. De regressiefunctie is als volgt:

τ’ij =εr (X’i | Tj = tj) = ci + (1 – ci) Zie figuur 22

Zie figuur 23. Kans om bij dit model een item goed te beantwoorden is 0,5 + 0,5ci. Een probleem van het drie parameter model is dat de parameter ci lastig geschat kan worden met een steekproef personen. Meestal zal het aantal personen in de steekproef met zeer lage trekwaarden gering zijn en dat betekent dat er maar weinig informatie in de steekproef is om ci te kunnen schatten. Een oplossing hiervoor is om een restrictie op te leggen aan de c-parameters:

c1 = γ1, c2 = γ2 cn = γn De gamma’s γ, zijn vaste indices die gespecificeerd worden op grond van het aantal alternatieven van het meerkeuze-item. Voor een tweekeuze item is γi = ½ voor een driekeuze item is γ = 1/3 en een vierkeuze item γ = ¼ enz…

De c-parameters hoeven nu niet geschat te worden omdat ze van tevoren gespecificeerd worden. Een nadeel is echter dan men niet weet of deze specificatie correct is.

Als een parametrisch model niet houdbaar is dan:

  • kun je enkele items verwijderen totdat een eendimensionale test resteert.
  • splits je de test in subtests die afzonderlijk eendimensionaal zijn.

Maar al is een test eendimensionaal dan hoeven nog niet alle items goed te functioneren. Items met lage positieve alfa-indices of a-parameters discrimineren niet tussen personen en items met negatieve a-parameters discrimineren in de verkeerde richting (hoe beter de persoon, des te lager de kans om het item goed te beantwoorden). Deze items kunnen beter uit de test verwijderd worden. Als de noemer van de voorwaardelijke variantie groot is, dan bevat de test weinig informatie over de latente trekwaarde van persoon j en als deze variantie klein is, bevat de test veel informatie over persoon j.

Het eenfactor model voor continue itemrespons is de ware testscore een lineaire functie van de latente trek. Het tweeparameter model van Birnbaum voor dichotome itemresponsen is de functie niet lineair.

Overeenkomsten eenfactormodel voor continue responsen en het twee parameter Birnbaum model:

  • regressiefunctie eenfactor is lineair, birnbaum is logistisch, maar na logittransformatie is ook dit een lineaire functie geworden.
  • Beide modellen hebben een item moeilijkheid (b) en een itemdiscriminatie parameter (a). Alleen bij Birnbaum zijn deze van logistische functie.

Verschil tussen deze modellen is dat het eenfactor model ook nog een parameter heeft voor de variantie van de itemscore over herhaalde afnamen (Varr (Xi | T = tj) = i2 . Het eenfactormodel is een drieparameter model voor continue itemresponsen. Het tweeparameter Birnbaum heeft geen extra variantieparameter.

Informatiefunctie van het eenfactormodel voor continue itemresponsen:

I = zie figuur 24 = zie figuur 25

De informatiefunctie is constant en hang niet af van de latente trek. In de een en twee parametrische logistische modellen voor dichotome responsen is de informatie wel een functie van de latente trek.

Relatieve efficiency is de informatie van de eerste test vergeleken met informatie van de tweede test. Als deze gelijk is aan 1, dan zijn beide tests even efficiënt voor het schatten van de latente trekwaarde van persoon j; als de relatieve efficiency groter is dan 1, dan is de eerste test efficiënter en als de relatieve efficiency kleiner is dan 1, dan is de tweede test efficiënter voor het schatten van de latente trekwaarde van persoon j.

Als je bijvoorbeeld sollicitanten wilt selecteren dan, gebruik je ongewogen somscore, want je wilt persoon met de hoogste somscores (die worden aangenomen). In het geval van het Rasch model bevat de somscore niet alleen de benodigde informatie over de rangordening van de geschatte latente trek, maar ook over de afstanden tussen de latente trekwaarden van de personen (= specifieke objectiviteit).

Hoofdstuk 7: Schending

Schenders zijn onbedoelde trekken. Ze schenden de eendimensionaliteit van het item en ook van de test. Een potentiële schender (S) is een grootheid ten opzichte waarvan een item onzuiver is.

Hieronder zijn drie plaatjes te zien. Eronder staat de uitleg.

Zie figuur 26

a = zuiver

b = uniform onzuiver (score op item i wordt niet alleen beïnvloedt door T, maar ook door S)

c = niet-uniform onzuiver item (vraagonzuiverheid is nu verschillend voor verschillende combinaties van waarden op de latente trek T en de schender S).

Vraagzuiverheid is dat de voorwaardelijke verdeling (f) van itemscores onafhankelijk moet zijn van de variabele S.

Item is zuiver = f (Xi | T = t) = g (Xi | T = t, S = s) voor alle waarden s en t van de variabelen S en T. f is de voorwaardelijke verdeling van de itemscores gegeven t, en g is de voorwaardelijke verdeling van itemscores gegeven t en s. In elk ander geval is item i onzuivere ten opzicht van S.

Typen schenders

Er zijn verschillende soorten typen schenders:

  • itemtype. Een item is onzuiver zodra twee items meer met elkaar gemeen hebben dan met de andere items die trek T meten (bijvoorbeeld als er in een test synoniemen zijn). Overtollige en oververtegenwoordigde aspecten zorgen voor extra dimensies voor multidimensionaliteit. Het principe van lokale onafhankelijkheid is niet geldig, dat is naar omdat de meeste procedures voor het schatten van modelparameters hierop gebaseerd zijn. Bijvoorbeeld, ik word vaak gepest en kinderen lachen mij vaak uit.
  • antwoordneiging type. Responsestyle is inhoudloos, het is een neiging van de respondenten om bij het beantwoorden van items relatief vaak een bepaalde antwoordcategorie te kiezen, zonder goed te kijken wat er gevraagd wordt. In een goede test zitten ongeveer evenveel indicatieve (ik mijd verjaardagsfeestjes ) als contra-indicatieve items (ik sta graag in de belangstelling) voor verlegenheid. Liever 'was u afgelopen week neerslachtig' dan 'bent u wel eens neerslachtig'.
  • trektype, bijvoorbeeld als een rekenvaardigheidtoets geschonden kan worden door de taalvaardigheid. Als er onderzoek gedaan wordt naar begripsvaliditeit van een test die trek T meet, moet er altijd nagegaan worden in hoeverre er vraagonzuiverheid bestaat ten opzichte van trekken die verwant zijn aan trek T (bijvoorbeeld assertiviteit en agressiviteit). Bijvoorbeeld ‘als ik in het gedrang kom, trap ik terug -> ook agressiviteit. Beter is dan ‘als ik in het gedrang kom, zeg ik er iets van’.
  • groepstype, deze schending is gevoelig voor lidmaatschap voor een bepaalde groep (bijvoorbeeld mannen en vrouwen). Het belangrijkste verschil tussen schenders van het groepstype en van het trektype is het meetniveau. Trektype wordt op intervalniveau gemeten, groepstype zijn nominale variabelen. Groepslidmaatschap is beperkt te interpreteren (je ziet onzuiverheid, maar het is niet bekend door welke sekse bijvoorbeeld). Bijvoorbeeld taalniveau onderscheiden voor kinderen met moedertaal Nederlands of niet-Nederlands.
  • tijdtype, bijvoorbeeld voor- en nametingen. Alfaverandering is de verandering van niveau van trek T in de tijd, bijvoorbeeld een grotere vaardigheid, betaverandering is de verandering in de itemschaal, response shift = de betekenis van de waarden van de meetschaal verandert, bijvoorbeeld voor training 3 = gemiddeld, na training 3 = slecht of als cursisten niet weten wat vitamine C is en daarna wel), gammaverandering (= verandering van betekenis van iteminhoud ten gevolge van herdefiniëring van het conceptuele domein van trek T, bijvoorbeeld doordat trainer beter begrip heeft van wat er wordt gemeten). Als beta of gammaveranderingen optreden zullen itemeigenschappen van een deel van de testitems veranderen, waardoor de scores op de nameting niet vergelijkbaar zijn met de scores op de voormeting. Er is instabiliteit van de itemparameters over de tijd.

Zowel tijd als groeptype splitst de dataset van itemscores in twee of meer subsets. Het verschil is dat potentiële schenders van het groeptype de dataset in onafhankelijke delen splitsen, terwijl potentiële schenders van het tijdtype de dataset in afhankelijke delen splitsen. Dit heeft implicaties voor detectie van vraagonzuiverheid. Zodra een meetinstrument niet een-dimensionaal is, verliest het interne validiteit.

Als er toch een eendimensionaal itemresponsmodel voor een onzuiver item wordt gebruikt, worden er onjuiste schattingen voor de item- en persoonsparameters verkregen, dit leidt tot onjuiste beslissingen.

Het eendimensionale model geldt niet bij een onzuiver item. Dan volgt er een uitbreiding op het eenfactor model:

Als item onzuiver: εr (Xi |T= tj, S = sj) = bi + ai tj + ci sj + di tj sj

ci = coëfficiënt voor regressie van item i op potentiële schender S

di = coëfficiënt voor regressie van item i op het product van T en S.

Als ci = 0 EN di = 0 dan is er geen onzuiverheid.

Als alleen di = 0 dan is er uniforme onzuiverheid.

Als di niet gelijk is aan 0 dan is er niet-uniforme vraagonzuiverheid.

Via factoranalyses is het mogelijk om ai, bi en ci te schatten, zodat uniforme vraagonzuiverheid gedetecteerd kan worden. Als S een groeptype is moeten de variabele man / vrouw omgezet worden in dummies voor wel vrouw, geen vrouw. Dan kan er weer een factoranalyse op los gelaten worden. Zie figuur 27. Alleen als er dan geen significante verschillen zijn voor ai = a’i en bi = b’i is het item i zuiver ten opzichte van schender S. Als bi ≠b’i (dwz ci ≠ 0) maar

ai = a’i (dwz di = 0) dan is er sprake van uniforme onzuiverheid van item i (fig a). (b’i = bi + ci en a’i = ai + di). Als ai ≠a’i (dwz di ≠ 0) dan is er niet-uniforme vraagonzuiverheid (fig b).

Er is maar een methode om vraagonzuiverheid te detecteren, in het discrete geval. Deel proefpersonen in in groepen S = 0 en S = 1. Schat dan voor beide groepen de itemparameters ai en bi op de volgende manier:

τ’ij =εr (X’i | Tj = tj, S = 0) = zie figuur 28 en voor de andere groep:

τ’ij =εr (X’i | Tj = tj, S = 1) = .

zie figuur 29. Item zuiver als ai = a’i en bi* = b’i*.

Item i uniform onzuiver = bi*≠ b’i*en ai = a’i

Item I niet uniform onzuiver = ai ≠ a’i

Het opsporen van items die vraagonzuiver zijn ten opzichte van schender gebeurt stapsgewijs. Als eerst 1 item wordt verwijderd, moet men voor resterende item onzuiverheid opnieuw bekijken, dan verwijder je het meest onzuivere item en ga zo weer verder. Zie figuur 30.

Hoofdstuk 8: Validiteit

Bij Validiteit mogen de resultaten geïnterpreteerd worden in termen van het begrip dat de test bedoelt te meten.

Beschrijvend testgebruik is wanneer een test voornamelijk bedoeld is om bepaald gedrag om eigenschap te meten.

Beslissend testgebruik is als een test voornamelijk bedoeld is voor selectie of classificatie.

Er zijn twee soorten validiteit:

  • criteriumgeoriënteerd ( voorspellen)
  • begripsvaliditeit (dekking van het begrip).

Beide validiteiten kunnen door hetzelfde onderzoeksresultaat behaald worden, het is maar net wat de onderzoeker wil.

Vroeger had je 3 soorten validiteiten:

  • inhoudsvaliditeit; hoe goed is de inhoud van de test waarover de conclusies geformuleerd worden.
  • criteriumgeoriënteerde validiteit; vergelijk de test met een of meer externe variabelen die een directe maat voor de eigenschap zijn. Dan heb je hierin predictieve (voorspelling in de toekomst) en concurrentvaliditeit (criterium wordt gelijktijdig met de test geobserveerd).
  • begripsvaliditeit ; welk begrip verklaart een testprestatie.

Interne validiteit betreft de causale (oorzaak-gevolg) conclusies. Externe validiteit betreft generalisatie van steekproef naar populatie. Begripsvaliditeit bekijkt of het theoretische begrip succesvol is geoperationaliseerd.

Criteriumgeoriënteerde validiteit: een maat hiervoor is de correlatie tussen test en criterium.

Gesloten criteria worden gebruikt bij selectiesituaties voor bijvoorbeeld geschiktheid van een beroep.

Open criteria worden gebruikt bij classificatiesituaties waarbij uit een hoeveelheid opleidingen bijvoorbeeld een geschikte moeten kiezen.

Het uiteindelijke criterium is of je een bepaald beroep met succes kan uitoefenen.

Tussentijds criterium is met succes afronden van je studie.

Onmiddellijk criterium is je schoolcijfer op dit moment.

Een correlatie geeft wel samenhang aan, maar geen causaal verband.

Een Pearson-productmoment-correlatiecoëfficiënt tussen test en criterium kan alleen worden berekend als beide op metrische schaal (bijvoorbeeld hartslag en aantal maanden in functie) gemeten zijn.

Een criteriumgroep is een voor het testdoel representatieve groep die hetzelfde criteriumgedrag vertoont en waarvan de criteriumscores bekend zijn. Voorbeeld is angst voor de tandarts, men maakt hierbij dan gebruik van extreem angstige en niet angstige patiënten.

Eis voor een criteriummaat is dat de meting van het criterium voldoende betrouwbaar en valide moet zijn om zinvolle conclusies te kunnen trekken.

Een onbetrouwbare criteriumscore kan nooit leiden tot een hoge criteriumgeoriënteerde validiteitcoëfficiënt.

Correctie van attenuatie

Als de formule voor attenuatie gebruikt wordt (formule voor correlatie tussen de ware scores op twee tests) zal de correlatie van test X (betrouwbaarheid ρxx’) en criterium Z (betrouwbaarheid ρzz’):

Zie figuur 31 -> ρxz = correlatie tussen test x en criterium z.

Het ‘Droste effect’ leidt tot een oneindige reeks van validiteitsonderzoeken, want het criterium moet gevalideerd worden aan een extern criterium, dat ook weer valide moet zijn.

Gebrek aan spreiding leidt tot lage betrouwbaarheid van de criteriummaat. Dit leidt tot een lage correlatie tussen testscores en criteriummaat. De steekproef moet zo gekozen worden om voldoende spreiding in de criteriumscores is te krijgen.

Predictieve criteriumgeorienteerde validiteit

Dit zijn meestal longitudinale onderzoeken. Als je proefpersonen selecteert, wordt een groep homogener. Dit heet restriction of range. Hierdoor wordt de correlatie tussen test en criterium lager, dan neemt de validiteit van een meting af. Voor deze restriction of range bestaat een formule als selectie onvermijdelijk is.

Gelijktijdige criterium georiënteerde validiteit

Test & criteriummaat kunnen soms elkaar overlappen. Dan zal tussen deze twee meer overeenkomst zijn dan gerechtvaardigd is. Een respondent is geneigd een consistent patroon van antwoorden en gedrag te vertonen. Oorzaken voor restriction of range kunnen een plafond en bodem effect zijn als de criteriummaat te gemakkelijk of te moeilijk is (bijvoorbeeld selectietest voor chauffeurs is rijvaardigheid, als maat hiervoor rijbewijs is, geldt hier een plafond effect omdat chauffeurs hier al hoog op scoren).

Begripsvaliditeit (construct validity)

Dit is in welke mate de test een goede meting is van het theoretische begrip. Elk meetinstrument een operationalisatie is van een theoretisch begrip, daarom is het belangrijk dat dit goed zit.

Inhoudsdomein is een beschrijving van de verschijnselen die het begrip dekken in het inhoudsdomein (voorbeeld rekenen is optellen, aftrekken e.d). Voor persoonlijkheid en intelligentie ligt dit niet bij voorbaat vast, maar wordt door de onderzoeker gespecificeerd.

Er is verschil in (theoretisch) begrip zoals bedoeld. Dit houdt in dat surplus-betekenis, niet te vangen is in een definitie en moet beperkt en bekend zijn en (empirisch) begrip zoals bepaald. Inhoudsdomein geeft de reikwijdte van de verschijnselen aan.

Een methode van testconstructie, facet ontwerp, biedt een goede manier om het inhoudsdomein van een begrip in kaart te brengen. De relevante aspecten van een begrip zijn facetten en ieder facet bestaat uit een aantal elementen. Een facetontwerp kan achteraf worden gebruikt om de dekking van het inhoudsdomein te onderzoeken.

Een hoge interne consistentie levert niet altijd steun aan de begripsvaliditeit van een test. Er moet aangetoond worden dat hetgeen wat consistent gemeten wordt, het beoogde begrip is.

Een nomologisch netwerk bestaat uit relaties van het begrip met andere begrippen. Er kunnen uitspraken uit afgeleid worden die te toetsen zijn. Tests moeten samenhangen met andere bestaande tests die hetzelfde begrip meten, zeker als ze ook nog dezelfde meetmethode hanteren.

Er zijn verschillende dekkingen mogelijk van het inhoudsdomein, je hebt hierbij:

  • partiële dekking, de items vormen geen representatieve steekproef
  • foutieve dekking, de items meten iets anders dan het beoogde begrip meet.

Een meetinstrument dat een begrip meet, moet voldoen aan een eendimensionaal model. Wanneer een meetinstrument een meerdimensionaal begrip meet, moeten de verschillende aspecten van het begrip eendimensionaal gemeten kunnen worden.

Als begrippen sterk op elkaar lijken, zouden de correlaties tussen deze tests hoger moeten worden.

Multitrek-multimethodematrix Campbell en Fiske

Iedere test bestaat uit een combinatie van een trek (eigenschap van iemand) en een methode. Als personen verschillen op die trek, levert dat systematische variantie op van testscores. Als er variantie is in de meetprocedure, is er sprake van een systematische methodevariantie.

Convergentie is als de test samenhangt met andere metingen van hetzelfde begrip.

Divergentie is als de test niet samenhangt met andere niet-verwante begrippen.

Een respectievelijk hoge convergentie en een lage divergentie vormen ondersteuning voor validiteit.

Aanname in validiteitsonderzoek is onafhankelijkheid van meetprocedures of methoden.

 

 

Methode 1

Methode 2

Methode 3

 

trek

A1

B1

C1

A2

B2

C2

A3

B3

C3

Methode 1

A1

b

 

 

 

 

 

 

 

 

B1

m

b

 

 

 

 

 

 

 

C1

m

m

b

 

 

 

 

 

 

Methode 2

A2

c

d

d

b

 

 

 

 

 

B2

d

c

d

m

b

 

 

 

 

C2

d

d

c

m

m

b

 

 

 

Methode 3

A3

c

d

d

c

d

d

b

 

 

B3

d

c

d

d

c

d

m

b

 

C3

d

d

c

d

d

c

m

m

b

 

In een multitrek-multimethodematrix staan intercorrelaties tussen verschillende tests.

Op de hoofddiagonaal (b)staan de correlaties van de negen tests met zichzelf. In de omlijnde driehoeken langs de hoofddiagonaal staan de correlaties van tests met dezelfde methode maar verschillende trekken. Deze correlaties zijn gemeenschappelijke methodevarianties (m). Als trekken onderling ongecorreleerd zijn, geeft dit de correlatie tussen methoden weer. In de gestippelde driehoeken staan de correlaties tussen tests die verschillende trekken meten met verschillende methoden. Aanwijzing voor divergentie (d). Op de gestippelde subdiagonalen staan de correlaties tussen tests die dezelfde trek meten maar met verschillende methoden, gemeenschappelijke trekvariantie. Dit is aanwijzing voor convergentie (c).

De correlaties moeten aan vier eisen voldoen voor begripsvaliditeit van een test:

  1. De correlaties, c in de tabel, moeten significant van nul verschillen. Tests die dezelfde trek meten, moeten samenhang vertonen.
  2. De correlaties c moeten logischerwijs groter zijn dan de correlaties d tussen tests voor verschillende trekken met verschillende methoden gemeten. Tests die dezelfde trek meten met verschillende methoden moeten hoger samenhangen dan tests die verschillende trekken meten met verschillende methoden.
  3. De correlaties c moeten groter zijn dan de correlaties m, c >m. Tests die dezelfde trekken meten met verschillende methoden moeten meer samenhangen dan tests die alleen de methoden gemeen hebben en verschillende trekken meten.
  4. Het patroon van correlaties tussen de trekken moet zowel voor dezelfde als voor verschillende methoden terug te vinden zijn. Als trek a en trek b hoger samenhangen dan trek a en c gemeten met dezelfde methoden, moet dit patroon terug te vinden zijn als gemeten wordt met verschillende methoden.

Trekken en methoden hoeven onderling niet onafhankelijk te zijn als je de multitrek-multimethodeprocedure in validiteitsonderzoek wilt gebruiken.

Begripsvaliditeit gaat over de relatie tussen de test en operationalisatie van het begrip. Steun voor deze begripsvaliditeit is dus altijd belangrijk, het maakt niet uit wat het doel van de test is. Criteriumgeoriënteerde validiteit gaat om de relatie met externe criteria. Dit is het gedrag waarin men geïnteresseerd is. Of deze validiteit van belang is, hangt af van het gebruiksdoel van de test. Wanneer een test gebruikt wordt voor beslissend testgebruik, zoals classificatie en selectie, is steun aan criteriumgeorienteerde validiteit van belang. Wanneer beschrijvend testgebruik wordt gebruikt is dit belang minder groot.

Een onbetrouwbare test kan nooit valide zijn, maar omgekeerd kan een niet-valide test wel betrouwbaar zijn. Wat er dan gebeurt is dat de testresultaten dan nauwkeurig meten, maar het is onduidelijk wat gemeten wordt, niet het begrip zoals bedoeld.

Criteriumgeorienteerde validiteit van een test is altijd kleiner dan de wortel uit de betrouwbaarheid van die test -> ρxz ≤ √ ρxx’

Dit heeft te maken met de error scores die er nog bijkomen.

Als een criterium onbetrouwbaar gemeten is, is de validiteit zelfs veel lager dan de wortel uit de betrouwbaarheid van de test. Validatie is een nooit afgerond proces. Hoe meer en diverser ondersteuning wordt van de validiteit, relevant voor het testgebruik is, hoe beter de validiteit wordt. De validiteit van een test kan echter nooit bewezen worden.

Hoofdstuk 9: Testconstructie

Bij het formuleren van items zijn eenvoud en begrijpelijkheid van belang. Verdere richtlijnen zijn:

  1. Vermijd dubbele vragen; de items moeten slechts een idee bevatten.
  2. Vermijd directe ontkenningen; voeg indicatieve en contra-indicatieve items in een schaal op nemen. Contra-indicatieve items zijn items waarop een hoge score staat voor een lagere score op de latente trek.
  3. Zet het belangrijkste idee aan het eind van het item; stellingen bestaan vaak uit een conditie en een gedragsbeschrijving, hierbij is conditie van doorslaggevende betekenis, voor de juiste interpretatie moet deze voorafgaan aan het gedrag. Mensen vormen al een oordeel tijdens het lezen van de uitspraak.
  4. Vermijd feitelijke uitspraken en doe geen aannames over respondenten. De conditie moet zo geformuleerd worden dat iedereen zich aangesproken kan voelen. Als mensen zich er niet in kunnen vinden, zijn de antwoorden niet meer eenduidig toe te wijzen aan de beschrijving van het gedrag.
  5. Vermijd jargon en vage bewoordingen.

Constructiemethoden

Er bestaan verschillende constructiemethoden. Dit is de procedure die gevolgd wordt bij ontwikkelen van een instrument:

  • Rationele methoden; gaat om de vraag wat voor indruk maakt het instrument op de constructeur en andere experts? Dit is de oudste methode. Een antwoord op een item is een eenduidig te interpreteren verbale rapportage. Het begrip rationeel wordt opgevat als een typering van het soort informatie dat gehanteerd wordt bij het constructieproces.

Kenmerk voor de rationele methode is dat het te meten begrip uitgewerkt is in klassen of categorieën. De theoretische basis is in het algemeen mager (daardoor gaan de stappen theoretisch kader en begripsanalyse vaak samen). Items worden vooraf door experts beoordeeld op relevantie. Op basis van hun oordeel worden items geselecteerd en de schalen geconstrueerd. De evaluatie is mager. Als je een goed gevolgde procedure en iteminhoud hebt, zit het met de validiteit ook wel goed, wat zou een item als ’voelt u zich regelmatig eenzaam?’ anders moeten meten dan eenzaamheid? Kwaliteit van de resultaten zijn vaak onbekend.

  • Prototypische methoden is een ‘ act frequency approach’, met gradueel goed afgebakende grenzen, geen categorieën, maar het gaat om het meest centrale en kenmerkende elementen va het begrip dat het instrument moet meten. In perifere gebieden van de categorie ontstaat er mogelijk overlap met andere categorieën. Deze methode is goed te gebruiken bij persoonlijkheidsschalen. Er wordt geen formele theorie over het begrip gebruikt (dit ook vanwege de vage grenzen tussen de begrippen). De itemproductietechniek is ‘act nomination’ hierbij wordt aan respondenten gevraagd om een of meer typische eigenschappen van een persoon op te schrijven.

De itemselectie gebeurt door prototypicaliteitsoordelen, beoordelaars geven dan per item aan in hoeverre het item bij het bedoelde begrip past. De items met de hoogste gemiddelde prototypicaliteitsscores worden in de vragenlijst opgenomen. Deze methode is vooral geschikt voor begrippen die weinig informatie geven op voorhand. Deze methode wordt ook wel gebruikt om impliciete ideeën expliciet te maken. In vergelijking met de rationele methode zijn de stappen in de constructie systematische uitgewerkt en wordt de kwaliteit van het instrument empirisch geëvalueerd.

  • Interne methode is een methode die gericht is op interne structuur van instrument. De interne methode is niet theoretisch georiënteerd. Concepten moeten worden afgeleid uit relaties tussen de respondenten op de items. Gemeenschappelijke variantie van items wordt veroorzaakt door een gemeenschappelijke trek. Dit is een techniek voor het groeperen van items. Na constructie van de schalen wordt geprobeerd de schalen in een minitheorie te plaatsen, aan de hand van de items die het meest met die schaal samenhangen. Deze theorie levert hypothesen op. Dan is er een idee over de structuur van de items, kan het mogelijk zijn confirmatieve analysetechnieken toe te passen. Deze methode is vooral geschikt als er wel items zijn waarmee een eerste constructiepoging mee kan worden ondernomen, maar men niet precies de meetpretentie kan vaststellen.
  • Externe methode, ook wel criteriumgeorienteerde methode genoemd is gericht op de samenhang van het instrument met een of meer externe criteria. Bij deze methode is alleen het statistische verband tussen het antwoord op een item en dat wat gemeten moet worden relevant. Het is niet nodig om een theoretisch kader en begripsanalyse uit te voeren. Het onderwerp van de vragenlijst wordt vastgelegd door het criterium. Door empirie kan bepaald worden welke items geschikt zijn en welke niet. De enige eis die men aan items stelt is dat ze heterogeen zijn. Het is belangrijk dat er diversiteit van de items zijn. Vaak is een bestaande vragenlijst het uitgangspunt. Men stelt dan nieuwe items op om met deze combinatie andere aspecten te kunnen meten. Items die sterk positief of negatief verband met de criteriummaat vertonen worden in de vragenlijst opgenomen, negatieve items worden gespiegeld. Het kan voorkomen dat sommige items enkel door steekproeffluctuaties een relatie met criteriumscore vertonen. Om dit te bepalen wordt er in een tweede steekproef gekeken of daar dezelfde items geselecteerd zouden worden, dit is Kruisvalidatie. Homogeniteit van items binnen een schaal zijn niet belangrijk. Interne consistentiematen zijn hierom minder geschikt voor de bepaling van de betrouwbaarheid van schalen die ontwikkeld zijn met deze methode. De externe methode is vooral bruikbaar bij het voorspellen van een criterium aan de hand van een vragenlijst. Nadeel van de methode is dat je wel weet wat de schaal voorspelt, maar niet wat de achterliggende variabelen zijn die de itemselectie hebben gestuurd. Schalen geconstrueerd met de externe methode hebben soms onvoldoende divergente validiteit. Correlaties tussen schalen zijn vaak ongewenst hoog. Bij deze methode komen vaak lange schalen uit. Begripsvaliditeit is mede hierom van belang.
  • Constructmethode, uit deze methoden komen vaak korte en betrouwbare schalen voort. De theoretische interpretatie van de meetresultaten centraal staat, daarom is begripsvaliditeit de belangrijkste eis die aan een vragenlijst gesteld wordt bij deze methode. Het nomologisch netwerk geeft een concretisering van de theorie. Specificatie van dit netwerk moet vooraf plaatsvinden. Het is voor de zuiverheid van belang dat de verwante begrippen goed te onderscheiden zijn van het begrip waar de meting voor geconstrueerd wordt, bijvoorbeeld angst en bang (hou ook rekening met antwoordneigingen). Bij deze methode is begripsanalyse (gedetailleerde beschrijving over de meest relevante eigenschappen) wel belangrijk. Men geeft ook een verantwoording van de inhoud van de items. Bij elke vraag moet afgevraagd worden in hoeverre een antwoord op de vraag bij een ander dan het bedoelde begrip zou kunnen passen. Soms kan het voorkomen dat meermalen gebruiken van hetzelfde woord, bijvoorbeeld bang en angst, in verschillende items verstoringen van het correlatiepatroon kan veroorzaken. Het theoretisch kader is in de vorm van een nomologisch netwerk.

Pretest bij een aantal respondenten om te kijken hoe respondenten de items interpreteren. Ook kan dan gekeken worden naar itemkenmerken, zoals gemiddelde en spreiding. Itemselectie gebeurt door aspecten van convergentie en divergentie in items (= begripsverzadiging). Er zijn effecten zoals kanskapitalisatie te verwachten, daarom moet de vragenlijst ook in een andere steekproef worden afgenomen. De essentie van de validatie van de vragenlijst is het toetsen van de hypothesen die uit het nomologisch netwerk komen (kan onder andere met multitrek – multimethodenaanpak). Antwoordneiging moet vermeden worden, vooral bij deze methode, dit kun je tegengaan door evenveel indicatieve als contra indicatieve items op te nemen. De constructmethode is een hypothesetoetsende methode. Deze methode is voornamelijk geschikt voor begrippen waarvoor al genoeg theoretische kennis ligt.

  • Facetmethode, dit is een methode die gericht is op de representativiteit van het instrument voor het begrip dat gemeten moet worden. In de begripsanalyse (wat het zwaartepunt van deze methode is) worden verschillende aspecten (facetten) geïdentificeerd. Daarna worden deze onderverdeeld in facetelementen. Dan worden er structuples gemaakt, deze geven aan hoe deze facetelementen het begrip vastleggen in duidelijk onderscheiden deelgebieden. Structuples zijn een combinatie van inhoudelijke en eventuele populatiefacetten, zorg voor tenminste 1 item per structuple. Zodra de definitie van het begrip vastligt, ligt ook de inhoud van de items vast. Begripsanalyse bestaat uit vier stappen:
  1. Definitie begrip (opsomming van eigenschappen, processen e.d van het begrip).
  2. Identificeren van facetten (3 soorten: inhoudelijke (representeren verschillende aspecten van begrip), populatie (voor welke populatie geldt het ontwerp), responsfacetten (welke soort respons ga je verzamelen).
  3. Bepalen van elementen (deelaspecten) van elk facet.
  4. Vastleggen van onderlinge relaties van de facetten.

Bij het schrijven van de items worden vaak alleen inhoudelijke facetten gebruikt. Populatiefacetten zijn wel van belang voor afname en analyse, maar niet voor iteminhoud (toch hou je wel rekening met je populatie bij verantwoording van je items). Bij het schrijven van items bestaat er een bepaald systematiek (ook wel een facetdesign genoemd), daarom kan men aannemen dat antwoorden op de vragenlijst een bepaalde structuur heeft, bijvoorbeeld items die alle in hetzelfde facetelement vallen, zullen onderling hoger correleren dan items uit verschillende elementen.

Er is bij deze methode inhoudsvaliditeit omdat de items het begripsdomein geheel dekt, zoals beschreven in begripsdefinitie. Als er geen specifieke subpopulatie is, dan is er een ongedeelde populatiefacet.

De facetmethode kan (net zoals de constructmethode) als een hypothesetoetsende methode worden gezien (rondom domeinspecificaties). De methode is vooral geschikt voor begrippen waarvoor formele kennis van het conceptuele domein en het domein van indicatoren bekend is of voor begrippen waarvoor kennis ontwikkeld kan worden.

Verschillen in constructiemethoden

Er lijken geen verschillen tussen deze methoden ten aanzien van de validiteit, wel op andere aspecten. Extern geconstrueerde schalen hebben soms onvoldoende divergente validiteit (soms correleren schalen hoger met andere dan gewenste criteriummeting). Correlaties tussen de externe schalen zijn vaak onderling ongewenst hoog. Extern geconstrueerde schalen zijn vaak inhoudelijk vaag en de schalen zijn vaak erg lang (30 tot 40 items).

De constructmethode leidt bijna altijd tot korte en betrouwbare schalen. De constructmethode en de facetmethode zijn bij vragenlijstconstructie te prefereren boven de externe en prototypische methode.

Als de constructeur alleen informele kennis van het begrip heeft lijkt een intuïtieve constructiemethoden voor de hand. Hierbij horen de rationele en prototypische methoden.

Als er globale kennis uit eerder onderzoek over het begrip is (inclusief een meetinstrument) dan is inductieve constructiemethode handig. Bij deze horen de interne en externe methoden.

Alleen als er behoorlijke kennis uit eerder onderzoek over een begrip beschikbaar is (met nomologisch netwerk) dan is deductieve werkwijze een optie. En bij deze horen construct- en facet methoden.

Beschikbaarheid van kennis is dus een voorwaarde voor de geschiktheid van constructiemethoden.

De facetmethode, de constructmethode en interne methode zijn gericht op het afbakenen van begrippen en om begripsdomeinen te dekken. Prototypische methode beperkt items tot de kern van het begrip. Aanname hierbij is dat een scherpe afbakening van de begrippen niet mogelijk is. De externe methode is niet gericht op representatie van een begrip.

Deductieve of theoriegeoriënteerde methoden hebben altijd de voorkeur.

Hoofdstuk 10: Methoden en normering

Bij normgeoriënteerd testgebruik wordt individuele score vergeleken met scores van anderen. Je hebt hiervoor anderen nodig, dat wordt de normgroep genoemd.

Getransformeerde scores zijn scores die rechtstreeks interpreteerbaar zijn.

Percentielscores

Deze kan alleen worden berekend als de scores van de hele groep bekend zijn. Deze percentielscores zijn gemakkelijk rechtstreeks te interpreteren. Zij vormen een ordinale schaal en worden onafhankelijk van de groepsgrootte N geïnterpreteerd. Scores op tests van verschillende lengte kunnen dankzij percentielscores toch rechtstreeks worden vergeleken.

fi = frequentie van score Xi, Fi = cumulatieve frequentiebehorend bij score van Xi. De formule voor percentielscores te berekenen is:

P = zie figuur 32

Een nadeel van percentielscores is dat de verschillen in de buurt van het gemiddelde van de ruwe scores worden vergroot en de verschillen in de beide staarten van de verdeling worden verkleind. Verschillen in het midden kunnen niet worden vergeleken met verschillen aan het eind, dit kan ook niet vanwege de ordinale schaal. Je kunt geen gemiddelde en standaardafwijking berekenen dus het is voor veel statistische analyses ongeschikt. Na transformatie naar percentielen hebben verschillen geen betekenis meer (vanwege de ordinale schaal).

Decielscores zijn scores die ingedeeld worden in tien decielklassen die ongeveer ieder 10% van de waarnemingen bevatten.

Gestandaardiseerde scores

Gestandaardiseerde scores krijg je door een lineaire transformatie uit te voeren op de ruwe scores. Het gemiddelde (0) en standaardafwijking (1) wordt hiermee vastgelegd (z-scores, standaardnormale scores, alleen als ruwe scores x normaal verdeeld zijn. Dit betekent iets meer dan alleen z, namelijk zoveel procent van de groep scoort lager dan iemand, dat volgt uit een tabel P (zj <1,5) = 0,93. Een intervalschaal blijft na lineaire transformatie een intervalschaal. Als ruwe scores een intervalschaal vormen, worden gestandaardiseerde scores boven percentielscores verkozen. De waarde van Z-score is gelijk aan het aantal standaardafwijkingen dat de score onder of boven het gemiddelde ligt. Z-score Zj = zie figuur 33 -> deze kan ook negatief zijn en zijn geen hele getallen, daarom wordt er vaak gewerkt met een t-score. Hieronder staat een tabel per score met hun gemiddelden en standaardafwijking.

 

Gemiddelde

standaardafwijking

Z

0

1

T

50

10

DIQ intelligentietests

100

15

St’

5

2

Wanneer de ruwe scores normaal verdeeld zijn, zijn de gestandaardiseerde scores ook normaal verdeeld.

 

4%

|

7%

|

12%

|

17%

|

20%

|

17%

|

12%

|

7%

|

4%

 

 

-1,75

 

-1,25

 

-0,75

 

-0,25

 

0,25

 

0,75

 

1,25

 

1,75

 

Z

 

|

 

|

 

|

 

|

 

|

 

|

 

|

 

|

 

St

1

 

2

 

3

 

4

 

5

 

6

 

7

 

8

 

9

Percentielscores

2

 

7

 

16

 

31

 

59

 

69

 

84

 

93

 

98

Stanines (St) ‘ standard nine’ worden scores ingedeeld in 9 klassen. Dit kun je aflezen in een tabel.

Voor een persoon met een Z-score van 1,6 hoort een staninescore van 8.

Normaliseren is dat de ruwe scoreverdeling wordt getransformeerd in een ongeveer normale verdeelde getransformeerde scoreverdeling. Deze transformatie is gebaseerd op omzetting naar percentielscores en dit is een niet-lineaire transformatie, die van een intervalschaal een ordinale schaal maakt.

Een nadeel van standaardscores is dat vuistregel is dat 68% van de scores ligt binnen en zie figuur 34 dat 95% ligt binnen zie figuur 35, dit heeft betrekking op symmetrische verdelingen en zijn bij scheve verdelingen niet aanwezig.

Normering

Dit is de laatste stap in het proces van constructie (worden het zinvolle vergelijkingen). Een normtabel laat zien hoe de scores verdeeld zijn, deze mag alleen gebruikt worden bij personen uit de populatie waarvoor de tabel is opgesteld (bijvoorbeeld verschillende voor leeftijden of geslacht). Een test wordt genormeerd als de frequentieverdeling van de testscores in de normgroepen is bepaald.

Je moet eerst vaststellen wie tot je populatie behoort. Dit moet zo specifiek mogelijk.

Een goede procedure voor representativiteit, is het trekken van een aselecte steekproef. Dat wil zeggen dat N personen op toevallige wijze uit populatie getrokken. Een gestratificeerde of gelaagde aselecte steekproef, dit betekent dat je uit iedere laag op aselecte wijze aantal personen trekt.

In de praktijk wordt vaak gewerkt met clustersteekproeven. Bij deze methode trek je een aantal van de clusters aselect en die personen op te nemen in je steekproef (bijvoorbeeld een aantal brugklassen en dan van een brugklas alle kinderen meenemen in steekproef). De waarneming binnen een cluster is wel afhankelijk van elkaar. De omvang van clustersteekproeven moet dan groter zijn dan andere aselecte steekproeven, maar het is wel gemakkelijker en economischer.

Bij groepsgewijze afname is behandeling van alle personen door de onderzoeker gelijk. Dit is een vorm van standaardisatie. Echter is het bij deze methode wel moeilijk om controle uit te oefenen op het invulgedrag.

Een hoge non-respons zorgt voor een selecte steekproef. Het zou zo kunnen zijn dat diegene die vragenlijst terugsturen verschillen in meerdere opzichten dan diegene die het niet terugsturen. Een goed getrokken aselecte steekproef kan door non-respons alsnog vertekende gegevens opleveren.

Welke afnamemethode de onderzoeker kiest hangt af van het onderwerp en doel van het onderzoek. Er zijn de volgende mogelijkheden:

  • Schriftelijk per post: dit kan erg lang duren voor je ingevulde vragenlijsten terug hebt, responspercentage is erg laag.
  • Schriftelijk groepsgewijs: dit is erg goedkoop, het responspercentage is erg hoog, maar de controle op het invulgedrag blijft lastig.
  • Persoonlijke interview: dit is erg duur doordat het veel tijd kost, de controle is groot en het responspercentage redelijk hoog. Maar gevaar is de invloed die de afnemer van de test en geteste op elkaar hebben.
  • Telefonisch interview: dit is snel en niet duur, het responspercentage is vrij hoog. Vragen moeten eenvoudig zijn en het is niet mogelijk om met afbeeldingen te werken.
  • Afname achter de computer: hier is een zeer constante invloed van de testafnemer (computer), het is snel en goedkoop, er moet wel altijd computer aanwezig zijn.

Voor wat betreft de normering voor keuze van de afnamemethode, dan geven groepsgewijze schriftelijke afname en afname per computer data van hogere kwaliteit en zijn vrij goedkoop. Deze zijn voor veel onderzoek het meest geschikt.

Afname van een test door middel van persoonlijk interview is erg duur en daardoor niet geschikt voor normering. Methode is wel van belang bij ontwikkeling van een test (door aan proefpersonen te vragen of ze de vragen begrijpen en dergelijke).

Een noodzakelijke voorwaarde voor de interpretatie van verschillen in testscores is een gestandaardiseerd testafname, zodat situatie, proefpersonen even gemotiveerd e.d., test en testafnemers voor iedereen gelijk is.

Hoofdstuk 11: Beschrijvend testgebruik

Bij testconstructie wordt gestreefd naar eendimensionaliteit, dat is een verzameling van items die een schaal vormt en het is ook prettig als die niet meer items heeft dan nodig is en die over het hele continuüm (normgeoriënteerd) of een deel van het continuüm (criteriumgeoriënteerd) goed meet en betrouwbaar en valide is.

Een onderzoeker die een test wil construeren begint normaal met meer items dan dat hij over wil houden.

Een klassieke itemanalyse bestaat uit de volgende stappen:

  1. De (ondergrens) van de betrouwbaarheid (geeft bruikbaarheid van gekozen itemverzameling) wordt bepaald.
  2. Items worden geanalyseerd en op grond hiervan worden items verwijderd of herzien.
  3. Verwijdering of herziening stopt als onderzoeker zijn doel heeft bereikt en de betrouwbaarheid wordt opnieuw berekend.

Betrouwbaarheid

Als items niet parallel zijn geeft Cronbach’s alfa de ondergrens van de betrouwbaarheid weer. Verwijdering van slechte items zal leiden tot grotere parallelliteit en dus tot hogere betrouwbaarheid. De formule is:

Zie figuur 36

Als de variantie van een item te klein is en / of de correlatie met de overige items is te laag, levert dat item onvoldoende bijdrage aan de betrouwbaarheid van een test.

Kenmerken waarop items beoordeeld kunnen worden zijn:

  1. Itemmoeilijkheid;

Dit is gelijk aan het itemgemiddelde. Voor dichotome items is de itemmoeilijkheid de proportie respondenten die het item goed maken (= pi). Erg makkelijke en erg moeilijke items hebben een geringe variantie en zijn daarom niet efficiënt om te gebruiken.

  1. Itemvariantie

Als alle respondenten dezelfde antwoorden kiezen is de variantie van een item nul. Naarmate de variantie groter is, kan het item meer bijdragen aan de betrouwbaarheid van de test (bijvoorbeeld een gemakkelijk item van een test heeft iedereen goed, dat is niet representatief voor je begrip). Een schatter voor de itemvariantie
σi2 = zie figuur 37
Voor dichotome items is dit: zie figuur 38 = zie figuur 39
De variantie van een dichotoom item is σi2 = πi ( 1 – πi) en deze variantie is maximaal (σi2 = 0,25) als πi = 0,5. De geschatte itemmoeilijkheid pi zal dus ongeveer 0,5 moeten zijn opdat de itemvariantie zo groot mogelijk is. De maximale variantie van een niet-dichotoom gescoord item is afhankelijk van de gebruikte schaal.

  1. item-intercorrelatie;

Als een item met voldoende variantie niet samenhangt met andere items levert deze geen bijdrage aan de betrouwbaarheid van de test. Item-intercorrelatie (= samenhang van tweetal items uit de test) wordt berekend door productmomentcorrelatie ->

ρyz = zie figuur 40. Voor dichotome items is dit de phi-coëfficiënt,
de formule is: zie figuur 41 = zie figuur 42

De item-intercorrelaties worden overzichtelijk weergegeven in de item-intercorrelatiematrix, hiervoor gelden richtlijnen:

  • de matrix mag geen negatieve correlaties bevatten
  • de matrix mag geen te hoge correlaties bevatten (in dat geval meten desbetreffende items te veel hetzelfde en is een overbodig)
  • item-intercorrelaties tussen 0,2 en 0,7 zijn gewenst.

Bij een goede test moet de gemiddelde item intercorrelatie rond de 0,3 liggen.

Op basis van item-intercorrelaties kunnen slechte items herkend worden, als de rest tenminste wel aan deze richtlijnen is voldaan.

  1. itembetrouwbaarheidsindex

Items die grote itemvariantie hebben en die ook nog een hoge itemdiscriminatie hebben, hebben de voorkeur bij de selectie van items. Deze beide zijn gecombineerd in de itembetrouwbaarheidsindex = product van de standaardafwijking van de itemscores (Si) en de productmomentcorrelatie van item-testscores (rit) -> Si rit.
Hoe hoger de waarde van de itembetrouwbaarheidsindex, Si rit, hoe beter.

  1. Itemdiscriminatie

Een item dat goed discrimineert tussen personen met een hoge en een lage score op de test wordt door de eerste groep anders beantwoord dan door de laatste. Itemdiscriminatie wordt berekent door de productmomentcorrelatie tussen de itemscores en testscores te berekenen -> item-testcorrelatie (rit) geeft aan in hoeverre het item homogeen is met de test (= itemhomogeniteit). De interne consistentie wordt gemeten met Cronbach’s alfa en de split half betrouwbaarheid van Spearman Brown. De correlatie tussen een item en de test is een goede maat voor de discriminatie van een item. Als er een positieve item-testcorrelatie is, betekent dat voor een indicatief gescoord item dat deze goed discrimineert tussen personen die hoog en laag scoren op de test. Deze waarde wordt iets geflatteerd doordat de testcorrelatie van de hele test is, waar dus ook dat item bij zit. Hiervoor is een correctie voor valsheid en heet item-restcorrelatie (rir), hier bereken je score op het item en de score op de rest van de test.

Norm voor deze rir moet groter zijn dan 0,20 en het liefst 0,40. Dichotomie wordt aangegeven met punt-biseriele item-test en item-restcorrelaties.

Item-rest (en ook item-test) correlaties zijn afhankelijk van de overige items in de test. Als een item uit de test wordt verwijderd of wordt toegevoegd zullen ze item-restcorrelaties van alle items veranderen.

  1. Van Naerssens f

Deze index is gebaseerd op de signaal-ruisverhouding (F) van de test. F = zie figuur 43.

Voor deze F kan een schatter voor P2XT gebruikt worden = zie figuur 44

f = verschil van signaal-ruisverhouding van de totale test en de test waaruit item i is verwijderd ->

fi = F – F(i)

Van Naerssens f kan positieve en negatieve waarden aannemen. Positief betekent dat toevoeging van item i de betrouwbaarheid van de test verhoogt, negatief geeft aan dat een item de betrouwbaarheid van een test verlaagt.

Eigenschappen voor de bruikbaarheid van de fi:

  • de index heeft een betekenisvol nulpunt (fi van item dat nul is: draagt niets bij aan betrouwbaarheid)
  • de fi’s zijn onafhankelijk van de testlengte (daarom kun je dit vergelijken met tests van verschillende lengtes)

Van Naerssens f-index is afhankelijk van de andere items in de test. Het toevoegen of verwijderen van een item heeft invloed op de testbetrouwbaarheid en daarmee op de fi-waarde van een item. Na verwijdering of toevoeging moeten de fi’s steeds opnieuw worden berekend. Norm voor de f-waarden geldt dat deze in ieder geval positief moet zijn en bij voorkeur aanzienlijk groter dan nul.

Na elke stap (verwijdering van negatieve fi’s) moeten f waarden opnieuw worden berekend, je stopt wanneer er geen negatieve fi’s meer zijn.

Verwijdering van een slecht item uit een test maakt meestal de andere slechte items duidelijker slecht.

Latente trektheorie

Bij Continue itemresponsen hoort een-factormodel.

Bij discrete (en dichotome) itemresponsen horen de parametrische logistische modellen.

Een-factormodel:

Aanname: regressie van de itemrespons is lineair.

εr (Xij | Tj = tj) = bi + ai tj , waarbij ai = itemdiscriminatieparameter en bi = itemmoeilijkheid.

Varr (Xij|T= tj) = Zie figuur 45 = derde itemparameter, de variantie. Deze is hetzelfde voor alle personen en alleen afhankelijk van item en niet van persoon (= homogeen met betrekking tot personen).

Kwaliteit van een test wordt onderzocht door test (I)- en iteminformatiefunctie (Ii).

Ii = zie figuur 46 I = zie figuur 47 = zie figuur 48

De iteminformatie is groter als de itemdiscriminatie (ai) groter is en de variantie van de itemrespons kleiner is. Testinformatie is gelijk aan de som van de afzonderlijke iteminformaties. Testinformatie is omgekeerd evenredig aan de voorwaardelijke meetprecisie. Goede items zijn items met een hoge iteminformatie (Ii).

Onder het eenfactormodel is het (90%)bhi voor voorwaardelijke meetprecisie als volgt:

Zie figuur 49

Wanneer de kwaliteit van de test toeneemt, wordt î = zie figuur 50 groter en het betrouwbaarheidsinterval kleiner.

Verhelst- en Eggenmodel

Het is een model voor dichotome responsen.

Het model bestaat uit twee parameters, namelijk itemdiscriminatie (alfa, moeten worden door de onderzoeker worden gespecificeerd, zijn positieve hele getallen) en moeilijkheidsparameter (deze wordt geschat).

Bij dit model mogen de regressiefunctie van de verschillende items in helling verschillen. Dat is een oordeel boven het Rasch model. Het is flexibeler en past dus eerder op data.

Uitgangspunt is dat geobserveerde responsen bepaald worden door een latente trek. Als het model past, is er dus gelijk aan de assumptie van eendimensionaliteit voldaan.

Regressiefunctie van dit model is: εr (X’i | Tj = tj) = zie figuur 51

Slechtste items worden verwijderd en dan pas worden de resterende items opnieuw onderzocht. Als je regressiefuncties laat verschillen in helling (ai) wordt het model flexibeler en verbetert de passing. Hoe hoger de discriminatie αi, des te steiler is de regressiefunctie van dat item en hoe beter het item discrimineert tussen personen met een latente trekwaarde tj in de buurt van itemmoeilijkheid bi. α moet zelf door de onderzoeker vooraf vastgesteld worden. Informatie van item i voor persoon met latente trekwaarde tj is :Ii (tj) =

Zie figuur 52

Iteminformatie is een functie van de latente trek. Dat is anders dan bij het eenfactormodel, waarbij de iteminformatie hetzelfde is voor alle waarde van de latente trek T.

De maximale waarde van iteminformatie is als latente trek gelijk is aan itemmoeilijkheid =

T = b*i. = zie figuur 53 α2i

De testinformatie is de som van de iteminformaties gegeven waarde op latente trek.

Een test die goed moet discrimineren tussen personen op een specifieke waarde, moet zijn hoogste testinformatie hebben rond die trekwaarde. Gewenst is dat de informatie het hoogst is rond de gemiddelde trekwaarde.

Als vijf items worden verwijderd, hoeven de itemparameters niet opnieuw berekend te worden, want deze veranderen onder dit model niet door items aan de test toe te voegen of te verwijderen.

Voor welke methode men kiest hangt af van de soort itemresponsen en het doel van de test.

Latente trekmodellen worden gebruikt om aannames, zoals eendimensionaliteit te toetsen. Het Verhelst en Eggen model (en ook Rasch en Birnbaum) kunnen ook gebruikt worden om tests te construeren die voor een bepaalde trekwaarde een maximale discriminatie tussen personen bieden. De schattingsmethoden van deze latente trekmodellen zijn preciezer en leveren normaal betere resultaten op. Deze latente trekmodellen hebben echter een groot nadeel, ze zijn te streng en veel items voldoen niet aan de eisen van de modellen.

Het voordeel van de klassieke testtheorie is vooral praktisch, eenvoudiger, bekender en meer toegepast en minder streng. Dit is dan ook weer gelijk een nadeel, want de aannames lenen zich meestal niet voor empirische controle. Het maakt niet uit welke type respons je hebt, voor elke respons is er wel een klassiek of itemresponsmodel.

Hoofdstuk 13: In de praktijk

Adaptief toetsen

Met adaptief toetsen kun je snel en efficiënt de latente trekwaarde van een persoon schatten.

Een voorlopige (eerste) schatting is t^j(1) de latente trek persoon j. De informatie van deze schatting is: zie figuur 54

Hoe kleiner deze voorwaardelijke meetprecisie (onderste deel breuk) hoe groter de informatie over de latente trekwaarde van persoon j is. Als de gevonden waarde kleiner is dan de criteriumwaarde dan is de informatie te laag en wordt er doorgegaan met het toetsen van iemand. Het programma berekent dan een tweede schatting. Dit duurt net zolang tot de informatie hoog genoeg is.

Bij adaptief toetsen krijgen de goede leerlingen moeilijke items en een zwakke leerling krijgt gemakkelijke items (dit doet men niet bij conventionele toetsen). Ander voordeel van adaptief toetsen is dat per persoon minder dan n items afgenomen hoeven worden om dezelfde informatie te krijgen als met een conventionele n item toets. Het is wel erg duur.

M-waarde is de aannemelijkheid van het antwoordpatroon van persoon j die een aantal items goed heeft beantwoord = Mj = zie figuur 55

Personen met lage m-waarden kunnen laten zien dat de persoon de vragen van de test op een afwijkende manier heeft beantwoord. Iemand met een niet-aannemelijk antwoordpatroon, heeft de test op een andere manier beantwoord dan men zou verwachten. Oorzaken zouden kunnen zijn dat iemand soms moeilijk op gang kan komen, ook wel sleeping behavior genoemd. Of iemand heeft misschien gespiekt. Een niet-aannemelijk antwoordpatroon kan erop wijzen dat testresultaat niet-valide is van hij of zij.

Het equivaleren van tests en studietoetsen gaat om het vergelijkbaar maken van prestaties op onderling verschillende tests of toetsen die ongeveer hetzelfde begrip meten. Somscores van het examen en herexamen zijn onderling niet vergelijkbaar, maar de geschatte latente trekwaarden zijn wel vergelijkbaar. Dit gaat bijvoorbeeld om een examen dat zelf makkelijker is dan het herexamen. Adaptieve tests zijn vaak slecht geconstrueerd en geven geen goed beeld van iemands capaciteiten.

Tests moeten de eigenschappen van de persoon meten en niet de persoon zelf in getallen willen vatten. Eigenschappen kunnen onderling vergeleken worden, bijvoorbeeld lengte en vaardigheid.

Wet

Voor elke tests is er toestemming nodig van een persoon. Er is in de volgende gevallen geen toestemming nodig:

  • het testen wettelijk is geregeld
  • het testen een vast onderdeel vormt van schoolactiviteiten bijvoorbeeld landelijk afgenomen toetsen
  • toestemming stilzwijgend overeengekomen is (bijvoorbeeld bij testen van sollicitanten)

Personen moeten begrijpelijke uitleg krijgen over hun testresultaten en over de daaruit volgende de conclusies en aanbevelingen die daarop worden gebaseerd. Kwalificaties van personen op basis van testresultaten mogen niet stigmatiserend van aard zijn. Een voorbeeld hiervan is dat dat het fout is om te zeggen dat persoon j is ongeschikt voor deze functie, het is beter om te zeggen dat persoon j minder geschikt is voor deze functie.

Contributions, Comments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Summaries & Study Note of World Supporter Cycle
Join World Supporter
Join World Supporter
Log in or create your free account

Why create an account?

  • Your WorldSupporter account gives you access to all functionalities of the platform
  • Once you are logged in, you can:
    • Save pages to your favorites
    • Give feedback or share contributions
    • participate in discussions
    • share your own contributions through the 11 WorldSupporter tools
Content
Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
2
Promotions
wereldstage wereldroute

Tussenjaar of sta je op het punt op kamers te gaan?

Wereldroute biedt jou een leerzaam en onvergetelijk Student Prepare Program aan