Samenvatting van: Validiteit, Analyse van tests, Beslissend testgebruik, Utiliteit analyse, Item respons theorie

Let op: deze samenvatting is door een student geupload en dus niet gecontroleerd voor publicatie


Hoofdstuk 5: Validiteit

Begrip, test en validiteit

Validiteit betekent letterlijk ‘geldigheid’. Validiteit gaat over de mate waarin een test meet wat hij zou moeten meten, en de mate waarin een test aan zijn doel beantwoordt.

Over het algemeen kan men niet spreken over ‘de validiteit van een test’. Een test is namelijk voor sommige doeleinden wel valide, en voor sommige doeleinden niet. Je spreek daarom over de validiteit van het gebruik en de interpretatie van een test.

Er kan onderscheid gemaakt worden tussen twee typen testgebruik:

  • Beschrijvend testgebruik: een test waarbij bepaald gedrag of een eigenschap van een individu of een groep personen gemeten wordt

  • Beslissend testgebruik: een test die bedoeld is voor selectie, classificatie of diagnostisering

Er kunnen twee soorten validiteit onderscheiden worden:

  • Criteriumgeoriënteerde validiteit: hoe goed kan de test voorspellingen doen

  • Begripsvaliditeit: hoe goed dekt de test het begrip

Historisch overzicht

Aanvankelijk werden er drie typen validiteit onderscheiden:

  • Inhoudsvaliditeit: de mate waarin een test álle aspecten van het te meten begrip omvat. Hoe meer aspecten van het begrip hij meet, hoe hoger de inhoudsvaliditeit

  • Criteriumgeoriënteerde validiteit: de mate waarin een test vergelijkbaar is met een of meer andere externe variabelen, die over hetzelfde begrip of een deel van begrip gaan. Hierin zijn weer twee soorten criteriumgeoriënteerde validiteiten te onderscheiden:

Predicitieve validiteit gaat over een vergelijking met een criterium in de toekomst (bijv: voorspelt de cito toets goed naar wat voor hoger onderwijs iemand moet)
Concurrent validiteit gaat over de vergelijking met een criterium dat gelijktijdig geobserveerd kan worden (bijv: laat de test goed zien welke stoornis iemand nu heeft)

  • Begripsvaliditeit: de mate waarin de test wel een goede indicator is voor het te meten begrip. Dus bijvoorbeeld wanneer men in een test het aantal dienstjaren ziet als een indicator voor arbeidstevredenheid, dan is de vraag naar begripsvaliditeit de vraag of het aantal dienstjaren inderdaad representatief is voor arbeidstevredenheid.

Tegenwoordig wordt inhoudsvaliditeit als een onderdeel van begripsvaliditeit gezien.

Er wordt niet alleen over de validiteit van meetinstrumenten gesproken, maar ook over de validiteit van wetenschappelijke uitspraken in het algemeen. Ook hierbinnen zijn weer verschillende validiteiten te onderscheiden: statistische conclusievaliditeit, interne validiteit ( = mogen de conclusies wel getrokken worden), externe validiteit ( = is de steekproef te generaliseren naar de populatie) en begripsvaliditeit (= was de operationalisatie succesvol)

Tegenwoordig draagt bijna alle informatie over de interpretatie van testresultaten bij aan de validiteit. Het is bijna niet meer mogelijk om met elke kleine vorm van validiteit rekening te houden.

Criteriumgeoriënteerde validiteit

Het criterium

Een criterium is hetgeen waar je voorspellingen over wilt doen. Als je bijvoorbeeld met een test depressie wil meten, dan is depressie het criterium. Hoe beter een test de variaties in het criterium kan voorspellen, hoe hoger de criteriumgeoriënteerde validiteit is. Criteriumgeoriënteerde validiteit kan beoordeeld worden aan de hand van de correlatie tussen de test en het criterium.

Er kunnen verschillende soorten criteria onderscheiden worden:

  1. Criteria kunnen specifiek of globaal zijn. Dat houdt in, criteria kunnen over een klein aantal situaties gaan (bijv verlegenheid bij leeftijdsgenoten), of over een groot aantal situaties (bijv verlegenheid in alle soorten situaties).

  2. Criteria kunnen in de toekomst liggen, in het heden of in het verleden. Dit leidt tot het onderscheid wat al eerder is gemaakt, namelijk predictieve en gelijktijdige criteriumgeoriënteerde validiteit. Criteria in de toekomst gaan vaak over beroepskeuze, selectie en toewijzing aan therapieën. Gelijktijdige criteria en criteria uit het verleden gaan vaak over diagnostisering.

  3. Ook kan er bij criteria die in de toekomst liggen, onderscheid gemaakt worden tussen uiteindelijke, tussentijdse en onmiddellijke criteria. Hoe uiteindelijker het criterium hoe relevanter. Het is alleen vaak zo dat uiteindelijke criteria moeilijker zijn om betrouwbaar te meten.

De relatie tussen een test en een criterium wordt meestal aangeduid met de correlatie tussen beide. Een relatie tussen de test en het criterium biedt alleen steun voor de criteriumgeoriënteerde validiteit, wanneer er een inhoudelijke verklaring is voor deze relatie.

Onderzoek naar criteriumgeoriënteerde validiteit

Om na te gaan of er criteriumgeoriënteerde validiteit is, moeten er een aantal stappen doorlopen worden.

Als eerste moet er een criterium gekozen worden. Er zijn meerdere operationalisaties van het begrip-zoals-bedoeld mogelijk, en daarom is het van belang om goed te kijken welke van die operationalisaties het beste aansluit bij het gebruiksdoel van de test.

Als tweede moet er een keuze gemaakt worden over de criteriummaat waarmee het criterium gemeten gaat worden. Doordat er vaak een beperkte beschikbaarheid is van relevante gegevens, is het moeilijker om een goede criteriummaat te kiezen. Het niveau waarop het criterium gemeten wordt (dus interval/ratio of ordinaal of nominaal) heeft gevolgen voor de maat die je moet gebruiken om de relatie tussen het criterium en de test vast te stellen.

Wanneer je criteria op nominale of ordinale schaal meet, maak je groepen waarin je personen indeelt op basis van de mate waarin zij voldoen aan het criterium. Deze groepen noem je criteriumgroepen. Wanneer je criterium ‘angstig’ is, kun je mensen indelen in een ‘niet-angstige’ en een ‘angstige’ groep. Met de test probeer je dan vervolgens ook mensen te onderscheiden op angstig en niet-angstig. Zo ontstaan er vier groepen: mensen die volgens de test angstig zijn en ook daadwerkelijk angstig zijn, mensen die volgens de test angstig zijn maar daadwerkelijk niet angstig zijn, mensen die volgens de test niet angstig zijn maar in werkelijkheid wel angstig zijn, en mensen die volgens de test niet angstig zijn en in werkelijkheid ook niet angstig zijn. Hoe beter de classificatie gelukt is, dus hoe beter de test heeft voorspeld of mensen angstig zijn, hoe meer steun voor de validiteit.

Als derde ga je kijken wat de betrouwbaarheid en de validiteit van de criteriummaat zijn.

De correlatie tussen de ware scores van test X en criterium Z wordt berekend met een formule (zie syllabus blz. 54). In deze formule deel je de correlatie tussen test X en criterium Z door de betrouwbaarheid van X en de betrouwbaarheid van Z. Uit de formule is af te leiden, dat een onbetrouwbare criteriumscore onvermijdelijk zorgt voor een lage correlatie, en dus zorgt voor een lagere validiteit.

In feite zijn de test en het criterium allebei operationalisaties van het begrip-zoals-bedoeld. Om te achterhalen of het criterium goed is, zou deze ook weer gevalideerd moeten worden aan een extern criterium. Zo blijf je bezig met validiteitsonderzoeken, dit wordt het Droste-effect genoemd.

Als vierde ga je de steekproef samenstellen. Vaak worden er in de praktijk specifieke groepen als steekproeven gebruikt, omdat ze eenvoudig beschikbaar zijn. Dit is pas gerechtvaardigd als de onderzoeker kan aantonen dat deze specifieke steekproef representatief is voor de rest van de populatie waar de test voor bedoeld is.

Als vijfde ga je de predictieve dan wel gelijktijdige criteriumgeoriënteerde validiteit bepalen.

Het bepalen van predictieve validiteit:
Deze vorm van validiteit betreft vaak longitudinaal onderzoek. Longitudinaal onderzoek brengt problemen met zich mee door de tijd die tussen de afname van de test en het meten van het criterium zit. Een ander probleem is dat vaak het criterium alleen gemeten wordt bij de groep die op basis van de test is aangenomen. De mensen die zijn afgewezen worden vaak niet meer gemeten. Naast dat de correlatie nu niet meer voor de hele groep is na te gaan, is de groep door selectie ook homogener. Deze selectieve, niet volledige sample wordt restriction of range genoemd. Door de restriction of range wordt de correlatie tussen test en criterium lager, waardoor de predictieve validiteit afneemt. Deze lage correlatie is dan niet toe te schrijven aan een lage criteriumgeorienteerde validiteit, maar aan de ‘restriction of range’ als gevolg van selectie.

Het bepalen van gelijktijdige validiteit:

Ook het onderzoek naar gelijktijdige validiteit brengt problemen met zich mee. Een voorbeeld hiervan is dat wanneer respondenten een diagnose test moet invullen, zij vaak geneigd zijn om een consistent patroon te vertonen van antwoorden of gedrag. Hierdoor zullen test en criterium meer overeenkomst vertonen dan in werkelijkheid het geval is. Een ander probleem is ook weer restriction of range. Stel dat je alleen psychologie studenten meet, dan heb je al een selectieve groep, namelijk een jonge groep die over het algemeen intelligent is. Ook plafond- en bodemeffect kunnen zorgen voor restriction of range.

Begripsvaliditeit

Begripsvaliditeit van een test geeft aan in hoeverre die test een goede meting is van het onderliggende theoretische begrip (construct). Deze relatie tussen de test en het onderliggende theoretische begrip is niet direct meetbaar. Steun voor begripsvaliditeit moet daarom komen van verschillende gegevens. Er moeten gegevens verzameld worden over het inhoudsdomein, de interne structuur en het nomologisch netwerk.

Inhoudsdomein

Het inhoudsdomein omvat een beschrijving van álle aspecten van waar het begrip over gaat. Er kan onderscheid gemaakt worden tussen het theoretische begrip-zoals-bedoeld en het empirische begrip-zoals-bepaald. Het begrip-zoals-bedoeld heeft in de psychologie een surplus-betekenis. Dat betekent dat het begrip-zoals-bedoeld niet te vangen is in een operationele definitie (denk maar aan het begrip intelligentie, hiervoor is moeilijk een goede operationele definitie voor te bedenken). Daarom zijn er verschillende testen die verschillende aspecten van het begrip meten. Het inhoudsdomein geeft ook de reikwijdte van de verschijnselen aan. Als bijvoorbeeld een rekentoets bedoeld is voor kinderen uit groep 8, dan worden er geen rekenvaardigheden gevraagd die boven het niveau van kinderen uit groep 8 zijn. Aan de vragen kun je zien hoe groot de doelgroep is waarvoor de test bedoeld is.

Het inhoudsdomein kan op een systematische manier in kaart gebracht worden door het begrip op te delen in facetten. Facetten zijn de belangrijkste aspecten van een begrip.

Interne structuur

Wanneer je een begrip opdeelt in meerdere items, dan zouden die items onderling met elkaar moeten samenhangen. Wanneer je meervoudige begrippen meet, zoals intelligentie, dan zouden de items binnen een bepaalde subschaal van intelligentie meer met elkaar moeten samenhangen dan met items uit een andere subschaal.

Nomologisch netwerk

Het nomologisch netwerk is een netwerk dat bestaat uit de relaties van:

1. het begrip met andere begrippen

2. het begrip met operationalisaties van die begrippen

3. relaties tussen de operationalisaties onderling

Een test zou moeten samenhangen met andere tests die hetzelfde begrip meten, vooral als deze tests ook nog dezelfde meetmethode gebruiken. Ook moet een nieuwe test hetzelfde patroon van samenhang met verwante en niet-verwante begrippen vertonen als andere tests die hetzelfde begrip meten.

Onderzoek naar begripsvaliditeit

Steun voor begripsvaliditeit komt voort uit steun voor de dekking van het inhoudsdomein, de interne structuur, en de relatie met andere begrippen en tests.

Dekking van het inhoudsdomein

Als eerste wordt steun gezocht naar de dekking van het inhoudsdomein. Steun voor de dekking van het inhoudsdomein kan verkregen worden door de items te laten beoordelen door experts. Ook empirische dekking is mogelijk. Je kunt een test vergelijken met een andere test die hetzelfde begrip meet, en dus hetzelfde inhoudsdomein heeft. Wanneer deze sterk samenhangen levert dit steun voor de keuze van jouw inhoudsdomein en de dekking ervan (je items). Ook kun je bepaalde groepen de test laten maken, waarvan je al weet hoe zij zouden moeten scoren op de test. Wanneer ze zo scoren zoals je verwacht, biedt dit ook steun voor het inhoudsdomein. Wanneer je items niet het hele domein van je begrip dekken, noem je dit partiële dekking. Items kunnen ook foutief dekken, in dat geval meten de items iets anders dan het beoogde begrip. De items kunnen bijvoorbeeld sociaal wenselijkheid meten. Ook kan er antwoordtendentie opgetreden zijn. Antwoordtendentie betekend dat er een neiging is om op een vragenlijst min of meer constant te reageren, onafhankelijk van de inhoud van de items.

Onderzoek naar interne structuur

Als tweede wordt onderzoek gedaan naar de interne structuur. Wanneer een meetinstrument geacht wordt één begrip te meten, moet hij voldoen aan een eendimensionaal model. Bij een meetinstrument voor een meerdimensionaal begrip (zoals de Big-Five), dient het meetinstrument alle verschillende aspecten van het begrip eendimensionaal te kunnen meten. Er moet vervolgens de samenhang optreden tussen items die van tevoren verwacht werden samen te hangen.

Relatie met andere begrippen en tests

Als derde wordt gekeken naar het nomologisch netwerk. Tests worden verwacht een correlatie te hebben met verwante begrippen, en geen correlaties met niet-verwante begrippen.

Multitrek-multimethodematrix van Campbell en Fiske

Campbell en Fiske hebben een strategie ontwikkeld om de begripsvaliditeit van een test te evalueren. Volgens hen komt variantie in een test deels doordat mensen verschillen op de gemeten trek (trek-variantie) en deels door de methode die gebruikt wordt (methode-variantie).

Campbell en Fiske gebruikten de multitrek-multimethode-aanpak om begripsvaliditeit te meten. Deze aanpak stelt dat een test zowel convergentie als divergentie moet aantonen. Bij convergentie wordt dezelfde trek gemeten, maar dan met andere methoden. Als hiertussen een correlatie is biedt dit steun voor de begripsvaliditeit. Bij divergentie wordt de test met meerdere andere methoden en andere trekken vergeleken. Hiertussen wil je juist geen correlatie. Je wilt in je test naar zelfvertrouwen bijvoorbeeld geen correlatie met een test die sociaal wenselijkheid meet.

In een multitrek-multimethodematrix worden de verschillende methoden en verschillende trekken weergegeven in een matrix. Wanneer je bijvoorbeeld een matrix maakt waarin je drie trekken onderscheid, en drie methoden, dan levert dit 9 tests op. Elke test kan gezien worden als een trek-methode-eenheid. In deze matrix worden de waarden van convergentie (c), divergentie (d), methodevariantie (m) en betrouwbaarheidscoëfficiënten (b) gegeven (voor een duidelijk overzicht, zie blz 65 van syllabus).

Op basis van de matrix kan validiteit geëvalueerd worden. Er zijn vier eisen voor validiteit:

  • De correlaties tussen testen die dezelfde trek met een andere methode meten moeten significant van nul verschillen (dit is convergentie)

  • De waarden van convergentie moeten groter zijn dan de waarden van divergentie. Dus de correlatie tussen tests met verschillende methoden die dezelfde trek meten, moeten groter zijn dan de correlatie tussen tests met verschillende methoden die verschillende trekken meten.

  • De waarden van convergentie moeten groter zijn dan die van de methodevariantie. Dus de correlatie tussen tests met verschillende methoden die dezelfde trek meten moeten groter zijn dan correlaties tussen tests met dezelfde methoden die verschillende trekken meten.

  • Wanneer er in één methode samenhang gevonden wordt tussen twee trekken, moet deze samenhang ook gevonden worden met andere methoden.

Nieuwe ontwikkelingen

Een moderne techniek voor de analyse van multitrek-multimethodematrices is confirmatieve factoranalyse. Met behulp van confirmatieve factoranalyse kunnen uitspraken gedaan worden over latente variabelen en is het mogelijk om de passing van een model te toetsen. Ook is het voordeel van deze nieuwe benadering dat niet alleen het testresultaat zelf, maar ook de processen die tot het resultaat hebben geleid worden betrokken in het validatieproces.

Slotopmerkingen

  • Als een test gebruikt wordt voor selectie, diagnose, classificatie of een andere vorm van beslissend testgebruik, is criteriumgeoriënteerde validiteit relevant

  • Wanneer testgebruik beschrijvend is, is criteriumgeoriënteerde validiteit niet zo relevant

  • Betrouwbaarheid is een voorwaarde voor validiteit. Dus wanneer een test valide is, is hij per definitie betrouwbaar. Wanneer een test betrouwbaar is, is deze niet per definitie valide.

  • In de praktijk zijn convergentie correlaties vaak laag, dit komt door o.a. lage betrouwbaarheid, homogene steekproef, etc.

  • Validatie is een dynamisch proces en validiteitsbepaling is een nooit afgerond proces, omdat de validiteit van een test nooit bewezen kan worden

Hoofdstuk 6: Analyse van tests (selecteren van geschikte items)

In een test wordt getracht de meest geschikte items te selecteren. Ook wordt gestreefd naar een verzameling items die één schaal vormen (eendimensionaal is), die niet meer items heeft dan nodig, en die over het geheel (normgeorienteerd) of voor een deel van het continuüm (criteriumgeoriënteerd) betrouwbaar en valide is. Het selecteren van de meest geschikte items kan gedaan worden d.m.v. van klassieke testtheorie of op basis van latente trektheorie. In dit hoofdstuk word de klassieke testtheorie besproken.

Klassieke testtheorie

Onderzoekers beginnen vaak met het verzamelen van heel veel items, en gooien later de items eruit die niet relevant bleken. Er worden drie stappen gemaakt in de klassieke itemanalyse:

  1. De betrouwbaarheid wordt bepaald

  2. Items worden geanalyseerd en op basis hiervan herzien of verwijderd

  3. De verwijdering/herziening stopt als de onderzoeker zijn gestelde doel heeft bereikt

Betrouwbaarheid

Betrouwbaarheid (interne consistentie) van een test met 15 items wordt geschat door middel van Cronbach’s alpha en de formule van Spearman-Brown.

De eerste stap in de analyse van een test is het bepalen van de betrouwbaarheid van de totale itemverzameling. Wanneer deze erg laag is, moeten meer items worden verzameld. Wanneer deze redelijk is, kan er gekeken worden welke items weg kunnen.

Een test bevat vaak indicatieve en contra-indactieve items. Een contra-indictief item van het construct dominantie houdt in dat wanneer iemand hoog scoort op het item, dit wijst op een niet-dominante persoonlijkheid. Bij indicatieve items is het andersom. Wanneer iemand hoog scoort op het item, dan wijst dit op een dominante persoonlijkheid. Contra-indicatieve items moeten eerst omgerekend worden voordat ze geanalyseerd worden.

Chronbach’s alpha (α) kan berekend worden aan de hand van het aantal items, de testvariantie, en de som van de itemvarianties.

De Spearman-Brown formule wordt gebruikt voor de betrouwbaarheid van een test die bestaat uit verschillende parallelle delen die ieder een eigen betrouwbaarheid hebben. Wanneer je één test hebt, kun je de test in twee helften splitsen zodat je twee parallelle delen hebt, waardoor je de formule kan toepassen. De betrouwbaarheid van een test is over het algemeen goed te noemen als hij hoger is dan 0,80.

Na het vaststellen van de betrouwbaarheid worden de items afzonderlijk geanalyseerd. Wanneer de variantie van een item te klein is, of wanneer de correlatie met andere items laag is, levert dit item onvoldoende bijdrage aan de betrouwbaarheid. Op basis hiervan zijn er vijf kenmerken waarop items worden beoordeeld, ze zullen hieronder besproken worden.

  1. Itemmoeilijkheid

De itemmoeilijkheid is gelijk aan het itemgemiddelde. Hele moeilijke en hele makkelijke items hebben een kleine variantie, omdat ze over het algemeen door iedereen ongeveer hetzelfde gemaakt worden. Deze items wil je er daarom uit hebben. Vooral moeilijke items wil je eruit hebben aangezien die veel tijd van de test in beslag nemen.

  1. Itemvariantie

Een item met nul variantie is niet informatief, aangezien deze geen onderscheid laat zien tussen de respondenten.

  1. Inter-itemcorrelatie

De inter-itemcorrelatie geeft de correlaties tussen de items onderling weer. Wanneer een item helemaal niet correleert met de rest van de items, levert dit geen bijdrage aan de betrouwbaarheid van de test. Er kan een item-intercorrelatiematrix gemaakt worden waarin alle correlaties worden weergeven. Er zijn hiervoor twee richtlijnen: er mogen geen negatieve correlaties zijn, en er mogen niet té hoge correlaties zijn. Wanneer items een té hoge correlatie hebben dan zou dit erop wijzen dat de twee items precies hetzelfde meten waardoor eentje eigenlijk overbodig is. Op basis van de matrix kunnen de slechtste items geïdentificeerd worden.

  1. Itemdiscriminatie

Itemdiscriminatie geeft aan in hoeverre een item onderscheid kan maken tussen personen die hoog scoren op de gehele test en personen die laag scoren op de gehele test. Wanneer een item geen onderscheid kan maken tussen deze groepen, is hij niet informatief. Een goede maat voor de itemdiscriminatie is de item-testcorrelatie. De item-testcorrelatie geeft aan hoe homogeen een item met de test is, ook wel itemhomogeniteit genoemd. Maar, in de testscore zit ook de score op dat item. Daarom geeft de item-testcorrelatie een waarde die beïnvloed is door het item zelf en daarom niet betrouwbaar. Om hiervoor te corrigeren, bereken je de correlatie van het item met de rest van de test (item-restcorrelatie). Voor een informatief item is de ondergrens van de correlatie 0.20. Tussen 0.30 en 0.40 is de correlatie normaal.

  1. Itembetrouwbaarheidsindex

De itembetrouwbaarheidsindex is een combinatie van de itemvariantie en itemdiscriminatie. Hoe hoger de waarde van de itembetrouwbaarheidsindex, hoe beter.

  1. Van Naerssens f

Naerssens f is een waarde die aangeeft wat de bijdrage van een item aan de betrouwbaarheid van een test is. Deze waarde is de betrouwbaarheid van de totale test, waar de betrouwbaarheid van de test zonder item i vanaf is getrokken. Als Naerssens f een positieve waarde heeft, dan draagt het item iets bij aan de test. De Naerssens f is onafhankelijk van de testlengte.

Na de itemanalyse kunnen items verwijderd worden die niet aan bovenstaande normen voldoen. Meestal komen op basis van de item-restcorrelaties en de van Naerssen’s f dezelfde items naar boven die ongeschikt lijken. Na het verwijderen van de items kan de itemanalyse weer opnieuw uitgevoerd worden zonder deze items. Op deze manier kan een goede schaal geconstrueerd worden, waarbij er een alpha is hoger dan 0,8 en elk item een goede bijdrage levert aan de betrouwbaarheid.

Hoofdstuk 7: beslissend testgebruik

Er kan onderscheid gemaakt worden tussen vier typen psychometrische beslissingssituaties:

  • Classificatie. Classificatie gaat over het toewijzen van personen aan bijvoorbeeld banen, opleidingen, therapieën, etc. Op basis van een beroepskeuzetest kan bijvoorbeeld geschat worden dat iemand het beste docent zou kunnen worden.

  • Plaatsing. Bij plaatsing worden mensen ook toegewezen aan bepaalde ‘behandelingen’. Een voorbeeld hiervan is een rekenvaardigheidstest die leerlingen op basis van hun score op de test toewijst aan verschillende rekendidactieken, zodat ze het onderwijs krijgen dat ze nodig hebben. Uiteindelijk nemen alle personen wel deel aan hetzelfde criterium: ze moeten uiteindelijk allemaal een bepaalde rekentoets aan het einde van het jaar halen.

  • Selectie. Bij selectie worden personen aangenomen of afgewezen voor bijvoorbeeld banen, opleidingen of therapieën.

  • Beheersingssituatie. Beheersing gaat over het slagen of zakken op een studietoets.

Bij classificatie, plaatsing en selectie is er een extern criterium dat voorspeld wordt. Bij beheersing is er een intern criterium dat voorspeld wordt.

Selectie

Aangezien selectie de beslissingsmethode is die het meest gebruikt wordt binnen de psychologie, zal hier voornamelijk op ingegaan worden.

Bij selectie is het criterium altijd ordinaal of metrisch (ratio/interval). Bij selectie moeten twee onderscheiden gehanteerd worden: quotabeperkte selectie en quotavrije selectie. Bij quotabeperkte selectie is er een beperkt aantal plaatsen beschikbaar bij de instantie die mensen aan wil nemen. Hoeveel mensen zich ook aan zullen melden, het aantal sollicitanten dat aangenomen zal worden ligt van tevoren vast. Bij quotavrije selectie is er een onbeperkt aantal plaatsen. Alle mensen waarvan de instantie denkt dat zij geschikt zijn, worden aangenomen.

Ook kan er een onderscheid gemaakt worden tussen selectie uit één populatie en selectie uit meerdere populaties. Bij selectie uit subpopulaties worden sollicitanten bijvoorbeeld gesplitst op basis van geslacht of afkomst.

Quotabeperkte selectie

Wanneer een criterium continu of metrisch is, kan er gebruik gemaakt worden van regressie-analyse. In werkelijkheid worden er vaak meerdere predictoren gebruikt (meerdere tests), en daarom wordt er gebruik gemaakt van multiple regressie-analyse. Voor de formule van de lineaire regressiefunctie, zie blz. 100 van de Syllabus. In deze formule wordt het criterium Z voorspeld op basis van p predictoren. De regressiewaarde die hieruit komt, is de verwachte waarde van de Z waarden. Om gebruik te kunnen maken van de formule moeten eerst de parameters geschat worden (a en b). Wanneer dit gedaan is kan voor elk persoon de criteriumscore voorspeld worden. Deze verwachte criteriumscore wordt Z’ genoemd. Wanneer voor iedereen de voorspelde criteriumscore is berekend, kan gekeken worden wie de beste sollicitanten zijn. Dat zijn namelijk de sollicitanten met de hoogste voorspelde criteriumscore.

Quotavrije selectie

Om te beslissen hoeveel sollicitanten een instantie aan zou willen nemen, kan gebruik gemaakt worden van psychometrische besliskunde. In de besliskunde kan gebruik gemaakt worden van utiliteitsfuncties. Deze functies geven de opbrengst van de selectieprocedure weer. Oftewel: de hoeveelheid geschikte sollicitanten bij een bepaalde selectieprocedure. De grens van wanneer iemand geschikt is, kan door de instantie zelf bepaald worden. Een studie psychologie kan bijvoorbeeld studenten geschikt noemen wanneer zij hun BSA halen. Deze grens op het criterium Z, wordt aangeduid met d. Het percentage sollicitanten/studenten dat geschikt is, wordt aangeduid met de base rate. Aangezien een instantie niet iedereen wil aannemen die zich aanmeldt, kan een cesuur (aangeduid met c) worden ingesteld. Dit is een waarde waar sollicitanten aan moeten voldoen om aangenomen te kunnen worden. In het voorbeeld van psychologie, kan de cesuur zijn dat iedereen die hoger dan een 7 had op zijn eindexamen, wordt toegelaten. De studie verwacht dan dat mensen dat deze cesuur een goede voorspeller is voor het onderscheiden van geschikte en ongeschikte sollicitanten. De proportie sollicitanten die aangenomen wordt, wordt de selectieratio genoemd. Voor een overzicht van een aantal termen, zie de volgende tabel.

 

 

Ten onrechte afgewezen

False negative (P01)

 

Terecht aangenomen

True positive (P11)

 

Terecht afgewezen

True negative (P00)

 

Ten onrechte aangenomen

False positive (P10)

 

Bovenste rij: Geschikt
Onderste rij: Ongeschikt
Linker kolom: Aangenomen
Rechter kolom: Afgewezen

 

Op de Y-as van de tabel staat de werkelijke criteriumscore Z, en op de X-as staat de voorspelde criteriumscore Z’. Er zijn in deze tabel vier situaties te zien:

  • Mensen die terecht zijn aangenomen. Dat zijn dus mensen die hoger dan de cesuur scoorden op de voorspellende test, en hoger dan de grenswaarde scoorden op het uiteindelijke criterium. Dit type wordt ook wel true positive genoemd. De proportie van deze mensen wordt aangeduid met P11.

  • Mensen die terecht zijn afgewezen. Dat zijn dus mensen die lager dan de cesuur scoorden op de voorspellende test, en lager dan de grenswaarde scoorden op het uiteindelijke criterium. Dit type wordt ook wel true negative genoemd. De proportie van deze mensen wordt aangeduid met P00.

  • Mensen die ten onrechte zijn aangenomen. Dat zijn dus mensen die hoger dan de cesuur scoorden op de voorspellende test, en lager dan de grenswaarde scoorden op het uiteindelijke criterium. Dit type wordt ook wel false positive genoemd. De proportie van deze mensen wordt aangeduid met P10.

  • Mensen die ten onrechte zijn afgewezen. Dat zijn dus mensen die lager dan de cesuur scoorden op de voorspellende test, en hoger dan de grenswaarde scoorden op het uiteindelijke criterium. Dit type wordt ook wel false negative genoemd. De proportie van deze mensen wordt aangeduid met P01.

De base rate is gelijk aan de proporties van geschikte mensen, dus P01+P11. De selectieratio is gelijk aan de proportie van aangenomen mensen, dus P10+P11. Wanneer de cesuur lager wordt gezet (in de tabel verschuift de c dan naar links), wordt de proportie afgewezen sollicitanten kleiner, en de proportie aangenomen sollicitanten groter. Wanneer de cesuur hoger wordt (in de tabel verschuift de c dan naar rechts), is dit precies omgekeerd. De vraag welke cesuur optimaal is (laag, gemiddeld of hoog), kan bepaald worden door de drempelutiliteitsfunctie.

De verwachte utiliteit (opbrengst) is volgens de volgende formule te berekenen:

εUc = P00*p + P01 * q + P10 * r + P00 * s.

Waarbij p de utiliteit van een terecht afgewezen sollicitant is, q de utiliteit van een ten onrechte afgewezen sollicitant, r die van een ten onrechte aangenomen sollicitant en s die van een terecht aangenomen sollicitant. Deze formule kan je uitvoeren bij een lage, gemiddelde en hoge cesuur, en zo kun je kijken welke cesuur de hoogste verwachte utiliteit heeft. Deze cesuur is de meest optimale. Voor de base rate maakt het niet uit welke cesuur je kiest, de base rate verandert namelijk niet.

De meest optimale cesuur kan berekend worden met de volgende formule:

εUc* = - Q * P10 + P11

waarbij Q = (p - r)/(s - q).

Om de optimale cesuur is het niet nodig om p, r, s en q apart te specificeren. Er kan namelijk gebruik gemaakt worden van Q. Wanneer een instantie kiest voor een Q kleiner dan 1, dan betekent dit dat de instantie afwijzen/aannemen van geschikte sollicitanten belangrijker vindt dan afwijzen/aannemen van ongeschikte sollicitanten (dus false negative is erger). Als Q groter is dan 1, betekent dit dat de instantie afwijzen/aannemen van ongeschikte sollicitanten belangrijker vindt dan afwijzen/aannemen van geschikte sollicitanten (dus false positive is erger). Bij een Q van 1, vindt de instantie ongeschikte en geschikte sollicitanten even belangrijk.

Bij cultuureerlijke selectie worden soms verschillende subpopulaties onderscheiden. Bijvoorbeeld mannen en vrouwen worden onderscheiden. Er kunnen bijvoorbeeld verschillende cesuren worden opgesteld voor mannen en vrouwen.

Differentiële predictie

Voorheen werd er steeds gesproken over het hanteren van één regressiefunctie. Het kan echter zijn dat er voor verschillende subpopulaties andere regressiefuncties van toepassing zijn. In dat geval spreekt men van differentiële predictie. Een voorbeeld hiervan is de regressiefunctie voor het voorspellen van aantal gehaalde studiepunten. Hieruit bleek dat deze functies verschilden voor mannen en vrouwen. Als gevolg hiervan kunnen sollicitanten/studenten dus opgedeeld worden in twee subpopulaties. Dit kan aangegeven door een dichitome predictorvariabele (Y2) in te voeren in de regressiefunctie. Deze Y2 krijgt bij de ene subpopulatie een waarde van 0 en bij de andere subpopulatie een waarde van 1.

ε = b + a1y1 + a2y2.

a2y2 is de toegevoegde predictorvariabele. Wanner Y2 de waarde 0 heeft, valt a2y2 weg uit de formule:

ε = b + a1y1

Wanneer y2 de waarde 1 heeft, wordt de formule:

ε = b + a1y1 + a2 = b* + a1y1 (b* is hierbij b + a2)

Er zijn nu dus twee verschillende regressiefuncties ontstaan. Deze functies hebben dezelfde richtingscoëfficient (a1), maar een ander intercept (b versus b*). De regressiefuncties lopen dus wel parallel, maar ze snijden de Y-as op een ander punt. Er wordt hierbij gesproken van uniforme differentiële predictie.

Er kunnen ook drie predictoren zijn. In dat geval kan ook de richtingscoëfficiënt verschillen tussen beide regressies (en dus tussen beide subpopulaties). In zo’n geval snijden de regressiefuncties elkaar. Er wordt dan gesproken van niet-uniforme differentiële predictie.

Bij uniforme differentiële predictie is het verschil in criteriumscore constant, dit is bij niet-uniforme differentiële predictie niet het geval. Voor een helder beeld, zie blz. 114 van de Syllabus.

Hoofdstuk 8: Utiliteit Analyse

Wat is utiliteit analyse?

Met utiliteit analyse worden de kosten en baten van een test laten zien, waardoor een relevante keuze gemaakt kan worden over of die test gebruikt zou moeten worden. Er zijn veel verschillende methoden om utiliteit analyse uit te voeren.

Hoe wordt een utiliteit analyse gebruikt?

De Taylor-Russle tabel kan gebruikt worden door instanties om te bepalen of zij een bepaalde selectie willen uitvoeren. Deze tabel biedt een schatting van het percentage van aangenomen mensen dat succesvol zal zijn. Dit wordt gedaan op basis van drie variabelen: de validiteit van de test, de selectieratio en de base rate. Voor de tabel, zie blz. 120 van de Syllabus.

Een illustratie van utiliteit analyse

In dit stuk zal een voorbeeld van het gebruik van utiliteit analyse worden uitgewerkt.

Stel er is een bedrijf dat nieuwe vrachtwagenchauffeurs aan wil nemen. Zij vragen zich af of ze een selectie test moeten invoeren voor het proces van aannemen van nieuwe vrachtwagenchauffeurs en willen hiervoor de kosten en baten op een rijtje zetten. Of vrachtwagenchauffeurs geschikt zijn, wordt gemeten aan de hand van de scores op de OTJRs. Dit is een test die na een bepaalde periode van werken wordt uitgevoerd. Wanneer mensen hier hoog op scoren, worden zij gezien als geschikt. De OTJRs is dus het criterium, en slagen op de OTJRs is de grenswaarde (d). Om een schatting te maken van of sollicitanten zullen slagen voor de OTJRs, wil het bedrijf de sollicitanten een test laten afleggen, waarvan zij hopen dat deze test representatief is voor het slagen op de OTJRs. De test die zij ontwikkeld hebben heet de FERT. De FERT is dus de predictor. Ze willen nu uiteraard een cutscore/censuur die voor een zo hoog mogelijke utiliteit zorgt. Een mogelijke manier voor het selecteren van sollicitanten, is door middel van top-down selection. Hierbij geef je de beste banen aan de sollicitanten die het hoogst scoren op de test, en de daarna beste banen aan de sollicitanten die daarna het hoogst scoren, enzovoort, totdat alle posities opgevuld zijn. Maar, top-down selectie kan discriminerende effecten hebben en daarom wil het bedrijf dit niet. Het bedrijf gaat vervolgens na welke cutscore zij moeten gebruiken. Er is alleen niet één beste manier om de cutscore te bepalen. Dit hangt namelijk af van het doel van het selectieproces. Voordat er gekeken wordt naar het kiezen van de juiste cutscore, is het handig om eerst wat termen te kennen:

  • Hit = een correcte classificatie (terecht aangenomen en terecht afgewezen)

  • Miss = een incorrecte classificatie (onterecht aangenomen en onterecht afgewezen)

  • Hit rate = de proportie geschikte mensen uit alle mensen die je hebt aangenomen

  • Miss rate = de proportie ongeschikte mensen uit alle mensen die je hebt aangenomen

  • False positive = proportie onterecht aangenomen (wel geslaagd voor de FERT, maar niet voor de OTJRs)

  • False negative = proportie onterecht afgewezen (niet geslaagd voor de FERT, maar zou wel slagen voor de OTJRs)

Om vervolgens de cutscore te bepalen, moet uit de volgende vier opties gekozen worden. De optie die gekozen moet worden is de optie die het beste het doel van het bedrijf reflecteert.

  1. Gebruik de FERT niet. Doe dit wanneer je niet veel geld uit wilt geven aan een test, en wanneer je gewoon heel veel mensen nodig hebt. Ook kun je dit doen wanneer je minder aanmeldingen hebt dan waar je vraag naar hebt. In dit geval zet je de cut score dus extreem laag: iedereen wordt aangenomen.

  2. Zorg ervoor dat geschikte kandidaten niet afgewezen worden. Wanneer je dit wilt, wil je dus een zo laag mogelijke false negative rate. Je wijst alleen de mensen af waarvan je zeker weet dat ze niet goed genoeg zijn. Ook hierbij zet je weer een lage cutscore.

  3. Zorg ervoor dat iedereen die je selecteert, ook terecht geselecteerd is. Je wil dus een zo laag mogelijke false positive rate. Dit kun je doen wanneer je alleen de allerbeste sollicitanten wil, waarvan je zeker weet dat ze succesvol zullen zijn. Hierbij zet je een hoge cut score.

  4. Zorg ervoor dat alle succesvolle kandidaten geselecteerd zullen worden, en alle niet-succesvolle kandidaten afgewezen. Je wilt hierbij dus een zo hoog mogelijke hit rate en een zo laag mogelijke miss rate. Je kan hierbij alleen niet controleren voor de false positives of false negatives. Deze worden even belangrijk geacht. Hierbij gebruik je een gemiddelde cutscore.

Het bedrijf evalueert alle opties, en maakt scatterplots van de verschillende opties. Ze kiezen uiteindelijk voor optie vier, omdat ze een hoge hit rate en een lage miss rate het belangrijkste vinden. Zij berekenen dat wanneer ze de test gebruiken, en een gemiddelde cutscore gebruiken, 83.9% van de aangenomen kandidaten succesvol zal zijn, terwijl de oorspronkelijke base rate 0,5 was. Wanneer ze geen selectie zouden gebruiken zal dus maar 50% van de aangenomen kandidaten succesvol zijn. Het verschil tussen 83.9% en 50% is een groot verschil. Maar om zeker te weten dat het gebruiken van de test een goed idee is, moeten ze nog wel de kosten-baten ratio uitrekenen. Deze ratio wordt de return on investment genoemd. Uit deze return on investment blijkt dat de test een goede investering is.

In de Taylor-Russell tabel is te zien dat hoe hoger de validiteit is, hoe hoger de verwachte utiliteit. Verder is te zien dat wanneer selectieratio’s laag zijn (dus bij een strenge selectie), dat dan zelfs bij lage validiteit de base rate nog een stuk omhoog kan gaan. Wanneer de selectieratio hoog is, maakt de validiteit weinig verschil meer.

Er zijn een paar beperkingen van de Taylor-Russell tabel. Een assumptie van de tabel is bijvoorbeeld dat de relatie tussen de test en het criterium lineair moet zijn. Een andere limitatie is de moeilijkheid waarmee een criteriumscore geïdentificeerd kan worden die succesvolle werknemers van onsuccesvolle werknemers onderscheidt. De Naylor-Shine tabellen lossen een aantal problemen van de Taylor-Russell tabel op. Deze tabellen laten het verschil zien tussen de gemiddelden van de geselecteerde en ongeselecteerde groep, om een indicatie te krijgen van wat de test toevoegt aan al bestaande procedures. De Taylor-Russell tabellen verhogen dus de base rate van succesvolle kandidaten, die gebaseerd is op de criterium validiteit. De Naylor-Shine tabellen laten de waarschijnlijke toename van succes op het criterium als resultaat van een test zien. Deze twee tabellen zijn gebaseerd op de selectie ratio, validiteit en base rate, alleen in werkelijkheid zijn er vaak veel meer variabelen die meespelen.

Hoofdstuk 9: Item Respons Theorie (IRT)

Een alternatief voor het ware score model is de item respons theorie (IRT). Deze theorie laat de kans zien dat een persoon met een X hoeveelheid van een bepaalde karaktereigenschap een Y hoeveelheid van deze eigenschap laat zien op een persoonlijkheidstest die bedoeld is om deze eigenschap te meten. Een synoniem voor IRT is latente trek theorie.

Twee karakteristieken van IRT zijn:

  • De difficulty level (moeilijkheidsgraad) van een item: Een moeilijk item is een item waarvan verwacht wordt dat maar een klein deel van de respondenten het op kan lossen, toe kan passen of begrijpen. Een makkelijk item is een item waarvan verwacht wordt dat vrijwel iedereen hem op kan lossen, toe kan passen of begrijpen. Op basis van de moeilijkheid van een item kan ook het gewicht dat aan dat item wordt gegeven bepaald worden. In klassieke testtheorie kan dit niet.

  • De mate van discriminatie van een item: de mate waarin een item een verschil laat zien tussen mensen met hogere of lagere levels van een bepaald gedrag dat gemeten wordt. Dus stel je meet fysieke vermogen. Dan discrimineert een vraag over traplopen meer dan een vraag over hoelang je voor de spiegel staat omdat het item traplopen meer zegt over hoe iemands fysieke vermogen is. Hoe hoger het level van discriminatie, hoe zwaarder het item wordt meegewogen.

Sommige IRT modellen behandelen data van dichitome test items (items waar maar twee alternatieve antwoordopties zijn, zoals ‘waar’ of ‘niet waar’). Andere IRT modellen behandelen polytome test items (items met drie of meer antwoordopties).

Een verschil tussen IRT en klasieke testtheorie is dat IRT een assumptie heeft over de frequentie verdeling van test scores. Bij sommige IRT modellen is deze assumptie heel streng. Elk item moet dan een gelijke relatie hebben met het construct dat gemeten wordt. Zo’n streng model wordt een Rasch model genoemd.

Andere assumpties van IRT:

  • Unidimensionaliteit: het antwoord op het item wordt veroorzaakt door de mate van de latente trek die iemand heeft, en niet door andere factoren. De mate waarin iemand een latente trek heeft, wordt het theta level genoemd. Voorbeeld: als er een item is “in welke mate voel je je vermoeid?” dan zou het antwoord op deze vraag puur gebaseerd moeten zijn op iemands theta level van vermoeidheid, en niet op een andere factor.

  • Lokale onafhankelijkheid: eerst handig om te weten wat lokale afhankelijkheid is. items zijn lokaal afhankelijk wanneer ze meer met elkaar correleren dan met de latente trek. Deze correlatie tussen items wordt dan door een andere factor verklaard dan de latente trek. Lokale onafhankelijkheid is dan dus dat alle items met elkaar correleren, en dat dit verklaard kan worden door de latente trek (door het theta level).

  • Monotiniciteit: wanneer een item antwoord indicatief is voor hoge levels van theta, dan zouden mensen met een hoog theta level ook hoog op zo’n item moeten scoren.

IRT in de praktijk

De relatie tussen iemands antwoord op een test item en diegene zijn theta level (mate waarin hij de latente trek heeft) kan weergegeven worden met een item characteristic curve (ICC). Op de X-as van deze grafiek is het theta level te zien. Het theta level is weergegeven in standaarddeviaties, dus, als iemand theta level 2 heeft, dan zit zijn theta level 2 standaarddeviaties van het populatie gemiddelde af. Op de Y-as is de kans dat iemand een bepaald antwoord op een item kiest weergegeven, dit is een kans tussen 0 en 1. Er wordt bijvoorbeeld verwacht dat de kans groot is (dichtbij 1) dat iemand met een hoog theta level van vermoeidheid, ‘ja’ zal antwoorden op de vraag ‘ben je vermoeid’. IRT gebruikt de informatie functie/informatie curve om determinaties te maken. Dat wil zeggen, aan de hand van de informatie curve kan gezien worden voor welke range van theta levels het item relevant is om respondenten te kunnen onderscheiden. Een informatie curve die piekt bij standaarddeviatie 0, is informatief bij medium theta levels. Een informatie curve die piekt bij standaarddeviatie 2 is informatief bij hoge theta levels. Een informatie curve die helemaal niet piekt, is niet informatief. Zo’n item heeft namelijk geen onderscheidend vermogen. Wanneer een onderzoeker werkt met alleen hele depressieve mensen, kan het handig zijn om alleen items te gebruiken die informatief zijn bij een hoog theta level (dus curves die bij hoge standaarddeviaties pieken). Al deze informatie curves van de items kunnen samengevoegd worden tot één informatie curve die representatief is voor de gehele test. Dit is de test informatie curve. Deze curve biedt veel informatie. In de klassieke test theorie wordt vaak de alpha uitgerekend. Stel je vindt een alpha van 0.92, dan krijg je het idee dat de test heel betrouwbaar is. Maar dit betekent nog niet dat de test voor álle levels van de latente trek (theta levels) betrouwbaar is. Het kan bijvoorbeeld zijn dat de test alleen betrouwbaar is voor hoge mate op de latente trek. Een test informatie curve biedt hier meer informatie over. Wanneer bijvoorbeeld een test informatie curve over de mate van depressie piekt bij 0 en 1 standaarddeviaties, dan weet je dat de test betrouwbaar is voor het beoordelen van medium tot hoge levels van depressieve symptomen, maar dat de test lagere levels van depressie minder precies kan meten.

In de werkgroep is nog ingegaan op het Parameter Logistisch (PL) model. Dit model geeft logistische curves van de items weer. Op de X-as staan de levels van de latente trek, dit zijn dus de theta levels. Op de Y-as staan de kansen van het ‘goed’ beantwoorden van het item. Er is altijd een omslagpunt van de curve bij een kanswaarde van 0.5. Het punt van de curve waarbij de kans 0.5 is dat mensen het item correct beantwoorden, wordt de beta-parameter genoemd. Hoe verder deze beta-parameter naar rechts zit (dus bij een groter theta level), hoe moeilijker het item. Dit komt doordat je een hogere latente trekwaarde nodig hebt om een kans van 0.5 te hebben om het item goed te beantwoorden. De beta-parameter geeft dus de moeilijkheid van het item weer. Ook kan uit de curve opgemaakt worden hoe goed een item discrimineert. Want: hoe stijler de curve loopt, hoe beter het item kan onderscheiden. Bij goed onderscheidende items kun je snel zien of mensen wel of niet de latente trek hebben.

Er is nog een onderscheid te maken tussen 1 parameter logistische (1PL) modellen, en 2 parameter logistische (2PL) modellen. Bij 1 parameter logistische modellen hebbe alle item curves dezelfde discriminatie. Ze variëren dus alleen op moeilijkheid, en niet op onderscheidend vermogen. Deze items worden dus maar door 1 parameter beschreven. Je kunt 1 PL modellen herkennen door te kijken of de lijnen hetzelfde lopen. Bij 1 PL modellen zou je de lijnen op elkaar kunnen leggen. Bij 2 parameter logistische modellen variëren items op moeilijkheid én discriminatie. Ze worden dus door twee parameters beschreven. De lijnen van de items lopen hierbij niet allemaal hetzelfde, ze hebben allemaal een verschillende stijlheid.

Contributions, Comments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Summaries & Study Note of World Supporter Cycle
Join World Supporter
Join World Supporter
Log in or create your free account

Why create an account?

  • Your WorldSupporter account gives you access to all functionalities of the platform
  • Once you are logged in, you can:
    • Save pages to your favorites
    • Give feedback or share contributions
    • participate in discussions
    • share your own contributions through the 11 WorldSupporter tools
Content
Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
107 1 1