Collegeaantekeningen - Psychometrie - UL - 2013/2014

Deze samenvatting is gebaseerd op het studiejaar 2013-2014.


College 1: Schaling en Normering

Psychometrie:
In de psychometrie bestudeert men de testscore. Hierbij gaat men van kwalitatief materiaal (antwoorden op testitems) naar kwantitatieve testscores. Daarbij stelt men zich de vraag wat de kwaliteit is van deze scores. Psychologische eigenschappen zijn moeilijk te meten omdat ze een hele brede verscheidenheid hebben en omdat ze niet observeerbaar zijn. Toch willen we het graag meten en weten. Het psychologische construct dat niet observeerbaar is (de latente variabele) beïnvloedt het observeerbare gedrag. Om toch iets te weten te komen over het construct draaien we het om: het observeerbare gedrag vertelt iets over het onobserveerbare. Met behulp van deze redenering voert men psychologische testen uit.

Een psychologische test is eigenlijk een systematische gedragssteekproef. Met de uitkomsten kunnen we vergelijkingen maken, bijvoorbeeld tussen verschillende personen. Dit heten inter-individuele verschillen. Intra-individuele verschillen zijn vergelijkingen gemaakt tussen condities of tijdstippen binnen personen.

Testscores:
Met testscores bepalen we de kwaliteit van bepaalde items. De eisen voor kwaliteit zijn van groot belang voor psychologische testen. Belangrijk zijn hierbij de betrouwbaarheid en de validiteit. Bij betrouwbaarheid gaat het om de afwezigheid van toevalsmeetfouten en bij validiteit gaat het om de afwezigheid van systematische meetfouten.

Schaling:
Schaling van testscores gaat om het bepalen van testscores of categorieën uit itemresponsen. Denk hierbij aan de verschillende meetniveaus (nominaal, ordinaal, interval en ratio).

De totaalscore en het gemiddelde zijn twee veel voorkomende schaalscores. De totaalscore is de som van de itemscores en het gemiddelde is het totaal gedeeld door het aantal items.

Ruwe scores kunnen op zichzelf slecht worden geïnterpreteerd. De hoogte van een testscore is namelijk afhankelijk van het aantal items en de verschillende itemscores. Om de ruwe scores te interpreteren worden er normen gesteld. Voorbeelden van deze normen zijn percentiel- en standaardscores.

Percentielscores en standaardscores:
Bij percentielscores wordt gekeken naar een percentage personen met eenzelfde of een lagere score. De boeken zijn hier nog weleens verschillend in, maar deze regel wordt gehanteerd op het tentamen!

Standaardscores zijn het aantal standaarddeviaties in afwijking van het gemiddelde. De verdeling zal hierbij echter hetzelfde blijven. De ruwe scores kunnen worden omgezet naar Z-scores door middel van de volgende formule:

Zx = (X-Mx)/SDx

Waarbij geldt SDz = 1 en Mz = 0

Ook kunnen er T-scores worden uitgerekend. Deze zijn veel beter te begrijpen zijn doordat er geen negatieve scores meer voorkomen. Deze T-scores worden berekend met de volgende formule:

Tx = 10*Zx + 50

Waarbij geldt SDT = 10 en MT = 50

Normtabellen bevatten elke voorkomende ruwe score, geordend van laag naar hoog, gekoppeld aan normscores en eventueel met verwachtingen.

Er bestaan twee typen normen volgens COTAN (Commissie Test Aangelegenheden van het NIP), namelijk normgerichte interpretatie en domeingerichte/criteriumgerichte interpretatie. Normgerichte interpretatie is een relatieve norm zoals het percentiel en de Z- en T-scores. De domeingerichte interpretatie is een absolute norm. Hierbij worden vaste standaarden of grensscores gehanteerd.

 

College 2: Betrouwbaarheid

Betrouwbaarheid is te beschrijven aan de hand van de vraag ’In hoeverre zijn verschillen in testscores een functie van werkelijke individuele verschillen?’ Testen kunnen nooit de werkelijke score meten, zij geven alleen de testscore weer. Bij de test ontstaan namelijk ook random meetfouten, welke error genoemd worden.
In de klassieke testtheorie wordt hiervoor de volgende formule weergeven.
Xo = Xt + Xe. Waarbij de geobserveerde score ( Xo) de optelling is van de ware score (Xt) en de error ( Xe).

De ware score (Xt) is dus niet direct observeerbaar. Daarom wordt dit een latente variabele genoemd, welke geschat moet worden.

Aan de klassieke testtheorie zitten drie assumpties vast. Aangezien Xo de som is van twee onbekende factoren, wat onoplosbaar is, geldt:

  1. µe = 0. De gemiddelde errorscore in de populatie is nul.

  2. ret = 0. De correlatie tussen error en ware score is nul. Iedereen heeft een gelijke kans, de errors zijn dus ongecorreleerd met de ware scores.

  3. reiej = 0. De error van persoon 1 zegt niets over de error van persoon 2 en zijn dus niet gecorreleerd; volledig random.

De variantie van XO is SO 2 = ST2 + SE2. In de ideale test is ST2 gelijk aan SO 2 en zijn er dus geen random meetfouten gemaakt. In alle andere gevallen is er wel een error, welke negatief op positief kan zijn.

Betrouwbaarheidscoëfficiënt:
Rxx is de betrouwbaarheidscoëfficiënt, wat gelijk staat aan de proportie verklaarde variantie van XO door XT. Rxx = ST2/ SO 2 of Rxx = 1 – (SE2/ SO 2). Rxx zit tussen de nul en één, en is verder gelijk aan de gekwadrateerde correlatie rOT2 (oftewel: 1- roe2 ).

Aangezien ware scores, errors en varianties onbekend zijn, moeten voor het schatten van de betrouwbaarheid minstens twee observaties zijn gedaan per persoon. Dit kan gedaan worden met parallelle metingen.

Parallelle metingen:
Parallelle metingen zijn metingen waarbij de errors ongecorreleerd zijn en de varianties van de errorscores gelijk zijn. De metingen moeten ook dezelfde ware scores meten. Dit allemaal zodat alles wat meting X en Y gemeen hebben van de ware score komt. De correlatie tussen twee parallelle tests geeft een schatting voor de betrouwbaarheid van beide tests, want paralleltests hebben altijd dezelfde betrouwbaarheid.

Er zijn drie manieren van parallelle metingen: Alternate forms, test-hertest en split-half. Bij alternate forms zijn er twee verschillende test voor hetzelfde construct. Hierbij kunnen wel carry-ver effect ontstaan; test 1 beïnvloed resultaat test 2, wat tot een overschatting van de betrouwbaarheid leidt. Een ander probleem is dat we nooit zeker weten of de tests werkelijk parallel zijn.
Bij test-hertest wordt dezelfde test twee keer afgenomen op een ander tijdstip, maar ook hier kunnen carry-over effecten optreden. Daarnaast is er het probleem dat mensen veranderen over tijd.
Bij split-half worden er in één test twee parallelle helften gemaakt. De betrouwbaarheid voor de hele test wordt vervolgens berekend met de Spearman-Brown formule.

N is in deze formule de factor waarmee een test vergroot of verkleind wordt, en dus niet het aantal items!

Er kunnen natuurlijk uitputtend veel tweedelingen worden gemaakt. Daarom kan er ook voor worden gekozen om alle items van de test als aparte test te zien. Er kunnen nu berekeningen worden uitgevoerd met de Cronbach’s alpha. Voor formules, zie de powerpoint op Blackboard.

Standaard meetfout:
De standaard meetfout kan men als volgt berekenen: SE2 = SO 2 * √(1-Rxx). De standaard meetfout wordt vaak afgekort met Sem. Deze geeft de nauwkeurigheid van individuele metingen aan; er wordt vaak ook een 95% betrouwbaarheidsinterval bij gegeven.

College 3: Validiteit

Validiteit:
Bij validiteit kijken we of een instrument meet wat het beoogt te meten. Een test is valide in die mate dat er juiste, betekenisvolle en bruikbare gevolgtrekkingen mee gemaakt kunnen worden. Ofwel: in hoeverre is een test vrij van systematische fouten.

In het boek van Furr en Bacharach wordt validiteit besproken als de interpretatie en het gebruik van testscores in relatie tot bepaalde doelen. Validiteit gaat dus niet over de waarden op zich, maar over wat men hiermee doet. Validiteit is multidimensioneel ( heeft meerdere eigenschappen) en gradueel (er is een bepaalde mate van validiteit, het is niet zomaar aanwezig of afwezig).

Constructvaliditeit:
Constructvaliditeit (ook wel begripsvaliditeit) is de interpretatie van een test als weergave van een psychologisch construct. Men kijkt hierbij dus in hoeverre de interpretatie overeenkomst met de gemeten constructen. Er zijn 5 soorten bewijs voor constructvaliditeit:

  1. testinhoud

  2. interne structuur van de test

  3. response processen

  4. associaties met andere variabelen

  5. gevolgen van testgebruik

a. Inhoudsvaliditeit:
Bij inhoudsvaliditeit wordt gekeken of de items van de test aansluiten bij de belangrijkste deelconstructen. Bedreigingen die hierbij opspelen zijn dat items soms irrelevant zijn voor een test (construct-irrelevante inhoud) en dat deelconstructen soms niet goed vertegenwoordigd worden, door te weinig of geen items (construct-ondervertegenwoordiging).

b. Interne structuur van een test:
De hoofdvraag bij het bekijken van de interne structuur van een test is of de items en subtests van een test één samenhangend geheel vormen.

Wanneer het antwoord op deze vraag ja is, is er sprake van homogeniteit. Er is één onderliggende dimensie aan het construct. Zo nee, dan is er sprake van heterogeniteit en zijn er meerdere onderliggende dimensies.

c. Response processen:
Bij Response processen gaat het om in hoeverre er overeenkomst is tussen de psychologische processen die personen verondersteld worden te gebruiken, en die personen werkelijk gebruiken bij het doen van de test.

d. Relaties met andere variabelen:

Predictieve validiteit is het voorspellen van een uitkomst in de toekomst, en vaak is dit een praktisch relevant criterium.

Multitrait- multimethod matrix ( MTMMM):

Als je kijkt naar sheet 11 van de PowerPointpresentatie zie je een matrix. Deze matrix gaat over de correlaties tussen bepaalde groepen. De dikgedrukte getallen zijn de Cronbach’s alfa’s voor de desbetreffende scores. Onder de Cronbach’s alfa staat de correlatie tussen 2 constructen.

Convergente evidentie: correlaties tussen dezelfde traits zijn hoog in verschillende testen. Discriminante evidentie: correlaties tussen verschillende traits zijn laag en dus onafhankelijk van elkaar.

Als we weer terugblikken op de matrix zijn we dat de onderstreepte getallen de convergente evidenties zijn.

Taylor- Russell tabel:
Op sheet 13 zien we een voorbeeld van een Taylor-Russell tabel. Deze wordt gebruikt bij ja/nee kwesties. Hier staat bovenin de base rate genoemd. Met de base rate bedoelen we in dit geval een toelating tot de opleiding Geneeskunde. We zien dat dit op dit moment het geval is als 44 procent wordt toegelaten en de predictieve validiteit gelijk is aan 0. Als we deze ophogen tot 0.2 zien we dat de base rate al verhoogd met 0.06- 0.07.

Bias:
Er bestaat zowel testbias als itembias.

Test bias komt voor wanneer een test andere dingen meet bij verschillende groepen.

Predictieve bias is het fenomeen waarbij het voorspellen van scores verschillende consequenties heeft voor verschillende groepen. In een figuur is dit te zien als de regressielijn anders gaat lopen. Wanneer er sprake is van andere regressieformules, is er een bias aanwezig. Er zijn verschillende soorten predictieve bias. Bij intercept bias hebben de regressielijnen dezelfde hellingshoek, maar een verschillend ‘intercept’. Bij een slope bias hebben de regressielijnen een verschillende hellingshoek.

Constructbias is het fenomeen waarbij een test verschillende constructen meet in verschillende groepen.

Wanneer men een bias vermoedt, dan kan men aan de verschillende groepen verschillende behandelingen geven. Zo kan men bij een predictieve bias adviezen gaan geven op basis van de regressielijn die de verschillende groepen hebben.

Item bias (ook wel differential item funtioning (DIF)) komt voor wanneer personen uit verschillende groepen met dezelfde vaardigheid een ongelijke kans hebben om een item goed te maken. Denk hierbij bijvoorbeeld aan geslacht of etniciteit.

 

College 4: PCA en FA

PCA en FA:
Principale Componenten Analyse en Factor Analyse zijn analyses waarbij het reduceren van data het doel is. Datareductie is een grote set variabelen verkleinen tot een veel kleinere set onderliggende dimensies. Deze variabelen moeten van interval niveau zijn. Deze week worden PCA en exploratieve factoranalyse (EFA) besproken, waarbij er geen exacte vraag wordt gesteld.

Het verschil tussen Principale Componenten Analyse en Factor Analyse is dat Factor analyse een expliciet model heeft en je bij Principale Componenten Analyse alleen een a-theoretische ‘herschrijving’ maakt van variabelen tot componenten. Bij Factor Analyse gaan we een gedetailleerde hypothese bekijken of het idee wat we over de data hebben ook daadwerkelijk klopt. Bij Principale Componenten Analyse gaan we kijken naar de data zonder verwachtingen. Er wordt dus alleen geobserveerd. Ook heeft Factor analyse een expliciet model voor error, PCA niet.

Functie van PCA:
PCA kunnen we op zowel een algebraïsche manier als een geometrische manier bekijken. Als we kijken naar de algebraïsche manier is een principale component een lineaire combinatie van variabelen. De eerste component moet zoveel mogelijk variantie verklaren van de variabelen. Zo komt de eerste component het dichtste in de buurt met het beschrijven van de variabelen. Ieder opvolgende component probeert ook zoveel mogelijk variantie te verklaren, maar is totaal niet gecorreleerd aan de voorafgaande component (orthogonaliteit). Hierdoor zullen een aantal componenten een overgroot deel van de variantie verklaren en kunnen de belangrijkste componenten geselecteerd worden. De data zijn nu gereduceerd.

Als we PCA op de geometrische manier bekijken zijn de componenten gelijk aan vectoren. Hoe meer deze naar rechts of naar boven gelegen is, hoe hoger de score op een van de componenten. De opvolgende vector is niet gecorreleerd aan de voorafgaande vector en staat daarom loodrecht op de eerste vector. Het is lastig om dit model te maken voor meer dan 2 variabelen, omdat er dan een ruimtelijke structuur ontstaat.

Communaliteit en componentlading:
Cij is de componentlading. Dit is de correlatie van variabele Xi met component j. Wanneer de componentlading gelijk is aan 0, hebben de variabele en het component niets met elkaar gemeen. Als je de componentlading kwadrateert (Cij2 ) krijg je de proportie variantie van variabele Xi verklaard door component j.

De ‘uniekheid’ van een variabele wordt aangegeven met de communaliteit. Hoe lager de communaliteit, hoe unieker de variabele. Het is de proportie verklaarde variantie per variabele. Verder is het de som van gekwadrateerde componentladingen.

In deze formule is k het maximaal aantal componenten, hi2 is de communaliteit, Cij2 is de componentlading in het kwadraat.

Eigenwaarde:
De eigenwaarde van een variabele is de som van de gekwadrateerde componentladingen per component. Het is de hoeveelheid verklaarde variantie van alle variabelen bij elkaar. Als we dit delen door het aantal variabelen krijgen we de proportie verklaarde variantie.

Criteria voor het aantal componenten:

Om te bepalen tot hoeveel componenten men het best kan reduceren, zijn er een aantal richtlijnen, namelijk:

  1. de eigenwaarde moet groter zijn dan 1. Je kunt alle componenten gebruiken die een eigenwaarde hebben die groter is dan 1.

  2. Knik: als we naar de grafiek op sheet 12 kijken, zien we een grafiek met daarin een lijn die componenten aangeeft en hun bijbehorende eigenwaarde. We zien dat de lijn erg snel afneemt met het toenemen van het aantal componenten. Als we een grens willen stellen voor het aantal componenten welke gebruikt kunnen worden voor de analyse, moeten we kijken naar de knik in de lijn. Dit is een vage omschrijving, maar meestal geeft dit wel het juiste antwoord. Vaak kan er ook 1 component meer of minder worden gebruikt.

  3. Interpreteerbaarheid: alle oplossingen bekijken en dan de oplossing kiezen waar je het beste een verhaal van kunt maken, de meest begrijpelijke/praktische oplossing. Dit is een hele vage methode.

Interpretatie
Componentladingen kunnen worden gebruikt voor de interpretatie van een PCA-oplossing. Als dit algebraïsch wordt gedaan, moeten de ladingen worden onderstreept met de absolute waarde boven een grenswaarde. Daarna moet worden bepaalt voor variabelen met hoge ladingen op hetzelfde component of deze wat gemeenschappelijk hebben, en of dit gemeenschappelijke deze variabelen onderscheidt van variabelen die niet op de component laden.

Als we meetkundig gaan interpreteren maken we een grafiek waarin de variabelen als vectoren in de componentenruimte staan. De lijn loopt vanuit de oorsprong naar het punt van componentenlading. Er wordt dan gekeken naar de verschillende lengtes (hoe langer de vector, hoe beter de variabele verklaard wordt) en naar de hoek (hoe scherper de hoek tussen de vectoren, hoe hoger de correlatie tussen de variabelen).

Rotatie
Als we kijken naar sheet 15 zien we hierop een plaatje met vectoren. Wanneer de hoek tussen de verschillende vectoren klein is, zullen de vectoren meer met elkaar correleren. Een hoek kleiner dan 90 graden geeft een correlatie aan. Als de hoek gelijk is aan 90 graden, zullen de componenten die zijn uitgebeeld via de vectoren onderling niet correleren.

Bij rotatie wordt er anders gekeken naar de oplossing: het assenstelsel wordt veranderd. Zo krijg je een ‘simple structure’ waarbij een interpretatie makkelijker wordt. VARIMAX is de meest gebruikte rotatie, waarbij nieuwe assen worden gekozen op zo’n manier dat varianties van gekwadrateerde factorladingen per factor zo hoog mogelijk zijn. Voorbeelden met SPSS zijn te zien in de powerpoint.

 

College 5: Confirmatieve factoranalyse

CFA en SEM:
CFA is een onderdeel van de SEM, wat staat voor ‘structural equation modelling’. Met SEM onderzoek je expliciete modellen voor (causale) relaties van 3 of meer variabelen. Het is een toets voor een model als geheel. Bij SEM zijn manifeste en latente variabelen goed te onderscheiden en kunnen de onderlinge relaties worden geschat en getoetst.

SEM cyclus toegepast op CFA:
Er zijn een aantal stappen die standaard worden doorlopen in het SEM model. Dit heet de SEM cyclus en hieronder vallen de volgende stappen:

  • Modelspecificatie

Hierbij wordt uit de theorie of hypothese een model gevormd, die verschillende onderdelen bevat. Manifeste variabelen zijn testscores. Latente variabelen zijn psychologische constructen. Alle manifeste variabelen hebben error. Error zelf is een latente variabele.
Ook hebben we pijlen nodig voor het model. Een eenrichtingspijl toont een causaal verband aan en een wederkerige pijl laat een correlatie zien. Bij het SEM model voor CFA bestaan er alleen inkomende pijlen, waarbij alle enkele pijlen van latent naar manifest gaan. Als er geen pijlen tussen factoren aanwezig zijn, betekent dit ook meteen dat er geen relatie is tussen de factoren.
Bij elke pijl hoort een modelparameter. De structurele vergelijkingen per manifeste variabelen zijn te vinden in de powerpoint.

  • Modelidentificatie

Hierbij moet na worden gegaan of het model geschat of getoetst kan worden. Wanneer we het SEM model willen gaan toetsen, moeten er niet teveel onbekende variabelen in de vergelijking zitten. We kunnen dit zien aan het aantal vrijheidsgraden. Als dat getal positief is (groter dan 0), is het model toetsbaar. Je kunt het aantal vrijheidsgraden op de volgende manier berekenen:

Df = V – P. Waarin het aantal relaties (pijlen) in het model is P en het aantal varianties en covarianties V = (k(k+1)/2).

  • Parameterschatting

Men kan kijken of er ‘warnings’ zijn. Warnings zijn varianties of covarianties die op bepaalde factoren hoog scoren, terwijl ze niet mogen correleren of andersom. Op sheet 20 is een variantie-covariantiematrix te zien. Hierin mogen tussen X1, X2, X3 en X4,X5,X6 geen hoge covarianties aanwezig zijn.

  • Model-evaluatie

Met een Chi-kwadraat toets evalueren we het model. Wanneer er een significant resultaat wordt gevonden, klopt ons model niet. Ho wordt dan namelijk verworpen. In dit geval is Ho dat de data en het model overeenstemmen.

Er zijn wel wat problemen met de Chi-kwadraat toets, zoals dat deze erg snel significant wordt bevonden met een groot aantal deelnemers. We kijken daarom ook naar de volgende fit-maten:

RMSEA: een fitmaat kleiner dan 0.1 is goed

NFI: een fitmaat groter dan 0.9 is goed

NNFI: een fitmaat groter dan 0.9 is goed

CFI: een fitmaat groter dan 0.95 is goed

  • Modelbijstelling

Als blijkt dat het model niet klopt, kunnen we kijken of er toch meer factoren zijn die correleren en aan de hand daarvan het model wijzigen.

Residuen:

Residuen kunnen ons helpen bij de keuze hoe we een model kunnen verbeteren. Een residu is het verschil tussen de covariantie en de terug geschatte covariantie. We rekenen graag met gestandaardiseerde residuen: Zresij= rij- r(gem)ij.

Een residu is groot wanneer het groter is dan 0.10 of kleiner dan -0.10. Als residuen voor een bepaalde variabele groot zijn, is het model voor die variabele niet goed. Ook moet er worden gekeken naar de verdeling van de residuen (normaal verdeeld, symmetrie, gecentreerd rond nulpunt).

Het verbeteren van een slechte fit:

Men kan de fit verbeteren door de parameters vrij te maken. Dit kan door meer pijlen aan het model toe te voegen. Men kan zien of deze pijlen ontbreken door te kijken naar een patroon in residuen. Wanneer deze allemaal positief of allemaal negatief zijn, kan het zo zijn dat er een correlatie is tussen twee factoren.

Wanneer is een model bewezen?

Met de CFA kan men eigenlijk alleen een model falsifiëren. Een model bewijzen is erg moeilijk. Men kan een modeltoets doen om te kijken of het bewerkte model een significante verbetering heeft ten opzichte van het eerdere model. Dit kan aan de hand van de volgende formules:

Δ X2 = X2 (1) – X2 (2)

Δ df= df(1) – df(2)

De uitkomst hiervan kunnen we vergelijken met de tabel van de Chi-kwadraat toets en zo de bijbehorende p-waarde vinden. De toets kan alleen worden uitgevoerd wanneer beide modellen genest zijn met elkaar. Dit betekend dat alle pijlen van Model A ook in Model B aanwezig zijn, maar model B heeft ook nog extra pijlen.

Tot slot:

SEM modellen hebben wel een aantal problemen en beperkingen. Deze modellen vereisen bijvoorbeeld een groot aantal personen. Ook maken SEM modellen zware assumpties over de data en de SEM modellen zijn minder robuust tegenover schendingen hiervan dan andere technieken. Daarnaast is CFA niet werkelijk toetsend. Je nieuwe model is gebaseerd op het vorige model. Hierdoor gaat men steeds meer geloven in het model en smokkelen we eigenlijk met de statistische regels.

 

College 6: Item Response Theorie en Personeelsselectie

IRT als alternatief voor KTT

Het verschil tussen KTT (de klassieke testtheorie) en IRT (de item-responstheorie) ligt bij de stap van het berekenen en evalueren van testscores. Bij KTT is betrouwbaarheid het centrale begrip. Er wordt gekeken in hoeverre de testscores overeenkomen met de ware scores, hierbij spelen de item-kenmerken geen rol. De statistieken van KTT zijn dus populatie afhankelijk.
Het doel van IRT is om personen en items op dezelfde schaal te ordenen. Doordat bij IRT de itemkenmerken ook mee worden genomen in het model, zijn deze niet populatie afhankelijk.
Het persoonskenmerk is de vaardigheid (θ), een latente variabele, waarbij geldt hoe hoger de vaardigheid, hoe waarschijnlijker een correct antwoord. Een itemkenmerk uit het model is de moeilijkheidsgraad β. Als deze hoog ligt, dan is het onwaarschijnlijk dat er een correct antwoord wordt gegeven. Tussen de vaardigheid en de moeilijkheidsgraad ligt een verband, wat bepaald wordt door specifieke IRT-modellen

Specifieke IRT-Modellen

We zullen drie verschillende modellen bespreken. De verschillen tussen deze modellen zitten in de itemkenmerken en de uitkomsten.

Het Guttman model:

Dit is het eerst IRT model; hierbij wordt de respons volledig verklaard door de vaardigheid en de moeilijkheidsgraad. Hierdoor ontstaat er een stapsgewijze curve en is er geen vloeiende overgang aanwezig. Dit noemen we ook wel een deterministisch model. Als de vaardigheid kleiner is dan de moeilijkheidsgraad is het antwoord fout (0). Ligt de vaardigheid hoger dan is het antwoord goed (1). Dit model is erg beperkend, aangezien er maar k + 1 antwoordmogelijkheden zijn. (je kunt nooit makkelijke vragen fout hebben en moeilijke goed).

Er is een alternatief bedacht voor het restrictieve Guttman-model, namelijk probabilistische modellen. Bij probabilistische modellen is de lijn wel vloeiend en stijgt de curve langzaam van 0 naar 1. Het is een S-curve. Dit model wordt weergegeven met een logaritmische functie, waardoor er 2k antwoordmogelijkheden zijn. Sommige antwoordpatronen zijn echter onwaarschijnlijker dan andere. Voorbeelden van probabilistische modellen die we nu gaan bespreken zijn de 1PL en 2PL, die verschillen in het aantal parameters.

Één-parameter logistisch model (1PL): Het Rasch-model:

Het Rasch-model is een 1 dimensionaal model. Dit betekent dat er slechts één item parameter relevant is. Dit is de moeilijkheidsgraad β; het persoonskenmerk is nog steeds de vaardigheid θ. Wanneer de moeilijkheidsgraad gelijk is aan het vaardigheidsniveau, dan is de kans dat een persoon een item goed beantwoord 50%. De formule die hierbij hoort:

Dit is de kans dat het antwoord goed is, gegeven de vaardigheid en de moeilijkheidsgraad.

Twee-parameter logistisch model (2PL):

Het 2PL model is een model waarbij twee item parameters relevant zijn. Dat zijn de moeilijkheidsgraad en de αi (het onderscheidend vermogen). Dit is de mate waarin een item personen met een laag en hoog niveau van elkaar kan onderscheiden. Deze kan voor elk item anders zijn. Dit leidt tot de volgende formule:

De discriminatieparameter geeft de steilheid van curve aan, op het steilste punt snijdt deze de kans van 50%. Hier geldt θ = β.

Wel moet hier vermeld worden dat het 1PL-model nu is uitgelegd alsof alle alpha’s 1 zijn, maar de alpha’s hoeven niet perse 1 te zijn, als ze maar gelijk zijn voor alle items. De formule voor het 1PL-model is dan hetzelfde als die voor het 2PL-model, maar dan zonder subscript bij de alpha.
Er zijn ook 3PL modellen, hierbij wordt de nog item parameter gok kans toegevoegd

Kwaliteit van items en testen:

Wat zeggen de scores eigenlijk over de betrouwbaarheid? Dit hangt af van de vaardigheid van de persoon, een makkelijke test is meer onderscheidend voor mensen met een laag vaardigheidsniveau. Deze geeft dus meer informatie. Voor het 1PL-model is de formule voor item-informatie:

De informatie is dus het hoogste op het moeilijkheidsniveau. Door deze afzonderlijke item-informatie scores bij elkaar op te tellen, kom je tot de test informatie. Deze is nuttiger dan de item-informatie omdat we geïnteresseerd zijn in de gehele test, en niet alleen in de losse items.

Toepassingen van IRT:

Er zijn verschillende toepassingen van IRT. Zo kunnen testen worden verbeterd, door te kijken welk item de meeste informatie geeft of het best onderscheid maakt; ook kan gekeken worden naar de test-informatie.
Bij het equivaleren van testen wordt er onderscheid gemaakt tussen de moeilijkheid en de vaardigheid, door bij twee test gebruik te maken van anker-items. Deze items overlappen in beide toetsen.
Bij item-bias kan met IRT onderzocht worden of elk construct gelijk is voor bijvoorbeeld mannen en vrouwen.
Bij person-fit kunnen door middel van IRT de onwaarschijnlijke antwoordpatronen worden opgespoord. Hierdoor kan bijvoorbeeld afkijken of het random invullen van een test worden herkend.
Als laatste wordt IRT gebruikt bij CAT. Dit staat voor computergestuurd adaptief testen. Op de computer worden antwoorden gegeven op items. Aan de hand van de antwoorden gaat de computer naar elk item een herberekening maken van de vaardigheid van de persoon. Op basis hiervan wordt het volgende item gekozen. Het is dus een toets op maat, die leidt tot maximale informatie.

 

College 7: Classificatie en discriminantanalyse

Dimensioneel en classificatie:

Scores zijn in te delen op schalen op de dimensionale manier en via classificatie. Bij dimensionaal onderverdelen gaat het om het zo goed mogelijk indelen van personen op bepaalde dimensies. Bij classificatie gaat het erom dat mensen worden toegewezen aan bepaalde groepen.

Classificatieprocedure:

Bij classificatie is er altijd sprake van een grenswaarde. Dit punt noemen we het cut-off point. De procedure die gebruikt wordt bij classificatie is als volgt; Eerst worden gegevens verzameld over de variabele (X) waarbij de classificatie al bekend is. Deze classificatie is een bepaalde groep (Y). Daarna wordt een optimale voorspellingsregel gezocht om Y zo goed mogelijk te voorspellen uit X. Ten slotte wordt deze voorspellingsregel gebruikt om nieuwe variabele X ook te classificeren

Dimensies:

In het meest eenvoudige geval is er sprake van één dimensie, waar twee groepen op scoren. Het cut-off point zit daar waar de verhouding tussen valse positieven en valse negatieven optimaal is(hangt af van de situatie). Van valse positieven is sprake wanneer er wel een diagnose is gesteld, terwijl dit in werkelijkheid niet had gemoeten. Van valse negatieven is sprake wanneer er geen diagnose is gesteld, terwijl dit in werkelijkheid wel had gemoeten. Het hangt vervolgens van de situatie af welke fouten het minst erg zijn; als de valse positieven erger zijn dan verschuift het cut-off point bijvoorbeeld naar rechts.

Bij meerdere dimensies kunnen we niet meer spreken van een cut-off point. Hierbij gaat het om een ruimtelijk geheel en zal sprake zijn van een cut-off lijn of een cut-off vlak. Hierbij wordt ook een andere analyse toegepast, namelijk een logistische regressie analyse (cursus MVDA) of een discriminantanalyse.

Discriminantanalyse:

Bij een discriminantanalyse zijn er twee doelen. Voor deze cursus is het van belang dat we individuele voorspellingen willen doen, oftewel classificatie. Dit doen we met de predicitieve discriminantanalyse.

Er zijn 3 problemen die zich bij deze analyse voordoen:

  1. Hoe moeten de meerdere dimensies gecombineerd worden om tot een optimale indeling te komen?
  2. Hoe goed is de uiteindelijke indeling?
  3. Hoe kunnen we generaliseren naar andere situaties?

Toewijzing aan groepen (1)

Om de individuen toe te wijzen aan groepen, moet de afstand tot alle groepspunten (centroïden) worden berekent met de (gegeneraliseerde) stelling van Pythagoras (zie powerpoint voor formule).

Hoe goed is een oplossing? (2)

Met een classificatietabel, waarin de voorspelde waarden worden afgezet tegen de geobserveerde waarden, kunnen we zien hoe goed een uiteindelijke oplossing is. Er kunnen verschillende maten worden afgeleidt uit deze tabel. De PAC is een ruwe maat voor het bekijken van hoe goed een oplossing is. Hierbij worden alle juiste voorspellingen gedeeld door het totaal aantal voorspellingen. Er zijn ook andere maten, zoals de specificiteit en de sensitiviteit.

Bij de specificiteit wordt het aantal juist voorspelde gevallen die niet de ziekte hebben gedeeld door het totaal aantal niet gediagnosticeerde deelnemers. Bij de sensitiviteit wordt het aantal juist voorspelde gevallen die wel de ziekte hebben gedeeld door het totaal aantal gediagnosticeerde deelnemers. Specificiteit en sensitiviteit bepalen samen de kwaliteit van het meetinstrument.

Ook kan er van uit het individu worden gekeken naar de percentages. Als individu wil je namelijk weten hoe groot de kans is dat de diagnose klopt. Ook hiervoor zijn twee maten; de positieve en negatieve voorspelde waarde: De positief voorspelde waarde is het aantal goed voorspelde gevallen met ziekte gedeeld door het totaal aantal voorspelde met ziekte. Dit is dus de kans dat de diagnose ‘ziekte’ juist is. De negatieve voorspelde waarde is het aantal goed voorspelde gevallen zonder ziekte gedeeld door het totaal aantal voorspelde niet zieken. Dit is dus de kans dat de diagnose ‘niet ziek’ juist is.

Bij een goede steekproef zijn de specificiteit en de sensitiviteit onafhankelijk van de proporties gediagnosticeerde personen en de proporties niet gediagnosticeerde personen in de onderzochte groep. Voor de positieve en negatieve voorspelende waarde geldt dit niet.

Generaliseren naar de gehele populatie:

Bij het generaliseren naar de gehele populatie wordt de betrouwbaarheid van de individuele diagnose niet alleen bepaald door de kwaliteit van de instrumenten, maar ook door de base rate. Dit is hoe vaak een bepaalde diagnose voorkomt in de gehele populatie.

Je kan een classificatietabel maken met behulp van de gegevens van de algemene populatie en de specificiteit en de sensitiviteit van de steekproef. Uit deze tabel kunnen dan weer de voorspelende waarden worden berekent. Hieruit kan je opmaken of de steekproef wel of niet generaliseerbaar is naar de populatie.

Ook de base rate bepaald de betrouwbaarheid van de diagnose en heeft invloed op de voorspellende waarde. Dat kan er toe leiden dat de diagnostische informatie soms tot slechtere voorspellingen leidt.

De stelling van Bayes maakt het mogelijk om kansen te berekenen voor de gehele populatie, zonder dat daarbij de omvang bekend is. De formule staat op sheet 22.

 

Join World Supporter
Join World Supporter
Log in or create your free account

Why create an account?

  • Your WorldSupporter account gives you access to all functionalities of the platform
  • Once you are logged in, you can:
    • Save pages to your favorites
    • Give feedback or share contributions
    • participate in discussions
    • share your own contributions through the 7 WorldSupporter tools
Follow the author: Psychology Supporter
Promotions
Image

Op zoek naar een uitdagende job die past bij je studie? Word studentmanager bij JoHo !

Werkzaamheden: o.a.

  • Het werven, aansturen en contact onderhouden met auteurs, studie-assistenten en het lokale studentennetwerk.
  • Het helpen bij samenstellen van de studiematerialen
  • PR & communicatie werkzaamheden

Interesse? Reageer of informeer

verzekering studeren in het buitenland

Ga jij binnenkort studeren in het buitenland?
Regel je zorg- en reisverzekering via JoHo!

Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
[totalcount]
Comments, Compliments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
WorldSupporter Resources
Psychometrie - Samenvattingen, uittreksels, aantekeningen en oefenvragen - UL

Psychometrie - Samenvattingen, uittreksels, aantekeningen en oefenvragen - UL

Image

In deze bundel worden o.a. samenvattingen, oefententamens en collegeaantekeningen gedeeld voor het vak Psychometrie voor de opleiding Psychologie, jaar 2, aan de Universiteit Leiden

Voor een compleet overzicht van de door JoHo aangeboden samenvattingen & studiehulp en de beschikbare geprinte samenvattingen voor dit vak ga je naar de Samenvattingen Shop Psychologie - B2 - UL op JoHo.org