Samenvatting van: Validiteit, Analyse van tests, Beslissend testgebruik, Utiliteit analyse, Item respons theorie

Let op: deze samenvatting is door een student geupload en dus niet gecontroleerd voor publicatie

Hoofdstuk 5: Validiteit
Hoofdstuk 6: Analyse van tests (selecteren van geschikte items)
Hoofdstuk 7: beslissend testgebruik
Hoofdstuk 8: Utiliteit Analyse
Hoofdstuk 9: Item Respons Theorie (IRT)

Hoofdstuk 5: Validiteit

Begrip, test en validiteit

Validiteit betekent letterlijk ‘geldigheid’. Validiteit gaat over de mate waarin een test meet wat hij zou moeten meten, en de mate waarin een test aan zijn doel beantwoordt.

Over het algemeen kan men niet spreken over ‘de validiteit van een test’. Een test is namelijk voor sommige doeleinden wel valide, en voor sommige doeleinden niet. Je spreek daarom over de validiteit van het gebruik en de interpretatie van een test.

Er kan onderscheid gemaakt worden tussen twee typen testgebruik:

Beschrijvend testgebruik: een test waarbij bepaald gedrag of een eigenschap van een individu of een groep personen gemeten wordt
Beslissend testgebruik: een test die bedoeld is voor selectie, classificatie of diagnostisering

Er kunnen twee soorten validiteit onderscheiden worden:

Criteriumgeoriënteerde validiteit: hoe goed kan de test voorspellingen doen
Begripsvaliditeit: hoe goed dekt de test het begrip

Historisch overzicht

Aanvankelijk werden er drie typen validiteit onderscheiden:

Inhoudsvaliditeit: de mate waarin een test álle aspecten van het te meten begrip omvat. Hoe meer aspecten van het begrip hij meet, hoe hoger de inhoudsvaliditeit
Criteriumgeoriënteerde validiteit: de mate waarin een test vergelijkbaar is met een of meer andere externe variabelen, die over hetzelfde begrip of een deel van begrip gaan. Hierin zijn weer twee soorten criteriumgeoriënteerde validiteiten te onderscheiden:

Predicitieve validiteit gaat over een vergelijking met een criterium in de toekomst (bijv: voorspelt de cito toets goed naar wat voor hoger onderwijs iemand moet)
Concurrent validiteit gaat over de vergelijking met een criterium dat gelijktijdig geobserveerd kan worden (bijv: laat de test goed zien welke stoornis iemand nu heeft)

Begripsvaliditeit: de mate waarin de test wel een goede indicator is voor het te meten begrip. Dus bijvoorbeeld wanneer men in een test het aantal dienstjaren ziet als een indicator voor arbeidstevredenheid, dan is de vraag naar begripsvaliditeit de vraag of het aantal dienstjaren inderdaad representatief is voor arbeidstevredenheid.

Tegenwoordig wordt inhoudsvaliditeit als een onderdeel van begripsvaliditeit gezien.

Er wordt niet alleen over de validiteit van meetinstrumenten gesproken, maar ook over de validiteit van wetenschappelijke uitspraken in het algemeen. Ook hierbinnen zijn weer verschillende validiteiten te onderscheiden: statistische conclusievaliditeit, interne validiteit ( = mogen de conclusies wel getrokken worden), externe validiteit ( = is de steekproef te generaliseren naar de populatie) en begripsvaliditeit (= was de operationalisatie succesvol)

Tegenwoordig draagt bijna alle informatie over de interpretatie van testresultaten bij aan de validiteit. Het is bijna niet meer mogelijk om met elke kleine vorm van validiteit rekening te houden.

Criteriumgeoriënteerde validiteit

Het criterium

Een criterium is hetgeen waar je voorspellingen over wilt doen. Als je bijvoorbeeld met een test depressie wil meten, dan is depressie het criterium. Hoe beter een test de variaties in het criterium kan voorspellen, hoe hoger de criteriumgeoriënteerde validiteit is. Criteriumgeoriënteerde validiteit kan beoordeeld worden aan de hand van de correlatie tussen de test en het criterium.

Er kunnen verschillende soorten criteria onderscheiden worden:

Criteria kunnen specifiek of globaal zijn. Dat houdt in, criteria kunnen over een klein aantal situaties gaan (bijv verlegenheid bij leeftijdsgenoten), of over een groot aantal situaties (bijv verlegenheid in alle soorten situaties).
Criteria kunnen in de toekomst liggen, in het heden of in het verleden. Dit leidt tot het onderscheid wat al eerder is gemaakt, namelijk predictieve en gelijktijdige criteriumgeoriënteerde validiteit. Criteria in de toekomst gaan vaak over beroepskeuze, selectie en toewijzing aan therapieën. Gelijktijdige criteria en criteria uit het verleden gaan vaak over diagnostisering.
Ook kan er bij criteria die in de toekomst liggen, onderscheid gemaakt worden tussen uiteindelijke, tussentijdse en onmiddellijke criteria. Hoe uiteindelijker het criterium hoe relevanter. Het is alleen vaak zo dat uiteindelijke criteria moeilijker zijn om betrouwbaar te meten.

De relatie tussen een test en een criterium wordt meestal aangeduid met de correlatie tussen beide. Een relatie tussen de test en het criterium biedt alleen steun voor de criteriumgeoriënteerde validiteit, wanneer er een inhoudelijke verklaring is voor deze relatie.

Onderzoek naar criteriumgeoriënteerde validiteit

Om na te gaan of er criteriumgeoriënteerde validiteit is, moeten er een aantal stappen doorlopen worden.

Als eerste moet er een criterium gekozen worden. Er zijn meerdere operationalisaties van het begrip-zoals-bedoeld mogelijk, en daarom is het van belang om goed te kijken welke van die operationalisaties het beste aansluit bij het gebruiksdoel van de test.

Als tweede moet er een keuze gemaakt worden over de criteriummaat waarmee het criterium gemeten gaat worden. Doordat er vaak een beperkte beschikbaarheid is van relevante gegevens, is het moeilijker om een goede criteriummaat te kiezen. Het niveau waarop het criterium gemeten wordt (dus interval/ratio of ordinaal of nominaal) heeft gevolgen voor de maat die je moet gebruiken om de relatie tussen het criterium en de test vast te stellen.

Wanneer je criteria op nominale of ordinale schaal meet, maak je groepen waarin je personen indeelt op basis van de mate waarin zij voldoen aan het criterium. Deze groepen noem je criteriumgroepen. Wanneer je criterium ‘angstig’ is, kun je mensen indelen in een ‘niet-angstige’ en een ‘angstige’ groep. Met de test probeer je dan vervolgens ook mensen te onderscheiden op angstig en niet-angstig. Zo ontstaan er vier groepen: mensen die volgens de test angstig zijn en ook daadwerkelijk angstig zijn, mensen die volgens de test angstig zijn maar daadwerkelijk niet angstig zijn, mensen die volgens de test niet angstig zijn maar in werkelijkheid wel angstig zijn, en mensen die volgens de test niet angstig zijn en in werkelijkheid ook niet angstig zijn. Hoe beter de classificatie gelukt is, dus hoe beter de test heeft voorspeld of mensen angstig zijn, hoe meer steun voor de validiteit.

Als derde ga je kijken wat de betrouwbaarheid en de validiteit van de criteriummaat zijn.

De correlatie tussen de ware scores van test X en criterium Z wordt berekend met een formule (zie syllabus blz. 54). In deze formule deel je de correlatie tussen test X en criterium Z door de betrouwbaarheid van X en de betrouwbaarheid van Z. Uit de formule is af te leiden, dat een onbetrouwbare criteriumscore onvermijdelijk zorgt voor een lage correlatie, en dus zorgt voor een lagere validiteit.

In feite zijn de test en het criterium allebei operationalisaties van het begrip-zoals-bedoeld. Om te achterhalen of het criterium goed is, zou deze ook weer gevalideerd moeten worden aan een extern criterium. Zo blijf je bezig met validiteitsonderzoeken, dit wordt het Droste-effect genoemd.

Als vierde ga je de steekproef samenstellen. Vaak worden er in de praktijk specifieke groepen als steekproeven gebruikt, omdat ze eenvoudig beschikbaar zijn. Dit is pas gerechtvaardigd als de onderzoeker kan aantonen dat deze specifieke steekproef representatief is voor de rest van de populatie waar de test voor bedoeld is.

Als vijfde ga je de predictieve dan wel gelijktijdige criteriumgeoriënteerde validiteit bepalen.

Het bepalen van predictieve validiteit:
Deze vorm van validiteit betreft vaak longitudinaal onderzoek. Longitudinaal onderzoek brengt problemen met zich mee door de tijd die tussen de afname van de test en het meten van het criterium zit. Een ander probleem is dat vaak het criterium alleen gemeten wordt bij de groep die op basis van de test is aangenomen. De mensen die zijn afgewezen worden vaak niet meer gemeten. Naast dat de correlatie nu niet meer voor de hele groep is na te gaan, is de groep door selectie ook homogener. Deze selectieve, niet volledige sample wordt restriction of range genoemd. Door de restriction of range wordt de correlatie tussen test en criterium lager, waardoor de predictieve validiteit afneemt. Deze lage correlatie is dan niet toe te schrijven aan een lage criteriumgeorienteerde validiteit, maar aan de ‘restriction of range’ als gevolg van selectie.

Het bepalen van gelijktijdige validiteit:

Ook het onderzoek naar gelijktijdige validiteit brengt problemen met zich mee. Een voorbeeld hiervan is dat wanneer respondenten een diagnose test moet invullen, zij vaak geneigd zijn om een consistent patroon te vertonen van antwoorden of gedrag. Hierdoor zullen test en criterium meer overeenkomst vertonen dan in werkelijkheid het geval is. Een ander probleem is ook weer restriction of range. Stel dat je alleen psychologie studenten meet, dan heb je al een selectieve groep, namelijk een jonge groep die over het algemeen intelligent is. Ook plafond- en bodemeffect kunnen zorgen voor restriction of range.

Begripsvaliditeit

Begripsvaliditeit van een test geeft aan in hoeverre die test een goede meting is van het onderliggende theoretische begrip (construct). Deze relatie tussen de test en het onderliggende theoretische begrip is niet direct meetbaar. Steun voor begripsvaliditeit moet daarom komen van verschillende gegevens. Er moeten gegevens verzameld worden over het inhoudsdomein, de interne structuur en het nomologisch netwerk.

Inhoudsdomein

Het inhoudsdomein omvat een beschrijving van álle aspecten van waar het begrip over gaat. Er kan onderscheid gemaakt worden tussen het theoretische begrip-zoals-bedoeld en het empirische begrip-zoals-bepaald. Het begrip-zoals-bedoeld heeft in de psychologie een surplus-betekenis. Dat betekent dat het begrip-zoals-bedoeld niet te vangen is in een operationele definitie (denk maar aan het begrip intelligentie, hiervoor is moeilijk een goede operationele definitie voor te bedenken). Daarom zijn er verschillende testen die verschillende aspecten van het begrip meten. Het inhoudsdomein geeft ook de reikwijdte van de verschijnselen aan. Als bijvoorbeeld een rekentoets bedoeld is voor kinderen uit groep 8, dan worden er geen rekenvaardigheden gevraagd die boven het niveau van kinderen uit groep 8 zijn. Aan de vragen kun je zien hoe groot de doelgroep is waarvoor de test bedoeld is.

Het inhoudsdomein kan op een systematische manier in kaart gebracht worden door het begrip op te delen in facetten. Facetten zijn de belangrijkste aspecten van een begrip.

Interne structuur

Wanneer je een begrip opdeelt in meerdere items, dan zouden die items onderling met elkaar moeten samenhangen. Wanneer je meervoudige begrippen meet, zoals intelligentie, dan zouden de items binnen een bepaalde subschaal van intelligentie meer met elkaar moeten samenhangen dan met items uit een andere subschaal.

Nomologisch netwerk

Het nomologisch netwerk is een netwerk dat bestaat uit de relaties van:

1. het begrip met andere begrippen

2. het begrip met operationalisaties van die begrippen

3. relaties tussen de operationalisaties onderling

Een test zou moeten samenhangen met andere tests die hetzelfde begrip meten, vooral als deze tests ook nog dezelfde meetmethode gebruiken. Ook moet een nieuwe test hetzelfde patroon van samenhang met verwante en niet-verwante begrippen vertonen als andere tests die hetzelfde begrip meten.

Onderzoek naar begripsvaliditeit

Steun voor begripsvaliditeit komt voort uit steun voor de dekking van het inhoudsdomein, de interne structuur, en de relatie met andere begrippen en tests.

Dekking van het inhoudsdomein

Als eerste wordt steun gezocht naar de dekking van het inhoudsdomein. Steun voor de dekking van het inhoudsdomein kan verkregen worden door de items te laten beoordelen door experts. Ook empirische dekking is mogelijk. Je kunt een test vergelijken met een andere test die hetzelfde begrip meet, en dus hetzelfde inhoudsdomein heeft. Wanneer deze sterk samenhangen levert dit steun voor de keuze van jouw inhoudsdomein en de dekking ervan (je items). Ook kun je bepaalde groepen de test laten maken, waarvan je al weet hoe zij zouden moeten scoren op de test. Wanneer ze zo scoren zoals je verwacht, biedt dit ook steun voor het inhoudsdomein. Wanneer je items niet het hele domein van je begrip dekken, noem je dit partiële dekking. Items kunnen ook foutief dekken, in dat geval meten de items iets anders dan het beoogde begrip. De items kunnen bijvoorbeeld sociaal wenselijkheid meten. Ook kan er antwoordtendentie opgetreden zijn. Antwoordtendentie betekend dat er een neiging is om op een vragenlijst min of meer constant te reageren, onafhankelijk van de inhoud van de items.

Onderzoek naar interne structuur

Als tweede wordt onderzoek gedaan naar de interne structuur. Wanneer een meetinstrument geacht wordt één begrip te meten, moet hij voldoen aan een eendimensionaal model. Bij een meetinstrument voor een meerdimensionaal begrip (zoals de Big-Five), dient het meetinstrument alle verschillende aspecten van het begrip eendimensionaal te kunnen meten. Er moet vervolgens de samenhang optreden tussen items die van tevoren verwacht werden samen te hangen.

Relatie met andere begrippen en tests

Als derde wordt gekeken naar het nomologisch netwerk. Tests worden verwacht een correlatie te hebben met verwante begrippen, en geen correlaties met niet-verwante begrippen.

Multitrek-multimethodematrix van Campbell en Fiske

Campbell en Fiske hebben een strategie ontwikkeld om de begripsvaliditeit van een test te evalueren. Volgens hen komt variantie in een test deels doordat mensen verschillen op de gemeten trek (trek-variantie) en deels door de methode die gebruikt wordt (methode-variantie).

Campbell en Fiske gebruikten de multitrek-multimethode-aanpak om begripsvaliditeit te meten. Deze aanpak stelt dat een test zowel convergentie als divergentie moet aantonen. Bij convergentie wordt dezelfde trek gemeten, maar dan met andere methoden. Als hiertussen een correlatie is biedt dit steun voor de begripsvaliditeit. Bij divergentie wordt de test met meerdere andere methoden en andere trekken vergeleken. Hiertussen wil je juist geen correlatie. Je wilt in je test naar zelfvertrouwen bijvoorbeeld geen correlatie met een test die sociaal wenselijkheid meet.

In een multitrek-multimethodematrix worden de verschillende methoden en verschillende trekken weergegeven in een matrix. Wanneer je bijvoorbeeld een matrix maakt waarin je drie trekken onderscheid, en drie methoden, dan levert dit 9 tests op. Elke test kan gezien worden als een trek-methode-eenheid. In deze matrix worden de waarden van convergentie (c), divergentie (d), methodevariantie (m) en betrouwbaarheidscoëfficiënten (b) gegeven (voor een duidelijk overzicht, zie blz 65 van syllabus).

Op basis van de matrix kan validiteit geëvalueerd worden. Er zijn vier eisen voor validiteit:

De correlaties tussen testen die dezelfde trek met een andere methode meten moeten significant van nul verschillen (dit is convergentie)
De waarden van convergentie moeten groter zijn dan de waarden van divergentie. Dus de correlatie tussen tests met verschillende methoden die dezelfde trek meten, moeten groter zijn dan de correlatie tussen tests met verschillende methoden die verschillende trekken meten.
De waarden van convergentie moeten groter zijn dan die van de methodevariantie. Dus de correlatie tussen tests met verschillende methoden die dezelfde trek meten moeten groter zijn dan correlaties tussen tests met dezelfde methoden die verschillende trekken meten.
Wanneer er in één methode samenhang gevonden wordt tussen twee trekken, moet deze samenhang ook gevonden worden met andere methoden.

Nieuwe ontwikkelingen

Een moderne techniek voor de analyse van multitrek-multimethodematrices is confirmatieve factoranalyse. Met behulp van confirmatieve factoranalyse kunnen uitspraken gedaan worden over latente variabelen en is het mogelijk om de passing van een model te toetsen. Ook is het voordeel van deze nieuwe benadering dat niet alleen het testresultaat zelf, maar ook de processen die tot het resultaat hebben geleid worden betrokken in het validatieproces.

Slotopmerkingen

Als een test gebruikt wordt voor selectie, diagnose, classificatie of een andere vorm van beslissend testgebruik, is criteriumgeoriënteerde validiteit relevant
Wanneer testgebruik beschrijvend is, is criteriumgeoriënteerde validiteit niet zo relevant
Betrouwbaarheid is een voorwaarde voor validiteit. Dus wanneer een test valide is, is hij per definitie betrouwbaar. Wanneer een test betrouwbaar is, is deze niet per definitie valide.
In de praktijk zijn convergentie correlaties vaak laag, dit komt door o.a. lage betrouwbaarheid, homogene steekproef, etc.
Validatie is een dynamisch proces en validiteitsbepaling is een nooit afgerond proces, omdat de validiteit van een test nooit bewezen kan worden

Hoofdstuk 6: Analyse van tests (selecteren van geschikte items)

In een test wordt getracht de meest geschikte items te selecteren. Ook wordt gestreefd naar een verzameling items die één schaal vormen (eendimensionaal is), die niet meer items heeft dan nodig, en die over het geheel (normgeorienteerd) of voor een deel van het continuüm (criteriumgeoriënteerd) betrouwbaar en valide is. Het selecteren van de meest geschikte items kan gedaan worden d.m.v. van klassieke testtheorie of op basis van latente trektheorie. In dit hoofdstuk word de klassieke testtheorie besproken.

Klassieke testtheorie

Onderzoekers beginnen vaak met het verzamelen van heel veel items, en gooien later de items eruit die niet relevant bleken. Er worden drie stappen gemaakt in de klassieke itemanalyse:

De betrouwbaarheid wordt bepaald
Items worden geanalyseerd en op basis hiervan herzien of verwijderd
De verwijdering/herziening stopt als de onderzoeker zijn gestelde doel heeft bereikt

Betrouwbaarheid

Betrouwbaarheid (interne consistentie) van een test met 15 items wordt geschat door middel van Cronbach’s alpha en de formule van Spearman-Brown.

De eerste stap in de analyse van een test is het bepalen van de betrouwbaarheid van de totale itemverzameling. Wanneer deze erg laag is, moeten meer items worden verzameld. Wanneer deze redelijk is, kan er gekeken worden welke items weg kunnen.

Een test bevat vaak indicatieve en contra-indactieve items. Een contra-indictief item van het construct dominantie houdt in dat wanneer iemand hoog scoort op het item, dit wijst op een niet-dominante persoonlijkheid. Bij indicatieve items is het andersom. Wanneer iemand hoog scoort op het item, dan wijst dit op een dominante persoonlijkheid. Contra-indicatieve items moeten eerst omgerekend worden voordat ze geanalyseerd worden.

Chronbach’s alpha (α) kan berekend worden aan de hand van het aantal items, de testvariantie, en de som van de itemvarianties.

De Spearman-Brown formule wordt gebruikt voor de betrouwbaarheid van een test die bestaat uit verschillende parallelle delen die ieder een eigen betrouwbaarheid hebben. Wanneer je één test hebt, kun je de test in twee helften splitsen zodat je twee parallelle delen hebt, waardoor je de formule kan toepassen. De betrouwbaarheid van een test is over het algemeen goed te noemen als hij hoger is dan 0,80.

Na het vaststellen van de betrouwbaarheid worden de items afzonderlijk geanalyseerd. Wanneer de variantie van een item te klein is, of wanneer de correlatie met andere items laag is, levert dit item onvoldoende bijdrage aan de betrouwbaarheid. Op basis hiervan zijn er vijf kenmerken waarop items worden beoordeeld, ze zullen hieronder besproken worden.

Itemmoeilijkheid

De itemmoeilijkheid is gelijk aan het itemgemiddelde. Hele moeilijke en hele makkelijke items hebben een kleine variantie, omdat ze over het algemeen door iedereen ongeveer hetzelfde gemaakt worden. Deze items wil je er daarom uit hebben. Vooral moeilijke items wil je eruit hebben aangezien die veel tijd van de test in beslag nemen.

Itemvariantie

Een item met nul variantie is niet informatief, aangezien deze geen onderscheid laat zien tussen de respondenten.

Inter-itemcorrelatie

De inter-itemcorrelatie geeft de correlaties tussen de items onderling weer. Wanneer een item helemaal niet correleert met de rest van de items, levert dit geen bijdrage aan de betrouwbaarheid van de test. Er kan een item-intercorrelatiematrix gemaakt worden waarin alle correlaties worden weergeven. Er zijn hiervoor twee richtlijnen: er mogen geen negatieve correlaties zijn, en er mogen niet té hoge correlaties zijn. Wanneer items een té hoge correlatie hebben dan zou dit erop wijzen dat de twee items precies hetzelfde meten waardoor eentje eigenlijk overbodig is. Op basis van de matrix kunnen de slechtste items geïdentificeerd worden.

Itemdiscriminatie

Itemdiscriminatie geeft aan in hoeverre een item onderscheid kan maken tussen personen die hoog scoren op de gehele test en personen die laag scoren op de gehele test. Wanneer een item geen onderscheid kan maken tussen deze groepen, is hij niet informatief. Een goede maat voor de itemdiscriminatie is de item-testcorrelatie. De item-testcorrelatie geeft aan hoe homogeen een item met de test is, ook wel itemhomogeniteit genoemd. Maar, in de testscore zit ook de score op dat item. Daarom geeft de item-testcorrelatie een waarde die beïnvloed is door het item zelf en daarom niet betrouwbaar. Om hiervoor te corrigeren, bereken je de correlatie van het item met de rest van de test (item-restcorrelatie). Voor een informatief item is de ondergrens van de correlatie 0.20. Tussen 0.30 en 0.40 is de correlatie normaal.

Itembetrouwbaarheidsindex

De itembetrouwbaarheidsindex is een combinatie van de itemvariantie en itemdiscriminatie. Hoe hoger de waarde van de itembetrouwbaarheidsindex, hoe beter.

Van Naerssens f

Naerssens f is een waarde die aangeeft wat de bijdrage van een item aan de betrouwbaarheid van een test is. Deze waarde is de betrouwbaarheid van de totale test, waar de betrouwbaarheid van de test zonder item i vanaf is getrokken. Als Naerssens f een positieve waarde heeft, dan draagt het item iets bij aan de test. De Naerssens f is onafhankelijk van de testlengte.

Na de itemanalyse kunnen items verwijderd worden die niet aan bovenstaande normen voldoen. Meestal komen op basis van de item-restcorrelaties en de van Naerssen’s f dezelfde items naar boven die ongeschikt lijken. Na het verwijderen van de items kan de itemanalyse weer opnieuw uitgevoerd worden zonder deze items. Op deze manier kan een goede schaal geconstrueerd worden, waarbij er een alpha is hoger dan 0,8 en elk item een goede bijdrage levert aan de betrouwbaarheid.

Hoofdstuk 7: beslissend testgebruik

Er kan onderscheid gemaakt worden tussen vier typen psychometrische beslissingssituaties:

Classificatie. Classificatie gaat over het toewijzen van personen aan bijvoorbeeld banen, opleidingen, therapieën, etc. Op basis van een beroepskeuzetest kan bijvoorbeeld geschat worden dat iemand het beste docent zou kunnen worden.
Plaatsing. Bij plaatsing worden mensen ook toegewezen aan bepaalde ‘behandelingen’. Een voorbeeld hiervan is een rekenvaardigheidstest die leerlingen op basis van hun score op de test toewijst aan verschillende rekendidactieken, zodat ze het onderwijs krijgen dat ze nodig hebben. Uiteindelijk nemen alle personen wel deel aan hetzelfde criterium: ze moeten uiteindelijk allemaal een bepaalde rekentoets aan het einde van het jaar halen.
Selectie. Bij selectie worden personen aangenomen of afgewezen voor bijvoorbeeld banen, opleidingen of therapieën.
Beheersingssituatie. Beheersing gaat over het slagen of zakken op een studietoets.

Bij classificatie, plaatsing en selectie is er een extern criterium dat voorspeld wordt. Bij beheersing is er een intern criterium dat voorspeld wordt.

Selectie

Aangezien selectie de beslissingsmethode is die het meest gebruikt wordt binnen de psychologie, zal hier voornamelijk op ingegaan worden.

Bij selectie is het criterium altijd ordinaal of metrisch (ratio/interval). Bij selectie moeten twee onderscheiden gehanteerd worden: quotabeperkte selectie en quotavrije selectie. Bij quotabeperkte selectie is er een beperkt aantal plaatsen beschikbaar bij de instantie die mensen aan wil nemen. Hoeveel mensen zich ook aan zullen melden, het aantal sollicitanten dat aangenomen zal worden ligt van tevoren vast. Bij quotavrije selectie is er een onbeperkt aantal plaatsen. Alle mensen waarvan de instantie denkt dat zij geschikt zijn, worden aangenomen.

Ook kan er een onderscheid gemaakt worden tussen selectie uit één populatie en selectie uit meerdere populaties. Bij selectie uit subpopulaties worden sollicitanten bijvoorbeeld gesplitst op basis van geslacht of afkomst.

Quotabeperkte selectie

Wanneer een criterium continu of metrisch is, kan er gebruik gemaakt worden van regressie-analyse. In werkelijkheid worden er vaak meerdere predictoren gebruikt (meerdere tests), en daarom wordt er gebruik gemaakt van multiple regressie-analyse. Voor de formule van de lineaire regressiefunctie, zie blz. 100 van de Syllabus. In deze formule wordt het criterium Z voorspeld op basis van p predictoren. De regressiewaarde die hieruit komt, is de verwachte waarde van de Z waarden. Om gebruik te kunnen maken van de formule moeten eerst de parameters geschat worden (a en b). Wanneer dit gedaan is kan voor elk persoon de criteriumscore voorspeld worden. Deze verwachte criteriumscore wordt Z’ genoemd. Wanneer voor iedereen de voorspelde criteriumscore is berekend, kan gekeken worden wie de beste sollicitanten zijn. Dat zijn namelijk de sollicitanten met de hoogste voorspelde criteriumscore.

Quotavrije selectie

Om te beslissen hoeveel sollicitanten een instantie aan zou willen nemen, kan gebruik gemaakt worden van psychometrische besliskunde. In de besliskunde kan gebruik gemaakt worden van utiliteitsfuncties. Deze functies geven de opbrengst van de selectieprocedure weer. Oftewel: de hoeveelheid geschikte sollicitanten bij een bepaalde selectieprocedure. De grens van wanneer iemand geschikt is, kan door de instantie zelf bepaald worden. Een studie psychologie kan bijvoorbeeld studenten geschikt noemen wanneer zij hun BSA halen. Deze grens op het criterium Z, wordt aangeduid met d. Het percentage sollicitanten/studenten dat geschikt is, wordt aangeduid met de base rate. Aangezien een instantie niet iedereen wil aannemen die zich aanmeldt, kan een cesuur (aangeduid met c) worden ingesteld. Dit is een waarde waar sollicitanten aan moeten voldoen om aangenomen te kunnen worden. In het voorbeeld van psychologie, kan de cesuur zijn dat iedereen die hoger dan een 7 had op zijn eindexamen, wordt toegelaten. De studie verwacht dan dat mensen dat deze cesuur een goede voorspeller is voor het onderscheiden van geschikte en ongeschikte sollicitanten. De proportie sollicitanten die aangenomen wordt, wordt de selectieratio genoemd. Voor een overzicht van een aantal termen, zie de volgende tabel.

Ten onrechte afgewezen

False negative (P01)

Terecht aangenomen

True positive (P11)

Terecht afgewezen

True negative (P00)

Ten onrechte aangenomen

False positive (P10)

Bovenste rij: Geschikt
Onderste rij: Ongeschikt
Linker kolom: Aangenomen
Rechter kolom: Afgewezen

Op de Y-as van de tabel staat de werkelijke criteriumscore Z, en op de X-as staat de voorspelde criteriumscore Z’. Er zijn in deze tabel vier situaties te zien:

Mensen die terecht zijn aangenomen. Dat zijn dus mensen die hoger dan de cesuur scoorden op de voorspellende test, en hoger dan de grenswaarde scoorden op het uiteindelijke criterium. Dit type wordt ook wel true positive genoemd. De proportie van deze mensen wordt aangeduid met P11.
Mensen die terecht zijn afgewezen. Dat zijn dus mensen die lager dan de cesuur scoorden op de voorspellende test, en lager dan de grenswaarde scoorden op het uiteindelijke criterium. Dit type wordt ook wel true negative genoemd. De proportie van deze mensen wordt aangeduid met P00.
Mensen die ten onrechte zijn aangenomen. Dat zijn dus mensen die hoger dan de cesuur scoorden op de voorspellende test, en lager dan de grenswaarde scoorden op het uiteindelijke criterium. Dit type wordt ook wel false positive genoemd. De proportie van deze mensen wordt aangeduid met P10.
Mensen die ten onrechte zijn afgewezen. Dat zijn dus mensen die lager dan de cesuur scoorden op de voorspellende test, en hoger dan de grenswaarde scoorden op het uiteindelijke criterium. Dit type wordt ook wel false negative genoemd. De proportie van deze mensen wordt aangeduid met P01.

De base rate is gelijk aan de proporties van geschikte mensen, dus P01+P11. De selectieratio is gelijk aan de proportie van aangenomen mensen, dus P10+P11. Wanneer de cesuur lager wordt gezet (in de tabel verschuift de c dan naar links), wordt de proportie afgewezen sollicitanten kleiner, en de proportie aangenomen sollicitanten groter. Wanneer de cesuur hoger wordt (in de tabel verschuift de c dan naar rechts), is dit precies omgekeerd. De vraag welke cesuur optimaal is (laag, gemiddeld of hoog), kan bepaald worden door de drempelutiliteitsfunctie.

De verwachte utiliteit (opbrengst) is volgens de volgende formule te berekenen:

εUc = P00*p + P01 * q + P10 * r + P00 * s.

Waarbij p de utiliteit van een terecht afgewezen sollicitant is, q de utiliteit van een ten onrechte afgewezen sollicitant, r die van een ten onrechte aangenomen sollicitant en s die van een terecht aangenomen sollicitant. Deze formule kan je uitvoeren bij een lage, gemiddelde en hoge cesuur, en zo kun je kijken welke cesuur de hoogste verwachte utiliteit heeft. Deze cesuur is de meest optimale. Voor de base rate maakt het niet uit welke cesuur je kiest, de base rate verandert namelijk niet.

De meest optimale cesuur kan berekend worden met de volgende formule:

εUc* = - Q * P10 + P11

waarbij Q = (p - r)/(s - q).

Om de optimale cesuur is het niet nodig om p, r, s en q apart te specificeren. Er kan namelijk gebruik gemaakt worden van Q. Wanneer een instantie kiest voor een Q kleiner dan 1, dan betekent dit dat de instantie afwijzen/aannemen van geschikte sollicitanten belangrijker vindt dan afwijzen/aannemen van ongeschikte sollicitanten (dus false negative is erger). Als Q groter is dan 1, betekent dit dat de instantie afwijzen/aannemen van ongeschikte sollicitanten belangrijker vindt dan afwijzen/aannemen van geschikte sollicitanten (dus false positive is erger). Bij een Q van 1, vindt de instantie ongeschikte en geschikte sollicitanten even belangrijk.

Bij cultuureerlijke selectie worden soms verschillende subpopulaties onderscheiden. Bijvoorbeeld mannen en vrouwen worden onderscheiden. Er kunnen bijvoorbeeld verschillende cesuren worden opgesteld voor mannen en vrouwen.

Differentiële predictie

Voorheen werd er steeds gesproken over het hanteren van één regressiefunctie. Het kan echter zijn dat er voor verschillende subpopulaties andere regressiefuncties van toepassing zijn. In dat geval spreekt men van differentiële predictie. Een voorbeeld hiervan is de regressiefunctie voor het voorspellen van aantal gehaalde studiepunten. Hieruit bleek dat deze functies verschilden voor mannen en vrouwen. Als gevolg hiervan kunnen sollicitanten/studenten dus opgedeeld worden in twee subpopulaties. Dit kan aangegeven door een dichitome predictorvariabele (Y₂) in te voeren in de regressiefunctie. Deze Y₂ krijgt bij de ene subpopulatie een waarde van 0 en bij de andere subpopulatie een waarde van 1.

ε = b + a₁y₁ + a₂y₂.

a₂y₂is de toegevoegde predictorvariabele. Wanner Y₂de waarde 0 heeft, valt a₂y₂weg uit de formule:

ε = b + a₁y₁

Wanneer y₂ de waarde 1 heeft, wordt de formule:

ε = b + a₁y₁ + a₂= b* + a₁y₁ (b* is hierbij b + a₂)

Er zijn nu dus twee verschillende regressiefuncties ontstaan. Deze functies hebben dezelfde richtingscoëfficient (a1), maar een ander intercept (b versus b*). De regressiefuncties lopen dus wel parallel, maar ze snijden de Y-as op een ander punt. Er wordt hierbij gesproken van uniforme differentiële predictie.

Er kunnen ook drie predictoren zijn. In dat geval kan ook de richtingscoëfficiënt verschillen tussen beide regressies (en dus tussen beide subpopulaties). In zo’n geval snijden de regressiefuncties elkaar. Er wordt dan gesproken van niet-uniforme differentiële predictie.

Bij uniforme differentiële predictie is het verschil in criteriumscore constant, dit is bij niet-uniforme differentiële predictie niet het geval. Voor een helder beeld, zie blz. 114 van de Syllabus.

Hoofdstuk 8: Utiliteit Analyse

Wat is utiliteit analyse?

Met utiliteit analyse worden de kosten en baten van een test laten zien, waardoor een relevante keuze gemaakt kan worden over of die test gebruikt zou moeten worden. Er zijn veel verschillende methoden om utiliteit analyse uit te voeren.

Hoe wordt een utiliteit analyse gebruikt?

De Taylor-Russle tabel kan gebruikt worden door instanties om te bepalen of zij een bepaalde selectie willen uitvoeren. Deze tabel biedt een schatting van het percentage van aangenomen mensen dat succesvol zal zijn. Dit wordt gedaan op basis van drie variabelen: de validiteit van de test, de selectieratio en de base rate. Voor de tabel, zie blz. 120 van de Syllabus.

Een illustratie van utiliteit analyse

In dit stuk zal een voorbeeld van het gebruik van utiliteit analyse worden uitgewerkt.

Stel er is een bedrijf dat nieuwe vrachtwagenchauffeurs aan wil nemen. Zij vragen zich af of ze een selectie test moeten invoeren voor het proces van aannemen van nieuwe vrachtwagenchauffeurs en willen hiervoor de kosten en baten op een rijtje zetten. Of vrachtwagenchauffeurs geschikt zijn, wordt gemeten aan de hand van de scores op de OTJRs. Dit is een test die na een bepaalde periode van werken wordt uitgevoerd. Wanneer mensen hier hoog op scoren, worden zij gezien als geschikt. De OTJRs is dus het criterium, en slagen op de OTJRs is de grenswaarde (d). Om een schatting te maken van of sollicitanten zullen slagen voor de OTJRs, wil het bedrijf de sollicitanten een test laten afleggen, waarvan zij hopen dat deze test representatief is voor het slagen op de OTJRs. De test die zij ontwikkeld hebben heet de FERT. De FERT is dus de predictor. Ze willen nu uiteraard een cutscore/censuur die voor een zo hoog mogelijke utiliteit zorgt. Een mogelijke manier voor het selecteren van sollicitanten, is door middel van top-down selection. Hierbij geef je de beste banen aan de sollicitanten die het hoogst scoren op de test, en de daarna beste banen aan de sollicitanten die daarna het hoogst scoren, enzovoort, totdat alle posities opgevuld zijn. Maar, top-down selectie kan discriminerende effecten hebben en daarom wil het bedrijf dit niet. Het bedrijf gaat vervolgens na welke cutscore zij moeten gebruiken. Er is alleen niet één beste manier om de cutscore te bepalen. Dit hangt namelijk af van het doel van het selectieproces. Voordat er gekeken wordt naar het kiezen van de juiste cutscore, is het handig om eerst wat termen te kennen:

Hit = een correcte classificatie (terecht aangenomen en terecht afgewezen)
Miss = een incorrecte classificatie (onterecht aangenomen en onterecht afgewezen)
Hit rate = de proportie geschikte mensen uit alle mensen die je hebt aangenomen
Miss rate = de proportie ongeschikte mensen uit alle mensen die je hebt aangenomen
False positive = proportie onterecht aangenomen (wel geslaagd voor de FERT, maar niet voor de OTJRs)
False negative = proportie onterecht afgewezen (niet geslaagd voor de FERT, maar zou wel slagen voor de OTJRs)

Om vervolgens de cutscore te bepalen, moet uit de volgende vier opties gekozen worden. De optie die gekozen moet worden is de optie die het beste het doel van het bedrijf reflecteert.

Gebruik de FERT niet. Doe dit wanneer je niet veel geld uit wilt geven aan een test, en wanneer je gewoon heel veel mensen nodig hebt. Ook kun je dit doen wanneer je minder aanmeldingen hebt dan waar je vraag naar hebt. In dit geval zet je de cut score dus extreem laag: iedereen wordt aangenomen.
Zorg ervoor dat geschikte kandidaten niet afgewezen worden. Wanneer je dit wilt, wil je dus een zo laag mogelijke false negative rate. Je wijst alleen de mensen af waarvan je zeker weet dat ze niet goed genoeg zijn. Ook hierbij zet je weer een lage cutscore.
Zorg ervoor dat iedereen die je selecteert, ook terecht geselecteerd is. Je wil dus een zo laag mogelijke false positive rate. Dit kun je doen wanneer je alleen de allerbeste sollicitanten wil, waarvan je zeker weet dat ze succesvol zullen zijn. Hierbij zet je een hoge cut score.
Zorg ervoor dat alle succesvolle kandidaten geselecteerd zullen worden, en alle niet-succesvolle kandidaten afgewezen. Je wilt hierbij dus een zo hoog mogelijke hit rate en een zo laag mogelijke miss rate. Je kan hierbij alleen niet controleren voor de false positives of false negatives. Deze worden even belangrijk geacht. Hierbij gebruik je een gemiddelde cutscore.

Het bedrijf evalueert alle opties, en maakt scatterplots van de verschillende opties. Ze kiezen uiteindelijk voor optie vier, omdat ze een hoge hit rate en een lage miss rate het belangrijkste vinden. Zij berekenen dat wanneer ze de test gebruiken, en een gemiddelde cutscore gebruiken, 83.9% van de aangenomen kandidaten succesvol zal zijn, terwijl de oorspronkelijke base rate 0,5 was. Wanneer ze geen selectie zouden gebruiken zal dus maar 50% van de aangenomen kandidaten succesvol zijn. Het verschil tussen 83.9% en 50% is een groot verschil. Maar om zeker te weten dat het gebruiken van de test een goed idee is, moeten ze nog wel de kosten-baten ratio uitrekenen. Deze ratio wordt de return on investment genoemd. Uit deze return on investment blijkt dat de test een goede investering is.

In de Taylor-Russell tabel is te zien dat hoe hoger de validiteit is, hoe hoger de verwachte utiliteit. Verder is te zien dat wanneer selectieratio’s laag zijn (dus bij een strenge selectie), dat dan zelfs bij lage validiteit de base rate nog een stuk omhoog kan gaan. Wanneer de selectieratio hoog is, maakt de validiteit weinig verschil meer.

Er zijn een paar beperkingen van de Taylor-Russell tabel. Een assumptie van de tabel is bijvoorbeeld dat de relatie tussen de test en het criterium lineair moet zijn. Een andere limitatie is de moeilijkheid waarmee een criteriumscore geïdentificeerd kan worden die succesvolle werknemers van onsuccesvolle werknemers onderscheidt. De Naylor-Shine tabellen lossen een aantal problemen van de Taylor-Russell tabel op. Deze tabellen laten het verschil zien tussen de gemiddelden van de geselecteerde en ongeselecteerde groep, om een indicatie te krijgen van wat de test toevoegt aan al bestaande procedures. De Taylor-Russell tabellen verhogen dus de base rate van succesvolle kandidaten, die gebaseerd is op de criterium validiteit. De Naylor-Shine tabellen laten de waarschijnlijke toename van succes op het criterium als resultaat van een test zien. Deze twee tabellen zijn gebaseerd op de selectie ratio, validiteit en base rate, alleen in werkelijkheid zijn er vaak veel meer variabelen die meespelen.

Hoofdstuk 9: Item Respons Theorie (IRT)

Een alternatief voor het ware score model is de item respons theorie (IRT). Deze theorie laat de kans zien dat een persoon met een X hoeveelheid van een bepaalde karaktereigenschap een Y hoeveelheid van deze eigenschap laat zien op een persoonlijkheidstest die bedoeld is om deze eigenschap te meten. Een synoniem voor IRT is latente trek theorie.

Twee karakteristieken van IRT zijn:

De difficulty level (moeilijkheidsgraad) van een item: Een moeilijk item is een item waarvan verwacht wordt dat maar een klein deel van de respondenten het op kan lossen, toe kan passen of begrijpen. Een makkelijk item is een item waarvan verwacht wordt dat vrijwel iedereen hem op kan lossen, toe kan passen of begrijpen. Op basis van de moeilijkheid van een item kan ook het gewicht dat aan dat item wordt gegeven bepaald worden. In klassieke testtheorie kan dit niet.
De mate van discriminatie van een item: de mate waarin een item een verschil laat zien tussen mensen met hogere of lagere levels van een bepaald gedrag dat gemeten wordt. Dus stel je meet fysieke vermogen. Dan discrimineert een vraag over traplopen meer dan een vraag over hoelang je voor de spiegel staat omdat het item traplopen meer zegt over hoe iemands fysieke vermogen is. Hoe hoger het level van discriminatie, hoe zwaarder het item wordt meegewogen.

Sommige IRT modellen behandelen data van dichitome test items (items waar maar twee alternatieve antwoordopties zijn, zoals ‘waar’ of ‘niet waar’). Andere IRT modellen behandelen polytome test items (items met drie of meer antwoordopties).

Een verschil tussen IRT en klasieke testtheorie is dat IRT een assumptie heeft over de frequentie verdeling van test scores. Bij sommige IRT modellen is deze assumptie heel streng. Elk item moet dan een gelijke relatie hebben met het construct dat gemeten wordt. Zo’n streng model wordt een Rasch model genoemd.

Andere assumpties van IRT:

Unidimensionaliteit: het antwoord op het item wordt veroorzaakt door de mate van de latente trek die iemand heeft, en niet door andere factoren. De mate waarin iemand een latente trek heeft, wordt het theta level genoemd. Voorbeeld: als er een item is “in welke mate voel je je vermoeid?” dan zou het antwoord op deze vraag puur gebaseerd moeten zijn op iemands theta level van vermoeidheid, en niet op een andere factor.
Lokale onafhankelijkheid: eerst handig om te weten wat lokale afhankelijkheid is. items zijn lokaal afhankelijk wanneer ze meer met elkaar correleren dan met de latente trek. Deze correlatie tussen items wordt dan door een andere factor verklaard dan de latente trek. Lokale onafhankelijkheid is dan dus dat alle items met elkaar correleren, en dat dit verklaard kan worden door de latente trek (door het theta level).
Monotiniciteit: wanneer een item antwoord indicatief is voor hoge levels van theta, dan zouden mensen met een hoog theta level ook hoog op zo’n item moeten scoren.

IRT in de praktijk

De relatie tussen iemands antwoord op een test item en diegene zijn theta level (mate waarin hij de latente trek heeft) kan weergegeven worden met een item characteristic curve (ICC). Op de X-as van deze grafiek is het theta level te zien. Het theta level is weergegeven in standaarddeviaties, dus, als iemand theta level 2 heeft, dan zit zijn theta level 2 standaarddeviaties van het populatie gemiddelde af. Op de Y-as is de kans dat iemand een bepaald antwoord op een item kiest weergegeven, dit is een kans tussen 0 en 1. Er wordt bijvoorbeeld verwacht dat de kans groot is (dichtbij 1) dat iemand met een hoog theta level van vermoeidheid, ‘ja’ zal antwoorden op de vraag ‘ben je vermoeid’. IRT gebruikt de informatie functie/informatie curve om determinaties te maken. Dat wil zeggen, aan de hand van de informatie curve kan gezien worden voor welke range van theta levels het item relevant is om respondenten te kunnen onderscheiden. Een informatie curve die piekt bij standaarddeviatie 0, is informatief bij medium theta levels. Een informatie curve die piekt bij standaarddeviatie 2 is informatief bij hoge theta levels. Een informatie curve die helemaal niet piekt, is niet informatief. Zo’n item heeft namelijk geen onderscheidend vermogen. Wanneer een onderzoeker werkt met alleen hele depressieve mensen, kan het handig zijn om alleen items te gebruiken die informatief zijn bij een hoog theta level (dus curves die bij hoge standaarddeviaties pieken). Al deze informatie curves van de items kunnen samengevoegd worden tot één informatie curve die representatief is voor de gehele test. Dit is de test informatie curve. Deze curve biedt veel informatie. In de klassieke test theorie wordt vaak de alpha uitgerekend. Stel je vindt een alpha van 0.92, dan krijg je het idee dat de test heel betrouwbaar is. Maar dit betekent nog niet dat de test voor álle levels van de latente trek (theta levels) betrouwbaar is. Het kan bijvoorbeeld zijn dat de test alleen betrouwbaar is voor hoge mate op de latente trek. Een test informatie curve biedt hier meer informatie over. Wanneer bijvoorbeeld een test informatie curve over de mate van depressie piekt bij 0 en 1 standaarddeviaties, dan weet je dat de test betrouwbaar is voor het beoordelen van medium tot hoge levels van depressieve symptomen, maar dat de test lagere levels van depressie minder precies kan meten.

In de werkgroep is nog ingegaan op het Parameter Logistisch (PL) model. Dit model geeft logistische curves van de items weer. Op de X-as staan de levels van de latente trek, dit zijn dus de theta levels. Op de Y-as staan de kansen van het ‘goed’ beantwoorden van het item. Er is altijd een omslagpunt van de curve bij een kanswaarde van 0.5. Het punt van de curve waarbij de kans 0.5 is dat mensen het item correct beantwoorden, wordt de beta-parameter genoemd. Hoe verder deze beta-parameter naar rechts zit (dus bij een groter theta level), hoe moeilijker het item. Dit komt doordat je een hogere latente trekwaarde nodig hebt om een kans van 0.5 te hebben om het item goed te beantwoorden. De beta-parameter geeft dus de moeilijkheid van het item weer. Ook kan uit de curve opgemaakt worden hoe goed een item discrimineert. Want: hoe stijler de curve loopt, hoe beter het item kan onderscheiden. Bij goed onderscheidende items kun je snel zien of mensen wel of niet de latente trek hebben.

Er is nog een onderscheid te maken tussen 1 parameter logistische (1PL) modellen, en 2 parameter logistische (2PL) modellen. Bij 1 parameter logistische modellen hebbe alle item curves dezelfde discriminatie. Ze variëren dus alleen op moeilijkheid, en niet op onderscheidend vermogen. Deze items worden dus maar door 1 parameter beschreven. Je kunt 1 PL modellen herkennen door te kijken of de lijnen hetzelfde lopen. Bij 1 PL modellen zou je de lijnen op elkaar kunnen leggen. Bij 2 parameter logistische modellen variëren items op moeilijkheid én discriminatie. Ze worden dus door twee parameters beschreven. De lijnen van de items lopen hierbij niet allemaal hetzelfde, ze hebben allemaal een verschillende stijlheid.

Join World Supporter

for free to follow other supporters, see more content and use the tools
for €10,- by becoming a member to see all content

Why create an account?

Your WorldSupporter account gives you access to all functionalities of the platform
Once you are logged in, you can:
- Save pages to your favorites
- Give feedback or share contributions
- participate in discussions
- share your own contributions through the 7 WorldSupporter tools

Follow the author: Vintage Supporter

Vintage Supporter

Promotions

Ga jij binnenkort studeren in het buitenland?
Regel je zorg- en reisverzekering via JoHo!

Access level of this page

Public
WorldSupporters only
JoHo members
Private

Statistics

[totalcount]

Content categories

Statistics & Data analysis

Comments, Compliments & Kudos

Add new contribution

More contributions of WorldSupporter author: Vintage Supporter

WorldSupporter Resources

Samenvatting Applied Multivariate Research

Samenvatting bij Applied Multivariate Research (Meyers et al.) - geschreven in 2015

Hoofdstuk 4A Univariate Vergelijking van Gemiddelden
Hoofdstuk 4B Univariate vergelijking van gemiddelden met gebruik van SPSS
Hoofdstuk 5A Multivariate Variantie Analyse (MANOVA)
Hoofdstuk 5B MANOVA met gebruik van SPSS
Hoofdstuk 6A Bivariate Correlatie en Simpele Lineaire Regressie
Hoofdstuk 6B Bivariate Correlatie en Simpele Lineaire Regressie met gebruik van SPSS
Hoofdstuk 7A Multipele regressie: Statistische methoden
Hoofdstuk 7B Multipele regressie: Statistische methoden in SPSS
Hoofdstuk 8A Multipele Regressie
Hoofdstuk 8B Multipele regressie met gebruik van SPSS
Hoofdstuk 9A Multilevel modeleren
Hoofdstuk 10A Logistische regressie en ROC Analyse
Hoofdstuk 10B Binaire en multinominale logistische regressie met SPSS
Hoofdstuk 11A Discriminant Functie Analyse
Hoofdstuk 11B Discriminant functie analyse met SPSS
Hoofdstuk 14A Multidimensionaal Schalen
Hoofdstuk 14B Multidimensionaal Schalen met gebruik van SPSS

Hoofdstuk 4A Univariate Vergelijking van Gemiddelden

Gemiddelden worden vergeleken om te kijken of het verschil statistisch significant is, oftewel of deze verschillen bij herhaalde afname van het onderzoek weer tevoorschijn zouden komen. Misschien representeren de verschillende condities andere populaties. Elke geobserveerde verschillen in gemiddelden moet geëvalueerd worden in de context van hoeveel variabiliteit er aanwezig is in de scores van alle leden van de groepen. Dit verschil in gemiddelden kan bestaande verschillen tussen condities wel of niet aantonen. Bij de interpretatie van zo’n verschil moet er rekening gehouden worden met de score variabiliteit in elke groep. Hoe ver groepsleden afwijken van het groepsgemiddelde is de ‘margin of error’. Deze meetfouten kunnen bijvoorbeeld ontstaan door fouten in het gebruikte instrument, bedrog van deelnemers of cognitieve en motorische activiteiten in het leven van deelnemer waar de onderzoeker niet van op de hoogte is.

T en F toetsen

Bij een T-toets is het gemiddelde verschil het verschil tussen gemiddelden en de margin of error is de standaardfout van het verschil tussen de gemiddelden. Bij een F-toets is het gemiddelde verschil de between-groups mean square (tussen-groepsvariantie) en de margin of error is de within-groups mean square (binnen-groepsvariantie).

De t-test kan alleen gebruikt worden wanneer één onafhankelijke variabele twee niveaus heeft. ANOVA kan in dezelfde situatie gebruikt worden, maar ook bij meer dan twee condities en meerdere onafhankelijke variabelen. Een een-weg ANOVA maakt gebruik van de F-toets. Beide toetsen geven een ratio van variabiliteit van steekproefgemiddelden ten opzichte van een verwachte meetfout (error variance). Ze zijn varianten van elkaar: t² = F ofwel √F = t.

Een gepaarde t-test wordt gebruikt bij het testen of er significante verschillen zijn tussen variabelen of dat er een interactie is.

Een-weg tussen-proefpersoon ontwerp

Bij een één-weg ontwerp is er één onafhankelijke variabele die alle verschillende niveaus mag hebben. Het doel van een-weg ontwerp is om het verschil tussen de niveaus te testen.

De variabele kan zoveel niveaus hebben als nodig zijn om de onderzoeksvraag te beantwoorden. Men kan een tussen-proefpersonen ontwerp doen, waarbij verschillende mensen in verschillende groepen terecht komen. Hierbij wordt gekeken naar de tussen-groepsvariantie of behandelingseffect. Men kan ook een binnen-proefpersonen ontwerp doen, waarbij elke deelnemer aan elke conditie wordt blootgesteld. Hierbij wordt gekeken naar de binnen-groepsvariantie of error-variantie.

De tabel ziet er als volgt uit met a = aantal niveaus van de onafhankelijke variabele, n = aantal observaties in elke groep, N = totaal aantal observaties.

Kwadratensom (SS) van tussengroepsvariantie wordt uitgerekend door het grote gemiddelde van het groepsgemiddelde af te trekken, SS van de error door individuele score van het groepsgemiddelde af te halen en SS totaal door het grote gemiddelde van elke individuele score af te trekken.

Bron	Vrijheidsgraden (DF)	Kwadratensom (SS)	Gemiddelde kwadraten (MS)	F ratio
Between Groups (M)	a -1	∑( – )²	SSM/DFM	MSM/MSE
Error (E)	(a) (n-1)	∑(– x_ij)²	SSE/DFE
Totaal (T)	N-1	∑(x_ij– )²	SST/DFT

Als de F waarde voor de onafhankelijke variabele significant is, dan kunnen we zeggen dat er een verschil is tussen de niveaus van die variabele. Met meer dan twee niveaus kun je alleen stellen dat er een relatie is tussen de afhankelijke en onafhankelijke variabele en dat de scores niet willekeurig over de groepen verdeeld zijn. De sterkte van een bepaald effect (‘effect size’) heet in ANOVA eta kwadraat (η²). Het wordt berekend door de kwadratensom van het effect te delen door de kwadratensom van het totaal. Het geeft aan hoeveel het effect van de totale variantie verklaard. Een andere index voor effect sterkte is R² (squared multiple correlation). Dit geeft de proportie verklaarde variantie van de afhankelijke variabele door het effect van interesse weer.

Om te bepalen welke groep significant van welke verschilt, moet er een analyse worden gedaan (ook wel: post hoc vergelijkingen, vergelijkingen per paar of gelijktijdige test procedure). Zo verkrijg je alle verschillen in gemiddelden tussen alle combinaties van paren groepen, terwijl het kans niveau gecontroleerd wordt. Voor between-subjects effecten kunnen verschillende post-hoc testen gebruikt worden in SPSS. Voor within-subjects effecten wordt meestal de Bonferroni gepaarde t-test gebruikt.

Als de niveaus van de onafhankelijke variabele bij benadering op interval schaal bekeken kunnen worden, kan een trend analyse gedaan worden. Hierbij wordt de vorm van de functie geanalyseerd. Afhankelijk van het aantal gemiddelden dat je hebt, kun je een lineaire, kwadratische, of kubieke trend laten uitvoeren. Er geldt dat er één trend minder mogelijk is, dan dat er gemiddelden zijn. Dus bij twee gemiddelden is er maar één trend mogelijk.

Twee-weg (factoriaal) tussen-proefpersoon ontwerp

In een twee-weg ontwerp zijn er twee onafhankelijke variabelen met zoveel niveaus als nodig voor de onderzoeksvraag. Het heet een factoriaal ontwerp wanneer alle combinaties van niveaus gerepresenteerd zijn. Wanneer de twee variabelen elk twee niveaus hebben spreken we van een 2x2 ontwerp. Hierbij zijn dus vier condities: a1b1, a1b2, a2b1 en a2b2.

Een hoofdeffect is het vergelijken van de gemiddelden van verschillende niveaus van een onafhankelijke variabele. Er wordt dan dus maar naar één variabele gekeken. Elke onafhankelijke variabele wordt met zijn eigen hoofdeffect geassocieerd. Bij een twee-weg ontwerp zijn er dus twee hoofdeffecten.

Er kan ook interactie (A x B) berekend worden. Dit geeft de effecten weer die geassocieerd zijn met de combinaties van de onafhankelijke variabelen. Een factor ontwerp bevat combinaties van alle niveaus van de onafhankelijke data. Een interactie kan je zien door de vorm van de functies te vergelijken: als ze parallel lopen is er geen interactie effect, als ze niet parallel lopen kan er sprake zijn van een significant interactie effect. Een significante interactie betekent dat de verschillende niveaus van de onafhankelijke variabele een verschillende relatie hebben. De significantie kan getest worden met zogenaamde ‘simple effects tests’ om te bepalen welke gemiddelden verschillen van welke bij meer dan twee niveaus.

Enkel het hoofdeffect van variabelen bestuderen is niet genoeg. Wanneer twee gemiddelden van een variabele (b1, b2) hetzelfde zijn, lijkt het alsof er geen hoofdeffect is. Maar wanneer naar interactie effecten gekeken wordt met een tweede variabele (a1, a2) kan gezien worden dat de variabele b afhankelijk is van variabele a (zie figuur 4a2 op blz. 150-151).

Een-weg binnen-proefpersoon ontwerp

In dit type ontwerp worden dezelfde individuen in verschillende condities ingedeeld. Binnen dit ontwerp is er slechts een onafhankelijke variabele binnen de proefpersonen, ook wel het treatment effect genoemd. Er kunnen meerdere niveaus gebruikt worden van de variabele. De variantie in dit ontwerp wordt veroorzaakt door verschillende scores die proefpersonen hebben op verschillende niveaus van behandeling.

Twee-weg simpel gemixt ontwerp

Een van de onafhankelijke variabelen moet een binnen-proefpersoon variabele zijn en de ander een tussen-proefpersoon variabele. Door dit ontwerp kunnen we verschillende groepen met verschillende mensen testen onder verschillende condities. Bij dit onderzoek zijn er maximaal twee onafhankelijke variabelen. Met meer wordt het een complex gemixt ontwerp genoemd. Het voordeel is dat de foutvariantie gescheiden kan worden.

Dit ontwerp wordt vaak gebruikt bij profiel analyses. Hierbij worden groepen vergeleken op basis van het patroon van gemiddelden na herhaalde metingen. Twee of meer groepen worden gemeten onder een of twee omstandigheden:

De groepen worden op dezelfde variabele gemeten op verschillende tijdstippen.
De groepen worden op verschillende manieren gemeten tijdens een onderzoek.

Deze data worden geanalyseerd door middel van twee-weg gemixt ANOVA en de gemiddelden worden geplot. Er wordt op drie aspecten van de patronen gefocust:

In hoeverre profielen parallel zijn.
In hoeverre er verschillen zijn tussen de groepen.
In hoeverre er over de tijd verschillen zijn op de meetmomenten.

Een-weg tussen-proefpersoon ANCOVA

Hierbij worden variabelen die de afhankelijke variabele beïnvloeden, maar die niet experimenteel te manipuleren zijn, statistisch gecontroleerd. Deze heten covariaties (covariates) en zijn meestal kwantitatief.

Een ANCOVA heeft twee stadia:

Aanpassen van de scores op de afhankelijke variabele door de covariatie te gebruiken. Dit wordt gedaan door voor elke case/proefpersoon een verwachte score op te stellen met de covariatie als voorspeller.
Een ANOVA toepassen op de aangepaste scores. Een significant effect laat zien dat er groepsverschillen zijn op de aangepaste scores.

Er zijn twee assumpties waaraan voldaan moet worden voor een ANCOVA:

Regressies moeten lineair zijn. De relatie tussen covariatie en afhankelijke variabele moet lineair zijn. Dit is te controleren met een scatterplot.
Regressies moeten homogeen zijn. De hellingshoek van verschillende groepen moet gelijk zijn, wat betekent dat de regressiemodellen voor beide groepen ook gelijk zijn. Dit is te controleren met een F-toets, waarbij geen significant verschil moet worden gevonden.

Onderstaand stuk ‘Algemeen lineaire model’ is geen onderdeel van de verplichte stof voor dit vak.

Algemeen lineaire model

ANOVA is onderdeel van het algemene lineaire model van Jacob Cohen (1968). Het is een voorspellingsmodel waarin de onafhankelijke variabelen in de analyse gebruikt worden om de afhankelijke variabele te voorspellen of de variantie te verklaren. In ANOVA worden de individuele effecten tussen variabelen bestudeerd om op die manier iets over de volledige uitkomst te kunnen zeggen.

Hoofdstuk 4B Univariate vergelijking van gemiddelden met gebruik van SPSS

Een-weg between-subjects ontwerp

Een een-weg between-subjects ontwerp kijkt of verschillende niveaus van een onafhankelijke variabele invloed hebben op een afhankelijke variabele. Bij het doen van een ANOVA moet er eerst gekeken worden naar de resultaten van Levene’s test. Deze mogen niet significant zijn, want dan wordt er niet aan de homogeniteitsassumptie (gelijke varianties) voldaan. Daarna kijk je of er een significante F-waarde is, wat betekent dat er een verschil is tussen groepen.

Bij een post hoc toets worden alle mogelijke vergelijkingen bekeken, waardoor het alfa niveau ook verhoogd. Bij bijvoorbeeld vijf niveaus zijn er tien vergelijkingen, waardoor het alfa niveau (.05*10 =) .5 wordt. Hierdoor is de kans op type I fouten (nulhypothese onterecht verwerpen) veel groter. Er zijn vele multiple comparison testen die deze Type I fout minimaliseren. De multiple comparison test vergelijkt individuele paren van gemiddelden en kijkt waar dit verschil zit.

Er zijn veel verschillende post hoc testen, waaronder least significant difference test, Bonferroni procedure, Sidak en Duncan test. De meest aangeraden post-hoc test is de Tukey procedure. Deze test controleert goed voor de type I fouten. In de output verschijnt een tabel ‘Multiple Comparisons’. In de kolom ‘Mean Differences’ zijn de gemiddelde verschillen te zien tussen de verschillende niveaus van de onafhankelijke variabele. In de kolom ‘Sig.’ valt te zien of het verschil tussen twee niveaus significant is.

Twee-weg between-subjects ontwerp

Dit ontwerp kijkt of twee verschillende onafhankelijke variabelen met ook ieder twee niveaus invloed hebben op één afhankelijke variabele. Dit doe je in SPSS door middel van Univariate General Lineair Model. Bij een statistisch significante F-waarde is er geen post hoc test nodig, aangezien er maar twee gemiddelden zijn. Wanneer je de afhankelijke variabele en de onafhankelijke variabelen hebt ingevuld kan je een factor interactie toevoegen tussen de twee onafhankelijke variabelen. SPSS zal dan kijken of er een interactie effect is tussen die twee variabelen.

In de tabel ‘Tests of Between-Subjects Effects’ zijn de effecten te zien. Als in de rij van de onafhankelijke variabele een significant effect wordt aangegeven, betekent dit dat deze variabele van invloed is op de afhankelijke variabele. In de rij van de interactievariabele is te zien of de twee variabelen met elkaar interacteren.

Interactie effecten vervangen hoofdeffecten en het is goed om dit te onderzoeken. Dat wordt gedaan door middel van ‘simple effects tests’. De resultaten hiervan zijn te zien in de tabel ‘Pairwise Comparisons’. De niveaus van beide variabelen worden tegen elkaar afgezet en er wordt gekeken waar de significantie zich bevindt. Op p.179 van Meyers et al. staat hier een voorbeeld van.

Een-weg within-subjects ontwerp

Dit wordt ook wel het ‘repeated measures design’ genoemd met een onafhankelijke variabele die het ‘treatment effect’ is. Participanten worden meerdere keren gemeten op dezelfde afhankelijke variabele. Hiervoor wordt in SPSS het Repeated Measures scherm gebruikt van de General Lineair Model. Er wordt ook aangegeven hoeveel niveaus de onafhankelijke variabele bevat. Door ‘compare main effects’ en Bonferroni aan te vinken worden gepaarde t-tests uitgevoerd op de gemiddelden van de verschillende condities van de onafhankelijke variabele. Hiermee kan bepaald worden welk gemiddelde significant verschild.

De output bij dit ontwerp laat de Mauchly test of sphericity zien, die vergelijkbaar is aan de Levene’s test. Het bekijkt of de niveaus van de onafhankelijke variabele gelijke varianties hebben en of de gepaarde correlaties van de niveaus van de variabele gelijk zijn. Deze assumpties worden echter vaak overschreden, dus wordt er meestal een correctie gedaan bij de F-waardes via het aantal vrijheidsgraden. De significantie van de onafhankelijke variabele op de afhankelijke variabele is te zien in de tabel ‘Tests of Within-Subjects Effects’.

Bij ‘Pairwise Comparisons’ wordt elke conditie met elkaar vergeleken. Op het voorbeeld op p. 186 wordt week 1 van een medische behandeling vergeleken met week 2, 3 en 4, maar wordt ook week 2 vergeleken met week 1, 3 en 4, etc. Het effect tussen week 1 en week 2 verschilt in dit voorbeeld significant, omdat de behandeling dan begint te werken. Tussen week 3 en week 4 is er geen significant verschil meer, omdat de behandeling dan is gestabiliseerd.

Simpel gemixt ontwerp

Dit ontwerp bevat een onafhankelijk tussen-proefpersoon variabele en een onafhankelijk binnen-proefpersoon variabele. Deze wordt ook in het ‘Repeated Measures’ scherm onder General Linear Model uitgevoerd, waarbij het aantal niveaus aangegeven wordt. Zowel de tussen-proefpersoon variabele en binnen-proefpersoon variabele wordt ingevoerd. De output in SPSS van dit ontwerp is vergelijkbaar met die van een één-weg within-subjects ontwerp. Het bevat ook de Mauchly test of sphericity en tests of within-subjects effects en dus kunnen er grotendeels dezelfde effecten tussen variabelen uit deze output gehaald worden.

Trend analyse

Bij een één-weg between-subjects trend analyse wordt de totale variantie in componenten verdeeld. Hiermee worden functies en plots geïnterpreteerd. Er wordt een ‘One-way ANOVA’ uitgevoerd in SPSS, waarbij ook een post hoc test aangevraagd kan worden. In de output zijn de resultaten van de Levene’s test zichtbaar en worden de verschillende trends met elkaar vergeleken.

Covariantie analyse

Bij ANCOVA wordt er statistisch gecontroleerd voor één of meer variabelen/covariaten die eventueel de afhankelijke variabele beïnvloeden. Het zijn vaak kwantitatieve variabelen. Er zijn twee assumpties waaraan voldaan moet worden:

Regressies moeten linear zijn. Dit is te controleren in een scatterplot van de covariate en de afhankelijke variabele. SPSS kan ook een lijn van ‘best fit’ door de punten heen trekken voor een gemakkelijkere interpretatie.
Regressies moeten homogeen zijn. Dat wil zeggen dat de groep regressie functies, die de afhankelijke variabele van de covariate voorspellen, gelijk moeten zijn. Dit wordt bepaald aan de hand van het interactie effect tussen de onafhankelijke variabele en covariate. Wanneer dit niet significant is, is er voldaan aan deze assumptie.

In de output van een univariate general lineair model is de Levene’s test uitgevoerd en staan de ‘tests of between-subjects effects’. Hieruit kan afgelezen worden of de effecten van de covariaten en onafhankelijke variabelen significant zijn.

Voor de verschillende bewerkingen in SPSS die in het boek beschreven staan, kun je de SPSS hulp van JoHo raadplegen.

Hoofdstuk 5A Multivariate Variantie Analyse (MANOVA)

Werken met meerdere afhankelijke variabelen

Het is belangrijk om de relatie tussen de variabelen die je gebruikt om groepsverschillen te beschrijven mee te nemen in onderzoek. Door het analyseren van meerdere variabelen wordt er een completer beeld weergegeven.

Er zijn twee perspectieven om de relaties tussen variabelen te bekijken:

Het onderzoeken van de groepsverschillen op basis van gemiddelden.
Het interpreteren van latente variabelen of variaten (variabelen die overkoepelend zijn voor meerdere variabelen). Het maximale aantal variaten is afhankelijk van het aantal kwantitatieve variabelen. De gewichten van de kwantitatieve variabelen worden bepaald zodat elke variaat zoveel mogelijk onderscheid maakt tussen de groepen.

Enkelvoudige metingen worden ‘scalar measures’ genoemd en meervoudige metingen worden vectors genoemd. Dat is een combinatie van nummers die een fenomeen beschrijven en die erg nuttig is wanneer een enkel nummer niet genoeg is om een fenomeen te beschrijven. Een variaat is een vector. Een voorbeeld van een vector is snelheid. Het is een direct gevoel van hoe snel we ons verplaatsen, maar het bestaat echter uit twee verschillende variabelen: afstand en tijd. Een vector is dus een gewogen som van afhankelijke variabelen.

De minimale steekproefgrootte van personen per groep moet meer zijn dan het aantal afhankelijke variabelen. Dit zou theoretisch gezien betekenen dat voor twee afhankelijke variabelen een steekproef van drie personen per