Validiteit - Artikel

Begrip, test en validiteit
Historisch overzicht
Criteriumgeoriënteerde validiteit
Begripsvaliditeit
Inhoudsdomein
Interne structuur
Nomologisch netwerk
Onderzoek naar begripsvaliditeit
Multitrek-multimethodematrix van Campbell en Fiske
Nieuwe ontwikkelingen
Slotopmerkingen

Begrip, test en validiteit

Validiteit betekent letterlijk ‘geldigheid’. Validiteit gaat over de mate waarin een test meet wat hij zou moeten meten, en de mate waarin een test aan zijn doel beantwoordt.

Over het algemeen kan men niet spreken over ‘de validiteit van een test’. Een test is namelijk voor sommige doeleinden wel valide, en voor sommige doeleinden niet. Je spreek daarom over de validiteit van het gebruik en de interpretatie van een test.

Er kan onderscheid gemaakt worden tussen twee typen testgebruik:

Beschrijvend testgebruik: een test waarbij bepaald gedrag of een eigenschap van een individu of een groep personen gemeten wordt
Beslissend testgebruik: een test die bedoeld is voor selectie, classificatie of diagnostisering

Er kunnen twee soorten validiteit onderscheiden worden:

Criteriumgeoriënteerde validiteit: hoe goed kan de test voorspellingen doen
Begripsvaliditeit: hoe goed dekt de test het begrip

Historisch overzicht

Aanvankelijk werden er drie typen validiteit onderscheiden:

Inhoudsvaliditeit: de mate waarin een test álle aspecten van het te meten begrip omvat. Hoe meer aspecten van het begrip hij meet, hoe hoger de inhoudsvaliditeit
Criteriumgeoriënteerde validiteit: de mate waarin een test vergelijkbaar is met een of meer andere externe variabelen, die over hetzelfde begrip of een deel van begrip gaan. Hierin zijn weer twee soorten criteriumgeoriënteerde validiteiten te onderscheiden:

Predicitieve validiteit gaat over een vergelijking met een criterium in de toekomst (bijv: voorspelt de cito toets goed naar wat voor hoger onderwijs iemand moet)
Concurrent validiteit gaat over de vergelijking met een criterium dat gelijktijdig geobserveerd kan worden (bijv: laat de test goed zien welke stoornis iemand nu heeft)

Begripsvaliditeit: de mate waarin de test wel een goede indicator is voor het te meten begrip. Dus bijvoorbeeld wanneer men in een test het aantal dienstjaren ziet als een indicator voor arbeidstevredenheid, dan is de vraag naar begripsvaliditeit de vraag of het aantal dienstjaren inderdaad representatief is voor arbeidstevredenheid.

Tegenwoordig wordt inhoudsvaliditeit als een onderdeel van begripsvaliditeit gezien.

Er wordt niet alleen over de validiteit van meetinstrumenten gesproken, maar ook over de validiteit van wetenschappelijke uitspraken in het algemeen. Ook hierbinnen zijn weer verschillende validiteiten te onderscheiden: statistische conclusievaliditeit, interne validiteit ( = mogen de conclusies wel getrokken worden), externe validiteit ( = is de steekproef te generaliseren naar de populatie) en begripsvaliditeit (= was de operationalisatie succesvol)

Tegenwoordig draagt bijna alle informatie over de interpretatie van testresultaten bij aan de validiteit. Het is bijna niet meer mogelijk om met elke kleine vorm van validiteit rekening te houden.

Criteriumgeoriënteerde validiteit

Het criterium

Een criterium is hetgeen waar je voorspellingen over wilt doen. Als je bijvoorbeeld met een test depressie wil meten, dan is depressie het criterium. Hoe beter een test de variaties in het criterium kan voorspellen, hoe hoger de criteriumgeoriënteerde validiteit is. Criteriumgeoriënteerde validiteit kan beoordeeld worden aan de hand van de correlatie tussen de test en het criterium.

Er kunnen verschillende soorten criteria onderscheiden worden:

Criteria kunnen specifiek of globaal zijn. Dat houdt in, criteria kunnen over een klein aantal situaties gaan (bijv verlegenheid bij leeftijdsgenoten), of over een groot aantal situaties (bijv verlegenheid in alle soorten situaties).
Criteria kunnen in de toekomst liggen, in het heden of in het verleden. Dit leidt tot het onderscheid wat al eerder is gemaakt, namelijk predictieve en gelijktijdige criteriumgeoriënteerde validiteit. Criteria in de toekomst gaan vaak over beroepskeuze, selectie en toewijzing aan therapieën. Gelijktijdige criteria en criteria uit het verleden gaan vaak over diagnostisering.
Ook kan er bij criteria die in de toekomst liggen, onderscheid gemaakt worden tussen uiteindelijke, tussentijdse en onmiddellijke criteria. Hoe uiteindelijker het criterium hoe relevanter. Het is alleen vaak zo dat uiteindelijke criteria moeilijker zijn om betrouwbaar te meten.

De relatie tussen een test en een criterium wordt meestal aangeduid met de correlatie tussen beide. Een relatie tussen de test en het criterium biedt alleen steun voor de criteriumgeoriënteerde validiteit, wanneer er een inhoudelijke verklaring is voor deze relatie.

Onderzoek naar criteriumgeoriënteerde validiteit

Om na te gaan of er criteriumgeoriënteerde validiteit is, moeten er een aantal stappen doorlopen worden.

Als eerste moet er een criterium gekozen worden. Er zijn meerdere operationalisaties van het begrip-zoals-bedoeld mogelijk, en daarom is het van belang om goed te kijken welke van die operationalisaties het beste aansluit bij het gebruiksdoel van de test.

Als tweede moet er een keuze gemaakt worden over de criteriummaat waarmee het criterium gemeten gaat worden. Doordat er vaak een beperkte beschikbaarheid is van relevante gegevens, is het moeilijker om een goede criteriummaat te kiezen. Het niveau waarop het criterium gemeten wordt (dus interval/ratio of ordinaal of nominaal) heeft gevolgen voor de maat die je moet gebruiken om de relatie tussen het criterium en de test vast te stellen.

Wanneer je criteria op nominale of ordinale schaal meet, maak je groepen waarin je personen indeelt op basis van de mate waarin zij voldoen aan het criterium. Deze groepen noem je criteriumgroepen. Wanneer je criterium ‘angstig’ is, kun je mensen indelen in een ‘niet-angstige’ en een ‘angstige’ groep. Met de test probeer je dan vervolgens ook mensen te onderscheiden op angstig en niet-angstig. Zo ontstaan er vier groepen: mensen die volgens de test angstig zijn en ook daadwerkelijk angstig zijn, mensen die volgens de test angstig zijn maar daadwerkelijk niet angstig zijn, mensen die volgens de test niet angstig zijn maar in werkelijkheid wel angstig zijn, en mensen die volgens de test niet angstig zijn en in werkelijkheid ook niet angstig zijn. Hoe beter de classificatie gelukt is, dus hoe beter de test heeft voorspeld of mensen angstig zijn, hoe meer steun voor de validiteit.

Als derde ga je kijken wat de betrouwbaarheid en de validiteit van de criteriummaat zijn.

De correlatie tussen de ware scores van test X en criterium Z wordt berekend met een formule (zie syllabus blz. 54). In deze formule deel je de correlatie tussen test X en criterium Z door de betrouwbaarheid van X en de betrouwbaarheid van Z. Uit de formule is af te leiden, dat een onbetrouwbare criteriumscore onvermijdelijk zorgt voor een lage correlatie, en dus zorgt voor een lagere validiteit.

In feite zijn de test en het criterium allebei operationalisaties van het begrip-zoals-bedoeld. Om te achterhalen of het criterium goed is, zou deze ook weer gevalideerd moeten worden aan een extern criterium. Zo blijf je bezig met validiteitsonderzoeken, dit wordt het Droste-effect genoemd.

Als vierde ga je de steekproef samenstellen. Vaak worden er in de praktijk specifieke groepen als steekproeven gebruikt, omdat ze eenvoudig beschikbaar zijn. Dit is pas gerechtvaardigd als de onderzoeker kan aantonen dat deze specifieke steekproef representatief is voor de rest van de populatie waar de test voor bedoeld is.

Als vijfde ga je de predictieve dan wel gelijktijdige criteriumgeoriënteerde validiteit bepalen.

Het bepalen van predictieve validiteit:
Deze vorm van validiteit betreft vaak longitudinaal onderzoek. Longitudinaal onderzoek brengt problemen met zich mee door de tijd die tussen de afname van de test en het meten van het criterium zit. Een ander probleem is dat vaak het criterium alleen gemeten wordt bij de groep die op basis van de test is aangenomen. De mensen die zijn afgewezen worden vaak niet meer gemeten. Naast dat de correlatie nu niet meer voor de hele groep is na te gaan, is de groep door selectie ook homogener. Deze selectieve, niet volledige sample wordt restriction of range genoemd. Door de restriction of range wordt de correlatie tussen test en criterium lager, waardoor de predictieve validiteit afneemt. Deze lage correlatie is dan niet toe te schrijven aan een lage criteriumgeorienteerde validiteit, maar aan de ‘restriction of range’ als gevolg van selectie.

Het bepalen van gelijktijdige validiteit:

Ook het onderzoek naar gelijktijdige validiteit brengt problemen met zich mee. Een voorbeeld hiervan is dat wanneer respondenten een diagnose test moet invullen, zij vaak geneigd zijn om een consistent patroon te vertonen van antwoorden of gedrag. Hierdoor zullen test en criterium meer overeenkomst vertonen dan in werkelijkheid het geval is. Een ander probleem is ook weer restriction of range. Stel dat je alleen psychologie studenten meet, dan heb je al een selectieve groep, namelijk een jonge groep die over het algemeen intelligent is. Ook plafond- en bodemeffect kunnen zorgen voor restriction of range.

Begripsvaliditeit

Begripsvaliditeit van een test geeft aan in hoeverre die test een goede meting is van het onderliggende theoretische begrip (construct). Deze relatie tussen de test en het onderliggende theoretische begrip is niet direct meetbaar. Steun voor begripsvaliditeit moet daarom komen van verschillende gegevens. Er moeten gegevens verzameld worden over het inhoudsdomein, de interne structuur en het nomologisch netwerk.

Inhoudsdomein

Het inhoudsdomein omvat een beschrijving van álle aspecten van waar het begrip over gaat. Er kan onderscheid gemaakt worden tussen het theoretische begrip-zoals-bedoeld en het empirische begrip-zoals-bepaald. Het begrip-zoals-bedoeld heeft in de psychologie een surplus-betekenis. Dat betekent dat het begrip-zoals-bedoeld niet te vangen is in een operationele definitie (denk maar aan het begrip intelligentie, hiervoor is moeilijk een goede operationele definitie voor te bedenken). Daarom zijn er verschillende testen die verschillende aspecten van het begrip meten. Het inhoudsdomein geeft ook de reikwijdte van de verschijnselen aan. Als bijvoorbeeld een rekentoets bedoeld is voor kinderen uit groep 8, dan worden er geen rekenvaardigheden gevraagd die boven het niveau van kinderen uit groep 8 zijn. Aan de vragen kun je zien hoe groot de doelgroep is waarvoor de test bedoeld is.

Het inhoudsdomein kan op een systematische manier in kaart gebracht worden door het begrip op te delen in facetten. Facetten zijn de belangrijkste aspecten van een begrip.

Interne structuur

Wanneer je een begrip opdeelt in meerdere items, dan zouden die items onderling met elkaar moeten samenhangen. Wanneer je meervoudige begrippen meet, zoals intelligentie, dan zouden de items binnen een bepaalde subschaal van intelligentie meer met elkaar moeten samenhangen dan met items uit een andere subschaal.

Nomologisch netwerk

Het nomologisch netwerk is een netwerk dat bestaat uit de relaties van:

1. het begrip met andere begrippen

2. het begrip met operationalisaties van die begrippen

3. relaties tussen de operationalisaties onderling

Een test zou moeten samenhangen met andere tests die hetzelfde begrip meten, vooral als deze tests ook nog dezelfde meetmethode gebruiken. Ook moet een nieuwe test hetzelfde patroon van samenhang met verwante en niet-verwante begrippen vertonen als andere tests die hetzelfde begrip meten.

Onderzoek naar begripsvaliditeit

Steun voor begripsvaliditeit komt voort uit steun voor de dekking van het inhoudsdomein, de interne structuur, en de relatie met andere begrippen en tests.

Dekking van het inhoudsdomein

Als eerste wordt steun gezocht naar de dekking van het inhoudsdomein. Steun voor de dekking van het inhoudsdomein kan verkregen worden door de items te laten beoordelen door experts. Ook empirische dekking is mogelijk. Je kunt een test vergelijken met een andere test die hetzelfde begrip meet, en dus hetzelfde inhoudsdomein heeft. Wanneer deze sterk samenhangen levert dit steun voor de keuze van jouw inhoudsdomein en de dekking ervan (je items). Ook kun je bepaalde groepen de test laten maken, waarvan je al weet hoe zij zouden moeten scoren op de test. Wanneer ze zo scoren zoals je verwacht, biedt dit ook steun voor het inhoudsdomein. Wanneer je items niet het hele domein van je begrip dekken, noem je dit partiële dekking. Items kunnen ook foutief dekken, in dat geval meten de items iets anders dan het beoogde begrip. De items kunnen bijvoorbeeld sociaal wenselijkheid meten. Ook kan er antwoordtendentie opgetreden zijn. Antwoordtendentie betekend dat er een neiging is om op een vragenlijst min of meer constant te reageren, onafhankelijk van de inhoud van de items.

Onderzoek naar interne structuur

Als tweede wordt onderzoek gedaan naar de interne structuur. Wanneer een meetinstrument geacht wordt één begrip te meten, moet hij voldoen aan een eendimensionaal model. Bij een meetinstrument voor een meerdimensionaal begrip (zoals de Big-Five), dient het meetinstrument alle verschillende aspecten van het begrip eendimensionaal te kunnen meten. Er moet vervolgens de samenhang optreden tussen items die van tevoren verwacht werden samen te hangen.

Relatie met andere begrippen en tests

Als derde wordt gekeken naar het nomologisch netwerk. Tests worden verwacht een correlatie te hebben met verwante begrippen, en geen correlaties met niet-verwante begrippen.

Multitrek-multimethodematrix van Campbell en Fiske

Campbell en Fiske hebben een strategie ontwikkeld om de begripsvaliditeit van een test te evalueren. Volgens hen komt variantie in een test deels doordat mensen verschillen op de gemeten trek (trek-variantie) en deels door de methode die gebruikt wordt (methode-variantie).

Campbell en Fiske gebruikten de multitrek-multimethode-aanpak om begripsvaliditeit te meten. Deze aanpak stelt dat een test zowel convergentie als divergentie moet aantonen. Bij convergentie wordt dezelfde trek gemeten, maar dan met andere methoden. Als hiertussen een correlatie is biedt dit steun voor de begripsvaliditeit. Bij divergentie wordt de test met meerdere andere methoden en andere trekken vergeleken. Hiertussen wil je juist geen correlatie. Je wilt in je test naar zelfvertrouwen bijvoorbeeld geen correlatie met een test die sociaal wenselijkheid meet.

In een multitrek-multimethodematrix worden de verschillende methoden en verschillende trekken weergegeven in een matrix. Wanneer je bijvoorbeeld een matrix maakt waarin je drie trekken onderscheid, en drie methoden, dan levert dit 9 tests op. Elke test kan gezien worden als een trek-methode-eenheid. In deze matrix worden de waarden van convergentie (c), divergentie (d), methodevariantie (m) en betrouwbaarheidscoëfficiënten (b) gegeven (voor een duidelijk overzicht, zie blz 65 van syllabus).

Op basis van de matrix kan validiteit geëvalueerd worden. Er zijn vier eisen voor validiteit:

De correlaties tussen testen die dezelfde trek met een andere methode meten moeten significant van nul verschillen (dit is convergentie)
De waarden van convergentie moeten groter zijn dan de waarden van divergentie. Dus de correlatie tussen tests met verschillende methoden die dezelfde trek meten, moeten groter zijn dan de correlatie tussen tests met verschillende methoden die verschillende trekken meten.
De waarden van convergentie moeten groter zijn dan die van de methodevariantie. Dus de correlatie tussen tests met verschillende methoden die dezelfde trek meten moeten groter zijn dan correlaties tussen tests met dezelfde methoden die verschillende trekken meten.
Wanneer er in één methode samenhang gevonden wordt tussen twee trekken, moet deze samenhang ook gevonden worden met andere methoden.

Nieuwe ontwikkelingen

Een moderne techniek voor de analyse van multitrek-multimethodematrices is confirmatieve factoranalyse. Met behulp van confirmatieve factoranalyse kunnen uitspraken gedaan worden over latente variabelen en is het mogelijk om de passing van een model te toetsen. Ook is het voordeel van deze nieuwe benadering dat niet alleen het testresultaat zelf, maar ook de processen die tot het resultaat hebben geleid worden betrokken in het validatieproces.

Slotopmerkingen

Als een test gebruikt wordt voor selectie, diagnose, classificatie of een andere vorm van beslissend testgebruik, is criteriumgeoriënteerde validiteit relevant
Wanneer testgebruik beschrijvend is, is criteriumgeoriënteerde validiteit niet zo relevant
Betrouwbaarheid is een voorwaarde voor validiteit. Dus wanneer een test valide is, is hij per definitie betrouwbaar. Wanneer een test betrouwbaar is, is deze niet per definitie valide.
In de praktijk zijn convergentie correlaties vaak laag, dit komt door o.a. lage betrouwbaarheid, homogene steekproef, etc.
Validatie is een dynamisch proces en validiteitsbepaling is een nooit afgerond proces, omdat de validiteit van een test nooit bewezen kan worden

Access:

Public

Join: WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant and sustainable world. Through physical and online platforms, it supports personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.