Aantekeningen college Betrouwbaarheid en Validiteit - Universiteit Utrecht (2022-2023)

Hoorcollege 8

Tentamentickets:

Morling H5 is aanvullende literatuur.
Voor elk college is er een theoretische opgave waar je kan oefenen.
Alle formules die langskomen zijn op een formuleblad te vinden op BB onder assignments.
Formuleblad krijg je op het tentamen.
Betekenis van de symbolen moet je je zelf eigen maken.
Veel komt aan bod in responsiecolleges.
2 onderwerpen worden besproken bij responsiecolleges.
Na practicum maak je de eindopdracht. Dit staat in de practicumopdracht beschreven. De antwoorden van de eindopdracht moet je invoeren in remindo.

Beroepscode van het NIP:

Integer
Respectvol
Verantwoordelijk
Deskundig

Hier moet je aan voldoen als psycholoog. Persoonskenmerken waarover je moet gaan beschikken. Deze kenmerken kan je meten, maar het zijn abstracte concepten.

Die schatting beschouw je als een puntschatting. Deze metingen zijn feilbaar, niet perfect. Je moet een grens interval geven waartussen het sowieso ligt. Dit is een intervalschatting. Puntschatting is een te ambitieuze uiting van waar je denkt dat het zit. Intervalschatting is een interval. Je moet iets weten van de betrouwbaarheid (precisie) voor je een intervalschatting kan maken.

Operationalisatie

Theoretisch concept
De beschrijving van handelingen (operaties) die nodig zijn om de bedoelde eigenschap te meten
Operationaliseren is lastig.

Valide: dat het integriteit betreft.

Betrouwbaarheid: dat het iets meet dat het ook bij de mensen aanwezig is.

Een puntschatting is een beslissing in onzekerheid. Het is waarschijnlijk geen perfecte meting. Dus je moet weten hoe precies die score 11 is en of dit een goede weergave is. Je moet de onzekerheid dus quantificeren.

Model klassieke testtheorie

Testscore X (testscore) wordt bepaald door:

Latente of ware score T
Toevallige meetfout E (error)

Twee invloeden op de testscore.

De T is de ware score, de echte mate van integriteit die Vera heeft.
E is de toevallige meetfout (error).

Invloeden:

De toevallige meetfout. Persoon, Omgeving, Test en Testleider kunnen dit beïnvloeden.
Je krijgt dus geen indicatie van de precieze ware score.
Gestandaardiseerde test maken: dan blijft de toevallige meetfout E zo klein mogelijk.

De E kan een + of een - zijn.

Testscores (meetwaarden X)

Systematische invloeden
1. Wat test beoogt te meten
2. Systematische meetfout
Toevallige invloeden

Ware score T, draagt systematisch bij aan de uitslag van de score. Als je heel integer bent, heb je een hogere score en als je corrupt bent, heb je een lagere score. Maar je hebt ook toevallige invloeden of een systematische meetfout. Over een week ben ik niet minder integer. Dus dan verandert alleen de toevallige meetfout. Dat is dus de betrouwbaarheid. Vaak heb je maar 1 afname.

Validiteit gaat over of de score wel een representatie is van wat je wil meten.

Valide meting is altijd betrouwbaar, maar daar komt ook bij dat er geen systematische meetfout bij zit.
Onbetrouwbare meting kan nooit valide zijn.
Valide meting is per definitie betrouwbaar.
Gemiddelde (t) is de ware score.
Maar er is een mate van spreiding. Standaardafwijking zegt iets over de spreiding rond de ware score.
Hoe groter de spreiding hoe meer het voorkomt dat een testscore heel erg afwijkt van de ware score.
Je ziet maar 1 score van jouw afname.

Alle verschillen kan je bij elkaar optellen en het gemiddelde daarvan is de gemiddelde afstand tot de ware score. Dat is de standaardafwijking sigma. Dat is dus de standaardmeetfout, want het gaat om een meetinstrument. Standaardmeetfout sigma.

Het zegt iets over de precisie van de meting die ik doe. Standaardmeetfout is een mate van spreiding van meetfouten rond de ware score.

Standaardmeetfout is een maat voor de spreiding van de toevallige meetfout

De systematische meetfout is gwn de meetfout.
Het gemiddelde van al die meetfouten is gelijk aan 0. Soms score je iets hoger, dan iets lager.
Gemiddeld is het gelijk aan 0.
Voor een individu is de gemiddelde meetfout gelijk aan nul.
Ook binnen een populatie waar je een vragenlijst afneemt is de gemiddelde meetfout gelijk aan 0.
Toevallige meetfout is niet systematisch en correleert nergens mee.
Er is geen samenhang tussen het begrip dat je wil meten en de vastgestelde meetfout.
Meetfout die bij een ene test maakt, betekent niet dat bij een andere test de meetfout hetzelfde is.

Symbolen

De rho staat voor correlatie.
E is de meetfout. E’ is de andere meetfout
T is de ware score.

Standaardmeetfout

Standard error of mearuement
Spreiding van de toevallige meetfout bij oneindig aantal replicaties
Geeft indicatie van de nauwkeurigheid van de meting in een populatie
De standaardmeetfout is identiek voor alle individuen waarbijje het instrument afneemt (=aanname)
Met de standaardmeetfout kunnen we het betrouwbaarheidsinterval afleiden voor de ware score

Standaardmeetfout = de SE, de spreiding van de toevallige fout rondom de ware score bij een oneindig aantal replicaties. Denk aan de normaalverdeling. De standaardfout is identiek voor alle individuen waarbij je het instrument afneemt. Het heeft niet te maken met de integriteit van de onderzoeker.

In de formule: SX is de spreiding van scores op een test

rxx’ is een schatting van de betrouwbaarheid.

Model klassieke testtheorie: model die uit probeert te leggen hoe je komt tot een testscore.

j staat voor het moment
i staat voor het persoon
Dat staat soms zo: Eij
Standaardmeetfout is nodig om te komen tot een intervalschatting.
Autoriteit op het gebied van tests is de COTAN.
Doel van de test heeft invloed op wat de eisen van de betrouwbaarheid zijn.

Testscore is de waarde die je krijgt van de test, de ware score met de toevallige meetfout.
Groepsafname: veel verschillende afnames op een test
De spreiding op alle testscores = som van de spreiding van ware scores + de spreiding van toevallige meetfouten.
De S kwadraat staat voor variantie. Dit is een maat voor spreiding van scores.

Dan kunnen we betrouwbaarheid berekenen.

Betrouwbare testscore is een score waar met name het ware score deel, bijna volledig bepalend is voor de testscore die je krijgt.
Als het 1 is, dan is de ware score hetzelfde als de testscore. Dat is eigenlijk nooit, want je hebt te maken met de toevallige meetfout.
Dat is de onderste rxx’ formule.
Hoe dichter bij 1, hoe betrouwbaarder de test. Hoe dichter bij 0, hoe onbetrouwbaarder de test.
Error neemt toe? Neemt rxx’ af. Als error 0 wordt, is rxx’ 1.
De betrouwbaarheid zegt iets over het aandeel van de ware score op het totaal.

De ware score kennen we helemaal niet. We moeten de betrouwbaarheid moeten we dus op een andere manier schatten dan deze formule. De ware score moeten we juist weten door de test. We kunnen het dus niet gebruiken voor het vaststellen van de betrouwbaarheid.

Schatting betrouwbaarheid

Test-hertest betrouwbaarheid
Paralleltest betrouwbaarheid
Split-half betrouwbaarheid
Cronbach's alfa

Error is een andere naam voor de toevallige meetfout.

Test-hertest methode.

Over de tijd zijn de scores op hetzelfde instrument hetzelfde bij dezelfde groep.
Correlatie is een getal tussen -1 en +1. Negatieve betrouwbaarheid bestaat niet. Dus tussen 0 en 1 is een schatting van de betrouwbaarheid.
Probleem: je kent het instrument al: leereffect.

Oplossing?

Een andere test gebruiken die uit dezelfde verzameling van vragen getrokken worden. Een parallel test.
De ene test noemen we X en de andere test noemen we X’. Andere test, maar wel een gelijkwaardige test.
Probleem: moeilijk te realiseren om een strikte parallelle test te maken.
Maar bij cognitieve tests lukt dat wel: rekenvaardigheid en taalvaardigheid.

Oplossing:

Binnen een test twee helften van een test nemen.
Correlatie tussen die helften geeft een schatting voor de betrouwbaarheid.
Gecorrigeerde correlatie is het, hoef je niet te weten.
Probleem: hoe splits je dan? Elke tweedeling levert een iets andere schatting van de betrouwbaarheid op.

Laatste optie

Het gemiddelde van alle split-half correlaties.
Alle splitsingen en dan de gemiddelde correlatie daartussen.
Dan heb je de Cronbach’s alfa.
Meet de samenhang tussen de items.
Probleem: van toepassing bij schalen met een Likert schalen. Geordende antwoordcategorieën met meer dan 3, 4, 5 categorieën.
Cronbach’s alfa voor items met meer dan 2 geordende antwoordcategorieën.
De verzameling van items moeten allemaal een beroep doen op het kenmerk dat je wil meten. Elk item afzonderlijk moet dat hebben.

Som van de itemvarianties. Werkelijke betrouwbaarheid is waarschijnlijk wel ietsje hoger. Daarom ondergrens voor de schatting van de betrouwbaarheid. De waardering is afhankelijk doel van de meting. Gebruikt worden voor diagnostiek: belangrijke beslissingen.

Ondergrens voor de Cronbach's alfa is vaak .080. Dit ligt echter aan het niveau waarop je de test uitvoert.

Hoe meer vragen in een test, hoe betrouwbaarder de test.
Als de groep homogeen is over het kenmerk dat ik wil meten, dan heeft dat invloed op de betrouwbaarheidsschatting.
Ik moet een goede representatie van de doelgroep van de test hebben. Die moet hetzelfde zijn als mijn doelgroep.
Hoe meer spreiding in ware scores, hoe betrouwbaarder de test. Je moet een heterogene groep hebben.
Speedtest in een bepaalde tijd. Speedtest is niet geschikt om cronbach’s alfa te gebruiken. Sommige vragen kunnen dan niet beantwoord worden.

Je hebt een ondergrens en een bovengrens voor een betrouwbaarheidsinterval.

Rondom de verkregen score. Xij + is de bovengrens, - is de ondergrens.
z-scores zijn gestandaardiseerde scores. Drie z-scores zijn belangrijk.

Puntschatting is de testscore die je krijgt. Hercodering is nodig, want veel punten is veel integriteit. Maar niet elke vraag is in de juiste richting.

Spreiding van de scores is 3.35
Schatting van betrouwbaarheid was 0.86
Nu kan je het betrouwbaarheidsinterval berekenen.
Voor IQ heb je ook een betrouwbaarheidsinterval. Dus soms kan je in rechtszaken niet weten of iemand ontoerekeningsvatbaar.

Leer de 7 criteria voor de COTAN.

Is er een systematische invloed op de test?
Meting betrouwbaar? Toevallige fout is gering. Maar kan nog steeds groot aandeel hebben van een systematische fout.
Valide meting heeft kleine toevallige en kleine systematische fout.

Inhoudsvaliditeit.

Deskundigen oordeel
Gebruikersoordeel: face validity: of aan deskundigen of aan gebruikers vragen we: wat denken jullie dat deze test meet?

Begripsvaliditeit.

Relaties van mijn testscores met andere kenmerken waar het wel of niet mee samenhangt.
Binnen een instrument ook verwachting over relaties. Alle afzonderlijke items moeten samenhangen. Daar meer over later.

Criteriumvaliditeit.

Als een test als doel heeft om iets te voorspellen in de toekomst.
Dan zou dat chill zijn als hij dat ook doet. Is hij bruikbaar voor zo’n voorspelling?

We gebruiken bij inhoudsvaliditeit deskundigen of gebruikers.

Leer inhoudsvaliditeit, begripsvaliditeit, convergente en divergente validiteit en criteriumvaliditeit. (Zie mijn aantekeningen van KOM voor meer uitleg).

Dit zijn dus allemaal vormen om te beoordelen of de test meet wat het beoogt te meten en doet wat het beoogt te doen.

Access:

Public

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant and sustainable world. Through physical and online platforms, it supports personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.