Hoorcollege 3: Betrouwbaarheid (testtheorie) - Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) aan de Universiteit Utrecht

Puntschatting: een testscore van meetinstrument. Deze score is niet perfect, je kan beter intervalschatting gebruiken om de onnauwkeurigheid in de schatting mee te nemen.

Om een intervalschatting te krijgen heb je een schatting van de betrouwbaarheid nodig.

Theoretisch construct: abstract kenmerk, eigenschap, variabele, concept, begrip, trait or state

Klassieke meetmodel: een testscore X wordt bepaald door de ware score T en door de toevallige meetfout E --> X = T + E

Een testscore (X) komt tot stand door systematische invloeden (het theoretisch construct dat de test wil meten + systematische meetfout (bijvoorbeeld sociale wenselijkheid) en door toevallige invloeden. Dus twee soorten meetfouten: systematische meetfout en toevallige meetfout.

Een score is betrouwbaar bij afwezigheid van toevallige meetfout. Een score is valide bij afwezigheid van toevallige meetfout én systematische meetfout.

Als iemand oneindig vaak dezelfde test uitvoert ontstaat er uiteindelijk een normaalverdeling met een gemiddelde (is gelijk aan de ware score T) en een standaardafwijking σ (is gelijk aan de standaardmeetfout σ_E).

De standaardmeetfout σ_Eis de spreiding van de toevallige meetfout en geeft een indicatie van de nauwkeurigheid van de meting. Is identiek voor alle individuen bij hetzelfde meetinstrument. Hiermee kan je het betrouwbaarheidsinterval berekenen.

Eigenschappen van meetfout E:

Bij replicaties geldt E=0.
In populaties correleert de meetfout niet met de ware score: de meetfout komt alleen door toevallige invloeden tot stand.
De meetfout van verschillende tests correleert niet.

Testvariantie (S²_X) = ware scorevariantie (S²_T) + errorvariantie (S²_E) + 2x de covariantie (2S_TE)

Betrouwbaarheid (r_xx’) = S²_T / (S²_T + S²_E )

Bronnen van toevallige meetfouten kan de inhoud zijn (verschil items op steekproef en domein van items; content sampling error) en de tijd (tijdstip heeft invloed op resultaat; time sampling error).

De betrouwbaarheid kan geschat worden door middel van:

Test-hertest: correlatie tussen testafname X1 en X2. Nadelen: leereffect (carryover effects), kort tijd tussen afnames (herinnering, ervaring), lange tijd tussen afnames (wijziging ware scores).
Paralleltest betrouwbaarheid: correlatie tussen parallele tests X en X’ (X’ is vergelijkbaar met, maar verschillend van X). Nadelen: parallelle test zijn moeilijk te realiseren.
Split-half methode: gecorrigeerde correlatie tussen testhelften. Nadelen: test moeilijk in twee delen te splitsen, een andere tweedeling levert een andere schatting. Oplossing: met computer gemiddelde van alle splitsingen nemen

Bij testverlenging of testverkorting kan met parallelle items een schatting van de betrouwbaarheid gegeven worden volgens de Spearman-Brown formule. De verlengingsfactor bereken je met nieuwe aantal items/ oude aantal.

Kuder-richardson formule 20: met de kuder-richardson formule 20 kan je voor dichotome items (1=goed, 0=fout) en voor homogene set van items (eendimensionaal) een betrouwbaarheidsschatting maken. Je hoeft niet met deze formule te rekenen, alleen weten welke dingen nodig zijn om de betrouwbaarheid te bepalen: dit zijn het aantal items (k), de proportie goede antwoorden (p), proportie fouten antwoorden (q) en de variantie van de testscores (S²_X).
Cronbach’s alfa: voor items met meer dan twee categorieën. In de formule moet het aantal items, de som van de afzonderlijke itemvarianties en de variantie van de testscores ingevuld worden. Kan geïnterpreteerd worden als het gemiddelde van alle split-half betrouwbaarheden en ondergrens voor schatting betrouwbaarheid.Alfa=.80 betekent dat minimaal 80% van variantie in testscores wordt veroorzaakt door variantie in ware scores.

De COTAN beoordeelt als volgt:

Individueel belangrijk niveau – Voldoende: .80 < r_xx’ < .90. Goed: r_xx’ > .90
Individueel minder belangrijk niveau - Voldoende: .70 < r_xx’ < .80. Goed: r_xx’ > .80
Groepsniveau - Voldoende: .60 < r_xx’ < .70. Goed: r_xx’ > .70

Invloeden van betrouwbaarheid zijn de lengte van de test (hoe langer, hoe betrouwbaarder), de samenstelling van de steekproef (hoe meer spreiding, hoe betrouwbaarder) en het tijdslimiet ( bij tijdsgebrek worden niet alle items beantwoord; dan zijn de split-halfmethode, KR20 en Cronbach’s alpha niet geschikt).

Join World Supporter

for free to follow other supporters, see more content and use the tools
for €10,- by becoming a member to see all content

Why create an account?

Your WorldSupporter account gives you access to all functionalities of the platform
Once you are logged in, you can:
- Save pages to your favorites
- Give feedback or share contributions
- participate in discussions
- share your own contributions through the 7 WorldSupporter tools

Follow the author: JuliaV

JuliaV

Promotions

Ga jij binnenkort studeren in het buitenland?
Regel je zorg- en reisverzekering via JoHo!

Content is used in bundle

Hoorcolleges Grondslagen van psychologische diagnostiek en testtheorie

Access level of this page

Public
WorldSupporters only
JoHo members
Private

Statistics

[totalcount]

Content categories

Learn & Study

Netherlands

Universiteit Utrecht

Psychology & Behavioral Sciences

Comments, Compliments & Kudos

Add new contribution

More contributions of WorldSupporter author: JuliaV

WorldSupporter Resources

Hoorcolleges Grondslagen van psychologische diagnostiek en testtheorie

In deze bundel zijn de aantekeningen van alle hoorcolleges van het vak Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) te vinden. Ik heb dit vak gevolgd aan de Universiteit Utrecht tijdens de studie psychologie. Succes!

Hoorcollege 1: Introductie - Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) aan de Universiteit Utrecht

Hoorcollege 2: De Diagnostische Cyclus - Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) aan de Universiteit Utrecht

Hoorcollege 3: Betrouwbaarheid (testtheorie) - Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) aan de Universiteit Utrecht

Hoorcollege 4: Validiteit (testtheorie) - Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) aan de Universiteit Utrecht

Hoorcollege 5: Factoranalyse (testtheorie) - Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) aan de Universiteit Utrecht

Hoorcollege 6: Betekenis testcores en Itemanalyse (testtheorie) - Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) aan de Universiteit Utrecht

Hoorcollege 7: Intelligentiediagnostiek en Neuropsychologie - Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) aan de Universiteit Utrecht

Hoorcollege 8: Beslissend testgebruik (testtheorie) - Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) aan de Universiteit Utrecht

Hoorcollege 9: Arbeids- en organisatiepsychologie - Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) aan de Universiteit Utrecht

Hoorcollege 10: Item-responstheorie (testtheorie) - Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) aan de Universiteit Utrecht

Hoorcollege 11: Forensische diagnostiek en Gedrag - Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) aan de Universiteit Utrecht

Hoorcollege 12: Bias en ethiek in de diagnostiek - Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) aan de Universiteit Utrecht