Hoorcollege 3: Betrouwbaarheid (testtheorie) - Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) aan de Universiteit Utrecht

Puntschatting: een testscore van meetinstrument. Deze score is niet perfect, je kan beter intervalschatting gebruiken om de onnauwkeurigheid in de schatting mee te nemen.

Om een intervalschatting te krijgen heb je een schatting van de betrouwbaarheid nodig.

Theoretisch construct: abstract kenmerk, eigenschap, variabele, concept, begrip, trait or state

Klassieke meetmodel: een testscore X wordt bepaald door de ware score T en door de toevallige meetfout E --> X = T + E

Een testscore (X) komt tot stand door systematische invloeden (het theoretisch construct dat de test wil meten + systematische meetfout (bijvoorbeeld sociale wenselijkheid) en door toevallige invloeden. Dus twee soorten meetfouten: systematische meetfout en toevallige meetfout.

Een score is betrouwbaar bij afwezigheid van toevallige meetfout.          Een score is valide bij afwezigheid van toevallige meetfout én systematische meetfout.

Als iemand oneindig vaak dezelfde test uitvoert ontstaat er uiteindelijk een normaalverdeling met een gemiddelde (is gelijk aan de ware score T) en een standaardafwijking σ (is gelijk aan de standaardmeetfout σE).

De standaardmeetfout σE is de spreiding van de toevallige meetfout en geeft een indicatie van de nauwkeurigheid van de meting. Is identiek voor alle individuen bij hetzelfde meetinstrument. Hiermee kan je het betrouwbaarheidsinterval berekenen.

Eigenschappen van meetfout E:

  • Bij replicaties geldt E=0.
  • In populaties correleert de meetfout niet met de ware score: de meetfout komt alleen door toevallige invloeden tot stand.
  • De meetfout van verschillende tests correleert niet.

Testvariantie (S2X) = ware scorevariantie (S2T) + errorvariantie (S2E) + 2x de covariantie (2STE)

Betrouwbaarheid (rxx’) = S2T / (S2T + S2E )

Bronnen van toevallige meetfouten kan de inhoud zijn (verschil items op steekproef en domein van items; content sampling error) en de tijd (tijdstip heeft invloed op resultaat; time sampling error).

De betrouwbaarheid kan geschat worden door middel van:

  1. Test-hertest: correlatie tussen testafname X1 en X2. Nadelen: leereffect (carryover effects), kort tijd tussen afnames (herinnering, ervaring), lange tijd tussen afnames (wijziging ware scores).
  2. Paralleltest betrouwbaarheid: correlatie tussen parallele tests X en X’ (X’ is vergelijkbaar met, maar verschillend van X). Nadelen: parallelle test zijn moeilijk te realiseren.
  3. Split-half methode: gecorrigeerde correlatie tussen testhelften. Nadelen: test moeilijk in twee delen te splitsen, een andere tweedeling levert een andere schatting. Oplossing: met computer gemiddelde van alle splitsingen nemen

Bij testverlenging of testverkorting kan met parallelle items een schatting van de betrouwbaarheid gegeven worden volgens de Spearman-Brown formule. De verlengingsfactor bereken je met nieuwe aantal items/ oude aantal.

  1. Kuder-richardson formule 20: met de kuder-richardson formule 20 kan je voor dichotome items (1=goed, 0=fout) en voor homogene set van items (eendimensionaal) een betrouwbaarheidsschatting maken. Je hoeft niet met deze formule te rekenen, alleen weten welke dingen nodig zijn om de betrouwbaarheid te bepalen: dit zijn het aantal items (k), de proportie goede antwoorden (p), proportie fouten antwoorden (q) en de variantie van de testscores (S2X).
  2. Cronbach’s alfa: voor items met meer dan twee categorieën. In de formule moet het aantal items, de som van de afzonderlijke itemvarianties en de variantie van de testscores ingevuld worden. Kan geïnterpreteerd worden als het gemiddelde van alle split-half betrouwbaarheden en ondergrens voor schatting betrouwbaarheid.Alfa=.80 betekent dat minimaal 80% van variantie in testscores wordt veroorzaakt door variantie in ware scores.

De COTAN beoordeelt als volgt:

  • Individueel belangrijk niveau – Voldoende: .80 < rxx’ < .90. Goed: rxx’ > .90
  • Individueel minder belangrijk niveau - Voldoende: .70 < rxx’ < .80. Goed: rxx’ > .80
  • Groepsniveau - Voldoende: .60 < rxx’ < .70. Goed: rxx’ > .70

Invloeden van betrouwbaarheid zijn de lengte van de test (hoe langer, hoe betrouwbaarder), de samenstelling van de steekproef (hoe meer spreiding, hoe betrouwbaarder) en het tijdslimiet ( bij tijdsgebrek worden niet alle items beantwoord; dan zijn de split-halfmethode, KR20 en Cronbach’s alpha niet geschikt).

Join World Supporter
Join World Supporter
Log in or create your free account

Why create an account?

  • Your WorldSupporter account gives you access to all functionalities of the platform
  • Once you are logged in, you can:
    • Save pages to your favorites
    • Give feedback or share contributions
    • participate in discussions
    • share your own contributions through the 7 WorldSupporter tools
Follow the author: JuliaV
Promotions
verzekering studeren in het buitenland

Ga jij binnenkort studeren in het buitenland?
Regel je zorg- en reisverzekering via JoHo!

verzekering studeren in het buitenland

Ga jij binnenkort studeren in het buitenland?
Regel je zorg- en reisverzekering via JoHo!

Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
[totalcount]
Comments, Compliments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
WorldSupporter Resources
Hoorcolleges Grondslagen van psychologische diagnostiek en testtheorie

Hoorcolleges Grondslagen van psychologische diagnostiek en testtheorie

In deze bundel zijn de aantekeningen van alle hoorcolleges van het vak Grondslagen van psychologische diagnostiek en testtheorie (GPDTT) te vinden. Ik heb dit vak gevolgd aan de Universiteit Utrecht tijdens de studie psychologie. Succes!