Bulletsamenvattingen per hoofdstuk bij de 4e druk van Testtheorie: Inleiding in de theorie van de psychologische test en zijn toepassingen van Drenth & Sijtsma - Chapter


Hoe verloopt de historische testontwikkeling van het testen? - Bulletpoints 1

  • Eind 18e eeuw ontstond binnen de psychiatrie in Frankrijk en de experimentele psychologie in Duitsland een sterke belangstelling voor psychische stoornissen. Hierdoor ontstond ook een behoefte aan methoden om verschillen tussen verschillende gradaties van zwakzinnigheid en geesteszieken vast te kunnen stellen. In het begin was de interesse vooral theoretisch van aard, onderzoek vond plaats in laboratoria en met onderzoeksresultaten werd weinig gedaan.
  • Het werk van Binet luidde met zijn Binet-Simon-test een nieuwe periode in. Hij legde vooral nadruk op complexe mentale processen, zoals geheugen en verbeeldingskracht. Ook werkte hij vanuit een empirisch oogpunt en stelde hij voor het intelligentieniveau weer te geven aan de hand van een totaalscore. Van valideringsonderzoek was echter nog geen sprake.
  • De uitbraak van WOI zorgde voor een versnelde testontwikkeling die zich in Europa –waar de individuele diagnostiek aan populariteit won – anders uitte dan in de VS – waar het accent vooral kwam te liggen op groepstests. De praktische toepassing van de test ging vaak vooraf aan de theorie.
  • Vanaf WOII nam vooral in de VS het aantal beschikbare tests snel toe. Ook werden de methodologische grondslagen van het testgebruik kritisch onder de loep genomen. Communicatie over tests, testonderzoek en de psychometrie verliep nu via wetenschappelijke tijdschriften. Belangrijke invloeden op de testtheorie zijn afkomstig vanuit (hand)boeken zoals de Technical recommendations for psychological tests and diagnostic techniques, het onderwijskundig meten, en de schaaltheorie.
  • In Europa kwam de ontwikkeling van de testtheorie en –constructie wat later (jaren ’60 en ‘70) op gang. Ook hier werden wetenschappelijke tijdschriften opgezet. In Nederland werd een belangrijk impuls aan wetenschappelijk verantwoord testgebruik gegeven door psychologen als Kouwer, Van de Geer en Van der Giessen. In 1959 werd een Test Research Commissie (tegenwoordig COTAN) opgericht. Ook in Nederland werden handboeken uitgegeven die veel invloed hebben gehad op de testontwikkeling.

Wat zijn de definitie, kenmerken en toepassingen van de test? - Bulletpoints 2

  • Een verantwoorde en gepubliceerde test bestaat doorgaans uit de volgende onderdelen; testmateriaal, testformulieren en een testhandleiding met daarin een duidelijke testinstructie, de verwerkingsprocedure, normtabellen en de wetenschappelijke kwaliteiten van de test.
  • Gebruik van een psychologische test is pas gerechtvaardigd als het een juister beeld oplevert dan het voorwetenschappelijk oordeel, of als het kan dienen als een verbetering/aanvulling hierop en de kosten of ethische bezwaren geen beperking vormen.
  • Een psychologische test heeft 6 voordelen boven een 'willekeurig' niet wetenschappelijk oordeel, namelijk; (1) efficiëntie, (2) standaardisatie, (3) normering, (4) objectiviteit, (5) betrouwbaarheid en (6) validiteit.
  • Testscores kunnen worden gemeten op één van de volgende vier meetschalen; (1) de nominale schaal, (2) de ordinale schaal, (3) de intervalschaal, en (4) de ratioschaal. Binnen de psychologie worden de meeste testscores op intervalschaal gemeten. Eigenschappen kunnen zowel direct (operationale begrippen, zoals gewicht) als indirect (niet direct zichtbare eigenschappen, zoals intelligentie) gemeten worden.
  • Met behulp van psychologische tests kunnen niet alleen individuen, maar ook groepen, situaties en methoden worden getoetst en beoordeeld.

Welke indelingen, onderscheidingen en begrippen zijn er omtrent testtheorie? - Bulletpoints 3

  • Er kan onderscheid gemaakt worden tussen tests gericht op prestatieniveau – enkelvoudige en veelvoudige algemene niveautests, speciale niveautests, en vorderingstests – en tests gericht op gedrag – observatietests, somato-fysiologische tests, zelfbeoordelingen, en kwalitatieve prestatietests.
  • Drie potentieel aanwezige factoren die het beoordelen van gedrag lastig maken, zijn sociaal wenselijk gedrag, de beoordelingsprocedure (gebrek aan objectief criterium), en veranderbaarheid van persoonlijkheidstrekken.
  • Bij de afname en interpretatie van een test dient men altijd rekening te houden met bepaalde invloeden, zoals cultuurverschillen, gebrek aan bepaalde vaardigheden (zoals leesvaardigheid of het kunnen horen van instructies), en bekendheid met de test bij de onderzochte.
  • De invloed van verschillen in vaardigheden kunnen op drie manieren worden gereduceerd: (1) het verkleinen van de vaardigheden-verschillen zelf, bijvoorbeeld door uitbreiding van de instructie, (2) enkel tests afnemen en testscores interpreteren bij dat deel van de populatie die beschikken over de vereiste vaardigheden, en (3) het ontwikkelen van skill reduced tests.

Hoe worden items opgebouwd en reacties gekwantificeerd in tests en vragenlijsten? - Bulletpoints 4

  • Tests en vragenlijsten zijn opgebouwd uit items die in drie typen kunnen worden onderverdeeld; (1) de handeling die van de respondent wordt gevraagd (theoretische opdrachten, stellingen, vragen, praktijkopdrachten) ; (2) de vorm van het antwoord van de respondent (open versus gesloten vragen); en (3) de uiterlijke verschijning van het item (bijvoorbeeld meerkeuzevraag versus schaalvraag).
  • Bij de constructie van een test wordt met behulp van vooronderzoek met een kleine steekproef eerst de kwaliteit van de items onderzocht. Vervolgens wordt tijdens het hoofdonderzoek een grote en representatieve steekproef gehouden. Dit hoofdonderzoek heeft als doel de kwaliteit (betrouwbaarheid, validiteit en normering) van de gehele test te bepalen.

Hoe worden tests afgenomen en verwerkt? - Bulletpoints 5

  • Bij afname van tests dient er met veel factoren rekening te worden gehouden, waaronder de objectieve testsituatie (waarbij standaardisatie van zowel de testsituatie als de situatie van de proefpersoon en proefleider belangrijk is), het gedrag van proefpersonen (motivatie, coöperatie, etc.), en het gedrag van de proefleiders (ervaring, training, etc.).
  • Indien een proefpersoon slechts door middel van gokken een meerkeuzevraag goed scoort, kan de toevalscorrectie worden toegepast. Wanneer een proefpersoon bepaalde vragen niet heeft beantwoord, kan eventueel de correctieformule worden toegepast. Over het algemeen wordt geadviseerd geen correctieformules te gebruiken. Bij de keuze-antwoordenvorm is het beter het aantal goede antwoorden te tellen.
  • Veel tests kunnen ook via de computer afgenomen worden. Een potentieel probleem hierbij is dat men door testangst en verschillende mate van ervaring met computers verschillen krijgt in testprestaties. Dit is te ondervangen door te oefenen met computers.
  • Wanneer een concrete testscore wordt beoordeeld, wordt deze score aan de hand van normen vergeleken met de scoreverdeling van de referentiepopulatie (norm-referenced measurement). Soms kan de testscore ook worden vergeleken met een absolute standaard (criterion-referenced measurement). Hierbij wordt beoordeeld hoe goed de prestatie is in vergelijking met een absolute maatstaf of norm.
  • De meest eenvoudige manier om testprestaties tussen individuen te analyseren, is door middel van rangordening. Een bepaalde score voor een bepaalde positie wordt gebaseerd op de groep waar men in zit, er is geen sprake van een norm. Nadeel is dat deze rangscores geen betekenis hebben zonder kennis van de groepsgrootte of buiten de bewuste groep. Bij percentielscores is kennis van groepsgrootte niet nodig. Nadeel van percentielscores is de ordinale schaal.
  • Standaardscores hebben niet te maken met de bezwaren van percentiele normen, ordinale schaal en onvergelijkbaarheid met ruwe normen. Er zijn twee soorten standaardscores: lineaire standaardscores (z-scores) en genormaliseerde (niet-lineaire) standaardscores (T-scores, stanines en deviatie-IQ).

Wat is betrouwbaarheid? - Bulletpoints 6

  • Onder betrouwbaarheid wordt de mate van herhaalbaarheid van metingen verstaan.
  • In de klassieke testtheorie veronderstelt men dat iemands testscore bestaat uit een ware score (T-score) en een aantal toevallige componenten. Ook gaat men er binnen deze theorie vanuit dat de standaardmeetfout voor alle personen die de test afleggen gelijk is, ongeacht hun T-score. Testscores kunnen ook worden opgesplitst in een bedoeld deel (gelijk aan betrouwbare score) en een onbedoeld deel (gelijk aan de meetfout).
  • Betrouwbaarheid kan op twee manieren worden vastgesteld, namelijk via herhaalde meting (parallel methode en test-hertest methode) en via eenmalige meting (splitsingsmethode en interne consistentie-methode).
  • Hoewel Cronbach’s alfa vaak wordt gebruikt als maat voor interne consistentie, kan dit beter niet worden gedaan. Aangezien alfa in de praktijk een systematische onderschatting van betrouwbaarheid levert, is het dan ook beter alfa te gebruiken als ondergrens voor betrouwbaarheid.
  • De correlatie van een testscore met het criterium kan worden beperkt door de betrouwbaarheid van de testscore. De correlatiecoëfficiënt geeft inzicht in de validiteit van een test. De validiteit van de testscore kan dus beïnvloed worden door de betrouwbaarheid.
  • Binnen de psychodiagnostiek is het belangrijk om te weten wat de betrouwbaarheid van een gevonden verschil is (bijv. voor- versus nameting) om een goede voorspelling te kunnen doen. De betrouwbaarheid van het verschil tussen testscores is gering in geval van lage betrouwbaarheid van testscores laag en sterke covariantie van de testscores.

Welke nieuwe ontwikkelingen zijn er in de testtheorie en constructie? - Bulletpoints 7

  • Na de klassieke testtheorie (KTT) kwam het accent vooral te liggen op de item-responsetheorie (IRT).
  • Item-responsmodellen hebben meeteigenschappen die onderdeel zijn van adaptieve testmodellen, terwijl de KTT uitgaat van meeteigenschappen die vooral eigenschappen al dan niet veronderstellen. Verder zijn de metingen binnen de KTT populatie-afhankelijk, en de metingen binnen de item-responsmodellen populatie-onafhankelijk.
  • De IRT zorgt ervoor dat er iets kan worden gezegd over de kans dat persoon a met meetwaarde θi een bepaalde respons geeft op item g. Naast de meetwaarde, wordt deze kans ook beïnvloed door de moeilijkheid δg en het discriminerend vermogen αg.
  • De exacte vorm van de IRT wordt bepaald door drie itemkenmerken: (1) de pseudokansniveauparameter (γg), (2) de locatieparameter (of moeilijkheidsparameter δg), en (3) de discriminatieparameter (αg).
  • Item-responsmodellen in de volgorde van streng naar minder streng/zwak: (1) het Rasch-model, waarin wordt gesteld dat meetwaarden populatie-onafhankelijk moeten zijn; (2) het Birnbaum-model met twee itemparameters (het twee-parameter logistische model), waarbij bepaling van de meetwaarde θi onafhankelijk is van de δ-parameters, maar afhankelijk is van de α-parameters; en (3) het model met drie itemparameters (drie-parameter logistische model), waarbij items mogen verschillen in pseudokansniveau, discriminerend vermogen en moeilijkheid.
  • Mokken heeft twee item-responsmodellen gepresenteerd; het model van monotone homogeniteit en het model van dubbele monotonie. Hij gaat ervan uit van item-responsfuncties wel monotoon niet-dalend zijn, maar legt hier verder geen beperkingen aan op.
  • Op het gebied van betrouwbaarheid kan de IRT worden beschouwd als een verfijning van de klassieke testtheorie, omdat het een lokale betrouwbaarheid kan bepalen.
  • Praktische toepassingen van de IRT op het construeren van tests zijn de constructie van itembanken, het equivaleren van testscores, testconstructie met behulp van een itembank, adaptief testen, het achterhalen van vraagonzuiverheid, en vaststellen van afwijkende patronen van items en personen.

Wat is de validiteit en betekenis van een test? - BulletPoints 8

  • Validiteit is de mate waarin een test aan zijn doel beantwoordt. Er kunnen twee soorten doelen worden onderscheiden: (1) voorspellen van bepaald gedrag of een prestatie buiten de testsituatie (predictieve validiteit), en (2) operationaliseren van een theoretisch begrip (begripsvaliditeit)
  • Wanneer de predictieve validiteit van een test wordt bepaald, gaat men uit van een gegeven criterium. De vraag is dan hoe goed dit criterium voorspeld kan worden. Het basismodel voor het bepalen van de predictieve validiteit ziet er als volgt uit; op basis van eerder empirisch onderzoek binnen een representatieve steekproef wordt de relatie tussen test- en later verzamelde criteriumprestaties onderzocht.
  • Om het begrip ‘criterium’ wat te verduidelijken, wordt in het boek onderscheid tussen het uiteindelijke doel van een organisatie/instelling waarvoor een voorspelling gedaan moet worden en het conceptuele criterium (een concretisering van het uiteindelijke doel in termen van zichtbare resultaten). Vervolgens wordt van dit conceptuele criterium een criteriummaat – een duidelijke, eenduidige score/uitspraak die betrekking heeft op criteriumprestaties of -gedrag – afgeleid. De validiteit wordt bepaald door het vaststellen van de relatie tussen predictor- en criteriumscores.
  • Bij het proces van het kiezen van tests, de samenstelling van een testbatterij en de bepaling van de predictieve validiteit worden zes fasen onderscheiden: (1) operationalisering van het criterium; (2) keuze en constructie van tests; (3) proefafname van bestaande of nieuwe tests; (4) validatie van de testprocedure; (5) samenstelling van de predictorbatterij; (6) kruisvalidering.
  • Belangrijk is dat men zich niet beperkt tot de predictieve validiteit; ook de begripsvaliditeit en betekenisanalyse zijn onmisbaar voor zowel empirische, als praktische verdieping.
  • De vermoedens en verwachtingen van de onderzoeker vormen de basis voor de theorievorming over het testgedrag. Het zoeken naar een verklaring van testgedrag kan plaatsvinden door middel van analyse van inhoudelijke of formele kenmerken van dit gedrag. Er worden in het boek twee analysesuggesties gedaan, namelijk structuuronderzoek en relatieonderzoek.

Welke bijdrage levert de test in het beslissingsproces? - Bulletpoints 9

  • Tests hebben een wetenschappelijke waarde (bepaald door het wetenschappelijke belang van de door de test gemeten eigenschap) en een praktische waarde (afhankelijk van het succes van de beslissingen die met de test worden genomen).
  • Een beslissing over mensen bestaat altijd uit de volgende 3 onderdelen: (1) een of meerdere individuen op wie de beslissing betrekking heeft; (2) twee of meer behandelingen waar men uit moet kiezen; (3) de informatie die de basis vormt voor de beslissing. Wanneer men bij het beslissingsproces zekere vaststaande regels volgt, is er sprake van een beslissingsstrategie.
  • Beslissingen kunnen worden onderverdeeld in drie indelingsprincipes: (1) individuele versus institutionele beslissingen; (2) de onderlinge relatie van de alternatieven, welke invloed heeft op de aard van de test die moet worden gekozen; en (3) beslissingen die gemaakt worden op basis van univariate informatie, waarbij weer onderscheid gemaakt kan worden tussen beslissingen met een keuze voor één enkele behandeling of tussen verschillende alternatieven.
  • De meest voorkomende typen beslissingen over mensen waarbij men tests gebruikt, zijn:
    1. Enkelvoudige selectie (klassieke geschiktheidsonderzoek), ook wel het afwijzingsmodel genoemd. Dit kan aan de hand van een enkele test of middels het gelijktijdig gebruik van verschillende tests. Verder kan selectie plaatsvinden in een of meerdere fasen.
    2. Plaatsingsbeslissingen, waarbij het gaat om de keuze tussen verschillende alternatieven. Er kan hierbij onderscheid worden gemaakt tussen kwantitatief en kwalitatief verschillende mogelijkheden, en daarmee tussen univariate en multivariate informatie.
    3. Individuele beslissingen, waarbij het gaat om beslissingen die worden genomen voor of door personen met een eigen persoonlijk waardesysteem. Hierdoor zijn de beslissingen over het algemeen uniek van aard.
    4. Open vraag, waarbij er sprake is van een groot aantal mogelijkheden. Bij de open vraag is de brede-bandtechniek onmisbaar.
Join World Supporter
Join World Supporter
Log in or create your free account

Waarom een account aanmaken?

  • Je WorldSupporter account geeft je toegang tot alle functionaliteiten van het platform
  • Zodra je bent ingelogd kun je onder andere:
    • pagina's aan je lijst met favorieten toevoegen
    • feedback achterlaten
    • deelnemen aan discussies
    • zelf bijdragen delen via de 7 WorldSupporter tools
Follow the author: Psychology Supporter
Comments, Compliments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.