BulletPointsamenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

Hoofdstuk 1. Historische ontwikkelingen
Hoofdstuk 2. Verschillende soorten tests
Hoofdstuk 3. Classificatie van tests
Hoofdstuk 4. Items
Hoofdstuk 5. De afname en verwerking
Hoofdstuk 6. Betrouwbaarheid
Hoofdstuk 7. Nieuwe ontwikkelingen
Hoofdstuk 8. Validiteit en betekenis
Hoofdstuk 9. Het beslissingsproces

Hoofdstuk 1. Historische ontwikkelingen

Eind 18^e eeuw ontstond binnen de psychiatrie in Frankrijk en de experimentele psychologie in Duitsland een sterke belangstelling voor psychische stoornissen. Hierdoor ontstond ook een behoefte aan methoden om verschillen tussen verschillende gradaties van zwakzinnigheid en geesteszieken vast te kunnen stellen. In het begin was de interesse vooral theoretisch van aard, onderzoek vond plaats in laboratoria en met onderzoeksresultaten werd weinig gedaan.
Het werk van Binet luidde met zijn Binet-Simon-test een nieuwe periode in. Hij legde vooral nadruk op complexe mentale processen, zoals geheugen en verbeeldingskracht. Ook werkte hij vanuit een empirisch oogpunt en stelde hij voor het intelligentieniveau weer te geven aan de hand van een totaalscore. Van valideringsonderzoek was echter nog geen sprake.
De uitbraak van WOI zorgde voor een versnelde testontwikkeling die zich in Europa –waar de individuele diagnostiek aan populariteit won – anders uitte dan in de VS – waar het accent vooral kwam te liggen op groepstests. De praktische toepassing van de test ging vaak vooraf aan de theorie.
Vanaf WOII nam vooral in de VS het aantal beschikbare tests snel toe. Ook werden de methodologische grondslagen van het testgebruik kritisch onder de loep genomen. Communicatie over tests, testonderzoek en de psychometrie verliep nu via wetenschappelijke tijdschriften. Belangrijke invloeden op de testtheorie zijn afkomstig vanuit (hand)boeken zoals de Technical recommendations for psychological tests and diagnostic techniques, het onderwijskundig meten, en de schaaltheorie.
In Europa kwam de ontwikkeling van de testtheorie en –constructie wat later (jaren ’60 en ‘70) op gang. Ook hier werden wetenschappelijke tijdschriften opgezet. In Nederland werd een belangrijk impuls aan wetenschappelijk verantwoord testgebruik gegeven door psychologen als Kouwer, Van de Geer en Van der Giessen. In 1959 werd een Test Research Commissie (tegenwoordig COTAN) opgericht. Ook in Nederland werden handboeken uitgegeven die veel invloed hebben gehad op de testontwikkeling.

Hoofdstuk 2. Verschillende soorten tests

Een verantwoorde en gepubliceerde test bestaat doorgaans uit de volgende onderdelen; testmateriaal, testformulieren en een testhandleiding met daarin een duidelijke testinstructie, de verwerkingsprocedure, normtabellen en de wetenschappelijke kwaliteiten van de test.
Gebruik van een psychologische test is pas gerechtvaardigd als het een juister beeld oplevert dan het voorwetenschappelijk oordeel, of als het kan dienen als een verbetering/aanvulling hierop en de kosten of ethische bezwaren geen beperking vormen.
Een psychologische test heeft 6 voordelen boven een 'willekeurig' niet wetenschappelijk oordeel, namelijk; (1) efficiëntie, (2) standaardisatie, (3) normering, (4) objectiviteit, (5) betrouwbaarheid en (6) validiteit.
Testscores kunnen worden gemeten op één van de volgende vier meetschalen; (1) de nominale schaal, (2) de ordinale schaal, (3) de intervalschaal, en (4) de ratioschaal. Binnen de psychologie worden de meeste testscores op intervalschaal gemeten. Eigenschappen kunnen zowel direct (operationale begrippen, zoals gewicht) als indirect (niet direct zichtbare eigenschappen, zoals intelligentie) gemeten worden.
Met behulp van psychologische tests kunnen niet alleen individuen, maar ook groepen, situaties en methoden worden getoetst en beoordeeld.

Hoofdstuk 3. Classificatie van tests

Er kan onderscheid gemaakt worden tussen tests gericht op prestatieniveau – enkelvoudige en veelvoudige algemene niveautests, speciale niveautests, en vorderingstests – en tests gericht op gedrag – observatietests, somato-fysiologische tests, zelfbeoordelingen, en kwalitatieve prestatietests.
Drie potentieel aanwezige factoren die het beoordelen van gedrag lastig maken, zijn sociaal wenselijk gedrag, de beoordelingsprocedure (gebrek aan objectief criterium), en veranderbaarheid van persoonlijkheidstrekken.
Bij de afname en interpretatie van een test dient men altijd rekening te houden met bepaalde invloeden, zoals cultuurverschillen, gebrek aan bepaalde vaardigheden (zoals leesvaardigheid of het kunnen horen van instructies), en bekendheid met de test bij de onderzochte.
De invloed van verschillen in vaardigheden kunnen op drie manieren worden gereduceerd: (1) het verkleinen van de vaardigheden-verschillen zelf, bijvoorbeeld door uitbreiding van de instructie, (2) enkel tests afnemen en testscores interpreteren bij dat deel van de populatie die beschikken over de vereiste vaardigheden, en (3) het ontwikkelen van skill reduced tests.

Hoofdstuk 4. Items

Tests en vragenlijsten zijn opgebouwd uit items die in drie typen kunnen worden onderverdeeld; (1) de handeling die van de respondent wordt gevraagd (theoretische opdrachten, stellingen, vragen, praktijkopdrachten) ; (2) de vorm van het antwoord van de respondent (open versus gesloten vragen); en (3) de uiterlijke verschijning van het item (bijvoorbeeld meerkeuzevraag versus schaalvraag).
Bij de constructie van een test wordt met behulp van vooronderzoek met een kleine steekproef eerst de kwaliteit van de items onderzocht. Vervolgens wordt tijdens het hoofdonderzoek een grote en representatieve steekproef gehouden. Dit hoofdonderzoek heeft als doel de kwaliteit (betrouwbaarheid, validiteit en normering) van de gehele test te bepalen.

Hoofdstuk 5. De afname en verwerking

Bij afname van tests dient er met veel factoren rekening te worden gehouden, waaronder de objectieve testsituatie (waarbij standaardisatie van zowel de testsituatie als de situatie van de proefpersoon en proefleider belangrijk is), het gedrag van proefpersonen (motivatie, coöperatie, etc.), en het gedrag van de proefleiders (ervaring, training, etc.).
Indien een proefpersoon slechts door middel van gokken een meerkeuzevraag goed scoort, kan de toevalscorrectie worden toegepast. Wanneer een proefpersoon bepaalde vragen niet heeft beantwoord, kan eventueel de correctieformule worden toegepast. Over het algemeen wordt geadviseerd geen correctieformules te gebruiken. Bij de keuze-antwoordenvorm is het beter het aantal goede antwoorden te tellen.
Veel tests kunnen ook via de computer afgenomen worden. Een potentieel probleem hierbij is dat men door testangst en verschillende mate van ervaring met computers verschillen krijgt in testprestaties. Dit is te ondervangen door te oefenen met computers.
Wanneer een concrete testscore wordt beoordeeld, wordt deze score aan de hand van normen vergeleken met de scoreverdeling van de referentiepopulatie (norm-referenced measurement). Soms kan de testscore ook worden vergeleken met een absolute standaard (criterion-referenced measurement). Hierbij wordt beoordeeld hoe goed de prestatie is in vergelijking met een absolute maatstaf of norm.
De meest eenvoudige manier om testprestaties tussen individuen te analyseren, is door middel van rangordening. Een bepaalde score voor een bepaalde positie wordt gebaseerd op de groep waar men in zit, er is geen sprake van een norm. Nadeel is dat deze rangscores geen betekenis hebben zonder kennis van de groepsgrootte of buiten de bewuste groep. Bij percentielscores is kennis van groepsgrootte niet nodig. Nadeel van percentielscores is de ordinale schaal.
Standaardscores hebben niet te maken met de bezwaren van percentiele normen, ordinale schaal en onvergelijkbaarheid met ruwe normen. Er zijn twee soorten standaardscores: lineaire standaardscores (z-scores) en genormaliseerde (niet-lineaire) standaardscores (T-scores, stanines en deviatie-IQ).

Hoofdstuk 6. Betrouwbaarheid

Onder betrouwbaarheid wordt de mate van herhaalbaarheid van metingen verstaan.
In de klassieke testtheorie veronderstelt men dat iemands testscore bestaat uit een ware score (T-score) en een aantal toevallige componenten. Ook gaat men er binnen deze theorie vanuit dat de standaardmeetfout voor alle personen die de test afleggen gelijk is, ongeacht hun T-score. Testscores kunnen ook worden opgesplitst in een bedoeld deel (gelijk aan betrouwbare score) en een onbedoeld deel (gelijk aan de meetfout).
Betrouwbaarheid kan op twee manieren worden vastgesteld, namelijk via herhaalde meting (parallel methode en test-hertest methode) en via eenmalige meting (splitsingsmethode en interne consistentie-methode).
Hoewel Cronbach’s alfa vaak wordt gebruikt als maat voor interne consistentie, kan dit beter niet worden gedaan. Aangezien alfa in de praktijk een systematische onderschatting van betrouwbaarheid levert, is het dan ook beter alfa te gebruiken als ondergrens voor betrouwbaarheid.
De correlatie van een testscore met het criterium kan worden beperkt door de betrouwbaarheid van de testscore. De correlatiecoëfficiënt geeft inzicht in de validiteit van een test. De validiteit van de testscore kan dus beïnvloed worden door de betrouwbaarheid.
Binnen de psychodiagnostiek is het belangrijk om te weten wat de betrouwbaarheid van een gevonden verschil is (bijv. voor- versus nameting) om een goede voorspelling te kunnen doen. De betrouwbaarheid van het verschil tussen testscores is gering in geval van lage betrouwbaarheid van testscores laag en sterke covariantie van de testscores.

Hoofdstuk 7. Nieuwe ontwikkelingen

Na de klassieke testtheorie (KTT) kwam het accent vooral te liggen op de item-responsetheorie (IRT).
Item-responsmodellen hebben meeteigenschappen die onderdeel zijn van adaptieve testmodellen, terwijl de KTT uitgaat van meeteigenschappen die vooral eigenschappen al dan niet veronderstellen. Verder zijn de metingen binnen de KTT populatie-afhankelijk, en de metingen binnen de item-responsmodellen populatie-onafhankelijk.
De IRT zorgt ervoor dat er iets kan worden gezegd over de kans dat persoon a met meetwaarde θ_i een bepaalde respons geeft op item g. Naast de meetwaarde, wordt deze kans ook beïnvloed door de moeilijkheid δ_g en het discriminerend vermogen α_g.
De exacte vorm van de IRT wordt bepaald door drie itemkenmerken: (1) de pseudokansniveauparameter (γ_g), (2) de locatieparameter (of moeilijkheidsparameter δ_g), en (3) de discriminatieparameter (α_g).
Item-responsmodellen in de volgorde van streng naar minder streng/zwak: (1) het Rasch-model, waarin wordt gesteld dat meetwaarden populatie-onafhankelijk moeten zijn; (2) het Birnbaum-model met twee itemparameters (het twee-parameter logistische model), waarbij bepaling van de meetwaarde θ_i onafhankelijk is van de δ-parameters, maar afhankelijk is van de α-parameters; en (3) het model met drie itemparameters (drie-parameter logistische model), waarbij items mogen verschillen in pseudokansniveau, discriminerend vermogen en moeilijkheid.
Mokken heeft twee item-responsmodellen gepresenteerd; het model van monotone homogeniteit en het model van dubbele monotonie. Hij gaat ervan uit van item-responsfuncties wel monotoon niet-dalend zijn, maar legt hier verder geen beperkingen aan op.
Op het gebied van betrouwbaarheid kan de IRT worden beschouwd als een verfijning van de klassieke testtheorie, omdat het een lokale betrouwbaarheid kan bepalen.
Praktische toepassingen van de IRT op het construeren van tests zijn de constructie van itembanken, het equivaleren van testscores, testconstructie met behulp van een itembank, adaptief testen, het achterhalen van vraagonzuiverheid, en vaststellen van afwijkende patronen van items en personen.

Hoofdstuk 8. Validiteit en betekenis

Validiteit is de mate waarin een test aan zijn doel beantwoordt. Er kunnen twee soorten doelen worden onderscheiden: (1) voorspellen van bepaald gedrag of een prestatie buiten de testsituatie (predictieve validiteit), en (2) operationaliseren van een theoretisch begrip (begripsvaliditeit)
Wanneer de predictieve validiteit van een test wordt bepaald, gaat men uit van een gegeven criterium. De vraag is dan hoe goed dit criterium voorspeld kan worden. Het basismodel voor het bepalen van de predictieve validiteit ziet er als volgt uit; op basis van eerder empirisch onderzoek binnen een representatieve steekproef wordt de relatie tussen test- en later verzamelde criteriumprestaties onderzocht.
Om het begrip ‘criterium’ wat te verduidelijken, wordt in het boek onderscheid tussen het uiteindelijke doel van een organisatie/instelling waarvoor een voorspelling gedaan moet worden en het conceptuele criterium (een concretisering van het uiteindelijke doel in termen van zichtbare resultaten). Vervolgens wordt van dit conceptuele criterium een criteriummaat – een duidelijke, eenduidige score/uitspraak die betrekking heeft op criteriumprestaties of -gedrag – afgeleid. De validiteit wordt bepaald door het vaststellen van de relatie tussen predictor- en criteriumscores.
Bij het proces van het kiezen van tests, de samenstelling van een testbatterij en de bepaling van de predictieve validiteit worden zes fasen onderscheiden: (1) operationalisering van het criterium; (2) keuze en constructie van tests; (3) proefafname van bestaande of nieuwe tests; (4) validatie van de testprocedure; (5) samenstelling van de predictorbatterij; (6) kruisvalidering.
Belangrijk is dat men zich niet beperkt tot de predictieve validiteit; ook de begripsvaliditeit en betekenisanalyse zijn onmisbaar voor zowel empirische, als praktische verdieping.
De vermoedens en verwachtingen van de onderzoeker vormen de basis voor de theorievorming over het testgedrag. Het zoeken naar een verklaring van testgedrag kan plaatsvinden door middel van analyse van inhoudelijke of formele kenmerken van dit gedrag. Er worden in het boek twee analysesuggesties gedaan, namelijk structuuronderzoek en relatieonderzoek.

Hoofdstuk 9. Het beslissingsproces

Tests hebben een wetenschappelijke waarde (bepaald door het wetenschappelijke belang van de door de test gemeten eigenschap) en een praktische waarde (afhankelijk van het succes van de beslissingen die met de test worden genomen).
Een beslissing over mensen bestaat altijd uit de volgende 3 onderdelen: (1) een of meerdere individuen op wie de beslissing betrekking heeft; (2) twee of meer behandelingen waar men uit moet kiezen; (3) de informatie die de basis vormt voor de beslissing. Wanneer men bij het beslissingsproces zekere vaststaande regels volgt, is er sprake van een beslissingsstrategie.
Beslissingen kunnen worden onderverdeeld in drie indelingsprincipes: (1) individuele versus institutionele beslissingen; (2) de onderlinge relatie van de alternatieven, welke invloed heeft op de aard van de test die moet worden gekozen; en (3) beslissingen die gemaakt worden op basis van univariate informatie, waarbij weer onderscheid gemaakt kan worden tussen beslissingen met een keuze voor één enkele behandeling of tussen verschillende alternatieven.
De meest voorkomende typen beslissingen over mensen waarbij men tests gebruikt, zijn:

Enkelvoudige selectie (klassieke geschiktheidsonderzoek), ook wel het afwijzingsmodel genoemd. Dit kan aan de hand van een enkele test of middels het gelijktijdig gebruik van verschillende tests. Verder kan selectie plaatsvinden in een of meerdere fasen.
Plaatsingsbeslissingen, waarbij het gaat om de keuze tussen verschillende alternatieven. Er kan hierbij onderscheid worden gemaakt tussen kwantitatief en kwalitatief verschillende mogelijkheden, en daarmee tussen univariate en multivariate informatie.
Individuele beslissingen, waarbij het gaat om beslissingen die worden genomen voor of door personen met een eigen persoonlijk waardesysteem. Hierdoor zijn de beslissingen over het algemeen uniek van aard.
Open vraag, waarbij er sprake is van een groot aantal mogelijkheden. Bij de open vraag is de brede-bandtechniek onmisbaar.

Access:

Public

Check more: click and go to more related summaries or chapters

Studiematerialen bij het vak Testtheorie en testgebruik - RUG

College-aantekeningen bij Testtheorie & Testgebruik aan de Rijksuniversiteit Groningen - 2016/2017

Samenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

BulletPointsamenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

Bijlage bij de samenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

Oefenbundel Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

College-aantekeningen bij Testtheorie & Testgebruik aan de Rijksuniversiteit Groningen - 2016/2017

Samenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

BulletPointsamenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al

Join: WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant and sustainable world. Through physical and online platforms, it supports personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.