BulletPointsamenvatting Testtheorie: inleiding in de theorie van de psychologische test van Drenth et al
- Hoofdstuk 1. Historische ontwikkelingen
- Hoofdstuk 2. Verschillende soorten tests
- Hoofdstuk 3. Classificatie van tests
- Hoofdstuk 4. Items
- Hoofdstuk 5. De afname en verwerking
- Hoofdstuk 6. Betrouwbaarheid
- Hoofdstuk 7. Nieuwe ontwikkelingen
- Hoofdstuk 8. Validiteit en betekenis
- Hoofdstuk 9. Het beslissingsproces
Hoofdstuk 1. Historische ontwikkelingen
- Eind 18e eeuw ontstond binnen de psychiatrie in Frankrijk en de experimentele psychologie in Duitsland een sterke belangstelling voor psychische stoornissen. Hierdoor ontstond ook een behoefte aan methoden om verschillen tussen verschillende gradaties van zwakzinnigheid en geesteszieken vast te kunnen stellen. In het begin was de interesse vooral theoretisch van aard, onderzoek vond plaats in laboratoria en met onderzoeksresultaten werd weinig gedaan.
- Het werk van Binet luidde met zijn Binet-Simon-test een nieuwe periode in. Hij legde vooral nadruk op complexe mentale processen, zoals geheugen en verbeeldingskracht. Ook werkte hij vanuit een empirisch oogpunt en stelde hij voor het intelligentieniveau weer te geven aan de hand van een totaalscore. Van valideringsonderzoek was echter nog geen sprake.
- De uitbraak van WOI zorgde voor een versnelde testontwikkeling die zich in Europa –waar de individuele diagnostiek aan populariteit won – anders uitte dan in de VS – waar het accent vooral kwam te liggen op groepstests. De praktische toepassing van de test ging vaak vooraf aan de theorie.
- Vanaf WOII nam vooral in de VS het aantal beschikbare tests snel toe. Ook werden de methodologische grondslagen van het testgebruik kritisch onder de loep genomen. Communicatie over tests, testonderzoek en de psychometrie verliep nu via wetenschappelijke tijdschriften. Belangrijke invloeden op de testtheorie zijn afkomstig vanuit (hand)boeken zoals de Technical recommendations for psychological tests and diagnostic techniques, het onderwijskundig meten, en de schaaltheorie.
- In Europa kwam de ontwikkeling van de testtheorie en –constructie wat later (jaren ’60 en ‘70) op gang. Ook hier werden wetenschappelijke tijdschriften opgezet. In Nederland werd een belangrijk impuls aan wetenschappelijk verantwoord testgebruik gegeven door psychologen als Kouwer, Van de Geer en Van der Giessen. In 1959 werd een Test Research Commissie (tegenwoordig COTAN) opgericht. Ook in Nederland werden handboeken uitgegeven die veel invloed hebben gehad op de testontwikkeling.
Hoofdstuk 2. Verschillende soorten tests
- Een verantwoorde en gepubliceerde test bestaat doorgaans uit de volgende onderdelen; testmateriaal, testformulieren en een testhandleiding met daarin een duidelijke testinstructie, de verwerkingsprocedure, normtabellen en de wetenschappelijke kwaliteiten van de test.
- Gebruik van een psychologische test is pas gerechtvaardigd als het een juister beeld oplevert dan het voorwetenschappelijk oordeel, of als het kan dienen als een verbetering/aanvulling hierop en de kosten of ethische bezwaren geen beperking vormen.
- Een psychologische test heeft 6 voordelen boven een 'willekeurig' niet wetenschappelijk oordeel, namelijk; (1) efficiëntie, (2) standaardisatie, (3) normering, (4) objectiviteit, (5) betrouwbaarheid en (6) validiteit.
- Testscores kunnen worden gemeten op één van de volgende vier meetschalen; (1) de nominale schaal, (2) de ordinale schaal, (3) de intervalschaal, en (4) de ratioschaal. Binnen de psychologie worden de meeste testscores op intervalschaal gemeten. Eigenschappen kunnen zowel direct (operationale begrippen, zoals gewicht) als indirect (niet direct zichtbare eigenschappen, zoals intelligentie) gemeten worden.
- Met behulp van psychologische tests kunnen niet alleen individuen, maar ook groepen, situaties en methoden worden getoetst en beoordeeld.
Hoofdstuk 3. Classificatie van tests
- Er kan onderscheid gemaakt worden tussen tests gericht op prestatieniveau – enkelvoudige en veelvoudige algemene niveautests, speciale niveautests, en vorderingstests – en tests gericht op gedrag – observatietests, somato-fysiologische tests, zelfbeoordelingen, en kwalitatieve prestatietests.
- Drie potentieel aanwezige factoren die het beoordelen van gedrag lastig maken, zijn sociaal wenselijk gedrag, de beoordelingsprocedure (gebrek aan objectief criterium), en veranderbaarheid van persoonlijkheidstrekken.
- Bij de afname en interpretatie van een test dient men altijd rekening te houden met bepaalde invloeden, zoals cultuurverschillen, gebrek aan bepaalde vaardigheden (zoals leesvaardigheid of het kunnen horen van instructies), en bekendheid met de test bij de onderzochte.
- De invloed van verschillen in vaardigheden kunnen op drie manieren worden gereduceerd: (1) het verkleinen van de vaardigheden-verschillen zelf, bijvoorbeeld door uitbreiding van de instructie, (2) enkel tests afnemen en testscores interpreteren bij dat deel van de populatie die beschikken over de vereiste vaardigheden, en (3) het ontwikkelen van skill reduced tests.
Hoofdstuk 4. Items
- Tests en vragenlijsten zijn opgebouwd uit items die in drie typen kunnen worden onderverdeeld; (1) de handeling die van de respondent wordt gevraagd (theoretische opdrachten, stellingen, vragen, praktijkopdrachten) ; (2) de vorm van het antwoord van de respondent (open versus gesloten vragen); en (3) de uiterlijke verschijning van het item (bijvoorbeeld meerkeuzevraag versus schaalvraag).
- Bij de constructie van een test wordt met behulp van vooronderzoek met een kleine steekproef eerst de kwaliteit van de items onderzocht. Vervolgens wordt tijdens het hoofdonderzoek een grote en representatieve steekproef gehouden. Dit hoofdonderzoek heeft als doel de kwaliteit (betrouwbaarheid, validiteit en normering) van de gehele test te bepalen.
Hoofdstuk 5. De afname en verwerking
- Bij afname van tests dient er met veel factoren rekening te worden gehouden, waaronder de objectieve testsituatie (waarbij standaardisatie van zowel de testsituatie als de situatie van de proefpersoon en proefleider belangrijk is), het gedrag van proefpersonen (motivatie, coöperatie, etc.), en het gedrag van de proefleiders (ervaring, training, etc.).
- Indien een proefpersoon slechts door middel van gokken een meerkeuzevraag goed scoort, kan de toevalscorrectie worden toegepast. Wanneer een proefpersoon bepaalde vragen niet heeft beantwoord, kan eventueel de correctieformule worden toegepast. Over het algemeen wordt geadviseerd geen correctieformules te gebruiken. Bij de keuze-antwoordenvorm is het beter het aantal goede antwoorden te tellen.
- Veel tests kunnen ook via de computer afgenomen worden. Een potentieel probleem hierbij is dat men door testangst en verschillende mate van ervaring met computers verschillen krijgt in testprestaties. Dit is te ondervangen door te oefenen met computers.
- Wanneer een concrete testscore wordt beoordeeld, wordt deze score aan de hand van normen vergeleken met de scoreverdeling van de referentiepopulatie (norm-referenced measurement). Soms kan de testscore ook worden vergeleken met een absolute standaard (criterion-referenced measurement). Hierbij wordt beoordeeld hoe goed de prestatie is in vergelijking met een absolute maatstaf of norm.
- De meest eenvoudige manier om testprestaties tussen individuen te analyseren, is door middel van rangordening. Een bepaalde score voor een bepaalde positie wordt gebaseerd op de groep waar men in zit, er is geen sprake van een norm. Nadeel is dat deze rangscores geen betekenis hebben zonder kennis van de groepsgrootte of buiten de bewuste groep. Bij percentielscores is kennis van groepsgrootte niet nodig. Nadeel van percentielscores is de ordinale schaal.
- Standaardscores hebben niet te maken met de bezwaren van percentiele normen, ordinale schaal en onvergelijkbaarheid met ruwe normen. Er zijn twee soorten standaardscores: lineaire standaardscores (z-scores) en genormaliseerde (niet-lineaire) standaardscores (T-scores, stanines en deviatie-IQ).
Hoofdstuk 6. Betrouwbaarheid
- Onder betrouwbaarheid wordt de mate van herhaalbaarheid van metingen verstaan.
- In de klassieke testtheorie veronderstelt men dat iemands testscore bestaat uit een ware score (T-score) en een aantal toevallige componenten. Ook gaat men er binnen deze theorie vanuit dat de standaardmeetfout voor alle personen die de test afleggen gelijk is, ongeacht hun T-score. Testscores kunnen ook worden opgesplitst in een bedoeld deel (gelijk aan betrouwbare score) en een onbedoeld deel (gelijk aan de meetfout).
- Betrouwbaarheid kan op twee manieren worden vastgesteld, namelijk via herhaalde meting (parallel methode en test-hertest methode) en via eenmalige meting (splitsingsmethode en interne consistentie-methode).
- Hoewel Cronbach’s alfa vaak wordt gebruikt als maat voor interne consistentie, kan dit beter niet worden gedaan. Aangezien alfa in de praktijk een systematische onderschatting van betrouwbaarheid levert, is het dan ook beter alfa te gebruiken als ondergrens voor betrouwbaarheid.
- De correlatie van een testscore met het criterium kan worden beperkt door de betrouwbaarheid van de testscore. De correlatiecoëfficiënt geeft inzicht in de validiteit van een test. De validiteit van de testscore kan dus beïnvloed worden door de betrouwbaarheid.
- Binnen de psychodiagnostiek is het belangrijk om te weten wat de betrouwbaarheid van een gevonden verschil is (bijv. voor- versus nameting) om een goede voorspelling te kunnen doen. De betrouwbaarheid van het verschil tussen testscores is gering in geval van lage betrouwbaarheid van testscores laag en sterke covariantie van de testscores.
Hoofdstuk 7. Nieuwe ontwikkelingen
- Na de klassieke testtheorie (KTT) kwam het accent vooral te liggen op de item-responsetheorie (IRT).
- Item-responsmodellen hebben meeteigenschappen die onderdeel zijn van adaptieve testmodellen, terwijl de KTT uitgaat van meeteigenschappen die vooral eigenschappen al dan niet veronderstellen. Verder zijn de metingen binnen de KTT populatie-afhankelijk, en de metingen binnen de item-responsmodellen populatie-onafhankelijk.
- De IRT zorgt ervoor dat er iets kan worden gezegd over de kans dat persoon a met meetwaarde θi een bepaalde respons geeft op item g. Naast de meetwaarde, wordt deze kans ook beïnvloed door de moeilijkheid δg en het discriminerend vermogen αg.
- De exacte vorm van de IRT wordt bepaald door drie itemkenmerken: (1) de pseudokansniveauparameter (γg), (2) de locatieparameter (of moeilijkheidsparameter δg), en (3) de discriminatieparameter (αg).
- Item-responsmodellen in de volgorde van streng naar minder streng/zwak: (1) het Rasch-model, waarin wordt gesteld dat meetwaarden populatie-onafhankelijk moeten zijn; (2) het Birnbaum-model met twee itemparameters (het twee-parameter logistische model), waarbij bepaling van de meetwaarde θi onafhankelijk is van de δ-parameters, maar afhankelijk is van de α-parameters; en (3) het model met drie itemparameters (drie-parameter logistische model), waarbij items mogen verschillen in pseudokansniveau, discriminerend vermogen en moeilijkheid.
- Mokken heeft twee item-responsmodellen gepresenteerd; het model van monotone homogeniteit en het model van dubbele monotonie. Hij gaat ervan uit van item-responsfuncties wel monotoon niet-dalend zijn, maar legt hier verder geen beperkingen aan op.
- Op het gebied van betrouwbaarheid kan de IRT worden beschouwd als een verfijning van de klassieke testtheorie, omdat het een lokale betrouwbaarheid kan bepalen.
- Praktische toepassingen van de IRT op het construeren van tests zijn de constructie van itembanken, het equivaleren van testscores, testconstructie met behulp van een itembank, adaptief testen, het achterhalen van vraagonzuiverheid, en vaststellen van afwijkende patronen van items en personen.
Hoofdstuk 8. Validiteit en betekenis
- Validiteit is de mate waarin een test aan zijn doel beantwoordt. Er kunnen twee soorten doelen worden onderscheiden: (1) voorspellen van bepaald gedrag of een prestatie buiten de testsituatie (predictieve validiteit), en (2) operationaliseren van een theoretisch begrip (begripsvaliditeit)
- Wanneer de predictieve validiteit van een test wordt bepaald, gaat men uit van een gegeven criterium. De vraag is dan hoe goed dit criterium voorspeld kan worden. Het basismodel voor het bepalen van de predictieve validiteit ziet er als volgt uit; op basis van eerder empirisch onderzoek binnen een representatieve steekproef wordt de relatie tussen test- en later verzamelde criteriumprestaties onderzocht.
- Om het begrip ‘criterium’ wat te verduidelijken, wordt in het boek onderscheid tussen het uiteindelijke doel van een organisatie/instelling waarvoor een voorspelling gedaan moet worden en het conceptuele criterium (een concretisering van het uiteindelijke doel in termen van zichtbare resultaten). Vervolgens wordt van dit conceptuele criterium een criteriummaat – een duidelijke, eenduidige score/uitspraak die betrekking heeft op criteriumprestaties of -gedrag – afgeleid. De validiteit wordt bepaald door het vaststellen van de relatie tussen predictor- en criteriumscores.
- Bij het proces van het kiezen van tests, de samenstelling van een testbatterij en de bepaling van de predictieve validiteit worden zes fasen onderscheiden: (1) operationalisering van het criterium; (2) keuze en constructie van tests; (3) proefafname van bestaande of nieuwe tests; (4) validatie van de testprocedure; (5) samenstelling van de predictorbatterij; (6) kruisvalidering.
- Belangrijk is dat men zich niet beperkt tot de predictieve validiteit; ook de begripsvaliditeit en betekenisanalyse zijn onmisbaar voor zowel empirische, als praktische verdieping.
- De vermoedens en verwachtingen van de onderzoeker vormen de basis voor de theorievorming over het testgedrag. Het zoeken naar een verklaring van testgedrag kan plaatsvinden door middel van analyse van inhoudelijke of formele kenmerken van dit gedrag. Er worden in het boek twee analysesuggesties gedaan, namelijk structuuronderzoek en relatieonderzoek.
Hoofdstuk 9. Het beslissingsproces
- Tests hebben een wetenschappelijke waarde (bepaald door het wetenschappelijke belang van de door de test gemeten eigenschap) en een praktische waarde (afhankelijk van het succes van de beslissingen die met de test worden genomen).
- Een beslissing over mensen bestaat altijd uit de volgende 3 onderdelen: (1) een of meerdere individuen op wie de beslissing betrekking heeft; (2) twee of meer behandelingen waar men uit moet kiezen; (3) de informatie die de basis vormt voor de beslissing. Wanneer men bij het beslissingsproces zekere vaststaande regels volgt, is er sprake van een beslissingsstrategie.
- Beslissingen kunnen worden onderverdeeld in drie indelingsprincipes: (1) individuele versus institutionele beslissingen; (2) de onderlinge relatie van de alternatieven, welke invloed heeft op de aard van de test die moet worden gekozen; en (3) beslissingen die gemaakt worden op basis van univariate informatie, waarbij weer onderscheid gemaakt kan worden tussen beslissingen met een keuze voor één enkele behandeling of tussen verschillende alternatieven.
- De meest voorkomende typen beslissingen over mensen waarbij men tests gebruikt, zijn:
- Enkelvoudige selectie (klassieke geschiktheidsonderzoek), ook wel het afwijzingsmodel genoemd. Dit kan aan de hand van een enkele test of middels het gelijktijdig gebruik van verschillende tests. Verder kan selectie plaatsvinden in een of meerdere fasen.
- Plaatsingsbeslissingen, waarbij het gaat om de keuze tussen verschillende alternatieven. Er kan hierbij onderscheid worden gemaakt tussen kwantitatief en kwalitatief verschillende mogelijkheden, en daarmee tussen univariate en multivariate informatie.
- Individuele beslissingen, waarbij het gaat om beslissingen die worden genomen voor of door personen met een eigen persoonlijk waardesysteem. Hierdoor zijn de beslissingen over het algemeen uniek van aard.
- Open vraag, waarbij er sprake is van een groot aantal mogelijkheden. Bij de open vraag is de brede-bandtechniek onmisbaar.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Contributions: posts
Spotlight: topics
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
2392 |
Add new contribution