Je vertrek voorbereiden of je verzekering afsluiten bij studie, stage of onderzoek in het buitenland
Study or work abroad? check your insurance options with The JoHo Foundation
De chronologische leeftijd zoals die gebruikt wordt bij de berekening van het kalenderleeftijd Binet staat eigenlijk voor:
C. De volgens kalenderleeftijd verwachte testscore.
Wanneer is een test objectief?
Beschrijf de opzet van een normeringsonderzoek. Houd bijvoorbeeld rekening met doelstelling van de test, beschrijving van de populatie, steekproeftrekking, en statistische analyse van de onderzoeksgegevens.
Hoe kan standaardisatie worden vergeleken met een experimentele controle?
Waarom is de beoordeling van personen met betrekking tot een psychologische eigenschap op basis van gedrag dat in het dagelijks functioneren wordt getoond, niet efficiënt?
Waarom is standaardisatie van de testprocedure belangrijk?
Wat is de functie van normen en normtabellen?
Noem zo veel mogelijk voorbeelden van testmateriaal, in aanvulling op een schriftelijke test of toets die uit een serie vragen of opgaven bestaat.
Hoe kan de objectiviteit van sterk subjectieve beoordelingsprocedures – een projectietest,maar ook de beoordeling van een opstel als onderdeel van een taaltoets – worden verbeterd?
Hoe komt het dat fysische metingen in het algemeen betrouwbaarder zijn dan psychologische metingen?
Wat wordt verstaan onder de validiteit van een test?
Als de getalswaarden die aan personen zijn toegekend alleen dienen om aan te geven tot welke groep iemand behoort, wat is dan het schaaltype van deze getallen?
Stel, ik tel testscores bij elkaar op. Van welk type schaaltypen ga ik dan zeker niet uit?
Als patiënt A volgens een test tweemaal zo rigide is als patiënt B, wat is dan het veronderstelde schaaltype van deze testscores?
Geeft u eens commentaar op uitspraken van het type als gedaan in opdracht 13.
Als een testprestatie aanleiding geeft tot de uitspraak dat de rekenvaardigheid van een leerling er op vooruitgegaan is, wat is dan het minimaal veronderstelde schaaltype van de testscore?
Wat wordt bedoeld met de uitspraak dat het nulpunt van een intervalschaal arbitrair is?
Objectiviteit; de onafhankelijkheid van storende invloeden vanuit de persoon van de waarnemer, beoordelaar of interpretator. Voor de testinterpretatie houdt dit in dat men mag aannemen dat het proces van het registreren en verwerken van het testgedrag van de onderzochte tot score, beoordelingscategorie of classificatie, vrij is van aan de testleider gebonden invloeden.Het mag dus niet uitmaken wie de beoordelaar is. verder impliceert objectiviteit openheid en reproduceerbaarheid.
In het normeringsonderzoek is op z’n minst een rangorde vastgesteld van zeer goede tot zeer slechte prestaties, zodat iemands prestatie door middel van een plaatsbepaling in deze rangorde kan worden beoordeeld. Men is hierbij afhankelijk van de groep proefpersonen. Er ontstaat een discrete verdeling, die kan benaderd worden met een normale verdeling. Hiermee kunnen steekproeffouten gladgestreken worden.
Er is bij zowel bij standaardisatie als bij experimentele controle sprake van het onder controle houden van variabelen. Beiden zijn ook opnieuw uit te voeren, en wel dusdanig dat er dezelfde resultaten uitkomen.
Standaardisatie is belangrijk voor een test. Omdat je alleen iets verstandigs kan zeggen overeen testprestatie als deze vergelijkbaar zijn met de prestaties van anderen.
Het is niet efficiënt, omdat het alleen zin heeft als de onderzochte ten aanzien van die eigenschap wordt vergeleken met anderen. Hierbij kan gedacht worden aan een kleine, selecte groep, die in dezelfde omstandigheden verkeert. Dit is niet mogelijk als het gaat om gedrag in het dagelijks functioneren. De storende variabelen zijn niet controleerbaar.
Functie van normtabellen; de score kan vergeleken worden met de prestaties van meer of minder representatieve normgroepen. Deze mogelijkheid tot vergelijking vormt een voorwaarde voor een nadere interpretatie en evaluatie van de testprestatie of het testgedrag.
Verschillende voorbeelden van testmateriaal:
Door het gebruik van meerdere beoordelaars. De overeenstemming tussen de beoordelaars kan dan gebruikt worden
Fysische metingen zijn over het algemeen objectiever. Er is minder sprake van interpretatie van de beoordelaar. Bij psychologische metingen is meer sprake van interpretatie van de beoordelaar.
Validiteit; de mate waarin een test meet wat hij beoogt te meten.
Nominaal.
Nominaal.
Interval.
Het is vaak niet terecht om dit op deze manier te zeggen.
Er is sprake van een vooruitgang, dus men moet iets kunnen vergelijken. De nominale schaal valt dus af. Bij de ordinale schaal is wel sprake van rangorde, maar nog niet van een ‘hoeveelheid vooruitgang’. Er is dus sprake van de intervalschaal of van de verhoudingsschaal.
Het arbitraire nulpunt is het punt vanaf waar men zich concentreert.
Wat is een test voor prestatieniveau?
Wat is een test voor gedragswijze?
Wat is een enkelvoudige algemene niveautest (‘general ability test’)?
Wat zijn veelvoudige algemene niveautests? Waarin verschillen deze tests van enkelvoudigealgemene niveautests?
Waaraan moeten we denken bij het woord ‘geschiktheid’ in een testbatterij voor geschiktheden(‘multiple aptitude test’)?
Wat is de relatie tussen geschiktheidsfactoren en intelligentiefactoren?
Noem de drie specifieke problemen van het meten van gedragswijzen in vergelijking met hetmeten van prestatieniveaus.
Bij observatietests worden indirecte gegevens verzameld. In welk opzicht zijn de gegevensindirect?
Men neemt de antwoorden van onderzochten bij zelfbeoordeling doorgaans serieus. Hoewordt ermee omgegaan bij evaluatie van de persoonlijkheid?
Wat is de methode van de semantische differentiaal?
Wat geeft de score op een kwalitatieve prestatietest aan?
Waarom zijn de eisen aan de betrouwbaarheid van een test die wordt gebruikt inwetenschappelijk onderzoek minder streng dan die voor een test die wordt gebruikt voorindividuele diagnostiek?
Noem een voordeel en een nadeel van de groepstest.
Noem drie voordelen van de individuele test.
Noem een gevaar van de grotere hoeveelheid informatie die men kan verkrijgen via deindividuele wijze van testen in de context van beoordeling van de persoonlijkheid.
Geef aan hoe snelheid en nauwkeurigheid van werken met elkaar samenhangen.
Is snelheid van werken bij veel tests van belang? Licht het antwoord toe.
Zijn er tests die volledig cultuurvrij zijn? En zijn er tests die volledig cultuurbepaald zijn? Lichtuw antwoorden toe.
Wat wordt bedoeld met ‘skills’ in de context van testen?
Leg uit hoe de invloed van ‘skills’ op de testprestatie kan worden verminderd.
Wat wordt verstaan onder en indirecte test?
Noem enkele typen tests die als direct kunnen worden gekenschetst.
Bij een prestatieniveau test is er van te voren altijd een norm van wat ‘goed’ of ‘fout’ is. Prestatieniveau tests worden onderverdeeld in: enkelvoudige algemene niveautest (diebestaat uit: individuele ontwikkelingstests, individuele intelligentietests voor volwassenen,algemene collectieve intelligentietests), veelvoudige algemene niveautests (testbatterijen voorintelligentiefactoren, testbatterijen voor geschiktheden), speciale niveautests (tests voorspeciale intelligentiefactoren, tests voor speciale geschiktheden, tests voor speciale niet-intelligentiefactoren) en vorderingentests.
Bij een test voor gedragswijze is er van te voren niet een ‘goed/fout’-sleutel beschikbaar. Hetgaat hierbij vooral om de vraag hoe iemand iets doet of op welke wijze de prestatieplaatsvindt. Test voor gedragswijze kunnen onderverdeeld worden in: observatietests(individuele observatietests, groepsobservatietests), somatofysiologische methoden(morfologisch onderzoek, fysiologisch onderzoek), zelfbeoordelingen (interessetests, waarde-en attitudetests, biografische vragenlijsten, persoonlijkheidsvragenlijsten), kwalitatieveprestatietests; bestaande uit niveautests voor gedragswijze (experimentele tests,motoriektests, intelligentietests, ‘karakter’tests, cognitieve/perceptuele stijlen) en projectietets(perceptietests, interpretatietests, expressietests, constructietests, associatietests,keuzetests).
Bij deze type test gaat het vooral om een algemeen beeld. Er wordt niet gekeken naar diversedimensies of aspecten die gemeten kunnen worden.
Bij deze test gaat het juist wel om een differentiatie van het te meten begrip, er wordt hier duswel gekeken naar de diverse dimensies en aspecten. De belangrijkste voorwaarde voord dezetest is dat de deeltests afzonderlijk gezien voldoende betrouwbaar en onafhankelijk zijn.
‘Geschiktheden’ worden hierbij gerefereerd aan een maatschappelijke taak of een schooltaak.Het pretendeert de vermogens te meten die iemand in staat stellen zich voor eenmaatschappelijke taak of schooleisen te bekwamen. Geschiktheid in deze in is dus vooral‘leergeschiktheid’.
Soms zijn geschiktheidsfactoren samengesteld uit diverse intelligentiefactoren. Technisch-mechanisch inzicht bestaat bijvoorbeeld uit ‘reasoning’, ruimtelijk inzicht en soms numeriekevaardigheid. In een testbatterij voor geschiktheden zijn deze eigenschappen in één technisch-inzichttest samengevoegd.
Het is indirect omdat de informatie steeds van een onafhankelijke beoordelaar komt die deonderzochte observeert.
Er wordt gekeken naar de antwoorden die gegeven worden op bepaalde uitspraken. De scoredie hieruit voortvloeit kan bijvoorbeeld vergeleken worden met de ‘ideale’ persoon
Hierbij wordt de onderzochte gevraagd een serie eigenschappen, gebeurtenissen of objectente beoordelen op een aantal bipolaire dimensies, zoals ‘mooi/lelijk’, ‘glad/ruw’ en ‘sterk/zwak’.
Bij een kwalitatieve prestatietest gaat het niet om de vraag of de opdracht goed of fout wordtuigevoerd, maar om de wijze waarop deze wordt uitgevoerd, hetgeen dan informatief zou zijnmet het oog op een bepaalde persoonlijkheidstrek of een klinisch syndroom. De score geeftdus een indicatie van de trek of het syndroom, en niet van de juistheid van de oplossing.
Bij wetenschappelijk onderzoek heeft men te maken met een minder hogemeetnauwkeurigheid. Weliswaar dient de testscore nog steeds behoorlijk betrouwbaar te zijn,maar om bijvoorbeeld nauwkeurig verschillen tussen groepen te kunnen bepalen, is vooral degrootte van de steekproef van proefpersonen van belang. Voor individueel testgebruik wordenhogere eisen gesteld dan voor gebruik in wetenschappelijk onderzoek. Daarom moeten testsdie zijn bedoeld voor individueel gebruik nauwkeuriger zijn, dus meer items bevatten.
Het verkrijgen van meer informatie kan bezwaarlijk zijn omdat deze informatie niet op eengestandaardiseerde wijze wordt verkregen. Men loopt dan het gevaar dat allerlei toevalligegedragingen en reacties serieus worden genomen. Uit nogal wat empirisch onderzoek isgebleken dat het meenemen van dit soort van subjectieve informatie in het oordeel niet totbetere voorspellingen leidt (en soms zelfs tot slechtere) in vergelijking met de voorspelling opbasis van de testuitslagen alleen.
Naarmate iemand vaardiger is, of meer inzicht heeft, kan hij de vragen en opdrachten snelleren beter uitvoeren. Dit houdt in dat onder verschillende tijdcondities naar verwachting dezelfdepersonen hoog of laag scoren.
Nee, bij de bepaling van bijvoorbeeld iemands woordenschat, kennisniveau, en sensorische ofartistieke vaardigheden is het snelheidselement niet belangrijk. Bij eigenschappen waarbijsnelheid wel een belangrijk element is, is het de vraag in welke mate het snelheidskarakter inde test moet worden geaccentueerd.
Uitvoerige ervaring met het testen van cultuur uiteenlopende populaties rechtvaardigt deconclusie dat zuivere cultuurvrije tests niet bestaan. Daarentegen bestaan cultuurbepaaldetests wel.
Het reageren op de items in een test via een bepaalde actie of het beantwoorden ofinvullen van vragen vereist in het algemeen, behalve de beoogde eigenschappen,vaardigheden of ‘skills’ die men niet wil meten. Een voorbeeld van ‘skills’ is het kunnen horenvan een instructie en het kunnen zien van de opgaven.
Het is noodzakelijk om ervan uit te gaan of ervoor te zorgen dat de vereiste ‘skills’ volledigworden beheerst, zodat ze geen variatie in testscores veroorzaken. Dit kan men bereiken op drie manieren:
Als de betekenis van de test, datgene wat men wil meten of voorspellen, aan de onderzochte NIET bekend is, spreken we van een indirecte test.
Vele prestatieniveautests, zoals: vorderingentests, biografische informatielijsten,opinievragenlijsten en attitudetests. Bij een directe test begrijpt de onderzochte het doel vande test en dit is in overeenstemming met de bedoeling van de testleider.
Waarom denken sommige mensen dat open vragen superieur zijn aan gesloten vragen?
Noem drie bezwaren tegen open vragen.
Wat is een ‘rating-scale’-item? Geef zelf een voorbeeld.
Bedenk ten minste drie eigenschappen die beter met open vragen gemeten kunnen worden.
Zijn er groepen personen die maar beter niet met meerkeuzevragen onderzocht kunnenworden?
Noem een praktisch nadeel aan meerkeuzevragen.
Geef commentaar op het vermeende bezwaar tegen meerkeuzevragen dat zij slechts geschiktzijn om eenvoudige cognitieve eigenschapen en kennis te meten
Leg uit dat meerkeuze-items niet alleen maar herkenning van de geleerde stof vragen.
Leg uit waarom open vragen niet automatisch een beroep doen op hogere mentale functies.
Wat wordt verstaan onder de stam van een meerkeuze-item?
Noem een bezwaar van een item dat gebaseerd is op het principe van ‘matching’.
Noem voor- en nadelen van een even aantal geordende antwoordcategorieën op een ‘ratingscale’.
Waarom is het aantal geordende antwoordcategorieën op een ‘rating scale’ vrijwel nooit groterdan zeven?
Noem voor- en nadelen van een naamgeving aan de antwoordcategorieën op een ‘ratingscale’.
Leg uit waarom kwalitatieve reacties op de items uit een test of vragenlijst zo moeilijk teverwerken zijn tot een eindconclusie over de gemeten eigenschap.
Wat is het algemene principe van de toekenning van scores aan de reacties op een item?
Waarom is het volgens de auteurs niet zo erg dat bij kwantificering van gedrag informatie overde onderzochte verloren gaat?
Waarom hoeft de steekproef in het vooronderzoek van een testconstructieonderzoek niet perse representatief te zijn voor de populatie waarover de test bestemd is? Wanneer is dit vaakzelfs ongewenst?
Waarom moet een steekproef in een testconstructieonderzoek liefst ten minste 500proefpersonen bevatten?
Wat is een gestratificeerde steekproef?
Wat zijn de p-waarde en de a-waarden van een meerkeuze-item?
Waarom dienen de afleiders van een meerkeuze-item plausibel te zijn?
Stel, een van de onjuiste antwoorden van een meerkeuze-item is als gedeeltelijk juist teverdedigen. Hoe zou men dit in de scoring van het item tot uiting kunnen laten komen?
Open vragen geven meer informatie van kennis en het geeft diepere inzichten.
Open vragen zijn moeilijk te boordelen en het categoriseren is tijdrovend. Bij open vragenweten respondenten niet altijd wat er met de vraag bedoeld wordt, maar dan geven ze tochantwoord. Niet alle respondenten kunnen even goed gedachten op papier zetten, en niet allehandschriften zijn duidelijk.
Bij een rating-scale item wordt de respondent gevraagd om in het vakje dat zijn positie hetbeste weergeeft een kruisje te zetten.
Een voorbeeld;Ik vind het leuk om naar school te gaan:
Van toepassing • • • • • Niet van toepassing.
De mening van de respondent kan beter gemeten worden met open vragen.
Ja, op het moment dat je een opinie van een groep wilt meten is het erg lastig om gebruik temaken van meerkeuzervragen.
Een praktisch nadeel is dat het een uitvoerig vooronderzoek vereist. Vooral het bedenken vanonjuiste antwoordmogelijkheden is moeilijk.
Het is wel degelijk mogelijk om ook hogere functies te meten, mits de vragenlijst goedgeconstrueerd is.
Een meerkeuze-item kan ook gebruik maken van de mee/minst juiste-antwoordvorm, van deverschillende-antwoordenvorm, van de complexe vormen, van de rangschikking en van detoeschrijving.
Open vragen kunnen ook een beroep doen op hogere mentale functies.
Onder de stam van een meerkeuze-item wordt de vraagstelling bedoeld.
Het voornaamste bezwaar is dat de keuzes niet onafhankelijk van elkaar geschieden. Hoeminder onzekere combinaties overblijven, hoe meer kans op juistheid men heeft bij raden.
Voordeel van een even aantal; men wordt gedwongen een keuze te maken. Nadeel van een even aantal; als iemand écht geen mening heeft zal hij een keuze makenwaar hij niet helemaal achterstaat, of zal hij de vraag open laten waardoor er missing data is.
Dat is niet noodzakelijk en het zorgt voor extra werk voor degene die de test gaat verwerken.Ook zijn mensen vaak niet in staat om meer dan zeven nuances te verwerken.
De gegevens moeten nog omgezet worden in meetbare elementen. Verder kan er veelspreiding zijn tussen de antwoorden en wordt het moeilijk om met de gegeven antwoorden toteen conclusie te komen.
Men geeft elke reactie een bepaalde waarde, een getal. Op die manier zijn er berekeningenmee te doen en kunnen er uiteindelijk uitspraken gedaan worden.
Het gaat volgens de auteurs niet om rijke details en toevalligheden. Dat is het enige datverloren gaat.
Op het moment dat de onderzoeker verwacht dat een bepaalde groep moeite heeft met hetonderzoek is het verstandig die groep beter te vertegenwoordigen in het vooronderzoek.
De populatie is op te delen in diverse interessante doelgroepen, hiervoor dienen apartenormen opgesteld te worden. Alle deelgroepen horen groot genoeg te zijn omnormverdelingen van testscores voldoende nauwkeurig te kunnen schatten. En juist omdat desteekproef de hele populatie moet representeren is het van belang dat de steekproeven erggroot zijn, en dus minimaal 500 personen moeten bevatten.
Bij een gestratificeerde steekproef worden de proporties van de groepen berekend. Indiezelfde proporties worden de steekproeven getrokken. Stel dat 20% van de Nederlandsebevolking 80 jaar of ouder is, dan moet in de steekproef ook 20% 80 jaar of ouder zijn.
De relatieve frequentie op het goede antwoord wordt de p-waarde van het item genoemd, ende relatieve frequenties op de afleiders de a-waarden.
Als de afleiders niet plausibel zijn wordt het te makkelijk om te gokken.
Men kan zeggen dat degene die het bijna-juiste antwoord kiest wel beschikt over partiëlekennis.
Welke rol van de klinisch-intuïtieve interpretatie spelen in de verwerking van testgegevens?
Wat is een ‘checklist’?
Noem de drie manieren waarop de reacties op geprecodeerde items gescoord kunnen worden.
De giscorrectieformule wordt uitgelegd voor vierkeuze-items. Doe deze uitleg eens helemaal over voor driekeuze-items.
Leg uit wat het verschil is tussen de twee toestanden waarin personen zich kunnen bevinden als zij gissen naar het goede antwoord en de drie typen antwoorden die dit kan opleveren.
Wat wordt verstaan onder partiële kennis?
Hoe kan partiële kennis de giscorrectie in formule beïnvloeden?
Wat is het bezwaar tegen het toenemen van de variantie van de testscore als gevolg van giscorrectie?
Leg kort uit waarom de auteurs uiteindelijk van mening zijn dat giscorrectie niet zo’n goed idee is.
Wat is ‘on-line testing’? Wat is de zwakke plek van déze methode?
Welke conclusie trekken de auteurs uit het onderzoek dat is gedaan naar de invloed van dewijze van testen, via ‘paper and pencil’ of de computer, op de testprestatie?
Wat is de kern van adaptief testen?
Hoe verschilt adaptief testen van testen met behulp van de klassieke standaardtest?
Wat wordt bedoeld als wordt gezegd dat vanuit de geteste persoon gezien de kans op het goed maken van een item 0.5 is?
Leg uit dat het bij adaptief testen niet ‘oneerlijk’ is dat de ene persoon veel gemakkelijker items krijgt voorgelegd dan de andere.
Wanneer stopt de computer bij adaptief testen met het aanbieden van items?
Wat is nu nog de belangrijkste hindernis bij het testen via het internet?
Wat is een ruwe score?
Wat is het verschil tussen een bewerkte score en een normscore?
Zijn voor een zinvol testgebruik normen altijd noodzakelijk? Licht het antwoord toe.
In welk type testtoepassing kan men volstaan met ruwe scores?
Bespreek de bezwaren tegen het IQ-begrip.
Wat zijn percentielscores?
Stel, de scores op een test zijn normaal verdeeld met een gemiddelde gelijk aan 10 en een variantie gelijk aan 9. Bereken met behulp van uw statistiekboek de percentielscores van iemand met een testscore van 12 en iemand anders met een testscore van 6.
Leg uit hoe het komt dat een verschil tussen percentielscores die corresponderen met testscores rond het midden van de normaalverdeling anders geïnterpreteerd moet worden dan een even groot verschil dat verder van het midden afligt
Zijn z-scores normaal verdeeld? Verklaar het antwoord.
Welk percentage van de normaal verdeling ligt tussen x en (x + 3Sx)?
Beredeneer wat het effect is van onevenredig veel gemakkelijke items op de verdeling van de ruwe scores op een intelligentietest.
Wat is een nadeel van genormaliseerde standaardscores?
Bij de klinisch-intuïtieve benadering dient men zich er bewust van te zijn dat de subjectieve impressies en ideeën geen waarheidsgarantie bezitten, ook al wekken ze bij de psycholoogvaak een gevoel van juistheid. Het is dus van belang om bij het verwerken van de resultaten hier rekening mee te houden.
Bij een checklist kun je op een formulier aankruisen wat wel en niet van belang is. Bij gedrag kun je dan bijvoorbeeld aangeven of dit wel of niet voorkomt bij de onderzochte en in welke mate.
We vinden Xc (de gecorrigeerde testscore) als volgt. Als A = 3, en iemand heeft 6 items foutbeantwoord, dan zijn dit dus alle fout gegiste items. De kans op fout gissen is 2/3. Dan weten we ook dat naar verwachting 1/3 deel van de items waarop is gegist goed is beantwoord. Dat zijn dan 3 items, ofwel 1/2 deel van 6. In het algemene geval is dit 1/(A-1) deel van het aantal fout beantwoorde items. De formule voor de berekening van Xc verkrijgen we dan als volgt: we nemen het totale aantal goed, X, en trekken daar het deel vanaf dat door gissen goed was; dit is het aantal fout, k – X, gedeeld door A – 1: Xc = X – k-XA-1.
Personen kunnen zich in de volgende twee toestanden bevinden: hij weet met volledige zekerheid wat het goede antwoord is en geeft dat antwoord, of hij heeft geen idee en gist blind met succeskans 1/A. De drie typen antwoorden die dit op kan leveren zijn: goede antwoorden die het gevolg zijn van kennis, goede antwoorden die het gevolg zijn van blind gissen en foute antwoorden die het gevolg zijn van gissen.
Dit houdt in dat de proefpersoon wel iets over de vraag en het antwoord weet, maar niet genoeg om met zekerheid het goede antwoord te geven.
Door partiële kennis kan een reële giskans groter of kleiner zijn dan de theoretische, blinde giskans. Een voorbeeld is dat respondenten, ook al weten ze het juiste antwoord niet, sommige afleiders toch als onjuist kunnen wegstrepen doordat ze wel weten dat deze niet juist kunnen zijn. In dit geval geeft formule [5.1] een ondercorrectie: omdat bij sommige items de giskans groter is dan 1/A, had Xc eigenlijk lager moeten uitvallen.
Het ongewenste effect hiervan op andere berekeningen wordt, bijvoorbeeld, zichtbaar als men de gecorrigeerde testscore optelt bij de testscores op andere tests, zoals wel gebeurt bij de deeltests van intelligentietestbatterijen, om een schatting van de algemene intelligentie te maken. De test met scores Xc krijgen dan een groter gewicht, zonder dat eigenschappen die dit zouden kunnen rechtvaardigen, zoals betrouwbaarheid en de validiteit van de meting, zijn toegenomen.
De betrouwbaarheid en de validiteit van de testscore bij de giscorrectie niet noemenswaardig toenemen boven het niveau van dat van de ongecorrigeerde testscore (X).
'On-line testing’: de leerling of student bepaalt zelf het moment waarop hij de studiestof naar zijn idee voldoende beheerst en vraagt de computer om een toets. De computer selecteert uit de itembank een studietoets, presenteert deze aan de student, codeert de reacties, levert een eindbeoordeling aan de student en slaat de toetsgegevens centraal op. Een gevaar van deze toetsen is de beveiliging. Leerlingen kunnen bijvoorbeeld de vragen overschrijven en doorvertellen, ook kunnen ze de toets voor een ander maken.
Bij computergestuurde tests is het onmogelijk om items over te slaan zonder een toets in tedrukken. Dit kan leiden tot enigszins andere verdelingen van itemscores dan bij conventionele tests (paper and pencil). Verder is het vaak niet mogelijk om terug te gaan naar eerder beantwoorde items of de beantwoording van een item nog even uit te stellen. Veel invloed op de testprestatie lijken deze factoren overigens niet te hebben. Ook verschillen de presentatie en vormgeving van conventioneel gepresenteerde items nogal van de presentatie op het beeldscherm, maar ook hier bleek dat de testvorm geen belangrijke invloed had op de testprestatie.
Adaptief testen komt erop neer dat iedere respondent een test krijgt voorgelegd die op zijn of haar niveau is toegesneden. Zo krijg je een beter beeld van het niveau dat de respondent heeft.
Bij de klassieke wijze van testen houdt in dat een standaardtest, voor iedereen gelijk, wordtvoorgelegd aan de respondenten. Het verschil is dus dat bij adaptief testen de test is aangepast aan de respondent, bij de klassieke wijze is dit niet het geval.
Dat de item voor de respondent dus een middelmatige moeilijkheid heeft, want vanuit de persoon gezien is de kans op een goed antwoord even groot als de kans op een fout antwoord.
Omdat de metingen gecorrigeerd kunnen worden voor het moeilijkheidsniveau van de test. Dit is de reden waarom de meetwaarden van verschillende personen kunnen worden vergeleken ondanks het feit dat zij tests van uiteenlopend moeilijkheidsniveau hebben gemaakt.
Totdat een meetwaarde is geschat die een bevredigende nauwkeurigheid heeft.
De beveiliging van de gegevens via internet zullen nog moeten worden verbeterd.
Een ruwe score is de testuitslag die wordt uitgedrukt in een basisscore. Deze score heeft dus nog geen verdere bewerking ondergaan. Voorbeelden zijn: het aantal goede antwoorden, het aantal foute antwoorden etc.
Bewerkte scores zijn bewerkingen die onafhankelijk van de prestaties van anderen zijn. Een normscore houdt de vergelijking in van de score met de scoreverdeling van de referentiepopulatie.
Nee, die zijn niet altijd noodzakelijk. Je kunt ook genoegen nemen met een eenvoudiger vorm van bewerkte scores. Een voorbeeld: soms hoeft men slechts de plaats in de rangschikking binnen de onderzochte groep te weten, in het geval dat de drie besten van een groep van sollicitanten moeten worden uitgezocht.
Als men bijvoorbeeld voor onderzoeksdoeleinden geïnteresseerd is in de samenhang tussen testscores en criteriumscores. Hierbij is een omzetting in bewerkte scores niet noodzakelijk.
Een percentielscore geeft aan hoeveel procent van de andere respondenten je achter je laat. Een voorbeeld: 80 percentiel betekent dat je 80% van de andere respondenten achter je laat, je presteert dus beter dan de andere 80%.
Testscore 12 correspondeert bij deze gegevens met percentielscore 75, en testscore 6 met percentielscore 9 (beide percentielscores afgerond).
Bij percentielscores wordt er rekening gehouden met wat mensen behaald hebben en wat ze zullen halen. Veel mensen zullen een gemiddelde score behalen (hier liggen de percentielen dus dicht bij elkaar). Er zullen minder mensen zijn die de test heel slecht of heel goed hebben gemaakt (hier liggen de percentielen dus verder uit elkaar).
Nee, dit is niet het geval.
49.87%.
Veel mensen zullen erg veel goede antwoorden hebben gegeven, wat waarschijnlijk geen goede afspiegeling is van de werkelijkheid.
Een nadeel is dat sommige van de oorspronkelijke score-eenheden worden ‘uitgerekt’ en andere ‘ineengedrukt’ teneinde een verdeling te krijgen die normaal verdeeld is.
Leg het gedachte experiment uit waarop de klassieke testtheorie gebaseerd is.
Wat is het bezwaar tegen de term ‘ware score’?
Wat wordt bedoeld met de opmerking dat meetfouten tautologisch gedefinieerd zijn?
Waarom is het in de praktijk van het testen niet zo waarschijnlijk dat iedereen met dezelfdenauwkeurigheid gemeten wordt?
Gegeven zijn de scores van acht personen op een test. De betrouwbare scores zijn bekend(hypothetisch geval).
Proefpersoon | T | E | X | T | E | X |
n | ||||||
1 | 9 | 9 | ||||
2 | 8 | 9 | ||||
3 | 7 | 6 | ||||
4 | 6 | 6 | ||||
5 | 6 | 6 | ||||
6 | 5 | 4 | ||||
7 | 4 | 5 | ||||
8 | 3 | 3 |
Bereken de meetouten.
Bereken de gemiddelden van T, E en X
Bereken de afwijkingsscores van t, e en x.
Ga na dat S(T, E) = 0.
Bedenk een test voor woordenschat tweemaal vijf items, waarbij de twee vijftallen opinhoudelijke gronden zo goed mogelijk ‘parallel’ gekozen worden. Probeer dit ook te doen voortwee drietallen van items waarmee de houding ten opzichte van abortus wordt onderzocht.Beschrijf ook wat bij deze twee opdrachten opvalt.
Als dezelfde vragenlijst voor functioneren in de klas na een jaar voor de tweede maal aandezelfde representatieve steekproef van kinderen wordt voorgelegd, levert de correlatie tussende twee series testscores dan een schatting van de betrouwbaarheid op? Licht het antwoordtoe.
Leg uit wat een ondergrens voor de betrouwbaarheid is. Geef tevens aan wanneer zo’nondergrens nuttig kan zijn.
Waarom is de term ‘interne consistentie’ misleidend?
Een aantal studenten is gezakt voor een tentamen. Zonder zich beter voorbereid te hebbendan de eerste keer, doen ze mee aan de herhaling. Toch slagen enkele studenten nu wel. Kannu geconcludeerd worden dat de herhaling gemakkelijker was dan het eerste tentamen?
Leg uit waarom een testscore X nooit hoger met een variabele kan correleren dan met debetrouwbare score T.
Waarom zijn de verschilscores onbetrouwbaar? Van welke factoren is de betrouwbaarheid vanverschilscores afhankelijk?
Leg uit waardoor een test in de populatie van tienjarige leerlingen onbetrouwbaarder is dan inde populatie van tien- en elfjarigen samen.
Waartoe dient de gestratificeerde alfacoëfficiënt?
Samengevat kan dit gezegd worden; herhaalbaarheid van metingen kan worden beoordeeldindien we een persoon vele malen dezelfde test onder gelijkblijvende condities voorleggen.Daarbij geldt dan dat de testprestaties bij verschillende afnemingen onafhankelijk van elkaarzijn; de persoon leert niet van afneming tot afneming en herinnert zich niets van vorigeafnemingen. Bij iedere testsessie wordt als het ware weer opnieuw begonnen. De testsituatieis onveranderd gebleven en steeds zijn alle voor de meting relevante eigenschappen van depersoon van invloed op diens testprestatie. In deze situatie zijn er bij verschillende afnemingenfactoren werkzaam die de testprestatie op onvoorspelbare wijze beïnvloeden. De klassieketesttheorie houdt zich bezig met het in kaart brengen van de relatieve inbreng van de overafnemingen onvoorspelbare invloeden op de testprestaties en de over afnemingensystematische werkzame eigenschappen van personen en testsituatie.
Ze kunnen aanleiding geven tot een platonische opvatting over datgene waar het symbool Tvoor staat. De term ‘ware’ of ‘true’ lijkt te refereren aan iets wat buiten de concrete testsituatiebestaat, in plaats van aan een gemiddelde, representatieve testprestatie.
Dat betekent dat het gebaseerd is op een cirkelredenering. De meetfout op replicatie j is datdeel van de geobserveerde testscore dat resteert wanneer de betrouwbare score ervanafgetrokken wordt. Ook hier dus geen referentie aan inhoudelijke, buiten de test en detestsituatie bestaande oorzaken van meetfouten.
Het is niet realistisch, als je bijvoorbeeld een kennistest neemt zal een persoon die veel weetanders scoren als een persoon die weinig weet.
De meetfout bereken je door het verschil in T en X te bepalen.
Proefpersoon | T | E | X | t | e | x |
1 | 9 | 0 | 9 | 3 | 0 | 3 |
2 | 8 | 1 | 9 | 2 | 1 | 3 |
3 | 7 | -1 | 6 | 1 | -1 | 0 |
4 | 6 | 0 | 6 | 0 | 0 | 0 |
5 | 6 | 0 | 6 | 0 | 0 | 0 |
6 | 5 | -1 | 4 | -1 | -1 | -2 |
7 | 4 | 1 | 5 | -2 | 1 | -1 |
8 | 3 | 0 | 3 | -3 | 0 | -3 |
Gemiddelde van X is zes, gemiddelde van E is nul en gemiddelde van T is zes.
De afwijkingscore bereken je door te kijken hoeveel het getal afwijkt van het gemiddelde.
S(T,E) = 0, omdat meetfouten met geen enkele andere variabele correleren, alleen met X.Daarom is S(T,E) ten alle tijden nul. Je kan het controleren door de formule voor de covariantievan twee variabelen te gebruiken.
Beide testen zelf bedenken. Het valt op dat het bij abortus veel moeilijker is, omdat je eenmening uitvraagt. Dat kan niet aan de hand van twee drietallen van items. Je kan geen parallelvragen maken voor dat onderwerp.
Nee, de kinderen hebben in een jaar tijd dingen bijgeleerd. Daarom is de correlatie van detwee series scores geen goede schatting van de betrouwbaarheid.
Een ondergrens voor betrouwbaarheid is handig voor kleinere steekproeven, dezewijken door toeval vaak sterk van de populatie af. De maat alfa wordt gebruikt als ondergrens,het kan in dit geval heel goed zijn dat de waarde van alfa zo onnauwkeurig is geschat dat zijzelfs groter uitvalt dan de betrouwbaarheid. Daarom is een ondergrens zinvol.
Er zijn twee redenen waarom de opvatting nogal ongelukkig is. Ten eerste is alfa in veelgevallen een toenemende functie van het aantal items in de test. Een hoge betrouwbaarheidheeft dus alles te maken met de nauwkeurigheid van een meting, maar niet met wat de testmee. Interne consistentie zou onafhankelijk moeten zijn van het aantal items. Ten tweede kanalfa een hogere waarde hebben terwijl de test inhoudelijk in sterke mate heterogeen is.
Nee dat kan je met deze gegevens niet concluderen. Er kunnen andere factoren mee spelen,daarbij valt te denken aan de geestelijke toestand van de student, aan de omgeving en aan delayout van de test.
Testscores zijn (tamelijk onnauwkeurige) schattingen van de betrouwbare score. Daarom kaneen testscore nooit hoger met een variabele correleren dan met de betrouwbare score.
De verschilscores zijn onbetrouwbaar, omdat het afhankelijk is van de onbetrouwbaarheid vanéén of van beide testscores. Betrouwbaarheid van het verschil is lager naarmate debetrouwbaarheid van x1 en x2 afzonderlijk lager is. verder is de betrouwbaarheid vanverschilscore gering als de samenhang tussen x1 en x2 sterk is.
Hoe groter de populatie waar de test zich over strekt, hoe betrouwbaarder het is.
De gestratificeerde alfacoëfficiënt kan gebruikt worden als vervanging van de paralleltest- oftest-hertestmethode. Die zijn meer bewerkelijk.
Wat is meten bij implicatie? Tegen welk type meten wordt ‘meten bij implicatie’ afgezet?
Wat is een populatie-onafhankelijke meting? Laat de klassieke testtheorie dit type meting toe?Waarom (niet)?
Waarom wordt gesproken van pseudokansniveauparameter en niet van gisparameter?
Bespreek de rol van de itemparameters δ, α en γ in het Rasch-model.
Van welk type testgegevens zou het Rasch-model een goede beschrijving kunnen geven?
Geef aan wat het belangrijkste verschil is tussen de modellen van Mokken (model vanmonotone homogeniteit en model van dubbele monotonie) enerzijds en het Rasch-model, hetBirnbaum-model en het drie-parameter logistische model anderzijds.
Is de meting van personen in het model van monotome homogeniteit populatie-onafhankelijk?Leg uit hoe dat zit.
Op welk ander item-responsmodel lijkt het model van dubbele monotonie nog het meest? Lichtdit nader toe.
Welke schaal wordt in de Mokken-modellen gebruikt om personen te meten?
Wat is het belangrijkste verschil tussen de modellen van monotone homogeniteit en dubbelemonotonie?
Waarin verschilt in de klassieke testtheorie en de item-responstheorie de bepaling van debetrouwbaarheid of de nauwkeurigheid van de meting?
Wat is het meetniveau van de persoonsscores in
De θ –schaal is volgens de auteurs van dit boek vooral handig voor allerlei toepassingen vande item-responstheorie, zoals adaptief testen. Leg uit waarom dit zo is.
De auteurs hebben daarentegen twijfels over de mogelijkheid om de meting op de θ –schaalte interpreteren in termen van hoeveelheden of afstanden. Licht deze twijfel nader toe.
Wel is een interpretatie van de θ –schaal mogelijk in termen van ‘odds’. Leg uit wat hieronder wordt verstaan.
Hoe wordt de informatiefunctie gebruikt bij adaptief testen?
Stel, we maken een test voor algemene intelligentie, die over de gehele schaal betrouwbaarmoet meten. Hoe ziet voor deze test de doelinformatiefunctie eruit?
Noem voor- en nadelen van adaptief testen.
Wanneer is een item in twee doelgroepen zuiver? Dus wanneer is er geen sprake van item bias of differential item functioning?
Stel, de items van een test worden in volgorde van oplopende moeilijkheden gepresenteerd. Licht toe hoe men aan een patroon van 0/1 itemscores op de k items van een test zou kunnenzien dat iemand.
Hoe ziet bij elk van de vier gevallen in de vorige opdracht de persoons-responsfunctie erongeveer uit?
Indien blijkt dat een model een goede beschrijving geeft, dan volgt daaruit dat demeeteigenschappen van dit model ook in concrete, praktische toepassingen van de testgelden. Dit heet ‘meten bij implicatie’. Het wordt afgezet tegen de klassieke testtheorie.
Populatie-onafhankelijkheid komt erop neer dat iemands meetwaarde, verkregen met eengemakkelijke test, kan worden vergeleken met de meetwaarde van iemand die een moeilijkeretest heeft gemaakt. Bij de klassieke meetmethode is het meten populatie-afhankelijk. Ditbetekent dat de betrouwbare score en dus ook de totaalscore afhankelijk zijn van hetmoeilijkheidsniveau van de gebruikte test.
De exacte ‘giskans’ hangt dus niet alleen af van het aantal alternatieven A, maar ook vaninhoudelijke kenmerken van het item. Daarom spreekt men van pseudokansniveau en niet vangiskans.
δ staat voor de moeilijkheid van de item. γ komt in het Rasch-model niet voor. In dit modelgeldt dat alle items uit de test hetzelfde discriminerend vermogen (α) hebben.
Ruwe scores, geschatte scores, standaarddeviaties, betrouwbaarheidsintervallen.
Metingen volgens de modellen va Rasch en Birnbaum, en het drie-parameter logistischemodel, plaats op een metrische schaal (interval-, verschil- en rationiveau). De modellen van Mokken impliceren ordeningen van meetwaarden.
In het model van monotone homogeniteit is de ordening van personen populatie-onafhankelijk.De items zijn dit hierbij niet.
Het model van dubbele monotonie lijkt wel wat op het Rasch-model, want de item-responsfuncties onder dat model zijn ook stijgend en snijden elkaar ook niet.
Personen worden gemeten op een ordinale schaal. Mensen kunnen namelijk wordengeordend op θ met behulp van hun testscores, X.
In beide modellen (monotone homogeniteit en dubbele monotonie) wordt verondersteld dat deitem-responsfuncties monotoon niet-dalend zijn, maar in het model van dubbele monotoniemogen deze functies elkaar bovendien niet snijden.
De item-responstheorie is een verfijning van de klassieke testtheorie omdat het ermeerekening houdt dat de test voor de ene waarde van θ betrouwbaarder is dan voor de andere.De item-responstheorie biedt dus de mogelijkheid een lokale betrouwbaarheid te bepalen. Inde klassieke testtheorie wordt de betrouwbaarheid overal op de schaal even grootverondersteld.
Door de tussentijdse schattingen van de persoonsparameter, θ, worden de volgende items voor het adaptief testen op basis van iemands score gekozen.
Het karakter van θ is niet observeerbaar zoals een itemscore of een ruwe score. Daarentegenis θ een zogenaamde latente variabele die in principe als onbekende uit een vergelijking wordtgeschat waarvan de specifieke vorm wordt bepaald door de itemscores die werkelijk op detest zijn behaald. Hierdoor is het voor onderzoekers lastig om er duidelijke uitspraken over tedoen.
Met odds wordt bedoeld de verhouding van de kans op een positief antwoord en dekans op een negatief antwoord op hetzelfde tem als voor een vaste meetwaarde.
Een testinformatiefunctie kan bijvoorbeeld aangeven aan welke kant de schaalbetrouwbaarder is. Met een testinformatiefunctie bij adaptief testen kan worden gekeken of derespondent aan de hoge of lage kant van de schaal zit. Zit de persoon aan de hoge kant, dankrijgt hij moeilijkere vragen. Zit hij aan de lage kant, dan krijgt hij makkelijkere vragen.
De doelinformatiefunctie moet aangeven dat de test op alle mogelijke punten evenbetrouwbaar is. De functie moet dus ongeveer één rechte lijn hebben.
Voordelen:
Nadelen:
Als de testprestaties van personen uit verschillende populaties met elkaar worden vergeleken, kan dit verschil in betrouwbaarheid of validiteit maken dat er sprake is vanbevoordeling of benadeling van de een ten opzichte van de ander. Het onderzoek dat zich opitemniveau met deze problematiek bezighoudt, wordt onderzoek naar vraagonzuiverheid genoemd,ook wel ‘bias’ en ‘differential item functioning’. Als een onderzoek zuiver is, wil dit dus zeggen datde verschillende populaties ten opzichte van elkaar geen bevoordeling of benadeling hebben.
Leg uit waarom niet in absolute zin gesproken kan worden van de validiteit van een test.
Dienen medische procedures ook een valideringsonderzoek te ondergaan? Beargumenteeruw antwoord.
Hoe zou men predictieve validering kunnen opvatten als onderdeel van begripsvalidering?
Waarom geven de auteurs van het boek toch de voorkeur aan gescheiden behandeling vanpredictieve validiteit en begripsvaliditeit?
Wat is inhoudsvaliditeit?
Noem een zwak punt vaninhoudsvaliditeit.
Leg uit wat het effect is van de betrouwbaarheid van een criterium op de voorspelling van ditcriterium met een test.
Bepreek het probleem dat een te voorspellen criterium verschillende graden van abstractiekan hebben, en hoe het komt dat de beter voorspelbare aspecten van een criterium vaak ookde minder relevante zijn.
Bedenk wat het uiteindelijke criterium bij voorspelling met de CITO Eindtoets Basisonderwijszou kunnen zijn. Doe eveneens voorstellen voor een tussentijds en een onmiddellijk criterium.
Met welk doel trekt men een gestratificeerde steekproef?
Het komt nogal eens voor dat tests gevalideerd op gemakkelijk voorhanden zijndesteekproeven, zoals psychologiestudenten. Wanneer is dit geen probleem voor de validiteit?
Noem twee redenen waarom items meestal niet op basis van hun moeilijkheid in een test ofvragenlijst zouden moeten worden geselecteerd.
Welke items dient met in een test of vragenlijst te selecteren om een testscore met een hogebetrouwbaarheid te verkrijgen?
In welke situatie zoekt met vooral zijn toevlucht tot ‘concurrent validity’ ter vervanging vanpredictieve validiteit?
Wat zijn in een onderzoek ter bepaling van de predictieve validiteit meestal de oorzaken vande geringere representativiteit van de steekproef die tot ‘restriction of range’ leiden?
Wat is de contaminatie van het criterium? Geef een voorbeeld. Welke invloed heeft ditverschijnsel op de validiteit van een selectieprocedure?
Voordat men de correlatie tussen een testscore en een criteriumscore bepaalt, dient eerst de‘scatter plot’ van de empirisch gevonden relatie te worden bestudeerd. Waarom is dit nodig?
Wat is een heteroscedastische relatie? Is de product-momentcorrelatie geschikt om dezerelatie te beschrijven? Beargumenteer uw antwoord.
Wat is een suppressorvariabele? Geef een ander inhoudelijk voorbeeld dan in dit hoofdstukwordt gegeven.
Wat is een moderatorvariabele? Geef ook hier inhoudelijk voorbeeld, anders dan in dithoofdstuk wordt gegeven.
Beschrijf voor de predictoren die uiteindelijk in een meervoudig regressiemodel wordenopgenomen de onderlinge correlaties en de correlaties met het criterium.
Noem de vijf mogelijke oorzaken van doorgaans lage validiteitscoëfficiënten.
Waarom zien de auteurs weinig heil in het blind selecteren, dus alleen op basis van correlaties(of andere statistische gegevens), van de beste voorspellende tests in een voorspellingsmodelten behoeve van een bepaald criterium?
Wat is een nomologisch netwerk? Welke rol spelen tests hierin?
Welke rol spelen confirmerende validiteit en discriminante validiteit bij het onderzoek vanhypothesen?
Wat is de multitrek-multimethodematrix? Hoe geeft deze matrix informatie over zowelbetrouwbaarheid als validiteit?
Er kan niet in absolute zin gesproken worden over validiteit, omdat het begrip nooit eeneenduidige betekenis heeft gehad. Dit heeft ertoe geleid dat men de term te pas en te onpas,en in vele niet nadere aangeduide betekenissen dooreen gebruikt. Betekenissen als juistheid, nuttigheid, accuraatheid in het gebruik, interpreteerbaarheid, al ofniet gecorrigeerd voorspellend vermogen, en waarde bij beslissingen.
De vraag naar validiteit kan gesteld worden met betrekking tot ieder proces van concluderentot andere dan waargenomen feiten en gebeurtenissen. In de geneeskunde is het bijvoorbeeldde vraag in hoeverre iemands bloeddruk iets zegt over de kans dat hij of zij een hartkwaalontwikkelt. Niet die bloeddruk zelf – zeg maar, het testgedrag – is van belang, maar de matewaarin het iets zegt over andere verschijnselen.
De relatie tussen de predictor en het criterium, alsmede de operationalisering van deonderliggende begrippen, vormen een onderdeel van het theoretisch netwerk van het door detest geoperationaliseerde begrip.
De reden daarvoor is dat vooral in de context van het onderwijs en de personeelspsychologieop grote schaal gebruik gemaakt wordt van het voorspellend vermogen van een test. Met hetvaststellen van deze voorspellende kracht komen methodologische overwegingen en principesaan de orde die minder kenmerkend zijn voor het proces van begripsvalidering.
Er wordt een schatting verkregen door te beoordelen hoezeer de inhoud van de test eengeheel van situaties, kennisinhouden of vaardigheden representeert, waaruit met betrekkingtot de onderzochte persoon conclusies moeten worden getrokken. Dit begrip is vooral vantoepassing op het terrein van onderwijskundig meten, waarbij conclusies getrokken wordenover het geheel van taken of kennisinhouden waaruit de test een steekproef vormt.
Een belangrijk bezwaar tegen het begrip is dat empirisch onderzoek, waarin gebruik wordtgemaakt van gegevens anders dan afkomstig van vergelijkbare toetsen, vaak ontbreekt. Dereden is dat het domein van alle mogelijke vragen doorgaans denkbeeldig is, en hooguitbestaat in de vorm van een definitie en een groot, maar toch beperkt aantal items. Hetitemdomein is niet veel meer dan een groot aantal toetsen die ieder voor zich niet gevalideerdzijn. Inhoudsvaliditeit is dus vooral een kwestie van oordelen.
De betrouwbaarheid van de maten is vaak omgekeerd evenredig aan de relevantie. Er moetendus criteriummaten gevonden worden die nog zo betrouwbaar zijn dat ze de test niet opvoorhanden invalideren, maar niet zo irrelevant zijn dat ze het conceptuele criterium niet meerweerspiegelen.
Zie antwoord vraag 7.
Met het uiteindelijke criterium word het alomvattende, uiteindelijke doel van een procedurebedoelt. Bij de CITO Eindtoets Basisonderwijs kan dit bijvoorbeeld plaatsing op het vwo zijn.Bij tussentijdse criterium gaat het niet om het einddoel, maar om een tussendoel. Dit kan dus een toets halverwege het jaar zijn. Met een onmiddellijk criterium wordt bijvoorbeeld het totaalaantal behaalde toetsen tot die tijd bedoeld.
Het doel van een gestratificeerde steekproef is de proportie die voorkomt in de populatie terugte laten komen in de steekproef. Op die manier wordt een representatieve steekproefgetrokken.
Het probleem is dat de groep niet representatief is voor de hele populatie. Het is geenprobleem wanneer je populatie bestaat uit personen met een gemiddelde hoge intelligentie,een relatief grote interesse in psychologie, grotendeels bestaat uit vrouwen en een leeftijdhebben tussen gemiddeld 18 en 28 jaar.
Er kan een test ontstaan die inhoudelijk heterogeen is of waarvan de score onbetrouwbaar is.Dat is zo omdat de moeilijkheid van een item op zich niets heeft te maken met wat het itemmeet of hoe betrouwbaar het item dit doet.
Een homogene test verkrijgt men door bijvoorbeeld factoranalyse uit te voeren op de scoresvan de k kandidaten voor de test. Met factoranalyse worden items die onderling hoogcorreleren in groepen bij elkaar genomen. Een andere mogelijkheid is dat de onderzoeker zelfitems rechtstreeks in dezelfde test selecteert op basis van hun onderlinge correlaties.
In een kliniek, waar het vaak gaat om een vergelijking met een gelijktijdig criterium, zoals eenpsychiatrische diagnose of een score op een soortgelijke test, zal dit niet veel tijd vergen.Daarom wordt in een dergelijke situatie concurrent validity boven predictieve validiteitgekozen.
De oorzaken van de geringe representativiteit die tot ‘restriction of range’ leiden zijn deuitvallers. Degene die afhaken of afvallen zijn vaak minder geschikt. En degenen die naselectie verdwijnen omdat ze hogerop gaan, zijn vaak de zeer geschikte kandidaten. Hetgevolg daarvan is de restriction of range.
Als een beoordelaar zijn oordelen door kennis van testuitslagen laat beïnvloeden en zijnoordelen worden als criteriummaat in het valideringsonderzoek gebruikt, dan is duidelijk dattestscore en criteriumscore niet meer onafhankelijk zijn vastgesteld. Dit verschijnsel heetcontaminatie van het criterium.
Een scatterplot wordt gebruikt om te kijken hoe de correlatie tussen testscore encriteriumscore is.
Bij een heteroscedactische relatie bestaat er wel een verband tussen de lagere waarde vantwee andere variabelen X en Y, maar niet voor de hogere waarden. Het is zelfs zo dat,naarmate X toeneemt, de spreiding van mogelijke waarden voor Y toeneemt. Het is nietverstandig om de product-momentrelatie kritiekloos toe te passen.
Supressor variabelen spreken door hun merkwaardige rol wel tot de verbeelding.Taalvaardigheid kan bijvoorbeeld een rol spelen in een toets voor rekenvaardigheid waarmeeeen technisch beroep wordt voorspeld. Door de scores op de rekenvaardigheid te corrigerenvoor taalvaardigheid kan een betere voorspelling worden verkregen.
Een moderatorvariabele is een variabele die zelf niet of nauwelijks hoeft te correleren met eencriteriumscore Y, maar die wel de relatie van andere variabelen met Y beïnvloedt. Eenvoorbeeld is de motivatie in relatie tot intelligentiescores en schoolprestaties. Dit kan tussenmannen en vrouwen bijvoorbeeld variëren.
Ideaal is een batterij die onderling laag correleren en alle hoog met Y correleren. Het is duszinloos om tests in een batterij op te nemen die ongeveer hetzelfde meten.
Soms zijn de verbanden van tests met criteria erg doorzichtig. Soms worden er ook relatiesgevonden die zich volledig aan het oog onttrekken. Alleen selecteren op correlaties is nietverstandig om de volgende redenen. Ten eerste leidt het blind toepassen van een test niet totnoodzakelijk inzicht. Ten tweede impliceert het blind afgaan op de grootste correlaties, datmen eigenlijk alle mogelijk predictoren zou moeten onderzoeken op hun geschiktheid voor devoorspelling van het criterium. Verder kan er sprake zijn van een unieke of zeldzame situatie,waarvoor geen criterium vastgesteld zijn. Ook kan de psycholoog die zonder theorie te werkgaat in de knel komen bij de vraag de onderzochte te beschrijven. En als laatste bieden debetekenisanalyse en de begripsvaliditeit een mogelijkheid om het ‘sacrosancte’ criterium vanzijn voetstuk te halen en te analyseren.
Een ruimer theoretisch kader, waarbinnen een groot aantal begrippen en relaties tussen diebegrippen voorkomen, die in het ideale geval alle empirisch gefundeerd zijn. Dit complex vanbegrippen en relaties is een voorbeeld van een nomologisch netwerk. Het is van belang hoede relevante informatie aangeboden wordt, vervolgens wat het type taak is en ten slotte watde inhoud van de taak is.
Voorspellingen kunnen dienen om de oorspronkelijke hypothese te bevestigen, maar ook omde alternatieve hypothesen te verwerpen. De eerste soort wordt de confirmerende valideringgenoemd, de tweede soort wordt de discriminante validering genoemd.
Belangrijk bij de multitrek-multimethodematrix is het idee dat een test voor een bepaaldeeigenschap zou kunnen worden vervangen door een andere test die dezelfde eigenschappretendeert te meten. Dit lukt doorgaans niet perfect, waardoor de variatie in de test resultatenvan de onderzochte groep op de bedoelde eigenschap. Bij deze benadering wordt dan geschat in hoeverre de variantie van de testscore wordtbepaald door de variantie in de bedoelde trek en juist niet door zowel de variantie ten gevolgevan gebruikte methode als de variantie in de niet-bedoelde trekken. Om dit vast te stellen,dient de evaluatieprocedure van de test de meting van diverse trekken en het meten van verschillende methoden te omvangen. De multitrek-multimethodematrix bevat de correlatiesdie op deze wijze uit alle combinaties van methoden en trekken ontstaan.
Wat bepaalt de wetenschappelijke waarde van een test? En wat de praktische waarde?
Wat wordt bedoeld met de bijdrage van een test aan een beslissing of een beoordeling?
Kan een a-prioristrategie voor het nemen van beslissingen samenvallen met selectie op basisvan de base rate? Leg uit hoe dit zit.
Geef aan wat de verschillen zijn tussen individuele en institutionele beslissingen.
In welk type selectiesituatie volstaat univariate informatie?
Leg uit wat wordt verstaan onder de controverse van de actuarische en de intuïtieve methodevan voorspellen.
Leg uit waarin de overeenkomst ligt tussen een trapsgewijze selectieprocedure en adaptieftesten.
Een test met een grote bandwijdte kan geen grote zuiverheid hebben en vice versa. Wat wordtmet deze uitspraak bedoeld?
Noem enkele voorbeelden van tests met een grote zuiverheid.
Noem ook een voorbeeld van een test met een grote bandwijdte.
Noem enkele maatregelen die nodig zijn om de zuiverheid van tests met een brede bandwijdtete bevorderen.
Waarvoor zijn tests met een brede bandwijdte vooral geschikt?
Wanneer is een selectieprocedure compensatorisch of conjuctief?
De wetenschappelijke waarde van een test wordt bepaald door het wetenschappelijke belangvan de eigenschap die door de test wordt gemeten. De praktische waarde van een test kandaarentegen het beste worden beoordeeld tegen de achtergrond van de beslissingen die metde test worden genomen. Voorbeelden hiervan zijn: toelating of afwijzing voor een opleiding,het slagen of zakken voor een tentamen etc.
In algemene zin gezegd gaat het om de verbetering in vergelijking met de situatie zonder test.Een voorbeeld kan worden ontleend aan het gebruik van de CITO Eindtoets Basisonderwijs,waartegen in sommige regionen van het onderwijs en bij sommige ouders van leerlingenweerstand bestaat. Een gevolg hierop zou kunnen zijn dat de CITO-toets niet meer wordtgebruikt, maar alternatieve toetsen. Wat men achteraf dus wil weten is hoeveel juisteschooladviezen worden gegeven op basis van het gebruik van de CITO-toets, of eenalternatieve vorm van beoordelen waarvan de CITO-toets geen deel uitmaakt, en wellicht ookin vergelijking met een situatie waarin noch de CITO-toets wordt gebruikt noch in vervanging isvoorzien.
Nee, bij een a-propriniveau worden individuen niet aselect toegewezen, bij selectie op basisvan de base rate is dit wel het geval.
Bij individuele beslissingen wordt volledig gedacht vanuit het individu dat de beslissing moetnemen of waarvoor de beslissing geldt. Denk hierbij bijvoorbeeld aan beroepskeuze,schoolkeuze en keuze van een studiepakket. Bij institutionele beslissingen wordt een grootaantal gelijksoortige beslissingen genomen. Deze beslissingen worden genomen ten behoevevan het instituut of de organisatie. Denk bij deze beslissingen bijvoorbeeld aan eentoelatingsprocedure voor een school, plaatsing bij een bedrijf, het examen voor een rijbewijs.
In de enkelvoudige selectiesituatie. Hierin worden individuen namelijk onderzocht met het oogop een enkel criterium, waarbij er slechts twee mogelijkheden zijn: onderzochte voldoet niet ofonderzochte voldoet wel aan de eisen.
Via een intuïtief, niet-statistisch proces van weging en voorspelling gaat het vaak om een vansituatie tot situatie fluctuerende combinatie van gegevens; het proces is mindergeformaliseerd, men volgt minder een vaste strategie dan bij de statistische procedure. Het gaat hier om de controverse tussen actuarische en intuïtieve voorspelling.
Bij een trapsgewijze selectieprocedure komt evenals bij adaptief testen een voorselectie voor.
Dit is goed uit te leggen aan de hand van een voorbeeld. Een vergelijking wordt hierbijgetrokken met de wijze van informatie overbrengen in de telegrafie. Indien men langs éénkanaal vele boodschappen tegelijk tracht door te geven, dan zullen deze afzonderlijk ergonzuiver doorkomen, maar hoort men wel veel tegelijk. Wanneer slechts één informatie-element wordt doorgezonden, hoort men kwantitatief minder, maar wat overkomt hoort menwel duidelijk.
De intelligentietest en de tests voor specifieke vaardigheden en persoonlijkheidstrekken meteen goede begrips- en predictieve validiteit en een hoge betrouwbaarheid.
Diagnostische methoden als het ongestructureerde interview, het autobiografische opstel,alsmede typische open-vraaginstrumenten als observatietests en projectietests en dekwalitatieve analyse van op zichzelf objectieve tests.
Bij een test met open vragen.
De testcombinatie volgens de gewogen samenstelling heet compensatorisch. De testcombinatie volgens de procedure van de veelvoudige minimumscore heet conjunctief
Een z-score van -1.5 drukt uit:
D. Dat de ruwe score 1,5 standaarddeviatie onder de gemiddelde score ligt.
Een z-score van -1.5 drukt uit:
Je vertrek voorbereiden of je verzekering afsluiten bij studie, stage of onderzoek in het buitenland
Study or work abroad? check your insurance options with The JoHo Foundation
Je vertrek voorbereiden of je verzekering afsluiten bij studie, stage of onderzoek in het buitenland
Study or work abroad? check your insurance options with The JoHo Foundation
Add new contribution