TentamenTests bij de 4e druk van Testtheorie: Inleiding in de theorie van de psychologische test en zijn toepassingen van Drenth & Sijtsma

Hoe verloopt de historische testontwikkeling van het testen? - TentamenTests 1
Wat zijn de definitie, kenmerken en toepassingen van de test? - TentamenTests 2
Welke indelingen, onderscheidingen en begrippen zijn er omtrent testtheorie? - TentamenTests 3
Hoe worden items opgebouwd en reacties gekwantificeerd in tests en vragenlijsten? - TentamenTests 4
Hoe worden tests afgenomen en verwerkt? - TentamenTests 5
Wat is betrouwbaarheid? - TentamenTests 6
Welke nieuwe ontwikkelingen zijn er in de testtheorie en constructie? - TentamenTests 7
Wat is de validiteit en betekenis van een test? - TentamenTests 8
Welke bijdrage levert de test in het beslissingsproces? - TentamenTests 9
Welke ethische kwesties zijn belangrijk bij het testen? - TentamenTests 10

Hoe verloopt de historische testontwikkeling van het testen? - TentamenTests 1

Vragen

Vraag 1

De chronologische leeftijd zoals die gebruikt wordt bij de berekening van het kalenderleeftijd Binet staat eigenlijk voor:

De behaalde testscore omgezet in maanden.
De behaalde testscore gecorrigeerd voor het aantal maanden.
De volgens kalenderleeftijd verwachte testscore.
De leeftijd in maanden met een maximum van 180 maanden.

Antwoordindicatie

Vraag 1

C. De volgens kalenderleeftijd verwachte testscore.

Wat zijn de definitie, kenmerken en toepassingen van de test? - TentamenTests 2

Vragen

Vraag 1

Wanneer is een test objectief?

Vraag 2

Beschrijf de opzet van een normeringsonderzoek. Houd bijvoorbeeld rekening met doelstelling van de test, beschrijving van de populatie, steekproeftrekking, en statistische analyse van de onderzoeksgegevens.

Vraag 3

Hoe kan standaardisatie worden vergeleken met een experimentele controle?

Vraag 4

Waarom is de beoordeling van personen met betrekking tot een psychologische eigenschap op basis van gedrag dat in het dagelijks functioneren wordt getoond, niet efficiënt?

Vraag 5

Waarom is standaardisatie van de testprocedure belangrijk?

Vraag 6

Wat is de functie van normen en normtabellen?

Vraag 7

Noem zo veel mogelijk voorbeelden van testmateriaal, in aanvulling op een schriftelijke test of toets die uit een serie vragen of opgaven bestaat.

Vraag 8

Hoe kan de objectiviteit van sterk subjectieve beoordelingsprocedures – een projectietest,maar ook de beoordeling van een opstel als onderdeel van een taaltoets – worden verbeterd?

Vraag 9

Hoe komt het dat fysische metingen in het algemeen betrouwbaarder zijn dan psychologische metingen?

Vraag 10

Wat wordt verstaan onder de validiteit van een test?

Vraag 11

Als de getalswaarden die aan personen zijn toegekend alleen dienen om aan te geven tot welke groep iemand behoort, wat is dan het schaaltype van deze getallen?

Vraag 12

Stel, ik tel testscores bij elkaar op. Van welk type schaaltypen ga ik dan zeker niet uit?

Vraag 13

Als patiënt A volgens een test tweemaal zo rigide is als patiënt B, wat is dan het veronderstelde schaaltype van deze testscores?

Vraag 14

Geeft u eens commentaar op uitspraken van het type als gedaan in opdracht 13.

Vraag 15

Als een testprestatie aanleiding geeft tot de uitspraak dat de rekenvaardigheid van een leerling er op vooruitgegaan is, wat is dan het minimaal veronderstelde schaaltype van de testscore?

Vraag 16

Wat wordt bedoeld met de uitspraak dat het nulpunt van een intervalschaal arbitrair is?

Antwoordindicatie

Vraag 1

Objectiviteit; de onafhankelijkheid van storende invloeden vanuit de persoon van de waarnemer, beoordelaar of interpretator. Voor de testinterpretatie houdt dit in dat men mag aannemen dat het proces van het registreren en verwerken van het testgedrag van de onderzochte tot score, beoordelingscategorie of classificatie, vrij is van aan de testleider gebonden invloeden.Het mag dus niet uitmaken wie de beoordelaar is. verder impliceert objectiviteit openheid en reproduceerbaarheid.

Vraag 2

In het normeringsonderzoek is op z’n minst een rangorde vastgesteld van zeer goede tot zeer slechte prestaties, zodat iemands prestatie door middel van een plaatsbepaling in deze rangorde kan worden beoordeeld. Men is hierbij afhankelijk van de groep proefpersonen. Er ontstaat een discrete verdeling, die kan benaderd worden met een normale verdeling. Hiermee kunnen steekproeffouten gladgestreken worden.

Vraag 3

Er is bij zowel bij standaardisatie als bij experimentele controle sprake van het onder controle houden van variabelen. Beiden zijn ook opnieuw uit te voeren, en wel dusdanig dat er dezelfde resultaten uitkomen.

Vraag 4

Standaardisatie is belangrijk voor een test. Omdat je alleen iets verstandigs kan zeggen overeen testprestatie als deze vergelijkbaar zijn met de prestaties van anderen.

Vraag 5

Het is niet efficiënt, omdat het alleen zin heeft als de onderzochte ten aanzien van die eigenschap wordt vergeleken met anderen. Hierbij kan gedacht worden aan een kleine, selecte groep, die in dezelfde omstandigheden verkeert. Dit is niet mogelijk als het gaat om gedrag in het dagelijks functioneren. De storende variabelen zijn niet controleerbaar.

Vraag 6

Functie van normtabellen; de score kan vergeleken worden met de prestaties van meer of minder representatieve normgroepen. Deze mogelijkheid tot vergelijking vormt een voorwaarde voor een nadere interpretatie en evaluatie van de testprestatie of het testgedrag.

Vraag 7

Verschillende voorbeelden van testmateriaal:

Een testboekje met opgaven die ter oplossing worden voorgelegd.
Bouwstenen.
Legpuzzels.
Tekenpapier.
Platen.
Foto’s.
Onvolledige zinnen.

Vraag 8

Door het gebruik van meerdere beoordelaars. De overeenstemming tussen de beoordelaars kan dan gebruikt worden

Vraag 9

Fysische metingen zijn over het algemeen objectiever. Er is minder sprake van interpretatie van de beoordelaar. Bij psychologische metingen is meer sprake van interpretatie van de beoordelaar.

Vraag 10

Validiteit; de mate waarin een test meet wat hij beoogt te meten.

Vraag 11

Nominaal.

Vraag 12

Nominaal.

Vraag 13

Interval.

Vraag 14

Het is vaak niet terecht om dit op deze manier te zeggen.

Vraag 15

Er is sprake van een vooruitgang, dus men moet iets kunnen vergelijken. De nominale schaal valt dus af. Bij de ordinale schaal is wel sprake van rangorde, maar nog niet van een ‘hoeveelheid vooruitgang’. Er is dus sprake van de intervalschaal of van de verhoudingsschaal.

Vraag 16

Het arbitraire nulpunt is het punt vanaf waar men zich concentreert.

Welke indelingen, onderscheidingen en begrippen zijn er omtrent testtheorie? - TentamenTests 3

Vragen

Vraag 1

Wat is een test voor prestatieniveau?

Vraag 2

Wat is een test voor gedragswijze?

Vraag 3

Wat is een enkelvoudige algemene niveautest (‘general ability test’)?

Vraag 4

Wat zijn veelvoudige algemene niveautests? Waarin verschillen deze tests van enkelvoudigealgemene niveautests?

Vraag 5

Waaraan moeten we denken bij het woord ‘geschiktheid’ in een testbatterij voor geschiktheden(‘multiple aptitude test’)?

Vraag 6

Wat is de relatie tussen geschiktheidsfactoren en intelligentiefactoren?

Vraag 7

Noem de drie specifieke problemen van het meten van gedragswijzen in vergelijking met hetmeten van prestatieniveaus.

Vraag 8

Bij observatietests worden indirecte gegevens verzameld. In welk opzicht zijn de gegevensindirect?

Vraag 9

Men neemt de antwoorden van onderzochten bij zelfbeoordeling doorgaans serieus. Hoewordt ermee omgegaan bij evaluatie van de persoonlijkheid?

Vraag 10

Wat is de methode van de semantische differentiaal?

Vraag 11

Wat geeft de score op een kwalitatieve prestatietest aan?

Vraag 12

Waarom zijn de eisen aan de betrouwbaarheid van een test die wordt gebruikt inwetenschappelijk onderzoek minder streng dan die voor een test die wordt gebruikt voorindividuele diagnostiek?

Vraag 13

Noem een voordeel en een nadeel van de groepstest.

Vraag 14

Noem drie voordelen van de individuele test.

Vraag 15

Noem een gevaar van de grotere hoeveelheid informatie die men kan verkrijgen via deindividuele wijze van testen in de context van beoordeling van de persoonlijkheid.

Vraag 16

Geef aan hoe snelheid en nauwkeurigheid van werken met elkaar samenhangen.

Vraag 17

Is snelheid van werken bij veel tests van belang? Licht het antwoord toe.

Vraag 18

Zijn er tests die volledig cultuurvrij zijn? En zijn er tests die volledig cultuurbepaald zijn? Lichtuw antwoorden toe.

Vraag 19

Wat wordt bedoeld met ‘skills’ in de context van testen?

Vraag 20

Leg uit hoe de invloed van ‘skills’ op de testprestatie kan worden verminderd.

Vraag 21

Wat wordt verstaan onder en indirecte test?

Vraag 22

Noem enkele typen tests die als direct kunnen worden gekenschetst.

Antwoordindicatie

Vraag 1

Bij een prestatieniveau test is er van te voren altijd een norm van wat ‘goed’ of ‘fout’ is. Prestatieniveau tests worden onderverdeeld in: enkelvoudige algemene niveautest (diebestaat uit: individuele ontwikkelingstests, individuele intelligentietests voor volwassenen,algemene collectieve intelligentietests), veelvoudige algemene niveautests (testbatterijen voorintelligentiefactoren, testbatterijen voor geschiktheden), speciale niveautests (tests voorspeciale intelligentiefactoren, tests voor speciale geschiktheden, tests voor speciale niet-intelligentiefactoren) en vorderingentests.

Vraag 2

Bij een test voor gedragswijze is er van te voren niet een ‘goed/fout’-sleutel beschikbaar. Hetgaat hierbij vooral om de vraag hoe iemand iets doet of op welke wijze de prestatieplaatsvindt. Test voor gedragswijze kunnen onderverdeeld worden in: observatietests(individuele observatietests, groepsobservatietests), somatofysiologische methoden(morfologisch onderzoek, fysiologisch onderzoek), zelfbeoordelingen (interessetests, waarde-en attitudetests, biografische vragenlijsten, persoonlijkheidsvragenlijsten), kwalitatieveprestatietests; bestaande uit niveautests voor gedragswijze (experimentele tests,motoriektests, intelligentietests, ‘karakter’tests, cognitieve/perceptuele stijlen) en projectietets(perceptietests, interpretatietests, expressietests, constructietests, associatietests,keuzetests).

Vraag 3

Bij deze type test gaat het vooral om een algemeen beeld. Er wordt niet gekeken naar diversedimensies of aspecten die gemeten kunnen worden.

Vraag 4

Bij deze test gaat het juist wel om een differentiatie van het te meten begrip, er wordt hier duswel gekeken naar de diverse dimensies en aspecten. De belangrijkste voorwaarde voord dezetest is dat de deeltests afzonderlijk gezien voldoende betrouwbaar en onafhankelijk zijn.

Vraag 5

‘Geschiktheden’ worden hierbij gerefereerd aan een maatschappelijke taak of een schooltaak.Het pretendeert de vermogens te meten die iemand in staat stellen zich voor eenmaatschappelijke taak of schooleisen te bekwamen. Geschiktheid in deze in is dus vooral‘leergeschiktheid’.

Vraag 6

Soms zijn geschiktheidsfactoren samengesteld uit diverse intelligentiefactoren. Technisch-mechanisch inzicht bestaat bijvoorbeeld uit ‘reasoning’, ruimtelijk inzicht en soms numeriekevaardigheid. In een testbatterij voor geschiktheden zijn deze eigenschappen in één technisch-inzichttest samengevoegd.

Vraag 7

Ten eerste zijn metingen van het prestatieniveau vaak zonder veel moeite te generaliserenvan een kunstmatige testsituatie naar het praktische of maatschappelijke functioneren, bijgedragswijzen is dit niet zo gemakkelijk te doen.
Ten tweede zijn er bij prestatietests vaak welobjectieve gegevens die als criterium kunnen dienen, bij de gedragswijzen zijn er niet veelobjectieve criteria.
Ten derde zijn persoonlijkheidstrekken in vergelijking met capaciteiten vaak minder stabiel, minder over situaties generaliseerbaar en minder gelijkmatig van invloed opgedrag.

Vraag 8

Het is indirect omdat de informatie steeds van een onafhankelijke beoordelaar komt die deonderzochte observeert.

Vraag 9

Er wordt gekeken naar de antwoorden die gegeven worden op bepaalde uitspraken. De scoredie hieruit voortvloeit kan bijvoorbeeld vergeleken worden met de ‘ideale’ persoon

Vraag 10

Hierbij wordt de onderzochte gevraagd een serie eigenschappen, gebeurtenissen of objectente beoordelen op een aantal bipolaire dimensies, zoals ‘mooi/lelijk’, ‘glad/ruw’ en ‘sterk/zwak’.

Vraag 11

Bij een kwalitatieve prestatietest gaat het niet om de vraag of de opdracht goed of fout wordtuigevoerd, maar om de wijze waarop deze wordt uitgevoerd, hetgeen dan informatief zou zijnmet het oog op een bepaalde persoonlijkheidstrek of een klinisch syndroom. De score geeftdus een indicatie van de trek of het syndroom, en niet van de juistheid van de oplossing.

Vraag 12

Bij wetenschappelijk onderzoek heeft men te maken met een minder hogemeetnauwkeurigheid. Weliswaar dient de testscore nog steeds behoorlijk betrouwbaar te zijn,maar om bijvoorbeeld nauwkeurig verschillen tussen groepen te kunnen bepalen, is vooral degrootte van de steekproef van proefpersonen van belang. Voor individueel testgebruik wordenhogere eisen gesteld dan voor gebruik in wetenschappelijk onderzoek. Daarom moeten testsdie zijn bedoeld voor individueel gebruik nauwkeuriger zijn, dus meer items bevatten.

Vraag 13

Voordeel: veel personen worden tegelijk getest, wat een besparing aan tijd en geld betekent.
Nadeel: het kan niet gerealiseerd worden bij kinderen jonger dan een jaar of vijf.

Vraag 14

Ten eerste is er de mogelijkheid bij individueel testen dat je de onderzochte kunt stimuleren alsde indruk ontstaat dat hij zijn best niet doet.
Ten tweede kan men beter nagaan of deonderzochte de opgave heeft begrepen.
Ten derde biedt de individuele test meermogelijkheden om de onderzochte te observeren.
Ten vierde verzamelt men hierbij allerleikwalitatieve gegevens over diens gedrag en prestatie.

Vraag 15

Het verkrijgen van meer informatie kan bezwaarlijk zijn omdat deze informatie niet op eengestandaardiseerde wijze wordt verkregen. Men loopt dan het gevaar dat allerlei toevalligegedragingen en reacties serieus worden genomen. Uit nogal wat empirisch onderzoek isgebleken dat het meenemen van dit soort van subjectieve informatie in het oordeel niet totbetere voorspellingen leidt (en soms zelfs tot slechtere) in vergelijking met de voorspelling opbasis van de testuitslagen alleen.

Vraag 16

Naarmate iemand vaardiger is, of meer inzicht heeft, kan hij de vragen en opdrachten snelleren beter uitvoeren. Dit houdt in dat onder verschillende tijdcondities naar verwachting dezelfdepersonen hoog of laag scoren.

Vraag 17

Nee, bij de bepaling van bijvoorbeeld iemands woordenschat, kennisniveau, en sensorische ofartistieke vaardigheden is het snelheidselement niet belangrijk. Bij eigenschappen waarbijsnelheid wel een belangrijk element is, is het de vraag in welke mate het snelheidskarakter inde test moet worden geaccentueerd.

Vraag 18

Uitvoerige ervaring met het testen van cultuur uiteenlopende populaties rechtvaardigt deconclusie dat zuivere cultuurvrije tests niet bestaan. Daarentegen bestaan cultuurbepaaldetests wel.

Vraag 19

Het reageren op de items in een test via een bepaalde actie of het beantwoorden ofinvullen van vragen vereist in het algemeen, behalve de beoogde eigenschappen,vaardigheden of ‘skills’ die men niet wil meten. Een voorbeeld van ‘skills’ is het kunnen horenvan een instructie en het kunnen zien van de opgaven.

Vraag 20

Het is noodzakelijk om ervan uit te gaan of ervoor te zorgen dat de vereiste ‘skills’ volledigworden beheerst, zodat ze geen variatie in testscores veroorzaken. Dit kan men bereiken op drie manieren:

De individuele verschillen in ‘skills’ kunnen zelf worden gereduceerd door bijvoorbeeld deinstructie uit te breiden en meer oefenopgaven te geven.
De interpretatie van de testscores kan worden beperkt tot het gedeelte van de populatie datde vereiste ‘skills’ bezit.
De invloed van de verschillen in ‘skills’ kunnen worden verminderd door het ontwikkelen van‘skill-reduced’ tests.

Vraag 21

Als de betekenis van de test, datgene wat men wil meten of voorspellen, aan de onderzochte NIET bekend is, spreken we van een indirecte test.

Vraag 22

Vele prestatieniveautests, zoals: vorderingentests, biografische informatielijsten,opinievragenlijsten en attitudetests. Bij een directe test begrijpt de onderzochte het doel vande test en dit is in overeenstemming met de bedoeling van de testleider.

Hoe worden items opgebouwd en reacties gekwantificeerd in tests en vragenlijsten? - TentamenTests 4

Vragen

Vraag 1

Waarom denken sommige mensen dat open vragen superieur zijn aan gesloten vragen?

Vraag 2

Noem drie bezwaren tegen open vragen.

Vraag 3

Wat is een ‘rating-scale’-item? Geef zelf een voorbeeld.

Vraag 4

Bedenk ten minste drie eigenschappen die beter met open vragen gemeten kunnen worden.

Vraag 5

Zijn er groepen personen die maar beter niet met meerkeuzevragen onderzocht kunnenworden?

Vraag 6

Noem een praktisch nadeel aan meerkeuzevragen.

Vraag 7

Geef commentaar op het vermeende bezwaar tegen meerkeuzevragen dat zij slechts geschiktzijn om eenvoudige cognitieve eigenschapen en kennis te meten

Vraag 8

Leg uit dat meerkeuze-items niet alleen maar herkenning van de geleerde stof vragen.

Vraag 9

Leg uit waarom open vragen niet automatisch een beroep doen op hogere mentale functies.

Vraag 10

Wat wordt verstaan onder de stam van een meerkeuze-item?

Vraag 11

Noem een bezwaar van een item dat gebaseerd is op het principe van ‘matching’.

Vraag 12

Noem voor- en nadelen van een even aantal geordende antwoordcategorieën op een ‘ratingscale’.

Vraag 13

Waarom is het aantal geordende antwoordcategorieën op een ‘rating scale’ vrijwel nooit groterdan zeven?

Vraag 14

Noem voor- en nadelen van een naamgeving aan de antwoordcategorieën op een ‘ratingscale’.

Vraag 15

Leg uit waarom kwalitatieve reacties op de items uit een test of vragenlijst zo moeilijk teverwerken zijn tot een eindconclusie over de gemeten eigenschap.

Vraag 16

Wat is het algemene principe van de toekenning van scores aan de reacties op een item?

Vraag 17

Waarom is het volgens de auteurs niet zo erg dat bij kwantificering van gedrag informatie overde onderzochte verloren gaat?

Vraag 18

Waarom hoeft de steekproef in het vooronderzoek van een testconstructieonderzoek niet perse representatief te zijn voor de populatie waarover de test bestemd is? Wanneer is dit vaakzelfs ongewenst?

Vraag 19

Waarom moet een steekproef in een testconstructieonderzoek liefst ten minste 500proefpersonen bevatten?

Vraag 20

Wat is een gestratificeerde steekproef?

Vraag 21

Wat zijn de p-waarde en de a-waarden van een meerkeuze-item?

Vraag 22

Waarom dienen de afleiders van een meerkeuze-item plausibel te zijn?

Vraag 23

Stel, een van de onjuiste antwoorden van een meerkeuze-item is als gedeeltelijk juist teverdedigen. Hoe zou men dit in de scoring van het item tot uiting kunnen laten komen?

Antwoordindicatie

Vraag 1

Open vragen geven meer informatie van kennis en het geeft diepere inzichten.

Vraag 2

Open vragen zijn moeilijk te boordelen en het categoriseren is tijdrovend. Bij open vragenweten respondenten niet altijd wat er met de vraag bedoeld wordt, maar dan geven ze tochantwoord. Niet alle respondenten kunnen even goed gedachten op papier zetten, en niet allehandschriften zijn duidelijk.

Vraag 3

Bij een rating-scale item wordt de respondent gevraagd om in het vakje dat zijn positie hetbeste weergeeft een kruisje te zetten.

Een voorbeeld;Ik vind het leuk om naar school te gaan:

Van toepassing • • • • • Niet van toepassing.

Vraag 4

De mening van de respondent kan beter gemeten worden met open vragen.

Vraag 5

Ja, op het moment dat je een opinie van een groep wilt meten is het erg lastig om gebruik temaken van meerkeuzervragen.

Vraag 6

Een praktisch nadeel is dat het een uitvoerig vooronderzoek vereist. Vooral het bedenken vanonjuiste antwoordmogelijkheden is moeilijk.

Vraag 7

Het is wel degelijk mogelijk om ook hogere functies te meten, mits de vragenlijst goedgeconstrueerd is.

Vraag 8

Een meerkeuze-item kan ook gebruik maken van de mee/minst juiste-antwoordvorm, van deverschillende-antwoordenvorm, van de complexe vormen, van de rangschikking en van detoeschrijving.

Vraag 9

Open vragen kunnen ook een beroep doen op hogere mentale functies.

Vraag 10

Onder de stam van een meerkeuze-item wordt de vraagstelling bedoeld.

Vraag 11

Het voornaamste bezwaar is dat de keuzes niet onafhankelijk van elkaar geschieden. Hoeminder onzekere combinaties overblijven, hoe meer kans op juistheid men heeft bij raden.

Vraag 12

Voordeel van een even aantal; men wordt gedwongen een keuze te maken. Nadeel van een even aantal; als iemand écht geen mening heeft zal hij een keuze makenwaar hij niet helemaal achterstaat, of zal hij de vraag open laten waardoor er missing data is.

Vraag 13

Dat is niet noodzakelijk en het zorgt voor extra werk voor degene die de test gaat verwerken.Ook zijn mensen vaak niet in staat om meer dan zeven nuances te verwerken.

Vraag 14

Nadeel is dat de respondent zelf moet interpreteren wat er bedoelt wordt met het gegevenlabel.
Voordeel is dat het duidelijker is.

Vraag 15

De gegevens moeten nog omgezet worden in meetbare elementen. Verder kan er veelspreiding zijn tussen de antwoorden en wordt het moeilijk om met de gegeven antwoorden toteen conclusie te komen.

Vraag 16

Men geeft elke reactie een bepaalde waarde, een getal. Op die manier zijn er berekeningenmee te doen en kunnen er uiteindelijk uitspraken gedaan worden.

Vraag 17

Het gaat volgens de auteurs niet om rijke details en toevalligheden. Dat is het enige datverloren gaat.

Vraag 18

Op het moment dat de onderzoeker verwacht dat een bepaalde groep moeite heeft met hetonderzoek is het verstandig die groep beter te vertegenwoordigen in het vooronderzoek.

Vraag 19

De populatie is op te delen in diverse interessante doelgroepen, hiervoor dienen apartenormen opgesteld te worden. Alle deelgroepen horen groot genoeg te zijn omnormverdelingen van testscores voldoende nauwkeurig te kunnen schatten. En juist omdat desteekproef de hele populatie moet representeren is het van belang dat de steekproeven erggroot zijn, en dus minimaal 500 personen moeten bevatten.

Vraag 20

Bij een gestratificeerde steekproef worden de proporties van de groepen berekend. Indiezelfde proporties worden de steekproeven getrokken. Stel dat 20% van de Nederlandsebevolking 80 jaar of ouder is, dan moet in de steekproef ook 20% 80 jaar of ouder zijn.

Vraag 21

De relatieve frequentie op het goede antwoord wordt de p-waarde van het item genoemd, ende relatieve frequenties op de afleiders de a-waarden.

Vraag 22

Als de afleiders niet plausibel zijn wordt het te makkelijk om te gokken.

Vraag 23

Men kan zeggen dat degene die het bijna-juiste antwoord kiest wel beschikt over partiëlekennis.

Hoe worden tests afgenomen en verwerkt? - TentamenTests 5

Vragen

Vraag 1

Welke rol van de klinisch-intuïtieve interpretatie spelen in de verwerking van testgegevens?

Vraag 2

Wat is een ‘checklist’?

Vraag 3

Noem de drie manieren waarop de reacties op geprecodeerde items gescoord kunnen worden.

Vraag 4

De giscorrectieformule wordt uitgelegd voor vierkeuze-items. Doe deze uitleg eens helemaal over voor driekeuze-items.

Vraag 5

Leg uit wat het verschil is tussen de twee toestanden waarin personen zich kunnen bevinden als zij gissen naar het goede antwoord en de drie typen antwoorden die dit kan opleveren.

Vraag 6

Wat wordt verstaan onder partiële kennis?

Vraag 7

Hoe kan partiële kennis de giscorrectie in formule beïnvloeden?

Vraag 8

Wat is het bezwaar tegen het toenemen van de variantie van de testscore als gevolg van giscorrectie?

Vraag 9

Leg kort uit waarom de auteurs uiteindelijk van mening zijn dat giscorrectie niet zo’n goed idee is.

Vraag 10

Wat is ‘on-line testing’? Wat is de zwakke plek van déze methode?

Vraag 11

Welke conclusie trekken de auteurs uit het onderzoek dat is gedaan naar de invloed van dewijze van testen, via ‘paper and pencil’ of de computer, op de testprestatie?

Vraag 12

Wat is de kern van adaptief testen?

Vraag 13

Hoe verschilt adaptief testen van testen met behulp van de klassieke standaardtest?

Vraag 14

Wat wordt bedoeld als wordt gezegd dat vanuit de geteste persoon gezien de kans op het goed maken van een item 0.5 is?

Vraag 15

Leg uit dat het bij adaptief testen niet ‘oneerlijk’ is dat de ene persoon veel gemakkelijker items krijgt voorgelegd dan de andere.

Vraag 16

Wanneer stopt de computer bij adaptief testen met het aanbieden van items?

Vraag 17

Wat is nu nog de belangrijkste hindernis bij het testen via het internet?

Vraag 18

Wat is een ruwe score?

Vraag 19

Wat is het verschil tussen een bewerkte score en een normscore?

Vraag 20

Zijn voor een zinvol testgebruik normen altijd noodzakelijk? Licht het antwoord toe.

Vraag 21

In welk type testtoepassing kan men volstaan met ruwe scores?

Vraag 22

Bespreek de bezwaren tegen het IQ-begrip.

Vraag 23

Wat zijn percentielscores?

Vraag 24

Stel, de scores op een test zijn normaal verdeeld met een gemiddelde gelijk aan 10 en een variantie gelijk aan 9. Bereken met behulp van uw statistiekboek de percentielscores van iemand met een testscore van 12 en iemand anders met een testscore van 6.

Vraag 25

Leg uit hoe het komt dat een verschil tussen percentielscores die corresponderen met testscores rond het midden van de normaalverdeling anders geïnterpreteerd moet worden dan een even groot verschil dat verder van het midden afligt

Vraag 26

Zijn z-scores normaal verdeeld? Verklaar het antwoord.

Vraag 27

Welk percentage van de normaal verdeling ligt tussen x en (x + 3Sx)?

Vraag 28

Beredeneer wat het effect is van onevenredig veel gemakkelijke items op de verdeling van de ruwe scores op een intelligentietest.

Vraag 29

Wat is een nadeel van genormaliseerde standaardscores?

Antwoordindicatie

Vraag 1

Bij de klinisch-intuïtieve benadering dient men zich er bewust van te zijn dat de subjectieve impressies en ideeën geen waarheidsgarantie bezitten, ook al wekken ze bij de psycholoogvaak een gevoel van juistheid. Het is dus van belang om bij het verwerken van de resultaten hier rekening mee te houden.

Vraag 2

Bij een checklist kun je op een formulier aankruisen wat wel en niet van belang is. Bij gedrag kun je dan bijvoorbeeld aangeven of dit wel of niet voorkomt bij de onderzochte en in welke mate.

Vraag 3

Handscoring.
Zelfscoring.
Machinale scoring.

Vraag 4

We vinden Xc (de gecorrigeerde testscore) als volgt. Als A = 3, en iemand heeft 6 items foutbeantwoord, dan zijn dit dus alle fout gegiste items. De kans op fout gissen is 2/3. Dan weten we ook dat naar verwachting 1/3 deel van de items waarop is gegist goed is beantwoord. Dat zijn dan 3 items, ofwel 1/2 deel van 6. In het algemene geval is dit 1/(A-1) deel van het aantal fout beantwoorde items. De formule voor de berekening van Xc verkrijgen we dan als volgt: we nemen het totale aantal goed, X, en trekken daar het deel vanaf dat door gissen goed was; dit is het aantal fout, k – X, gedeeld door A – 1: Xc = X – k-XA-1.

Vraag 5

Personen kunnen zich in de volgende twee toestanden bevinden: hij weet met volledige zekerheid wat het goede antwoord is en geeft dat antwoord, of hij heeft geen idee en gist blind met succeskans 1/A. De drie typen antwoorden die dit op kan leveren zijn: goede antwoorden die het gevolg zijn van kennis, goede antwoorden die het gevolg zijn van blind gissen en foute antwoorden die het gevolg zijn van gissen.

Vraag 6

Dit houdt in dat de proefpersoon wel iets over de vraag en het antwoord weet, maar niet genoeg om met zekerheid het goede antwoord te geven.

Vraag 7

Door partiële kennis kan een reële giskans groter of kleiner zijn dan de theoretische, blinde giskans. Een voorbeeld is dat respondenten, ook al weten ze het juiste antwoord niet, sommige afleiders toch als onjuist kunnen wegstrepen doordat ze wel weten dat deze niet juist kunnen zijn. In dit geval geeft formule [5.1] een ondercorrectie: omdat bij sommige items de giskans groter is dan 1/A, had Xc eigenlijk lager moeten uitvallen.

Vraag 8

Het ongewenste effect hiervan op andere berekeningen wordt, bijvoorbeeld, zichtbaar als men de gecorrigeerde testscore optelt bij de testscores op andere tests, zoals wel gebeurt bij de deeltests van intelligentietestbatterijen, om een schatting van de algemene intelligentie te maken. De test met scores Xc krijgen dan een groter gewicht, zonder dat eigenschappen die dit zouden kunnen rechtvaardigen, zoals betrouwbaarheid en de validiteit van de meting, zijn toegenomen.

Vraag 9

De betrouwbaarheid en de validiteit van de testscore bij de giscorrectie niet noemenswaardig toenemen boven het niveau van dat van de ongecorrigeerde testscore (X).

Vraag 10

'On-line testing’: de leerling of student bepaalt zelf het moment waarop hij de studiestof naar zijn idee voldoende beheerst en vraagt de computer om een toets. De computer selecteert uit de itembank een studietoets, presenteert deze aan de student, codeert de reacties, levert een eindbeoordeling aan de student en slaat de toetsgegevens centraal op. Een gevaar van deze toetsen is de beveiliging. Leerlingen kunnen bijvoorbeeld de vragen overschrijven en doorvertellen, ook kunnen ze de toets voor een ander maken.

Vraag 11

Bij computergestuurde tests is het onmogelijk om items over te slaan zonder een toets in tedrukken. Dit kan leiden tot enigszins andere verdelingen van itemscores dan bij conventionele tests (paper and pencil). Verder is het vaak niet mogelijk om terug te gaan naar eerder beantwoorde items of de beantwoording van een item nog even uit te stellen. Veel invloed op de testprestatie lijken deze factoren overigens niet te hebben. Ook verschillen de presentatie en vormgeving van conventioneel gepresenteerde items nogal van de presentatie op het beeldscherm, maar ook hier bleek dat de testvorm geen belangrijke invloed had op de testprestatie.

Vraag 12

Adaptief testen komt erop neer dat iedere respondent een test krijgt voorgelegd die op zijn of haar niveau is toegesneden. Zo krijg je een beter beeld van het niveau dat de respondent heeft.

Vraag 13

Bij de klassieke wijze van testen houdt in dat een standaardtest, voor iedereen gelijk, wordtvoorgelegd aan de respondenten. Het verschil is dus dat bij adaptief testen de test is aangepast aan de respondent, bij de klassieke wijze is dit niet het geval.

Vraag 14

Dat de item voor de respondent dus een middelmatige moeilijkheid heeft, want vanuit de persoon gezien is de kans op een goed antwoord even groot als de kans op een fout antwoord.

Vraag 15

Omdat de metingen gecorrigeerd kunnen worden voor het moeilijkheidsniveau van de test. Dit is de reden waarom de meetwaarden van verschillende personen kunnen worden vergeleken ondanks het feit dat zij tests van uiteenlopend moeilijkheidsniveau hebben gemaakt.

Vraag 16

Totdat een meetwaarde is geschat die een bevredigende nauwkeurigheid heeft.

Vraag 17

De beveiliging van de gegevens via internet zullen nog moeten worden verbeterd.

Vraag 18

Een ruwe score is de testuitslag die wordt uitgedrukt in een basisscore. Deze score heeft dus nog geen verdere bewerking ondergaan. Voorbeelden zijn: het aantal goede antwoorden, het aantal foute antwoorden etc.

Vraag 19

Bewerkte scores zijn bewerkingen die onafhankelijk van de prestaties van anderen zijn. Een normscore houdt de vergelijking in van de score met de scoreverdeling van de referentiepopulatie.

Vraag 20

Nee, die zijn niet altijd noodzakelijk. Je kunt ook genoegen nemen met een eenvoudiger vorm van bewerkte scores. Een voorbeeld: soms hoeft men slechts de plaats in de rangschikking binnen de onderzochte groep te weten, in het geval dat de drie besten van een groep van sollicitanten moeten worden uitgezocht.

Vraag 21

Als men bijvoorbeeld voor onderzoeksdoeleinden geïnteresseerd is in de samenhang tussen testscores en criteriumscores. Hierbij is een omzetting in bewerkte scores niet noodzakelijk.

Vraag 22

De formule suggereert dat ML (mentale leeftijd) en CL (chronologische leeftijd) vergelijkbare grootheden zijn, dit is in werkelijkheid niet het geval.
Lange tijd vonden psychologen het IQ-begrip belangrijk omdat men ervan uitging dat het constant was. Het IQ vertoont echter bij de ontwikkeling van de intelligentie nogal wat schommelingen.
In normale gevallen blijft men bij het berekenen van het IQ boven de hoogste leeftijd waarbeneden de test nog discrimineert, steeds delen door deze topleeftijd. Dit is in de regel 15, 16, of 17 jaar. Op hogere leeftijden lopen de prestaties in vele intellectuele functies echter terug. Het is dus duidelijk dat oudere mensen in het nadeel zijn doordat in hun IQ-ratio de noemer gelijk en maximaal blijft.
Niet veel tests waarbij IQ-scores gebruikt worden voldoen aan de eis van een evenredig toenemende spreiding bij hogere leeftijden.

Vraag 23

Een percentielscore geeft aan hoeveel procent van de andere respondenten je achter je laat. Een voorbeeld: 80 percentiel betekent dat je 80% van de andere respondenten achter je laat, je presteert dus beter dan de andere 80%.

Vraag 24

Testscore 12 correspondeert bij deze gegevens met percentielscore 75, en testscore 6 met percentielscore 9 (beide percentielscores afgerond).

Vraag 25

Bij percentielscores wordt er rekening gehouden met wat mensen behaald hebben en wat ze zullen halen. Veel mensen zullen een gemiddelde score behalen (hier liggen de percentielen dus dicht bij elkaar). Er zullen minder mensen zijn die de test heel slecht of heel goed hebben gemaakt (hier liggen de percentielen dus verder uit elkaar).

Vraag 26

Nee, dit is niet het geval.

Vraag 27

49.87%.

Vraag 28

Veel mensen zullen erg veel goede antwoorden hebben gegeven, wat waarschijnlijk geen goede afspiegeling is van de werkelijkheid.

Vraag 29

Een nadeel is dat sommige van de oorspronkelijke score-eenheden worden ‘uitgerekt’ en andere ‘ineengedrukt’ teneinde een verdeling te krijgen die normaal verdeeld is.

Wat is betrouwbaarheid? - TentamenTests 6

Vragen

Vraag 1

Leg het gedachte experiment uit waarop de klassieke testtheorie gebaseerd is.

Vraag 2

Wat is het bezwaar tegen de term ‘ware score’?

Vraag 3

Wat wordt bedoeld met de opmerking dat meetfouten tautologisch gedefinieerd zijn?

Vraag 4

Waarom is het in de praktijk van het testen niet zo waarschijnlijk dat iedereen met dezelfdenauwkeurigheid gemeten wordt?

Vraag 5

Gegeven zijn de scores van acht personen op een test. De betrouwbare scores zijn bekend(hypothetisch geval).

Proefpersoon	T	E	X	T	E	X
n
1	9		9
2	8		9
3	7		6
4	6		6
5	6		6
6	5		4
7	4		5
8	3		3

Vraag 5a

Bereken de meetouten.

Vraa 5b

Bereken de gemiddelden van T, E en X

Vraag 5c

Bereken de afwijkingsscores van t, e en x.

Vraag 5d

Ga na dat S(T, E) = 0.

Vraag 6

Bedenk een test voor woordenschat tweemaal vijf items, waarbij de twee vijftallen opinhoudelijke gronden zo goed mogelijk ‘parallel’ gekozen worden. Probeer dit ook te doen voortwee drietallen van items waarmee de houding ten opzichte van abortus wordt onderzocht.Beschrijf ook wat bij deze twee opdrachten opvalt.

Vraag 7

Als dezelfde vragenlijst voor functioneren in de klas na een jaar voor de tweede maal aandezelfde representatieve steekproef van kinderen wordt voorgelegd, levert de correlatie tussende twee series testscores dan een schatting van de betrouwbaarheid op? Licht het antwoordtoe.

Vraag 8

Leg uit wat een ondergrens voor de betrouwbaarheid is. Geef tevens aan wanneer zo’nondergrens nuttig kan zijn.

Vraag 9

Waarom is de term ‘interne consistentie’ misleidend?

Vraag 10

Een aantal studenten is gezakt voor een tentamen. Zonder zich beter voorbereid te hebbendan de eerste keer, doen ze mee aan de herhaling. Toch slagen enkele studenten nu wel. Kannu geconcludeerd worden dat de herhaling gemakkelijker was dan het eerste tentamen?

Vraag 11

Leg uit waarom een testscore X nooit hoger met een variabele kan correleren dan met debetrouwbare score T.

Vraag 12

Waarom zijn de verschilscores onbetrouwbaar? Van welke factoren is de betrouwbaarheid vanverschilscores afhankelijk?

Vraag 13

Leg uit waardoor een test in de populatie van tienjarige leerlingen onbetrouwbaarder is dan inde populatie van tien- en elfjarigen samen.

Vraag 14

Waartoe dient de gestratificeerde alfacoëfficiënt?

Antwoordindicatie

Vraag 1

Samengevat kan dit gezegd worden; herhaalbaarheid van metingen kan worden beoordeeldindien we een persoon vele malen dezelfde test onder gelijkblijvende condities voorleggen.Daarbij geldt dan dat de testprestaties bij verschillende afnemingen onafhankelijk van elkaarzijn; de persoon leert niet van afneming tot afneming en herinnert zich niets van vorigeafnemingen. Bij iedere testsessie wordt als het ware weer opnieuw begonnen. De testsituatieis onveranderd gebleven en steeds zijn alle voor de meting relevante eigenschappen van depersoon van invloed op diens testprestatie. In deze situatie zijn er bij verschillende afnemingenfactoren werkzaam die de testprestatie op onvoorspelbare wijze beïnvloeden. De klassieketesttheorie houdt zich bezig met het in kaart brengen van de relatieve inbreng van de overafnemingen onvoorspelbare invloeden op de testprestaties en de over afnemingensystematische werkzame eigenschappen van personen en testsituatie.

Vraag 2

Ze kunnen aanleiding geven tot een platonische opvatting over datgene waar het symbool Tvoor staat. De term ‘ware’ of ‘true’ lijkt te refereren aan iets wat buiten de concrete testsituatiebestaat, in plaats van aan een gemiddelde, representatieve testprestatie.

Vraag 3

Dat betekent dat het gebaseerd is op een cirkelredenering. De meetfout op replicatie j is datdeel van de geobserveerde testscore dat resteert wanneer de betrouwbare score ervanafgetrokken wordt. Ook hier dus geen referentie aan inhoudelijke, buiten de test en detestsituatie bestaande oorzaken van meetfouten.

Vraag 4

Het is niet realistisch, als je bijvoorbeeld een kennistest neemt zal een persoon die veel weetanders scoren als een persoon die weinig weet.

Vraag 5a

De meetfout bereken je door het verschil in T en X te bepalen.

Proefpersoon	T	E	X	t	e	x
1	9	0	9	3	0	3
2	8	1	9	2	1	3
3	7	-1	6	1	-1	0
4	6	0	6	0	0	0
5	6	0	6	0	0	0
6	5	-1	4	-1	-1	-2
7	4	1	5	-2	1	-1
8	3	0	3	-3	0	-3

Vraag 5b

Gemiddelde van X is zes, gemiddelde van E is nul en gemiddelde van T is zes.

Vraag 5c

De afwijkingscore bereken je door te kijken hoeveel het getal afwijkt van het gemiddelde.

Vraag 5d

S(T,E) = 0, omdat meetfouten met geen enkele andere variabele correleren, alleen met X.Daarom is S(T,E) ten alle tijden nul. Je kan het controleren door de formule voor de covariantievan twee variabelen te gebruiken.

Vraag 6

Beide testen zelf bedenken. Het valt op dat het bij abortus veel moeilijker is, omdat je eenmening uitvraagt. Dat kan niet aan de hand van twee drietallen van items. Je kan geen parallelvragen maken voor dat onderwerp.

Vraag 7

Nee, de kinderen hebben in een jaar tijd dingen bijgeleerd. Daarom is de correlatie van detwee series scores geen goede schatting van de betrouwbaarheid.

Vraag 8

Een ondergrens voor betrouwbaarheid is handig voor kleinere steekproeven, dezewijken door toeval vaak sterk van de populatie af. De maat alfa wordt gebruikt als ondergrens,het kan in dit geval heel goed zijn dat de waarde van alfa zo onnauwkeurig is geschat dat zijzelfs groter uitvalt dan de betrouwbaarheid. Daarom is een ondergrens zinvol.

Vraag 9

Er zijn twee redenen waarom de opvatting nogal ongelukkig is. Ten eerste is alfa in veelgevallen een toenemende functie van het aantal items in de test. Een hoge betrouwbaarheidheeft dus alles te maken met de nauwkeurigheid van een meting, maar niet met wat de testmee. Interne consistentie zou onafhankelijk moeten zijn van het aantal items. Ten tweede kanalfa een hogere waarde hebben terwijl de test inhoudelijk in sterke mate heterogeen is.

Vraag 10

Nee dat kan je met deze gegevens niet concluderen. Er kunnen andere factoren mee spelen,daarbij valt te denken aan de geestelijke toestand van de student, aan de omgeving en aan delayout van de test.

Vraag 11

Testscores zijn (tamelijk onnauwkeurige) schattingen van de betrouwbare score. Daarom kaneen testscore nooit hoger met een variabele correleren dan met de betrouwbare score.

Vraag 12

De verschilscores zijn onbetrouwbaar, omdat het afhankelijk is van de onbetrouwbaarheid vanéén of van beide testscores. Betrouwbaarheid van het verschil is lager naarmate debetrouwbaarheid van x1 en x2 afzonderlijk lager is. verder is de betrouwbaarheid vanverschilscore gering als de samenhang tussen x1 en x2 sterk is.

Vraag 13

Hoe groter de populatie waar de test zich over strekt, hoe betrouwbaarder het is.

Vraag 14

De gestratificeerde alfacoëfficiënt kan gebruikt worden als vervanging van de paralleltest- oftest-hertestmethode. Die zijn meer bewerkelijk.

Welke nieuwe ontwikkelingen zijn er in de testtheorie en constructie? - TentamenTests 7

Vragen

Vraag 1

Wat is meten bij implicatie? Tegen welk type meten wordt ‘meten bij implicatie’ afgezet?

Vraag 2

Wat is een populatie-onafhankelijke meting? Laat de klassieke testtheorie dit type meting toe?Waarom (niet)?

Vraag 3

Waarom wordt gesproken van pseudokansniveauparameter en niet van gisparameter?

Vraag 4

Bespreek de rol van de itemparameters δ, α en γ in het Rasch-model.

Vraag 5

Van welk type testgegevens zou het Rasch-model een goede beschrijving kunnen geven?

Vraag 6

Geef aan wat het belangrijkste verschil is tussen de modellen van Mokken (model vanmonotone homogeniteit en model van dubbele monotonie) enerzijds en het Rasch-model, hetBirnbaum-model en het drie-parameter logistische model anderzijds.

Vraag 7

Is de meting van personen in het model van monotome homogeniteit populatie-onafhankelijk?Leg uit hoe dat zit.

Vraag 8

Op welk ander item-responsmodel lijkt het model van dubbele monotonie nog het meest? Lichtdit nader toe.

Vraag 9

Welke schaal wordt in de Mokken-modellen gebruikt om personen te meten?

Vraag 10

Wat is het belangrijkste verschil tussen de modellen van monotone homogeniteit en dubbelemonotonie?

Vraag 11

Waarin verschilt in de klassieke testtheorie en de item-responstheorie de bepaling van debetrouwbaarheid of de nauwkeurigheid van de meting?

Vraag 12

Wat is het meetniveau van de persoonsscores in

Het Rasch-model?
Het Birnbaum-model?
Het Mokken-model van monotone homogeniteit?
De klassieke testtheorie?

Vraag 13

De θ –schaal is volgens de auteurs van dit boek vooral handig voor allerlei toepassingen vande item-responstheorie, zoals adaptief testen. Leg uit waarom dit zo is.

Vraag 14

De auteurs hebben daarentegen twijfels over de mogelijkheid om de meting op de θ –schaalte interpreteren in termen van hoeveelheden of afstanden. Licht deze twijfel nader toe.

Vraag 15

Wel is een interpretatie van de θ –schaal mogelijk in termen van ‘odds’. Leg uit wat hieronder wordt verstaan.

Vraag 16

Hoe wordt de informatiefunctie gebruikt bij adaptief testen?

Vraag 17

Stel, we maken een test voor algemene intelligentie, die over de gehele schaal betrouwbaarmoet meten. Hoe ziet voor deze test de doelinformatiefunctie eruit?

Vraag 18

Noem voor- en nadelen van adaptief testen.

Vraag 19

Wanneer is een item in twee doelgroepen zuiver? Dus wanneer is er geen sprake van item bias of differential item functioning?

Vraag 20

Stel, de items van een test worden in volgorde van oplopende moeilijkheden gepresenteerd. Licht toe hoe men aan een patroon van 0/1 itemscores op de k items van een test zou kunnenzien dat iemand.

Heeft gegist op alle items.
Heeft afgekeken bij de moeilijkste items.
Leed aan testangst in het begin van de test.
Last heeft gehad van concentratieverlies gaandeweg de test.

Vraag 21

Hoe ziet bij elk van de vier gevallen in de vorige opdracht de persoons-responsfunctie erongeveer uit?

Antwoordindicatie

Vraag 1

Indien blijkt dat een model een goede beschrijving geeft, dan volgt daaruit dat demeeteigenschappen van dit model ook in concrete, praktische toepassingen van de testgelden. Dit heet ‘meten bij implicatie’. Het wordt afgezet tegen de klassieke testtheorie.

Vraag 2

Populatie-onafhankelijkheid komt erop neer dat iemands meetwaarde, verkregen met eengemakkelijke test, kan worden vergeleken met de meetwaarde van iemand die een moeilijkeretest heeft gemaakt. Bij de klassieke meetmethode is het meten populatie-afhankelijk. Ditbetekent dat de betrouwbare score en dus ook de totaalscore afhankelijk zijn van hetmoeilijkheidsniveau van de gebruikte test.

Vraag 3

De exacte ‘giskans’ hangt dus niet alleen af van het aantal alternatieven A, maar ook vaninhoudelijke kenmerken van het item. Daarom spreekt men van pseudokansniveau en niet vangiskans.

Vraag 4

δ staat voor de moeilijkheid van de item. γ komt in het Rasch-model niet voor. In dit modelgeldt dat alle items uit de test hetzelfde discriminerend vermogen (α) hebben.

Vraag 5

Ruwe scores, geschatte scores, standaarddeviaties, betrouwbaarheidsintervallen.

Vraag 6

Metingen volgens de modellen va Rasch en Birnbaum, en het drie-parameter logistischemodel, plaats op een metrische schaal (interval-, verschil- en rationiveau). De modellen van Mokken impliceren ordeningen van meetwaarden.

Vraag 7

In het model van monotone homogeniteit is de ordening van personen populatie-onafhankelijk.De items zijn dit hierbij niet.

Vraag 8

Het model van dubbele monotonie lijkt wel wat op het Rasch-model, want de item-responsfuncties onder dat model zijn ook stijgend en snijden elkaar ook niet.

Vraag 9

Personen worden gemeten op een ordinale schaal. Mensen kunnen namelijk wordengeordend op θ met behulp van hun testscores, X.

Vraag 10

In beide modellen (monotone homogeniteit en dubbele monotonie) wordt verondersteld dat deitem-responsfuncties monotoon niet-dalend zijn, maar in het model van dubbele monotoniemogen deze functies elkaar bovendien niet snijden.

Vraag 11

De item-responstheorie is een verfijning van de klassieke testtheorie omdat het ermeerekening houdt dat de test voor de ene waarde van θ betrouwbaarder is dan voor de andere.De item-responstheorie biedt dus de mogelijkheid een lokale betrouwbaarheid te bepalen. Inde klassieke testtheorie wordt de betrouwbaarheid overal op de schaal even grootverondersteld.

Vraag 12

Verschil-, interval- of ratioschaal.
Intervalschaal.
Ordinaalschaal.
Verschilschaal.

Vraag 13

Door de tussentijdse schattingen van de persoonsparameter, θ, worden de volgende items voor het adaptief testen op basis van iemands score gekozen.

Vraag 14

Het karakter van θ is niet observeerbaar zoals een itemscore of een ruwe score. Daarentegenis θ een zogenaamde latente variabele die in principe als onbekende uit een vergelijking wordtgeschat waarvan de specifieke vorm wordt bepaald door de itemscores die werkelijk op detest zijn behaald. Hierdoor is het voor onderzoekers lastig om er duidelijke uitspraken over tedoen.

Vraag 15

Met odds wordt bedoeld de verhouding van de kans op een positief antwoord en dekans op een negatief antwoord op hetzelfde tem als voor een vaste meetwaarde.

Vraag 16

Een testinformatiefunctie kan bijvoorbeeld aangeven aan welke kant de schaalbetrouwbaarder is. Met een testinformatiefunctie bij adaptief testen kan worden gekeken of derespondent aan de hoge of lage kant van de schaal zit. Zit de persoon aan de hoge kant, dankrijgt hij moeilijkere vragen. Zit hij aan de lage kant, dan krijgt hij makkelijkere vragen.

Vraag 17

De doelinformatiefunctie moet aangeven dat de test op alle mogelijke punten evenbetrouwbaar is. De functie moet dus ongeveer één rechte lijn hebben.

Vraag 18

Voordelen:

Per respondent wordt een nauwkeurige meting verricht.
Respondenten worden geconfronteerd met tests die op hun niveau zijn afgestemd. Ditvoorkomt concentratieverlies of frustratie.
De adaptieve testprocedure is geautomatiseerd en daardoor objectief.
De testtijd is relatief kort, waardoor meer respondenten in dezelfde tijd kunnen wordenonderzocht of dezelfde hoeveelheid tijd kan worden besteed aan meer tests.
Door de volledige automatisering kan een snelle terugkoppeling van de resultaten aan derespondent plaatsvinden.
Testprestaties die zijn verkregen door middel van verschillende tests kunnen met elkaarworden vergeleken. Dit is het gevolg van de eigenschap van populatie-onafhankelijkmeten, die het mogelijk maakt om θ-waarden die zijn verkregen met verschillende testsvia equivalering op dezelfde schaal af te beelden.

Nadelen:

Item-responsmodellen (die nodig zijn om adaptief te kunnen testen) leggen vele restrictiesop aan de testgegevens.
Er zijn hoge kosten bij de ontwikkeling van een itembank en een daaraan gekoppeldadaptief testsysteem.
Theorieën omtrent psychologische eigenschappen zijn vaak onvoldoende scherp eneenduidig geformuleerd, en het gevolg is dat operationaliseringen hieruit niet moeiteloosvolgen.

Vraag 19

Als de testprestaties van personen uit verschillende populaties met elkaar worden vergeleken, kan dit verschil in betrouwbaarheid of validiteit maken dat er sprake is vanbevoordeling of benadeling van de een ten opzichte van de ander. Het onderzoek dat zich opitemniveau met deze problematiek bezighoudt, wordt onderzoek naar vraagonzuiverheid genoemd,ook wel ‘bias’ en ‘differential item functioning’. Als een onderzoek zuiver is, wil dit dus zeggen datde verschillende populaties ten opzichte van elkaar geen bevoordeling of benadeling hebben.

Vraag 20

De goede antwoorden zullen verspreid zijn over de gehele test. De goede antwoordenzijn hierbij onafhankelijk van de moeilijkheid van de vragen omdat deze persoon toch geenenkel antwoord wist.
De moeilijkere vragen zullen beter gemaakt zijn dan de makkelijke vragen.
De antwoorden op de vragen zullen in het begin slechter zijn geweest dan naarmate detest vorderde.
De antwoorden zullen in het begin van de test erg goed zijn geweest, naarmate de testvorderde werden de antwoorden steeds slechter.

Vraag 21

De persoons-responsfunctie zal laag zijn, omdat de persoon geen enkel antwoordzeker wist.
De persoons-responsfunctie zal hoog zijn, omdat de persoon uit zichzelf al een aantalantwoorden wist en de moeilijkste vragen heeft afgekeken.
De persoons-responsfunctie zal in het begin lager zijn geweest dan tegen het einde aan.
De persoons-responspunctie zal in het begin hoog zijn geweest, dit zal gaandewegsteeds meer afnemen.

Wat is de validiteit en betekenis van een test? - TentamenTests 8

Vragen

Vraag 1

Leg uit waarom niet in absolute zin gesproken kan worden van de validiteit van een test.

Vraag 2

Dienen medische procedures ook een valideringsonderzoek te ondergaan? Beargumenteeruw antwoord.

Vraag 3

Hoe zou men predictieve validering kunnen opvatten als onderdeel van begripsvalidering?

Vraag 4

Waarom geven de auteurs van het boek toch de voorkeur aan gescheiden behandeling vanpredictieve validiteit en begripsvaliditeit?

Vraag 5

Wat is inhoudsvaliditeit?

Vraag 6

Noem een zwak punt vaninhoudsvaliditeit.

Vraag 7

Leg uit wat het effect is van de betrouwbaarheid van een criterium op de voorspelling van ditcriterium met een test.

Vraag 8

Bepreek het probleem dat een te voorspellen criterium verschillende graden van abstractiekan hebben, en hoe het komt dat de beter voorspelbare aspecten van een criterium vaak ookde minder relevante zijn.

Vraag 9

Bedenk wat het uiteindelijke criterium bij voorspelling met de CITO Eindtoets Basisonderwijszou kunnen zijn. Doe eveneens voorstellen voor een tussentijds en een onmiddellijk criterium.

Vraag 10

Met welk doel trekt men een gestratificeerde steekproef?

Vraag 11

Het komt nogal eens voor dat tests gevalideerd op gemakkelijk voorhanden zijndesteekproeven, zoals psychologiestudenten. Wanneer is dit geen probleem voor de validiteit?

Vraag 12

Noem twee redenen waarom items meestal niet op basis van hun moeilijkheid in een test ofvragenlijst zouden moeten worden geselecteerd.

Vraag 13

Welke items dient met in een test of vragenlijst te selecteren om een testscore met een hogebetrouwbaarheid te verkrijgen?

Vraag 14

In welke situatie zoekt met vooral zijn toevlucht tot ‘concurrent validity’ ter vervanging vanpredictieve validiteit?

Vraag 15

Wat zijn in een onderzoek ter bepaling van de predictieve validiteit meestal de oorzaken vande geringere representativiteit van de steekproef die tot ‘restriction of range’ leiden?

Vraag 16

Wat is de contaminatie van het criterium? Geef een voorbeeld. Welke invloed heeft ditverschijnsel op de validiteit van een selectieprocedure?

Vraag 17

Voordat men de correlatie tussen een testscore en een criteriumscore bepaalt, dient eerst de‘scatter plot’ van de empirisch gevonden relatie te worden bestudeerd. Waarom is dit nodig?

Vraag 18

Wat is een heteroscedastische relatie? Is de product-momentcorrelatie geschikt om dezerelatie te beschrijven? Beargumenteer uw antwoord.

Vraag 19

Wat is een suppressorvariabele? Geef een ander inhoudelijk voorbeeld dan in dit hoofdstukwordt gegeven.

Vraag 20

Wat is een moderatorvariabele? Geef ook hier inhoudelijk voorbeeld, anders dan in dithoofdstuk wordt gegeven.

Vraag 21

Beschrijf voor de predictoren die uiteindelijk in een meervoudig regressiemodel wordenopgenomen de onderlinge correlaties en de correlaties met het criterium.

Vraag 22

Noem de vijf mogelijke oorzaken van doorgaans lage validiteitscoëfficiënten.

Vraag 23

Waarom zien de auteurs weinig heil in het blind selecteren, dus alleen op basis van correlaties(of andere statistische gegevens), van de beste voorspellende tests in een voorspellingsmodelten behoeve van een bepaald criterium?

Vraag 24

Wat is een nomologisch netwerk? Welke rol spelen tests hierin?

Vraag 25

Welke rol spelen confirmerende validiteit en discriminante validiteit bij het onderzoek vanhypothesen?

Vraag 26

Wat is de multitrek-multimethodematrix? Hoe geeft deze matrix informatie over zowelbetrouwbaarheid als validiteit?

Antwoordindicatie

Vraag 1

Er kan niet in absolute zin gesproken worden over validiteit, omdat het begrip nooit eeneenduidige betekenis heeft gehad. Dit heeft ertoe geleid dat men de term te pas en te onpas,en in vele niet nadere aangeduide betekenissen dooreen gebruikt. Betekenissen als juistheid, nuttigheid, accuraatheid in het gebruik, interpreteerbaarheid, al ofniet gecorrigeerd voorspellend vermogen, en waarde bij beslissingen.

Vraag 2

De vraag naar validiteit kan gesteld worden met betrekking tot ieder proces van concluderentot andere dan waargenomen feiten en gebeurtenissen. In de geneeskunde is het bijvoorbeeldde vraag in hoeverre iemands bloeddruk iets zegt over de kans dat hij of zij een hartkwaalontwikkelt. Niet die bloeddruk zelf – zeg maar, het testgedrag – is van belang, maar de matewaarin het iets zegt over andere verschijnselen.

Vraag 3

De relatie tussen de predictor en het criterium, alsmede de operationalisering van deonderliggende begrippen, vormen een onderdeel van het theoretisch netwerk van het door detest geoperationaliseerde begrip.

Vraag 4

De reden daarvoor is dat vooral in de context van het onderwijs en de personeelspsychologieop grote schaal gebruik gemaakt wordt van het voorspellend vermogen van een test. Met hetvaststellen van deze voorspellende kracht komen methodologische overwegingen en principesaan de orde die minder kenmerkend zijn voor het proces van begripsvalidering.

Vraag 5

Er wordt een schatting verkregen door te beoordelen hoezeer de inhoud van de test eengeheel van situaties, kennisinhouden of vaardigheden representeert, waaruit met betrekkingtot de onderzochte persoon conclusies moeten worden getrokken. Dit begrip is vooral vantoepassing op het terrein van onderwijskundig meten, waarbij conclusies getrokken wordenover het geheel van taken of kennisinhouden waaruit de test een steekproef vormt.

Vraag 6

Een belangrijk bezwaar tegen het begrip is dat empirisch onderzoek, waarin gebruik wordtgemaakt van gegevens anders dan afkomstig van vergelijkbare toetsen, vaak ontbreekt. Dereden is dat het domein van alle mogelijke vragen doorgaans denkbeeldig is, en hooguitbestaat in de vorm van een definitie en een groot, maar toch beperkt aantal items. Hetitemdomein is niet veel meer dan een groot aantal toetsen die ieder voor zich niet gevalideerdzijn. Inhoudsvaliditeit is dus vooral een kwestie van oordelen.

Vraag 7

De betrouwbaarheid van de maten is vaak omgekeerd evenredig aan de relevantie. Er moetendus criteriummaten gevonden worden die nog zo betrouwbaar zijn dat ze de test niet opvoorhanden invalideren, maar niet zo irrelevant zijn dat ze het conceptuele criterium niet meerweerspiegelen.

Vraag 8

Zie antwoord vraag 7.

Vraag 9

Met het uiteindelijke criterium word het alomvattende, uiteindelijke doel van een procedurebedoelt. Bij de CITO Eindtoets Basisonderwijs kan dit bijvoorbeeld plaatsing op het vwo zijn.Bij tussentijdse criterium gaat het niet om het einddoel, maar om een tussendoel. Dit kan dus een toets halverwege het jaar zijn. Met een onmiddellijk criterium wordt bijvoorbeeld het totaalaantal behaalde toetsen tot die tijd bedoeld.

Vraag 10

Het doel van een gestratificeerde steekproef is de proportie die voorkomt in de populatie terugte laten komen in de steekproef. Op die manier wordt een representatieve steekproefgetrokken.

Vraag 11

Het probleem is dat de groep niet representatief is voor de hele populatie. Het is geenprobleem wanneer je populatie bestaat uit personen met een gemiddelde hoge intelligentie,een relatief grote interesse in psychologie, grotendeels bestaat uit vrouwen en een leeftijdhebben tussen gemiddeld 18 en 28 jaar.

Vraag 12

Er kan een test ontstaan die inhoudelijk heterogeen is of waarvan de score onbetrouwbaar is.Dat is zo omdat de moeilijkheid van een item op zich niets heeft te maken met wat het itemmeet of hoe betrouwbaar het item dit doet.

Vraag 13

Een homogene test verkrijgt men door bijvoorbeeld factoranalyse uit te voeren op de scoresvan de k kandidaten voor de test. Met factoranalyse worden items die onderling hoogcorreleren in groepen bij elkaar genomen. Een andere mogelijkheid is dat de onderzoeker zelfitems rechtstreeks in dezelfde test selecteert op basis van hun onderlinge correlaties.

Vraag 14

In een kliniek, waar het vaak gaat om een vergelijking met een gelijktijdig criterium, zoals eenpsychiatrische diagnose of een score op een soortgelijke test, zal dit niet veel tijd vergen.Daarom wordt in een dergelijke situatie concurrent validity boven predictieve validiteitgekozen.

Vraag 15

De oorzaken van de geringe representativiteit die tot ‘restriction of range’ leiden zijn deuitvallers. Degene die afhaken of afvallen zijn vaak minder geschikt. En degenen die naselectie verdwijnen omdat ze hogerop gaan, zijn vaak de zeer geschikte kandidaten. Hetgevolg daarvan is de restriction of range.

Vraag 16

Als een beoordelaar zijn oordelen door kennis van testuitslagen laat beïnvloeden en zijnoordelen worden als criteriummaat in het valideringsonderzoek gebruikt, dan is duidelijk dattestscore en criteriumscore niet meer onafhankelijk zijn vastgesteld. Dit verschijnsel heetcontaminatie van het criterium.

Vraag 17

Een scatterplot wordt gebruikt om te kijken hoe de correlatie tussen testscore encriteriumscore is.

Vraag 18

Bij een heteroscedactische relatie bestaat er wel een verband tussen de lagere waarde vantwee andere variabelen X en Y, maar niet voor de hogere waarden. Het is zelfs zo dat,naarmate X toeneemt, de spreiding van mogelijke waarden voor Y toeneemt. Het is nietverstandig om de product-momentrelatie kritiekloos toe te passen.

Vraag 19

Supressor variabelen spreken door hun merkwaardige rol wel tot de verbeelding.Taalvaardigheid kan bijvoorbeeld een rol spelen in een toets voor rekenvaardigheid waarmeeeen technisch beroep wordt voorspeld. Door de scores op de rekenvaardigheid te corrigerenvoor taalvaardigheid kan een betere voorspelling worden verkregen.

Vraag 20

Een moderatorvariabele is een variabele die zelf niet of nauwelijks hoeft te correleren met eencriteriumscore Y, maar die wel de relatie van andere variabelen met Y beïnvloedt. Eenvoorbeeld is de motivatie in relatie tot intelligentiescores en schoolprestaties. Dit kan tussenmannen en vrouwen bijvoorbeeld variëren.

Vraag 21

Ideaal is een batterij die onderling laag correleren en alle hoog met Y correleren. Het is duszinloos om tests in een batterij op te nemen die ongeveer hetzelfde meten.

Vraag 22

Geringe betrouwbaarheid van het criterium.
Miskenning van een niet-lineaire relatie tussen predictor en criterium.
Negeren van de complexe samenstelling van groepen.
Negeren van de variabele betekenis van het criterium in verschillende organisaties.
Onterechte vereenvoudiging van het criterium.

Vraag 23

Soms zijn de verbanden van tests met criteria erg doorzichtig. Soms worden er ook relatiesgevonden die zich volledig aan het oog onttrekken. Alleen selecteren op correlaties is nietverstandig om de volgende redenen. Ten eerste leidt het blind toepassen van een test niet totnoodzakelijk inzicht. Ten tweede impliceert het blind afgaan op de grootste correlaties, datmen eigenlijk alle mogelijk predictoren zou moeten onderzoeken op hun geschiktheid voor devoorspelling van het criterium. Verder kan er sprake zijn van een unieke of zeldzame situatie,waarvoor geen criterium vastgesteld zijn. Ook kan de psycholoog die zonder theorie te werkgaat in de knel komen bij de vraag de onderzochte te beschrijven. En als laatste bieden debetekenisanalyse en de begripsvaliditeit een mogelijkheid om het ‘sacrosancte’ criterium vanzijn voetstuk te halen en te analyseren.

Vraag 24

Een ruimer theoretisch kader, waarbinnen een groot aantal begrippen en relaties tussen diebegrippen voorkomen, die in het ideale geval alle empirisch gefundeerd zijn. Dit complex vanbegrippen en relaties is een voorbeeld van een nomologisch netwerk. Het is van belang hoede relevante informatie aangeboden wordt, vervolgens wat het type taak is en ten slotte watde inhoud van de taak is.

Vraag 25

Voorspellingen kunnen dienen om de oorspronkelijke hypothese te bevestigen, maar ook omde alternatieve hypothesen te verwerpen. De eerste soort wordt de confirmerende valideringgenoemd, de tweede soort wordt de discriminante validering genoemd.

Vraag 26

Belangrijk bij de multitrek-multimethodematrix is het idee dat een test voor een bepaaldeeigenschap zou kunnen worden vervangen door een andere test die dezelfde eigenschappretendeert te meten. Dit lukt doorgaans niet perfect, waardoor de variatie in de test resultatenvan de onderzochte groep op de bedoelde eigenschap. Bij deze benadering wordt dan geschat in hoeverre de variantie van de testscore wordtbepaald door de variantie in de bedoelde trek en juist niet door zowel de variantie ten gevolgevan gebruikte methode als de variantie in de niet-bedoelde trekken. Om dit vast te stellen,dient de evaluatieprocedure van de test de meting van diverse trekken en het meten van verschillende methoden te omvangen. De multitrek-multimethodematrix bevat de correlatiesdie op deze wijze uit alle combinaties van methoden en trekken ontstaan.

Welke bijdrage levert de test in het beslissingsproces? - TentamenTests 9

Vragen

Vraag 1

Wat bepaalt de wetenschappelijke waarde van een test? En wat de praktische waarde?

Vraag 2

Wat wordt bedoeld met de bijdrage van een test aan een beslissing of een beoordeling?

Vraag 3

Kan een a-prioristrategie voor het nemen van beslissingen samenvallen met selectie op basisvan de base rate? Leg uit hoe dit zit.

Vraag 4

Geef aan wat de verschillen zijn tussen individuele en institutionele beslissingen.

Vraag 5

In welk type selectiesituatie volstaat univariate informatie?

Vraag 6

Leg uit wat wordt verstaan onder de controverse van de actuarische en de intuïtieve methodevan voorspellen.

Vraag 7

Leg uit waarin de overeenkomst ligt tussen een trapsgewijze selectieprocedure en adaptieftesten.

Vraag 8

Een test met een grote bandwijdte kan geen grote zuiverheid hebben en vice versa. Wat wordtmet deze uitspraak bedoeld?

Vraag 9

Noem enkele voorbeelden van tests met een grote zuiverheid.

Vraag 10

Noem ook een voorbeeld van een test met een grote bandwijdte.

Vraag 11

Noem enkele maatregelen die nodig zijn om de zuiverheid van tests met een brede bandwijdtete bevorderen.

Vraag 12

Waarvoor zijn tests met een brede bandwijdte vooral geschikt?

Vraag 13

Wanneer is een selectieprocedure compensatorisch of conjuctief?

Antwoordindicatie

Vraag 1

De wetenschappelijke waarde van een test wordt bepaald door het wetenschappelijke belangvan de eigenschap die door de test wordt gemeten. De praktische waarde van een test kandaarentegen het beste worden beoordeeld tegen de achtergrond van de beslissingen die metde test worden genomen. Voorbeelden hiervan zijn: toelating of afwijzing voor een opleiding,het slagen of zakken voor een tentamen etc.

Vraag 2

In algemene zin gezegd gaat het om de verbetering in vergelijking met de situatie zonder test.Een voorbeeld kan worden ontleend aan het gebruik van de CITO Eindtoets Basisonderwijs,waartegen in sommige regionen van het onderwijs en bij sommige ouders van leerlingenweerstand bestaat. Een gevolg hierop zou kunnen zijn dat de CITO-toets niet meer wordtgebruikt, maar alternatieve toetsen. Wat men achteraf dus wil weten is hoeveel juisteschooladviezen worden gegeven op basis van het gebruik van de CITO-toets, of eenalternatieve vorm van beoordelen waarvan de CITO-toets geen deel uitmaakt, en wellicht ookin vergelijking met een situatie waarin noch de CITO-toets wordt gebruikt noch in vervanging isvoorzien.

Vraag 3

Nee, bij een a-propriniveau worden individuen niet aselect toegewezen, bij selectie op basisvan de base rate is dit wel het geval.

Vraag 4

Bij individuele beslissingen wordt volledig gedacht vanuit het individu dat de beslissing moetnemen of waarvoor de beslissing geldt. Denk hierbij bijvoorbeeld aan beroepskeuze,schoolkeuze en keuze van een studiepakket. Bij institutionele beslissingen wordt een grootaantal gelijksoortige beslissingen genomen. Deze beslissingen worden genomen ten behoevevan het instituut of de organisatie. Denk bij deze beslissingen bijvoorbeeld aan eentoelatingsprocedure voor een school, plaatsing bij een bedrijf, het examen voor een rijbewijs.

Vraag 5

In de enkelvoudige selectiesituatie. Hierin worden individuen namelijk onderzocht met het oogop een enkel criterium, waarbij er slechts twee mogelijkheden zijn: onderzochte voldoet niet ofonderzochte voldoet wel aan de eisen.

Vraag 6

Via een intuïtief, niet-statistisch proces van weging en voorspelling gaat het vaak om een vansituatie tot situatie fluctuerende combinatie van gegevens; het proces is mindergeformaliseerd, men volgt minder een vaste strategie dan bij de statistische procedure. Het gaat hier om de controverse tussen actuarische en intuïtieve voorspelling.

Vraag 7

Bij een trapsgewijze selectieprocedure komt evenals bij adaptief testen een voorselectie voor.

Vraag 8

Dit is goed uit te leggen aan de hand van een voorbeeld. Een vergelijking wordt hierbijgetrokken met de wijze van informatie overbrengen in de telegrafie. Indien men langs éénkanaal vele boodschappen tegelijk tracht door te geven, dan zullen deze afzonderlijk ergonzuiver doorkomen, maar hoort men wel veel tegelijk. Wanneer slechts één informatie-element wordt doorgezonden, hoort men kwantitatief minder, maar wat overkomt hoort menwel duidelijk.

Vraag 9

De intelligentietest en de tests voor specifieke vaardigheden en persoonlijkheidstrekken meteen goede begrips- en predictieve validiteit en een hoge betrouwbaarheid.

Vraag 10

Diagnostische methoden als het ongestructureerde interview, het autobiografische opstel,alsmede typische open-vraaginstrumenten als observatietests en projectietests en dekwalitatieve analyse van op zichzelf objectieve tests.

Vraag 11

Ten eerste zijn een goede standaardisering van de procedure van afnemen en het gebruik vaneen voldoende objectief verwerkingssysteem nodig voor testgegevens van goede kwaliteit.
Ten tweede dient de test voldoende items te bevatten om een behoorlijke spreiding intestprestaties op te leveren.
Ten derde moeten voor verschillende relevante populatiesspecifieke normgegevens beschikbaar zijn.
Ten vierde moeten beoordeelde kenmerken eenomschreven plaats krijgen in een theorie over een psychologisch ‘construct’, zodat duidelijk iswelke psychologische betekenis aan die kenmerken mag worden toegekend.

Vraag 12

Bij een test met open vragen.

Vraag 13

De testcombinatie volgens de gewogen samenstelling heet compensatorisch. De testcombinatie volgens de procedure van de veelvoudige minimumscore heet conjunctief

Welke ethische kwesties zijn belangrijk bij het testen? - TentamenTests 10

Vragen

Vraag 1

Een z-score van -1.5 drukt uit:

Dat de ruwe score 1,5 standaarddeviatie boven de betrouwbare (true) score ligt.
Dat de ruwe score 1,5 standaarddeviatie onder de betrouwbare (true) score ligt.
Dat de ruwe score 1,5 standaarddeviatie boven de gemiddelde score ligt.
Dat de ruwe score 1,5 standaarddeviatie onder de gemiddelde score ligt.

Antwoordindicatie

Vraag 1

D. Dat de ruwe score 1,5 standaarddeviatie onder de gemiddelde score ligt.

Vraag 1

Een z-score van -1.5 drukt uit:

Dat de ruwe score 1,5 standaarddeviatie boven de betrouwbare (true) score ligt.
Dat de ruwe score 1,5 standaarddeviatie onder de betrouwbare (true) score ligt.
Dat de ruwe score 1,5 standaarddeviatie boven de gemiddelde score ligt.
Dat de ruwe score 1,5 standaarddeviatie onder de gemiddelde score ligt.

Join World Supporter

for free to follow other supporters, see more content and use the tools
for €10,- by becoming a member to see all content

Why create an account?

Your WorldSupporter account gives you access to all functionalities of the platform
Once you are logged in, you can:
- Save pages to your favorites
- Give feedback or share contributions
- participate in discussions
- share your own contributions through the 7 WorldSupporter tools

Follow the author: Psychology Supporter