Je vertrek voorbereiden of je verzekering afsluiten bij studie, stage of onderzoek in het buitenland
Study or work abroad? check your insurance options with The JoHo Foundation
Geef voor de verschillen aan welke van de twee onderstaande verschillen (a of b) je meet:
1. intra-individuele verschillen
2. inter-individuele verschillen
Aan welke voorwaarden hoeft een psychologische test volgens Cronbach niet te voldoen?
Waar zijn malingering en demand characteristics voorbeelden van?
Een multiple choice tentamen waarbij je alleen geslaagd of gezakt bent is een voorbeeld van:
Welke zaken zijn van belang bij het meten van een niet direct observeerbaar psychologisch attribuut?
Alle groep 8 leerlingen worden met verschillende opdrachten getest op hun leesvaardigheid. Hiervoor krijgen ze onder andere een lange lijst met allemaal woorden waarvan ze er in 5 minuten zoveel mogelijk moeten lezen. Wat voor een soort test is dit?
De groep 8 leerlingen uit vraag 6 worden opnieuw getest op hun leesvaardigheid. Deze keer krijgen ze een lijst met moeilijke woorden, waarbij het draait om de hoeveelheid correct voorgelezen woorden. Wat voor soort test is dit?
Psychometrie heTest moet op verschillende momenten afgenomen zijn.eft betrekking op:
Wat is volgens Furr psychometrie?
A . 1, B. 2
D. Test moet op verschillende momenten afgenomen zijn.
A. Participant reactivity
D. Dit tentamen is closed-ended, omdat iemand kan kiezen uit een beperkt aantal keuzes. Het is criterion referenced, omdat er een grens is bepaald (bijv. 13 fout is voldoende) waar iemand aan moet voldoen om het tentamen te halen.
A. Een assumptie van verband tussen het observeerbare gedrag en de attribuut, dit zou betekenen dat de test (in ieder geval gedeeltelijk) valide is. Een theoretische link tussen de taak en de te meten attribuut is van belang om de validiteit mogelijk te maken. Validiteit is van belang omdat er in dit geval bepaald moet worden waarmee je het attribuut kan meten. Operationele definities maken het mogelijk om onduidelijke begrippen te kunnen meten en begrijpen (zoals intelligentie, leren en dromen).
A. Speed testen zijn tests met een tijdslimiet en waarbij niet verwacht wordt dat je de hele test afrond en waarbij de test is hoever je komt met beantwoorden. Er wordt hierbij uitgegaan van een hoge kans dat beantwoorde vragen correct beantwoord zijn.
B. Power testen zijn tests zonder tijdslimiet, waarbij de antwoorden van belang zijn. Hierbij wordt gekeken naar het gegeven antwoord en aan de hand hiervan wordt een score voor het aantal juiste antwoorden bepaald.
A. Bij psychometrie ligt de nadruk op de attributen van tests en dit kunnen evalueren
B. Psychometrie is de wetenschap die zich buigt over het evalueren van attributen van psychologische tests.
Aan welke eigenschap moet een categorie voldoen?
Combineer de begrippen aan de juiste voorbeelden:
1. Nominaal 2. Ordinaal 3. Ratio 4. Interval | A. Leeftijd B. Intelligentie C. Geslacht D. Reactietijd |
Bepaal of de uitspraken waar of niet waar zijn.
Bij een interval schaal kan men de volgende berekeningen toepassen:
Welke van deze vier voorbeelden hoort thuis in een interval schaal?
Wat is het verschil tussen een ordinale schaal en een nominale schaal?
Meten met een meeteenheid gaat uit van een belangrijke assumptie, welke is dit?
Bij een rijexamen is er sprake van een ….. variabele waarbij men kan slagen of zakken. Het bloedtype van een proefpersoon is op basis van een …. variabele.
D. De drie genoemde eisen zijn de standaard eisen waar een categorie aan moet voldoen.
Alle drie de uitspraken zijn waar.
B. Bij een interval schaal heb je een arbitrair nulpunt, je kan daarom wel optellen en aftrekken, maar niet vermenigvuldigen en delen.
A. Bij graden celsius is er een arbitrair nulpunt, daarom is een interval schaal hier geschikt voor.
B. Nominaal geeft alleen verschil aan en interval geeft, naast een verschil, ook een volgorde aan.
A. Als de maat van de meeteenheid niet altijd hetzelfde is kun je er niet mee meten, omdat je totaal dan geen/ weinig informatie geeft.
A. Dichotoom heeft 2 opties: (0 of 1 / zakken of slagen etc.) en een categorische variabele heeft meerdere categorieën( niet per se gelimiteerd tot 2 opties).
Wat is het verschil tussen variabiliteit en co-variabiliteit?
Er wordt een test (Test A) uitgevoerd waarbij er sprake is van meerdere meetmomenten. Iedere participanten doet op ieder meetmoment opnieuw dezelfde test (Test A). De meetresultaten van de verschillende participanten op alle momenten worden met elkaar vergeleken. Naar welke verschillen kan er gekeken worden?
Bereken het gemiddelde van beide rijen afzonderlijk:
Bereken de variantie vanuit de volgende standaard deviaties:
Combineer de meest waarschijnlijke correlaties aan de goede onderwerpen:
1. 0,65 | A. De correlatie tussen alcoholpromillage en de vaardigheid om recht over een lijn te lopen. |
2. -0,65 | B. De correlatie tussen opleidingsniveau en inkomen |
3. 0,0 | C. De correlatie tussen haarkleur en geslacht. |
Wat is de standaard deviatie bij een Sum of Squares van 2000 met N=5 ?
Vul de tabel (a t/m e) verder in:
Deviatie X | Deviatie Y | Cross-product | |
A. | 0 | 20 | |
B. | 10 | 10 | |
C. | 0 | 30 | |
D. | 20 | 5 | |
E. | 5 | 10 |
Welke correlatie lijst(en) kloppen?
A. | B. | C. | D. |
0,5 | 0,5 | 0,9 | -0,9 |
-0,5 | 0,7 | 0,4 | -0,7 |
0,7 | 0,2 | 1,4 | -0,6 |
0,2 | 0,8 | 0,8 | -1,6 |
Is de onderstaande normtabel voor de ruwe testscore X (M = 80, SD = 12) correct?
X | z | T |
68 | -2 | 26 |
74 | -1 | 38 |
80 | 0 | 50 |
86 | 1 | 62 |
92 | 2 | 74 |
B. Co-variabiliteit is de mate waarmee de variabiliteit tussen verschillende score sets met elkaar overeenkomen. Variabiliteit is het verschil binnen een set scores. Daarom zijn de onderwerpen verschillend en is er geen sprake van 1 hetzelfde onderwerp bij covariabiliteit en variabiliteit.
C. Er kan zowel naar intra-individuele verschillen (de resultaten van een participant over alle meetmomenten) gekeken worden als naar interindividuele verschillen (tussen de participanten).
s2 is de variantie. Om de variantie te berekenen door middel van standaarddeviaties, moeten de standaarddeviaties gekwadrateerd worden.
s2 is de variantie. Om de standaarddeviatie te berekenen door middel van de variantie, bereken je de wortel van de variantie om vanuit deze variantie naar standaard deviaties om te rekenen hoeft er alleen maar √s berekend te worden.
A. De eerste stap in deze berekening is om de sum of squares te delen door de populatie (N): 2000/5 = 400 = s2. Vervolgens trek je de wortel van deze uitkomst: √400 = 20.
Om een kruisproduct te berekenen kun de deviaties met elkaar vermenigvuldigen.
Lijst A en B zijn goed, correlaties kunnen tussen de -1 en 1 zijn.
D. Zowel de z-scores als de T-scores zijn correct.
Welke vragen worden gesteld in verband met de dimensionaliteit van een test?
I. Hoeveel dimensies de test heeft.
II. Hoe deze dimensies gemeten worden
III. Wanneer deze dimensies gemeten worden
IV. Of de dimensies gecorreleerd zijn.
De WISC intelligentietest is een voorbeeld van een:
Combineer de begrippen:
1. Unidimensionale test 2. Multidimensionale test met gecorreleerde dimensies 3. Multidimensionale test zonder gecorreleerde dimensies | A. Test with higher order factors B. Conceptuele homogeniteit C. Test without higher order factors |
Welke bewering(en) is/zijn waar?
I. Een test waarbij vragen alleen rekenvaardigheid reflecteren is een unidimensionale test.
II. Een test waarbij rekenvaardigheid en leesvaardigheid gereflecteerd worden is een multidimensionale test.
III. De WISC is een unidimensionale test.
Welke bewering(en) is/zijn niet waar?
Wanneer we naar de "eigenwaarden groter dan één" regel kijken, hoeveel dimensies zijn er dan?
Factor | Totaal |
1 | 1,500 |
2 | 1,200 |
3 | 0,900 |
4 | 0,750 |
5 | 0,450 |
6 | 0,350 |
Welke van deze beweringen zijn waar?
I. CFA gebruik je als je al een beter beeld hebt bij de test.
II. Met een CFA controleer je je eigen idee over bijvoorbeeld dimensies.
In een PCA-oplossing wordt veruit de meeste variantie verklaard door de eerste twee componenten. Er wordt een plaatje gemaakt van de 2-componenten oplossing, dat er als volgt uitziet:
Welk paar van variabelen is vermoedelijk het hoogst gecorreleerd?
Welke van de volgende uitspraken over principale componenten in PCA is niet juist?
C. De derde vraag (niet genoemd in deze vraag) die gesteld wordt is als er meer dimensies zijn, wat zijn dan die dimensies?
B. Een intelligentietest bestaat uit een algemene factor gemeten door verschillende subfactoren. De subfactoren vertegenwoordigen ieder verschillende soorten intelligentie.
A. Een test waarbij vragen alleen rekenvaardigheid reflecteren is een unidimensionale test, omdat er maar een dimensie gemeten wordt. Bij rekenvaardigheid en leesvaardigheid zijn dit er twee, dus dit is een multidimensionale test. De WISC is een multidimensionale test, want deze reflecteert verschillende psychologische attributen.
B. Het identificeren van het aantal dimensies ofwel factoren is de tweede stap bij het uitvoeren van een EFA. De eerste stap is het kiezen van een statistische techniek.
B. Bij de eigenwaarde groter dan één regel kijk je naar de aantal waardes groter dan 1. Iedere waarde groter dan 1 telt als een dimensie. In dit geval zijn er 2 waardes groter dan 1, de test bestaat dan mogelijk uit 2 dimensies.
C. Beide uitspraken zijn waar. CFA is een test om jouw bestaande idee over de test te controleren.
D. V2 en V3
A. Bij keuze van een principale component wordt ware score variantie gemaximaliseerd ten koste van error-variantie.
Uit welke van de onderstaande factoren is betrouwbaarheid niet afgeleid volgens de Klassieke Testtheorie?
Hoe wordt betrouwbaarheid in de klassieke testtheorie gedefinieerd?
Wat is een belangrijke assumptie over de error?
Wat zijn de gevolgen van de assumptie van vraag 3? Je mag meerdere antwoorden selecteren.
r2oe = 0.4, s2e = 20. Wat is de betrouwbaarheid?
S2e = 200, S2o = 600. Wat is de betrouwbaarheid?
Welke van de volgende beweringen zijn niet waar?
I. sem kan nooit groter zijn dan So
II. sem is 0 als RXX 1 is.
Soms kunnen twee testen parallel genoemd worden. Geef van iedere van de onderstaande aannames aan of deze test hieraan moet voldoen:
RXX= 0,7, S2o=200. Wat is sem?
Welk van de vier onderstaande modellen kent de meeste restricties (assumpties)?
Wat is de betrouwbaarheid van een test met een standaarddeviatie van de geobserveerde scores 15 en een standaardmeetfout van 9?
C. Totale scores horen er niet bij. Betrouwbaarheid is opgebouwd uit ware scores, geobserveerde scores en meetfouten.
C. De variantie van de ware scores gedeeld door die van de geobserveerde scores.
A. De error heeft een random effect en is onafhankelijk van de variabelen.
A en B.
A. Rxx= 1 - r2oe. Dus 1-0,4 = 0,6
C.
s2t = - s2o - s2e
s2t = 600 - 200 = 400
RXX = s2t / s2o
RXX = 400/600 = 0.67
B en D zijn niet waar: RXX= 1-r2oe. En coe is gelijk aan s2e.
C. Een error kan niet hoger zijn dan de totaal geobserveerde score. Als er geen meetfout zou zijn, was er een perfecte betrouwbaarheid.
B.
RXX= 0,7, s2o=200.
se = sem
s2e = so √(1 - RXX) = 200 √(1 - 0,7) = 109,54
se = √109,54 = 10,46
sem = 10,46
A. Bij parallelle testen worden de meeste assumpties gedaan. Naast de standaard assumpties uit de klassieke testtheorie telt dit model nog drie assumpties.
B.
so = 15 en sem = 9
sem = se
s2o = 152 = 225
s2e = 92 = 81
RXX = 1- (s2e / s2o)
RXX = 1- (81/225) = 0,64
Wanneer is er sprake van een paralleltest?
I. De twee testen zijn parallel als beide testen dezelfde set ware scores meten.
II. De twee testen zijn parallel als ze allebei evenveel errorvariantie hebben.
III. De twee testen zijn parallel als dezelfde test twee keer wordt gemeten.
Als proefpersonen een afwijkende score hebben door een eerdere test, kan er dan een goede betrouwbaarheid gemeten worden vanuit een paralleltest?
Welke van de redenen, waarom de stabiliteitsassumptie van de test-hertest betrouwbaarheid problematisch kan zijn, zijn waar? (Er kunnen meerdere antwoorden goed zijn).
Wat is het gevolg van het niet kloppen van de stabiliteitsassumptie?
Interne consistentie is een praktisch alternatief voor ‘alternate form’ en test-hertest betrouwbaarheid. Waarom is dit het geval?
Wanneer we kijken naar Split half estimates, en de rhh = 0,4. Wat is dan de Rxx?
Wat is de betrouwbaarheid wanneer je over deze gegevens beschikt: rii = 0,6. k=5?
Welke berekening is gebruikt bij de vorige vraag?
Wat is geen erkende schattingswijze van de betrouwbaarheid van een test?
Een test van 30 items wordt in twee parallelle stukken gesplitst van elk 15 items. De correlatie tussen de scores op elke stuk van 15 items bedraagt 0.60. Wat is de betrouwbaarheid van de gehele test volgens de “prophecy” formule van Spearman-Brown?
B. 1 en 2 zijn de standaardregels m.b.t. de paralleltest, regel nummer 3 heeft te maken met test-hertest betrouwbaarheid.
A. Dit zou volgens de klassieke testtheorie betekenen dat de errorscores wel correleren, waardoor er geen sprake meer is van een echte paralleltest.
Alle drie de antwoorden kloppen.
C. Als de stabiliteitsassumptie niet klopt heb je een score met daarin de verandering van de ware score en de meetfout, dus kan je geen van beide los bepalen. Je betrouwbaarheid kan door deze meetfouten niet goed berekend worden.
C. Bij een interne consistentie betrouwbaarheid heb je maar 1 test nodig en ook maar 1 testmoment om te bepalen wat de betrouwbaarheid is.
C = 0,57. Rxx= 2rhh / 1+rhh.
Rxx= (2x0,4)/ 1,4 = 0,8/1,4 = 0,57.
C. Rxx= krii / 1+(k-1) rii.
Rxx= (5x0,6) / (1+ (5-1) x 0,6 = 3 / 3,4 = 0,88
C. Gestandaardiseerde alpha coëfficiënt
D. De correlatie tussen de scores op een test voor een interventie en die op dezelfde test na de interventie.
B. 0.75
Let op aangepaste notatie in dit chapter:
Hoe ziet de formule voor de geschatte ware score eruit?
Rxx = 0,5, so = 5. Wat is de sem?
Wat is het 95% betrouwbaarheidsinterval voor de volgende gegevens?
sem = 5, Xt = 15, Xe = 5.
Welke van de beweringen kloppen?
Welke van deze gevolgen van meetfouten is niet waar?
Wat betekent het om een hoge item-totaal correlatie te hebben?
Wat wordt vergeleken bij de item discriminatie index (D)?
Wat zegt een itemgemiddelde van 0,85 bij een binaire test?
A. Xest = XMo+ RXX (Xo - XMo)
C. sem = so√(1-Rxx).
sem= 5 x √(1 - 0,5)
sem = 5 x 0,71 = 3.54
Voor het 95%-betrouwbaarheidsinterval gebruik je deze formule: Xo±(1,96)(Sem).
De z score bij 2 standaarddeviaties (95%) is 1,96. Die houden we aan in de formule.
sem is 5 dus Xo is de enige onbekende in de formule. We weten dan Xt+Xe=Xo.
Dus Xo is in dit geval 15+5 = 20.
20±(1,96)(5). --> 20±9,8. Betrouwbaarheidsinterval v. 95%: 10,2 tot 29,8.
B en C zijn goed.
D is de correlatie die berekend kan worden uit deze covariantie; A heeft notatiefouten.
B is fout want consequentie 4 geeft aan dat het mogelijk is de ware correlatie te schatten tussen een tweetal constructen. Er is een formule (de correctie van verzwakking) waarbij de ware correlatie mee geschat kan worden als er geen sprake zou zijn van verzwakking.
C. Dat een test-item consistent is met de test.
B. alleen goed beantwoorde vragen worden meegenomen in deze vergelijking.
A. 0,85 geeft de mate aan waarin participanten een item goed hebben beantwoord en dit staat gelijk aan 85%.
Indruksvaliditeit (face validity) is:
Als iemand wil weten of een test een goede meetmethode is voor een construct:
Factor analyse zorgt ervoor:
Welke functie heeft factor analyse niet?
Motivatie is in onze resultaten gecorreleerd aan betere resultaten, dit zou theoretisch ook zo moeten zijn. Er is sprake van:
In de theorie zijn IQ en geluk niet gecorreleerd, er komt geen verband terug in het onderzoek. Er is sprake van:
Het theorie rijexamen is een voorbeeld van:
Is het waar dat criterium validiteit wordt gebruikt om groepen te onderscheiden?
Welke vorm van validiteit staat centraal in onderzoek naar personeelsselectie?
De validiteit van een nieuwe vragenlijst voor depressie (N) wordt onderzocht door vergelijking met een bestaande vragenlijst voor depressie (D) en een bestaande vragenlijst voor werkhouding (W). Het uitgangspunt is dat depressie en werkhouding nauwelijks mogen samenhangen. De volgen de correlaties worden gevonden: rND = 0.63, rNW = 0.11 en rDW = 0.08. Dit wijst op:
Beoordeel of het juist is dat de “work sample” methode van personeelsselectie is gebaseerd op de volgende assumpties.
I. Toekomstig gedrag kun je goed voorspellen op basis van huidig gedrag.
II. Toekomstige werkprestaties zijn goed te voorspellen als je de persoonlijkheidskenmerken van de sollicitant weet.
A. Bij face validiteit draait het er alleen om dat het zo gerelateerd lijkt, niet of het wel of niet zo is.
B. Participanten en dergelijke verstaan wij in het algemeen onder de non-experts en als wij kijken naar de opinie over de validiteit van deze groep hebben we het over face validity: of het in eerste instantie zo lijkt te zijn.
A. In dit geval is de inhoud wel van belang. Hoe het eruit ziet en hoe betrouwbaar het is zijn hierbij van minder belang.
A. Gelinkte items aan bijbehorende factoren koppelen.
D. Zowel A als B
B. Convergent bewijs
A. Discriminant bewijs beschrijft de mate waarin testscores ongecorreleerd zijn met tests van ongecorreleerd construct.
B. Want de meting is de mate waarin de huidige testscore (kennis over verkeersregels) gecorreleerd is met een relevante variabele die in de toekomst pas gemeten kan worden (het kunnen autorijden en de verkeersregels toepassen).
A. Ja, criterium validiteit kan groepen verdelen (wel voldaan en niet voldaan aan een specifiek criterium).
B. Alleen convergente validiteit van N.
C. Beide stellingen zijn correct
Validiteit generalisatie onderzoek heeft als doel:
Waar staat MTMMM voor?
Wat is geen belangrijk kenmerk van een MTMMM?
Verbind de soorten correlaties aan de voorbeelden:
Correlatie | Voorbeeld |
1. Heterotrait-heteromethod 2. Heterotrait-monomethod 3. Monotrait-heteromethod 4. Monotrait-monomethod | A. Sociale vaardigheidsmeting via observatie en geluksgevoel via vragenlijst. B. Sociale vaardigheid via observatie en vragenlijst. C. Geluksgevoel en sociale vaardigheid via vragenlijst. D. Geluksgevoel via vragenlijst. |
Welke bewering(en) is/zijn waar?
Bereken de correlatie tussen motivatie en algemene interesse.
Ware correlatie is 0,6, Motivatietest is 0,81 betrouwbaar, Algemene interesse is 0,49.
De formule voor de correlatie tussen een continue en een dichotome variabele (rCD) is:
Als er uitgegaan wordt van de richtlijn van Cohen en er is een betrouwbaarheid van 0,58...
Als er uitgegaan wordt van de richtlijn van Hemphill en er is een betrouwbaarheid van 0,29...
Een test voor paranoia, een aandoening die bij 2.5 procent van de bevolking voorkomt, heeft een sensitiviteit (i.e., gevoeligheid) van .80 en een specificiteit (i.e., specifiekheid) van .95. Joop verneemt op basis van deze test dat hij een paranoia-lijder is, maar vermoedt dat zijn vijanden hierachter zitten. Hoe groot is de kans dat Joop werkelijk aan paranoia lijdt?
Wat verstaan we onder de specificiteit van een meetinstrument dat de aanwezigheid (positieve diagnose) of afwezigheid (negatieve diagnose) van een bepaalde aandoening wil vaststellen?
A. Het evalueren van het voorspellend vermogen van een testscore over verschillende settings en situaties.
MultiTrait-MultiMethod Matrices. (wat hier hoofdletters heeft vormt samen MTMMM)
D. bij een heterotrait-heteromethod wordt juist de laagste correlatie verwacht omdat correlaties door het gebruiken van dezelfde methode en dergelijke eruit gefilterd zijn.
Alle vier de beweringen zijn waar.
B. Rxoyo = rxtyt √(RxxRyy).
Rxoyo = 0,6 x(0,9x0,7)=0,6x0,63=0,378.
A. rCD = cCD / SD
C. ... dan is dit een grote correlatie
C. ... dan is dit een medium correlatie
C. 26 – 50 %
B. De kans dat iemand die de aandoening niet heeft een negatieve diagnose krijgt.
Op een multiple choice toets is er kans op welke types van response bias?
Bij welke bias is een participant het te snel eens of oneens met een statement, zonder de betekenis hiervan volledig te snappen?
Wanneer een test niet anoniem is, is er meer kans op:
Wat voor bias is waarschijnlijk bij iemand die de test lang vind duren en saai vindt?
Als iemand profijt heeft bij bijvoorbeeld een diagnose van een aandoening, welke bias zou dan kunnen voorkomen?
Welke stellingen zijn correct?
Welke van de genoemde stellingen zijn waar?
Bij welke van de vier opties hoort het voorbeeld:
Een man gaat naar de dokter voor een test van een aandoening. Een week later krijgt hij te horen dat uit de test blijkt dat hij inderdaad de aandoening heeft. De test is incorrect.
F. Er is kans dat mensen zullen gaan gokken bij een meerkeuze toets.
A. Acquiensence bias houdt in dat mensen snel ja of nee of in een richting antwoorden op een stelling zonder goed na te denken over wat de betekenis hiervan is.
C. Als mensen meedoen aan een test waarbij hun naam opgegeven moet worden is de kans groter dat ze sociaal wenselijke antwoorden zullen geven.
E. Als iemand de test saai vind of te lang vind duren bestaat er een kans dat diegene niet meer serieus de vragen zal lezen en beantwoorden. Diegene zal dan random of beurtlings antwoord gaan geven op vragen wat niets meer met zijn of haar eigen mening/ervaringen te maken heeft.
D. Overdrijven van problemen (Malingering) is een verschijnsel waarbij iemand doet alsof zijn of haar hersenletsel/ aandoening / dergelijke erger is dan daadwerkelijk het geval is, omdat diegene hier persoonlijk gewin uit kan krijgen. Toeslagen, uitkering, andere zorg of schadevergoedingen kunnen als voorbeelden worden gezien voor een dergelijk persoonlijk gewin.
Alle stellingen zijn waar.
C. Beide zijn waar.
B. Een false positive: het resultaat blijkt positief te zijn maar dit resultaat is niet terecht.
Wat is niet mogelijk met construct bias?
Voorspellende bias is er wanneer ...
Welke stelling is waar?
I. Item discriminatie index kan gebruikt worden om construct bias te ontdekken.
II. Differentiële item functie analyse kan ook gebruikt worden om construct bias te ontdekken.
III. Factor analyse kan gebruikt worden om de interne structuur van een test te evalueren, apart voor twee groepen.
Zijn deze uitspraken waar of niet waar:
Is een verschil in testscores tussen groepen genoeg reden om aan te nemen dat er dan een bias is? (mogelijk meerdere antwoorden)
Welke stelling is waar?
Wat is geen methode om construct bias te ontdekken?
Zijn deze stellingen waar of niet waar?
Zijn deze stellingen waar of niet waar?
Bij welke bias is er sprake van verschilconsistentie?
Welk type bewijs is niet van belang voor de constructvaliditeit?
A. Want construct bias houdt in dat scores op een test verschillende betekenissen kunnen hebben voor verschillende groepen. Met deze reden kunnen ze niet goed vergeleken worden.
A. De relatie tussen ware en geobserveerde score verschilt tussen twee groepen.
A. alle uitspraken zijn correct.
Alleen uitspraak A is waar, de soorten bias bij B en C zijn namelijk omgedraaid.
B en C zijn correct. A is niet correct, dit is een te snelle en eenduidige conclusie.
A. Alleen stelling I. is waar
D. Rank order is wel een methode om construct bias te ontdekken maar item order niet.
A is waar, B. niet: de regressieformule voor de gemeenschappelijke regressielijn is gebaseerd op de data uit alle groepen, niet uit slechts 1 groep.
Ja, alleen het intercept verschilt tussen de groepen, de richtingscoëfficiënt is gelijk.
A. Bij interceptbias blijft het verschil constant terwijl de x stijgt of daalt. Bij de rest is dit niet het geval.
A. Face validity van de items
CFA kan gebruikt worden om hypotheses over de interne structuur van een meetmodel te evalueren. Maar wat zijn de stappen die je moet nemen voor je hieraan kan beginnen?
I. Negatief gecodeerde items omgekeerd scoren.
II. Duidelijk maken welk construct je gaat meten + alvast aantal items ontwikkelen
III. Participanten vinden
IV. Zelf de test alvast maken
Als er een CFA uitgevoerd wordt, wat moet er dan als eerst worden vastgesteld?
Een factorlading is:
In de vierde stap wordt van het uitvoeren van de CFA met software wordt informatie gegeven over:
Wat zegt een significante chi-kwadraat over het veronderstelde model?
Welke van de factorladingen heeft de minste kans om in de test te blijven?
Hoeveel lower-order factoren heeft het model?
Welke van de “lower-order” factor heeft/ hebben de slechte lading op de “higher-order” factor?
Zijn de stellingen waar of niet waar?
Wat is in een confirmatieve factor analyse een gestandaardiseerd residu?
D. Zelf de test maken hoeft niet, de rest is wel van belang om af te hebben voor je de CFA uit gaat voeren.
Als eerste (na het invoeren van de gegevens) moet het aantal dimensies vastgesteld worden.
B. Dit is de mate waarin een item verbonden is met een factor. Deze factorlading is de eerste parameter, de tweede parameter is de verbinding tussen verschillende factoren.
B. Fit ofwel geschiktheid van model
A. Het kan inderdaad ook betekenen dat de steekproef groot was, (optie C en D) maar dat hoeft het niet per se te betekenen. Bovendien betekent een significante chi-kwadraat een slechte fit, en dus een slechte overeenkomst met de werkelijke resultaten. (B en D kunnen dus niet)
C. Hoe lager de factorlading hoe slechter de reflectie van de onderliggende factor, dit houdt in dat deze de meeste kans maakt om uit de test te verdwijnen.
B. De een na laatste kolom is hier de kolom met “lower-order” factoren. Dit is de kolom na de hoogste factoren voor de items.
A en B, dit zijn de laagste absolute waardes (- of + maakt niet uit).
A en B zijn waar. C is niet waar, deze methode kan namelijk bij zowel discriminante als convergente validiteit. D is waar; we kunnen convergente validiteit evalueren door een test en één of meer criteriumvariabelen te bekijken met behulp van CFA.
D. Het verschil tussen de fitmaat CFI en de gestandaardiseerde fitmaat NFI.
Welke van de beweringen zijn waar?
Er zijn vijf items bij een test en de test wordt op twee momenten gemeten door twee observatoren. Hoeveel facetten zijn er in dit onderzoek?
Zijn de uitspraken waar of niet waar?
Welke van de beweringen zijn waar?
Wat is de targetvariantie als er 4 items zijn, MSt= 5, MSres=1 en MSi= 2.
Er is een gerelizability coëfficient van 0,790. Wat is de noise als het signal 50 is?
Zijn de volgende beweringen waar?
Combineer de soort beslissing aan het bijbehorende voorbeeld en aan het bijbehorende soort test:
1. Relatieve beslissing | A. Rij-examen | I. Norm-referenced test |
2. Absolute beslissing | B. Auditie | II. Criterion-referenced test |
B en D zijn waar.
A. Er is 1 facet namelijk de items. Van de rest van de meetmogelijkheden is er maar 1.
C. Er zijn 5 items (1 facet) op 2 momenten (2e facet) door 2 observatoren (3e facet)
A is waar, B niet, dit gebeurt in de eerste stap van de G theorie analyse (de G study).
D is niet waar, de rest wel. Meetfouten kunnen de variabiliteit wel beïnvloeden.
C. Targetvariantie als er 4 items zijn, MSt= 5, MSres=1 en MSi= 2:
(MSt-MSres) /Ni. Ni = 4, (5-1) / 4 = 4/4 =1,00.
Er is een gerelizability coëfficient van 0,790. Wat is de noise als de signal 50 is?
De generizability coëfficient is signal/(signal+noise). De formule kan omgedraaid worden om signal te ontdekken.
50/(50+x) = 0,790. → keer (50+x) → 50=0,790*(50+x). → gedeeld door 0,79 → 63,29 = 50+x. → - 50 → X = 13,29. Noise is 13,29.
Zowel A als B zijn waar.
1-A-II.
2-B-I.
Relatieve beslissingen gaan over relatief beoordeelde scores en zijn norm-referenced (bijv. beste 20%). Absolute beslissingen gaan over een cut-off score die je moet hebben om iets gehaald te hebben, dit is criterion-referenced.
Welke van deze beweringen zijn niet waar?
Voor welke vraag is waarschijnlijk een hoger traitlevel nodig wanneer het trait vaardigheid in spelling is?
Zijn de beweringen waar of niet waar?
Er is een negatieve discriminatiewaarde van het item. Wat betekent dit voor de kans om een item goed te beantwoorden wanneer er sprake is van een hoog trait level?
Bij welke discriminatiewaarde is er sprake van de meeste validiteit?
Bij het Rasch model wordt gekeken naar:
(mogelijk meerdere goede antwoorden)
Het verschil tussen het Rasch model en het twee parameter logistische model is:
Vul de formule van het Rasch model in: Traitlevel = 2, Item moeilijkheid = 1,5. Wat is de kans op een correct antwoord?
Wat is het geschatte trait level als het proportie correct beantwoorde items van de respondent 0,7 is?
Welke van de volgende voorbeelden is GEEN benoemde toepassing van IRT?
Een test, bestaande uit vier items, meet een bepaalde vaardigheid. Gegeven zijn de item-karakteristieke curven van de items.
Welk item heeft de grootste discriminatieparameter?
Een test, bestaande uit drie items, meet een bepaalde vaardigheid. Gegeven zijn de item-karakteristieke curven van de items.
Wat is het meest waarschijnlijke scorepatroon (volgorde item 1, item 2, item 3, waarbij 1 =goed en 0 = fout) voor een persoon met een vaardigheid van θ = 6?
B is niet waar; IRT is juist complexer dan KTT.
B. Ervan uitgaande dat dit een hogere moeilijkheidsgraad heeft dan de opdracht bij antwoord A.
A is waar, B is niet waar; juist meer kans dan 50%, C is waar.
D. Die kans is laag want een negatieve discriminatiewaarde betekent dat hoge trait scores zorgen voor een kleinere kans om het item goed te beantwoorden.
A, want dat is de hoogste positieve score (alleen positieve scores bevestigen validiteit) negatieve geven juist inconsistentie tussen traitniveau en kans om goed te beantwoorden aan, dit duidt meer op slechte validiteit.
A. Dit is de uitkomst van het model en B + C : die worden meegenomen in de berekening.
A. De discriminatie parameter van het item is het verschil tussen de twee formules, beide houden ze verder rekening met trait level en moeilijkheid van het item.
D. 0,622
Trait level is Өs, Өs = 2. Itemmoeilijkheid is βi, βi = 1,5.
P(Xis=1| Өs, βi) = (e ^(Өs – βi) / (1 + e^(Өs – βi) )
P(Xis=1 | Өs, βi) = e^(2-1,5)/1+e^(2-1,5)
P(Xis=1 | Өs, βi) = e^(0,5)/ 1+e^(0,5)
P(Xis=1 | Өs, βi) = 1,6487 / 2,6487 = 0,622
C.
Proportie correct beantwoorde item van de respondent = PS. PS= 0,7.
Өs = LN(PS /1-PS)
Өs = LN (0,7/0,3) = LN(2,333) = 0,847.
B. Dit is een functie van de G theorie niet van IRT.
A. Item 1
D. 1,1,0
Je vertrek voorbereiden of je verzekering afsluiten bij studie, stage of onderzoek in het buitenland
Study or work abroad? check your insurance options with The JoHo Foundation
Je vertrek voorbereiden of je verzekering afsluiten bij studie, stage of onderzoek in het buitenland
Study or work abroad? check your insurance options with The JoHo Foundation
Add new contribution