Samenvatting van de hoofdstukken Validiteit, Analyse van tests, Beslissend testgebruik, Utiliteit analyse, Item respons theorie

Let op: deze samenvatting is door een student geupload en dus niet gecontroleerd voor publicatie


Hoofdstuk 5 validiteit

Validiteit is de geldigheid van een test of dat het meet wat het echt moet meten. Het begrip en doel zijn onlosmakend met elkaar verbonden.

Validiteit is een overkoepelend begrip, een verzamelnaam voor meerdere eigenschappen. Hierdoor zijn er ook meerdere soorten empirische gegevens nodig om steun te geven aan validiteit.

Er wordt een onderscheid in twee vormen testgebruik.

  • Beschrijvend, hierbij worden eigenschappen of gedrag gemeten.

  • Beslissend, dit is bijvoorbeeld een selectie of een diagnostisering. Hier is ook steun nodig

Bij beschrijvend ligt de nadruk op validatie, hier is dus steun voor de dekking van het onderliggende theoretische begrip nodig. Bij beslissend is er ook steun voor de voorspelling door de test van een extern criterium.

Er zijn twee soorten validiteit:

  • Criteriumgeoriënteerd, dit is gericht op voorspellen.

  • Begripsvaliditeit, dit is gericht op de dekking van het begrip.
     

Historisch overzicht

De theoretische opvatting over validiteit van meetinstrumenten heeft zich steeds ontwikkeld. Eerst werd validiteit sterk gedefinieerd als criteriumgeoriënteerde validiteit en gekoppeld aan de voorspelling van een specifiek criterium. Met als gevolg dat er heel veel verschillende criteriumgeoriënteerde validiteiten ontstonden. Om deze groei tegen te gaan werden er drie typen validiteiten onderscheiden, namelijk inhouds- criteriumgeoriënteerde- en begripsvaliditeit.

  • Inhoudsvaliditeit wordt bepaald door te bekijken hoe goed de inhoud van de test het universum aan situaties bestrijkt, waarover de conclusies geformuleerd worden.

  • Criteriumgeoriënteerde validiteit wordt bepaald door de test te vergelijken met andere variabelen die een directe maat voor het kenmerk zijn.

Deze wordt opgedeeld in predictief, dus toekomstgericht en concurrent als het criterium gelijktijdig wordt gezien.

  • Begripsvaliditeit wordt bepaald door te kijken of een begrip een testprestatie kan verklaren.

Deze drie vormen hebben lang aangehouden, maar zijn nu opgeschoven naar één breed

validiteitsbegrip. Begripsvaliditeit is nu een overkoepelend begrip, de twee anderen

dragen hieraan bij.

Naast meetinstrumentvaliditeit is er ook validiteit van wetenschappelijke beweringen, wat wordt opgedeeld in vier vormen.

  • Statistische conclusievaliditeit. Dit gaat over de houdbaarheid van statistische conclusies.

  • Interne validiteit. Gaat over het trekken van causale conclusies

  • Externe validiteit. Dit is de generalisatie het experiment naar de echte wereld.

  • Begripsvaliditeit. Of het begrip goed geoperationaliseerd is.

Toepassing

Het toepassingsgebied van validiteit ging in het begin enkel over de voorspelling van bepaalde criteria, nu gaat het over alle gevolgen testgebruik. Zoals, discriminatie, relevantie en utiliteit. Hierdoor wordt het voor de ontwikkelaar praktisch onmogelijk om met alles rekening te houden.

Criteriumgeoriënteerde validiteit

Als een test gedrag buiten de testsituatie voorspelt is het belangrijk dat het instrument echt een goede voorspeller is van dit gedrag. Hier gaat criteriumgeoriënteerde validiteit over. Als een test de varianties in het criterium goed kan voorspellen, dan is de validiteit ook goed.

Net als bij een test is een criterium een operationalisatie van een onderliggend begrip. De test meet de eigenschap en het criterium het daaruit voortkomende gedrag. Op drie manieren wordt er onderscheid gemaakt tussen criteria.

  • Specifiek of globaal. Dit wordt ook aangeduid als respectievelijk gesloten en open. Gaat over bijvoorbeeld gedrag in een bepaalde situatie of in verschillende situaties.

  • Onderscheid in tijd. Het criterium kan in de toekomst, heden of verleden zijn. Dit geeft een opdeling in ten eerste predictief, waarbij de criteriumprestaties later beschikbaar zijn dan de testprestaties. En ten tweede, gelijktijdig, hierbij is het criterium gelijk met de test gemeten.

  • Uiteindelijk, tussentijds en onmiddellijk criterium. Een voorbeeld is hierbij voor bepaald werk, uiteindelijk: uitvoeren van het werk, tussentijds: de opleiding voor het werk en onmiddellijk het vakkenpakket voor de opleiding.

Het uiteindelijke criterium is het meest relevant, maar heeft als probleem dat de data vaak niet (meteen) beschikbaar is.

Meestal worden er bij uitspraken combinaties van deze drie manieren gemaakt.

De relatie tussen test en criterium

De relatie wordt uitgedrukt in correlatie. Er is dus geen oorzakelijk verband, bij een voorspelling van een criterium door een test wordt er dus enkel samenhang bedoeld. De voorwaarde is, dat deze relatie een inhoudelijke verklaring heeft.

Onderzoek van criteriumgeoriënteerde validiteit

Onderzoek is gericht op het vastleggen van relaties tussen de testscore en de criteriummaat. Als de relatie bekend is kan de criteriumscore voorspelt worden door de testscore. Een goede definitie- en een goede operationalisatie van het criterium zijn hiervoor belangrijk. Daarnaast zijn er meerdere criteria mogelijk voor de meting van het begrip, het is tevens belangrijk dat de juiste keuze wordt gemaakt.

Keuze van de criteriummaat

Door de criteriummaat wordt het criterium gemeten. De criteriummaat is een duidelijke niet verwarrende uitspraak, die over het criteriumgedrag gaat. De juiste keuze is lastig, omdat de benodigde gegevens vaak niet beschikbaar zijn.

Een criteriummaat kan een kwantificerende meting van het criteriumgedrag zijn. De criteriummaat wordt dan gemeten op een metrische schaal. De meeteenheid wordt dan gerepresenteerd door de afstand op de meetschaal, deze punten op de schaal hebben een numerieke betekenis. Er zijn ook vaak een niet-kwantificerende criteriummaten, dan hebben de schaalpunten geen numerieke betekenis, zoals bijvoorbeeld nominale waardes als gekozen beroep. De Pearson-productmoment-correlatiecoëfficiënt tussen test en criterium kan enkel berekend worden als ze beide op een metrische schaal zijn gemeten.

Een criteriummaat kan ook gemaakt worden met criteriumgroepen. Een criteriumgroep is een voor het gebruiksdoel van de test representatieve groep waarvan alle leden hetzelfde criteriumgedrag vertonen en waarvan de criteriumscores bekend zijn. Bijvoorbeeld, bij angst voor tandheelkunde zijn er twee criteriumgroepen: extreem angstig patiënten met speciale behadeling en niet angstige patiënten met een normale behandeling. Het criterium is dan het al dan niet extreem angstig zijn voor de behandeling. De criteriumscore wordt bepaald door de behandeling dus, speciaal of normaal. Dan worden de patiënten op basis van een vragenlijst geclassificeerd als angstig of niet. Er is dan steun voor de validiteit als die classificatie goed is gelukt. Dit betekend dus dat de vragenlijst de mensen goed kan classificeren.

Betrouwbaarheid en validiteit van de criteriummaat

Voor een criteriummaat gelden dezelfde eisen van betrouwbaarheid en validiteit als voor een test. De meting van het criterium moet voldoende betrouwbaar en valide zijn om conclusies te trekken. Onbetrouwbare criteriumscores leiden onvermijdelijk tot een lage correlatie en geven dus niet steun aan de validiteit.

De validiteit van de criteriumscore, wat betreft de precieze meting van het onderliggende criterium geldt dat deze aannemelijk moet zijn, dit een subjectieve beoordeling.

Test en criterium kunnen van rol wisselen, als een test heel erg ingeburgerd raakt. Zoals dat de CITO-toets als criterium voor de validiteit van de onderwijsadviezen wordt gebruikt.

Samenstelling van de steekproef

Onderzoek naar de criteriumgeörienteerde validiteit van een test bevatten vaak algemene uitspraken die breder zijn dan de eigenlijke steekproef waar het onderzoek op gebaseerd is. Om dit te kunnen doen moeten de steekproeven groot en representatief genoeg zijn. Het gebruik van specifieke groepen is enkel gerechtvaardigd, als het bijdraagt aan ander onderzoek (met een andere steekproef) of als de onderzoeker kan aangeven dat de groep representatief is voor de totale bevolking op de gemeten variabelen.

Daarnaast moet de steekproef ook zorgen voor voldoende spreiding in de criteriumscores, dit komt ten goede aan de betrouwbaarheid van de criteriummaat.

Predictieve criteriumgeoriënteerde validiteit

Predictief onderzoek betreft meestal longitudinaal onderzoek, dit kent een aantal problemen als gevolg van de verstreken tijd tussen de testafname en de meting van het criterium.

  • Uitval en verandering van deelnemers

  • Verandering van de omgeving

Dit is van invloed op de validiteitscoëfficiënten. Een ander probleem bij selectie is dat enkel geschikten worden aangenomen, maar ongeschikte kandidaten worden niet beoordeeld. Met als gevolg dat er enkel een criteriummaat is voor geschikten. Hierdoor wordt de groep homogener en door deze ‘restriction of range’ wordt de correlatie tussen test en criterium lager.

Gelijktijdige criteriumgeoriënteerde validiteit

Bij onderzoek naar Gelijktijdige criteriumgeoriënteerde validiteit is contaminatie tussen test en criterium een probleem. Ook is hierbij de ‘restriction of range’ een probleem dit komt door :

  • selectie op een andere variabele die samenhangt met het criterium, zoals leeftijd bij studenten uit het eerste jaar.

  • Plafond en bodem effecten.

Begripsvaliditeit

Begripsvaliditeit is de mate waarin een test een goede meting is van het onderliggende

construct. Dit is van belang, omdat ieder meetinstrument een operationalisatie is van

het theoretische begrip.

De relatie tussen de test en het niet direct te meten onderliggende begrip wordt afgeleid uit de combinatie van

  • Inhoudsdomein

  • Interne structuur

  • Nomologisch netwerk.

Inhoudsdomein

Het inhoudsdomein van een begrip omdat een beschrijving van het universum van verschijnselen waar het begrip over gaat. Een rekentest moet bijvoorbeeld bestaan uit items over hoofdrekenen, breuken enz. die dus representatief zijn voor dat universum. Dit is vaak niet zo simpel als het lijkt en de groot maakt een onderscheid:

  • Theoretische begrip zoals bedoeld

  • Empirische begrip zoals bepaald, dit is de operationalisatie

Het begrip zoals bedoeld heeft vaak een surplus-betekenis, zoals Agorafobie, wat niet in een operationele definitie valt te vangen. Deze surplus-betekenis ten opzichte van het meetinstrument moet beperkt zijn.

Het inhoudsdomein geeft ook de reikwijdte van de verschijnselen aan. Dit betekend bijvoorbeeld dat bij een basisschool rekentoets, enkel bekende vaardigheden worden opgenomen. De facetmethode biedt een systematische manier om het inhoudsdomein van een begrip ik kaart te brengen in items. Een facetontwerp kan ook achteraf gebruikt worden om de dekking van het inhoudsdomein te onderzoeken.

Interne structuur

Met behulp van de inhoudsdomein kan worden opgemaakt of het begrip uit meerdere begrippen bestaat. Daaruit kan de interne structuur worden bepaald. Meervoudige begrippen moeten worden gemeten met behulp van meerdere eendimensionale subschalen. De items laten binnen hun subschaal dan meer correlatie zien. Een hoge interne consistentie levert niet altijd steun aan de begripsvaliditeit van een test.

Nomologisch netwerk

Het nomologisch netwerk bestaat uit relaties van het begrip met andere begrippen, uit relaties met operationalisaties van die begrippen en uit relaties tussen de operationalisaties onderling. En er moeten toetsbare uitspraken uit afgeleid worden. Op theoretisch niveau kan je de gelijkenissen en verschillen tussen begrippen beschrijven om een begrip te plaatsen en af te bakenen van andere verwante begrippen.

Een test zou samen moeten hangen met andere testen die hetzelfde begrip meten al helemaal als ze ook dezelfde meetmethode gebruiken.

Onderzoek naar begripsvaliditeit

Het onderzoek is gericht op het vinden van steun voor de volgende drie punten:

  • Dekking van het inhoudsdomein

  • Interne structuur

  • Relatie met andere begrippen

De dekking van het inhoudsdomein wordt als volgt afgeleid, eerst wordt het inhoudsdomein omschreven en dan worden de items systematisch uit het domein getrokken. Empirisch kan het ook, door twee tests die hetzelfde begrip meten aan elkaar te correleren en het verband te bekijken.

Er zijn twee foutieve vormen van dekking:

  • Partiële: de items zijn samen niet representatief voor het universum van verschijnselen.

  • Foutieve: de items meten iets anders dan het eigenlijke begrip

Daarnaast kunnen sociaal wenselijkheid en antwoordtendentie ook invloed hebben op de dekking.

De interne structuur van een test wordt onderzocht door een eendimensionaal model te passen. De juiste passing geeft enkel steun voor de begripsvaliditeit als het begrip echt door de test gemeten wordt. Als een meerdimensionaal begrip gemeten moet worden zoals voor ‘the big five’, dan moeten de verschillende aspecten van het begrip eendimensionaal gemeten kunnen worden.

Voor de relatie met andere begrippen, worden de correlaties met andere vewante- en niet verwante begrippen bekeken.

Multitrek-multimethodematrix van Campell en Fiske

Dit is een manier om begripsvaliditeit van een test te evalueren. Hierin wordt elke test gezien als een combinatie van een trek en een methode. Er wordt een trek gemeten volgens een bepaalde methode. Verschillen op de trek en methode zorgen voor systematische variantie van de scores.

Voor de validatie is convergentie met verwante begrippen en divergentie met niet-verwante begrippen nodig.

Bij de methode moeten met verschillende onafhankelijke meetmethoden verschillende trekken worden gemeten. Om convergentie aan te tonen moet dit met verschillende methodes. Voor divergentie moeten ook nog meerdere trekken gemeten worden. Deze combinaties van trekken en methodes worden in een multitrek-multimethodematrix weergeven. Hierin worden verschillende delen onderscheiden met verschillende interpretaties bij figuur 8.4 op blz. 65:

  • De hoofddiagonaal geeft de correlaties van de tests met zichzelf, hier staan de betrouwbaarheidscoëfficiënten aangeduid met b’s.

  • Daaronder staan in driehoeken de correlaties van de tests met dezelfde methode maar met verschillende trekken. Ze geven de gemeenschappelijke methodevariantie en worden aangeduid met de m. Als de trekken onderling ongecorreleerd zijn, geven ze de correlatie tussen de methodes weer.

  • De sub diagonalen daaronder geven de correlaties van tests die dezelfde trek meten, met verschillende methodes. Ze worden aangeduid met c en ze zijn aanwijzingen voor convergentie.

  • De driehoeken eronder en erboven zijn de correlaties tussen tests met verschillende trekken gemeten met verschillend methoden. Ze worden aangeduid met d en ze geven informatie over divergentie.

Er zijn een aantal richtlijnen voor de matrix bij de evaluatie van validiteit, ze staan hieronder:

  • De correlaties c moeten significant van nul afwijken en groot genoeg zijn om steun aan de begripsvaliditeit te geven.

  • De correlaties c moeten groter zijn de correlaties d

  • De correlaties c moeten groter zijn dan de correlaties m

  • Het patroon van de correlaties tussen de trekken moet voor dezelfde en verschillende methode terug te vinden zijn.

Voor de onafhankelijkheid geldt dat trekken en methoden onderling niet onafhankelijk

hoeven te zijn voor deze methode.

Nieuwe ontwikkelingen

Kritiek op de methode is dat de conclusies zijn gebaseerd op geobserveerde variabelen, die onbetrouwbaar kunnen zijn. Met confirmatieve factoranalyse kunnen uitspraken worden gedaan over de latente variabelen.

De benadering van begripsvaliditeit wordt niet meer enkel gedaan met het testresultaat, maar ook met processen die tot het testresultaat leiden.

Hoofdstuk 6 analyse van tests

Klassieke testtheorie

Bij testconstructie moeten veel items verwijderd worden, dus worden er in het begin altijd (te) veel items gemaakt. De klassieke itemanalyse bestaat uit drie stappen:

  1. De ondergrens van de betrouwbaarheid bepalen

  2. De item analyse gevolgd door item herziening

  3. Deze herziening stopt als het vastgestelde doel wordt bereikt, de betrouwbaarheid wordt dan opnieuw bepaald.

Betrouwbaarheid

Bij betrouwbaarheid (interne consistentie) is de eerste stap het bepalen van de betrouwbaarheid van de totale itemverzameling, dit geeft een snel inzicht in de bruikbaarheid. Als dit te laag is kunnen slechte items verwijderd worden, wat leidt tot hogere parallelliteit van de items, dus tot hogere betrouwbaarheid.

De meest gebruikte betrouwbaarheidscoëfficiënt is Cronbach Alpha (2.13) blz. 82.

Spearman-Brown betrouwbaarheid kan ook. Dit is de schatter voor de betrouwbaarheid van een test die bestaat uit k parallelle delen (10.1) blz. 83.

De geschrikte betrouwbaarheidsgehaltes zijn als volgt:

  • 0,8 is algemeen goed.

  • 0,9 is voor beslissingen van individuele gevallen zoals individuele diagnose goed.

  • 0,7 is voor onderzoeksituaties goed.

Itemanalyse

Itemanalyse is het onderzoek naar de psychometrische kwaliteit van de items. Een item

draagt onvoldoende bij als de variantie en de correlatie met andere items te klein zijn. In hun

totaliteit worden ze op de volgende punten beoordeeld.

  • Itemmoeilijkheid

  • Itemvariantie

  • Itemtest- en itemrest correlatie

  • Itembetrouwbaarheidsindex

  • Van Naerssens f

itemmoeilijkheid

De itemmoeilijkheid is gelijk aan het gemiddelde en bij dichotome items is dit gelijk aan de proportie deelnemers die het item correct maken. Dit heet Pi en dit ligt altijd tussen de nul en de één. Heel moeilijke en heel makkelijke items hebben weinig variantie en zijn daarom niet nuttig. Al zijn makkelijke items nog handig om deelnemers te laten wennen aan de test als ze in het begin staan. De moeilijke items bevatten veel foutenvariantie en moeten dus wel verwijderd worden.

Itemvariantie

Als alle deelnemers hetzelfde antwoorden op de items dan is de itemvariantie nul, dan geeft dit dus geen informatie. Een grotere variantie draagt wel bij aan de betrouwbaarheid. De formules voor de betrouwbaarheid zijn 10.3 en 1.20 op blz. 85.

Itemtest- en itemrest correlatie

Item-intercorrelatie wordt berekent door van ieder tweetal items de correlatie te berekenen. Deze kunnen in een item-intercorrelatiematrix worden weergeven. Hiervoor gelden een aantal richtlijnen.

  • De matrix mag geen negatieve correlaties bevatten, tenzij er items nog niet omgerekend moet worden van contra-indicatief naar normaal.

  • Er mogen niet te hogen correlaties voorkomen, dan meten de twee items namelijk teveel hetzelfde item. Één van de items is dan overbodig.

  • De scores moeten tussen de 0,2 en 0,7 liggen.

  • Het gemiddelde moet rond de 0,3 liggen.

Itemdiscriminatie

Itemdiscriminatie geeft aan in welke mate een item onderscheid kan maken tussen personen

die hoog of laag scoren op de test. De twee groepen of personen beantwoorden dit item dan dus anders. Dit wordt uitgedrukt in item-testcorrelatie dit hangt samen met interne consistentie en de testhomogeniteit. Een positieve waarde geeft een goede discriminatie aan.

Elk item correleert natuurlijk hoog met zichzelf, dit beïnvloed de item-testcorrelatie erg. Om die reden wordt de item-restcorrelatie berekend, dit is de correlatie zonder dat ene item in de gehele test. Bij dichotome items heet dit de punt-biseriële correlatie.

Een geschikte ondergrens is 0,20 en bij studietoetsen moet hij tussen e 0,30 en 0,40 liggen. Als de waarde negatief is dan gaat het om een contra-indicatief item. De item-test- en item-restcorrelatie zijn afhankelijk van andere items uit de test.

Item betrouwbaarheidsindex

De item betrouwbaarheidsindex is een combinatie van de itemvariantie en de itemdiscriminatie. Het is het product van de standaardafwijking van de itemscores en de productmomentcorrelatie van de item- en testscores.

Van Naerssens f

Van Naerssens f is gebaseerd op de signaal-ruisverhouding (F), zie 10.4 blz. 91.

Bij 10.5 blz. 91 duidt fi het verschil aan van de verhouding van de totale test en de test waaruit het item i is verwijderd.

Een positieve waarde betekent, dat de toevoeging van item i de betrouwbaarheid van de test verhoogt. Een negatieve waarde geeft aan dat dit item juist de betrouwbaarheid verlaagt.

Er zijn twee eigenschappen van Naerssens f

  • De index heeft een betekenisvol nulpunt, dit geeft aan dat het item niets bijdraagt aan de betrouwbaarheid.

  • De fi’s zijn onafhankelijk van de testlengte en daarom vergelijkbaar voor tests met verschillende lengtes.

De f-index is afhankelijk van andere items en daarom moet bij verwijdering van één item de f

opnieuw bepaald worden.

Hoofdstuk 7 beslissend testgebruik

Beslissingssituaties

Er zijn vier typen psychometrische beslissingssituaties

  • Classificatie is de toewijzing aan kwalitatief verschillende banen op grond van tests

  • Plaatsing is ook toewijzing aan kwalitatief verschillende ‘entiteiten’, maar

hierbij krijgt ieder hetzelfde criterium. Dus bijvoorbeeld leerlingen krijgen een andere lesmethode, maar ze maken allen dezelfde toets.

  • Selectie, hierbij is de keuze van selectie gebaseerd op tests en het criterium is

later succes.

  • Beheersing voorspelt een latente trek of score door een studietoets, dit is

een intern criterium.

Bij de eerste drie voorspelt een test het externe criterium. Bij beheersing voorspelt een test het intern criterium.

Selectie

Het criterium is bij selectie altijd ordinaal, hier volgen wat voorbeelden:

  • Metrisch: schoolcijfer

  • Polytoom: goed, voldoende, onvoldoende

  • Dichotoom: goed, fout

Bij selectie worden er een aantal onderscheidingen gemaakt:

  • quota vrije selectie, hierbij is er geen limiet aan de selectie als er maar aan het criterium wordt voldaan.

  • quota beperkte selectie, hierbij worden bijvoorbeeld maar drie vacatures gegeven.

Daarnaast wordt er ook nog onderscheid gemaakt tussen populatie en subpopulatie.

Bij een continu en metrisch criterium kan er een lineaire regressie analyse gebruikt worden. Er worden dan verschillende predictoren toegevoegd, zoals opleiding en interviewindruk om het criterium te voorspellen. Deze predictoren/parameters moeten in empirisch onderzoek geschat worden.

Quotavrije selectie

Bij quotavrije selectie kan het aantal sollicitanten bepaald worden door besliskunde met behulp van utiliteitsfuncties. Utiliteit is de opbrengst van de selectieprocedure. De grens tussen positief en negatief op het criterium wordt d genoemd. Het percentage geschikten heet de base rate. De cesuur is een ander soort grens c en deze kan aangepast worden met het volgende effect:

  • Bij lage cesuur worden er veel aangenomen.

  • Bij hoge cesuur worden er weinig aangenomen.

Het percentage aangenomen heet selectieratio.

Voor het bepalen van de ultieme cesuur wordt een utiliteitsfunctie opgesteld. De c’s en d’s delen de groep in vieren op criterium z. z’ is de verwachte score op het criterium.

1. Terecht aangenomen z’ ≥ d

2. Terecht afgewezen z’

3. Onterecht aangenomen, de sollicitanten zijn eigenlijk ongeschikt z,>

4. Onterecht afgewezen, de sollicitanten zijn eigenlijk ongeschikt z≥ d, toch heb je z’

De waarden in opbrengst voor deze situaties zijn als volgt:

  • Terecht aangenomen s

  • Terecht afgewezen p

  • Onterecht aangenomen r

  • Onterecht afgewezen q

Door de cesuur aan te passen wordt de verhouding aangenomen/afgewezen anders. En door de groepen bij elkaar op te tellen krijg je de verwachte utiliteit. De cesuur is optimaal als deze utiliteit maximaal is.

Om de optimale cesuur te bepalen hoef je niet alle utiliteiten afzonderlijk te bepalen. Enkel het bepalen van Q is voldoende: Q= (p-r)/(s-q).

Je vind dan bij Q1 is dit andersom.

Bij cultuureerlijke selectie gaat het om de vraag of meerdere subpopulaties onderscheiden moeten worden en of verschillende cesuren gebruikt moeten worden voor verschillende subpopulaties. Hierbij kan zowel quota vrije- als beperkte selectie gebruikt worden.

Bij cultuureerlijke selectie zijn er per subpopulatie vaak verschillende regressiefuncties nodig, dit heet differentiële predictie.

Als twee regressielijnen van subpopulaties niet parallel lopen heet het niet-uniforme differentiële predictie.

Een complicerende factor hierbij is, dat de varianties tussen de populaties ongelijk kunnen zijn.

Bij selectie is utiliteit u een functie van de beslissingen over een persoon en de criteriumprestatie z waartoe de persoon in staat is. Deze functies moeten door de beslisser gespecificeerd worden en zijn utiliteit van beslissingen weergeven. Er zijn verschillende functies die het verband tussen criteriumprestatie en utiliteit weergeven, namelijk drempel-, lineair- en normaalogieffunctie.

Hoofdstuk 8 utiliteit analyse

Utiliteit

Utiliteit analyse is een groep technieken die door kosten en baten afwegingen laten zien wat relevant is voor beslissingen.

Een manier gaat over verwachtingsdata, dit geeft een waarschijnlijkheid dat iemand op een test binnen een bepaalde schaal scoort op een criteriummeting.

Een voorbeeld hiervan is de Taylor-Russel tabel, deze geeft bijvoorbeeld een schatting van aangenomen personeel op basis van een bepaalde test, die daadwerkelijk succesvol zullen zijn. Hierbij wordt testvaliditeit, selectieratio en base rate meegenomen. Er zijn echter twee beperkingen:

  • De relatie tussen predictor (test) en criterium moeten lineair zijn.

  • Er is lastig een criterium te vinden dat succesvolle- van onsuccesvolle werknemers scheidt.

Op een andere manier kan het met de Naylor-shine tabel. Deze leidt aan de hand van het verschil tussen de gemiddeldes van de geselecteerde- en ongeselecteerde groepen af wat de test toevoegt aan de al bestaande procedure. In de praktijk zijn er natuurlijk nog meer variabele van toepassing dan validiteit en selectieratio denk aan bijvoorbeeld de sollicitatie indruk

Termen

Hier volgen een aantal termen die van belang zijn bij selectie en utiliteit.

  • Top-down selectie is een proces waarbij de hoogste score de eerste positie krijgt, dit kan discriminerende effecten hebben.

  • Hit is de juiste classificatie.

  • Miss is de onjuiste classificatie.

  • False positive is een onjuiste classificatie, waarbij de test foutief zegt dat iemand een bepaalde eigenschap heeft.

  • False negative is een onjuiste classificatie, waarbij de test foutief zegt dat iemand niet een bepaalde eigenschap heeft.

Het is praktisch onmogelijk om zowel een lage false positive, lage false negative, veel hits en lage kosten te hebben bij een test.

Bij een strengere of hogere cesuur gaat de selectieratio omlaag. En bij een zeer lage cesuur wordt de false negative richting nul gebracht, er worden dan namelijk weinig mensen in eerste instantie afgewezen.

In een plot met punten zijn de verhoudingen als volgt: er staat een assenstelsel met in de linker bovenhoek false negative, in de rechter bovenhoek true positve, in de linker onderhoek true negative en in de rechter onderhoek false positive. De y-as in dit stelsel is de cesuur en die kan je naar rechts (strenger) of links (minder streng) bewegen om de verhoudingen in dit stelsel aan te passen.

Hoofdstuk 9 item response theorie

Item response theorie (IRT) is een groep van technieken die een manier geven om de kans te vormen, dat een persoon met vaardigheid x, ook presteert op level y. Je specificeert een meetmodel waarin de items gelinkt worden aan het onderliggende construct dat je wilt meten.

Twee karakteristieken van de IRT zijn

  • Het moeilijkheidslevel van een item

  • Het discriminerende level

Moeilijkheid geeft aan hoe eenvoudig een item begrepen wordt en opgelost wordt. Algebra heeft bijvoorbeeld een hoger level dan rekenen.

Discriminatie geeft de mate van onderscheid aan tussen mensen met hogere en lagere levels van de trek.

Bij klassieke testtheorie krijgen de items gelijke waardes van gewicht, bij IRT kunnen er verschillende gewichten worden gegeven aan deze waardes van de items.

Binnen de IRT modellen valt er een onderscheid te maken tussen de behandeling van de data.

  • Dichotome test items, dit zijn twee opties zoals ja of nee en goed of fout.

  • Polytome test items, hierbij zijn er meer dan twee opties.

Het verschil tussen IRT en klassieke testtheorie

Bij klassieke testtheorie worden er geen assumpties over de frequentieverdeling van de

scores gedaan, bij IRT is dit wel zo. Bij IRT lopen de waardes (en dus ook de assen in een

grafiek) van min oneindig tot plus oneindig, dit is bij de klassieke testtheorie niet het geval.

Bij IRT zijn er drie assumpties

  • Unidimensionaliteit, dit betekend dat een set items maar één trek meet.

  • Lokale onafhankelijkheid geeft aan dat er maar één systematische relatie is tussen alle test items. En dat de latente trek deze samenhang verklaart, dit mag dus niet nog door een andere trek verklaard worden.

  • Monotoniciteit zegt dat hoe hoger de trek hoe hoger de score op het item.

IRT is vrij robuust, dus kleine schendingen van de assumpties maakt niet uit.

Itemkarakteristiek curve

De relatie tussen trek en item response wordt grafisch weergeven door de itemkarakteristiek

curve, waarbij de trek op de x-as staat.

De informatie functie curve is een parabool die handig de discriminatie tussen de deelnemers aangeeft. Hierbij staat de informatie op de y-as en de trek op de x-as, weinig informerende items kunnen zo heel makkelijk verwijderd worden. Er zijn een aantal punten die dit informatiegebrek kunnen veroorzaken.

  • De iteminhoud is niet gelijk aan het eigenlijk gemeten construct.

  • Het item is slecht verwoord.

  • Het item is te ingewikkeld.

  • De plaats van het item in de test is verkeerd.

  • Er is invloed van culturele factoren op het maken van de test, wat zorgt voor discriminatie van de deelnemers.

Er kan ook een schaal informatie functie curve worden gemaakt. Hier staat de reliability op de y-as. Hierin zijn alle items verwerkt en kan bepaalt worden voor welke reliability en welke mate van de trek de test informerend is.

Bij de klassieke testtheorie kan deze mate van de trek niet meegenomen worden, hier wordt minder onderscheid gemaakt.

Contributions, Comments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Summaries & Study Note of World Supporter Cycle
Join World Supporter
Join World Supporter
Log in or create your free account

Why create an account?

  • Your WorldSupporter account gives you access to all functionalities of the platform
  • Once you are logged in, you can:
    • Save pages to your favorites
    • Give feedback or share contributions
    • participate in discussions
    • share your own contributions through the 11 WorldSupporter tools
Content
Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
63