Samenvatting Handbook on measurement, assessment and evaluation in higher education (Secolsky & Denison). Deel 1
- 1850 reads
Dit 2e deel van de samenvatting bij Handbook on measurement, assessment and evaluation is geschreven in het studiejaar 2013-2014.
Traditioneel technisch onderwijs (‘career and technical education’; CTE) benadrukt een actieve en praktische training in basisprocedures. Echter, de nieuwe vakgebieden van de 21e eeuw combineren deze praktische vaardigheden met twee ander elementen: de toepassing van geavanceerde wiskundige en wetenschappelijke concepten en samenwerking met andere disciplines. Dit hoofdstuk beschrijft hoe bewijsgerichte assessmentreflectie (‘evidence-centered assessment reflection’; EC-AR) nuttig kan zijn bij het afstemmen van de leerdoelen van technische cursussen met de eisen van het nieuwe technologische vakgebied. Deze benadering is gebaseerd op het bewijsgerichte design: een alternatief voor de klassieke testtheorie en de itemresponstheorie. Terwijl de klassieke testtheorie en itemresponstheorie de technische kenmerken van een test na het ontwikkelen van de test bestuderen, maakt het bewijsgerichte model eerst een opzet van de test.
Achtergrond
Het EC-AR proces is ontstaan binnen de context van het ‘scenario-based leren’ (SBL): een project met het doel om nieuwe instructiematerialen worden ontwikkeld om studenten met ‘echte’ problemen om te leren gaan. Studenten moeten problemen oplossen die in de praktijk echt voor zouden kunnen komen. Echter, zowel docenten als studenten gaven aan dat zij het niet fijn vinden dat SBL zo ongestructureerd is. Studenten eisten beter gedefinieerde leerdoelen, beter bewijs dat ze daadwerkelijk voortgang boekten en meer feedback van de docenten. Ook de docenten wilden weten hoe zij individuele vooruitgang in de gaten konden houden. Om aan deze behoeften te voldoen, is het EC-AR proces ontwikkeld. Dit proces omvat de volgende componenten:
Domeinanalyse: een interview om de vereiste kennis en vaardigheden voor een specifiek vakgebied te achterhalen.
Domein modeling: een ruwe documentatiefase, waarin de kenmerken van de assessment worden beschreven die bewijzen dat studenten over de vereiste kennis en vaardigheden beschikken.
Conceptueel assessment raamwerk: een uitgebreide documentatiefase, waarin de specifieke soorten prompts, stimuli, prestaties en scoringrubrieken voor assessments worden gedefinieerd.
De implementatie van de assessment en het testen van de validiteit.
Theoretische overwegingen
Aan het EC-AR proces ligt het idee ten grondslag dat technici meer moeten kunnen dan alleen het terughalen van technische feiten en procedures. Technici moeten over de volgende vaardigheden beschikken:
Technische vaardigheden
Voorbeeld: het maken van een product dat aan specifieke technische criteria voldoet.
Sociaal-technische vaardigheden: metacognitieve vaardigheden, het koppelen van de behoeften van de cliënt aan technische concepten door het probleem in kaart te brengen en door oplossingen te bedenken en implementeren.
Voorbeeld: het rechtvaardigen van een specifieke technische benadering aan een cliënt.
Sociale vaardigheden: communicatieve activiteiten.
Voorbeeld: het bereiken van overeenstemming met collega’s.
Sociaal-technische en sociale leerdoelen moeten de traditionele focus op praktische technische vaardigheden niet vervangen, maar aanvullen. In het onderstaande deel worden de vaardigheden besproken, die technische docenten belangrijk vinden. Deze vaardigheden zijn geïdentificeerd aan de hand van de verschillende stappen in het EC-AR proces. Hieronder wordt iedere stap en de bijbehorende bevindingen besproken.
Stap 1
Tijdens de fasen van domeinanalyse en domein modeling beschreven de docenten de complexe gedragingen die duiden op professionele competentie:
Probleemoplossende vaardigheden:
Onderzoek en analyse
Het probleem in kaart brengen
Een product of oplossing bedenken
Gereedschappen gebruiken
Conclusies trekken
Professionele kennis en vaardigheden:
Samenwerken om een probleem op te lossen
Presentatie en communicatie
Iedere gedraging werd een afzonderlijk ontwerppatroon: een document dat de verschillende kenmerken opsomt van een effectieve assessment van het gedrag.
Stap 2
In de overige stappen van het EC-AR proces beschreven de docenten de verschillende aspecten van iedere gedraging in het ontwerppatroon. Gezien de complexiteit van de gedragingen, is het belangrijk oom eerst de elementen te identificeren die het belangrijkst zijn voor een goede prestatie. Docenten moesten het volgende identificeren:
Focale kennis en vaardigheden: de specifieke principes en procedures, die de gewenste leeruitkomsten van de docenten zijn.
Aanvullende kennis en vaardigheden: de vereiste kennis en vaardigheden voordat de focale kennis en vaardigheden worden geleerd.
Deze stap is in de praktijk lastig. Sommige docenten brengen de leerdoelen van de cursus in kaart in de vorm van een lange lijst met kennis en vaardigheden. In dit geval is prioritering het probleem. Andere docenten willen daarentegen dat de cursus leidt tot een algemene attitude, waarbij specificering het probleem is. Het doel van de tweede stap van het EC-AR proces is het richten van de aandacht op prioritering: de focus leggen op die vormen van kennis en vaardigheden, die de prestatie het meest beïnvloeden.
Stap 3
In stap 3 van het EC-AR proces werden docenten gevraagd om te beschrijven hoe het eruit ziet wanneer een student de vereiste kennis en vaardigheden laat zien. Deze beschrijvingen werden gecodeerd onder het kopje ‘zichtbaar gedrag’ in het ontwerppatroon.
Stap 4
Na het omschrijven van een vaardige prestatie, is de volgende stap het omschrijven van de producten aan de hand waarvan studenten hun kennis en vaardigheden te bewijzen. De docenten maakten onder andere gebruik van de volgende producten:
Het vaardig kunnen gebruiken van een gereedschap
Korte vragen of ‘prestaties op aanvraag’ om belangrijke kennis en vaardigheden te demonstreren
Vooruitgangchecklist om de prestatie van een student te vergelijken met een vooraf bepaald referentiekader
Presentatie van een project
Geschreven of mondelinge beschrijving van de principes of concepten die relevant zijn voor een probleem
Geschreven of mondelinge beschrijving van de strategieën of tactieken die relevant zijn voor een probleem
Het uitvoeren van een wiskundige of statistische procedure om een probleem op te lossen
In de praktijk werkt deze stap het best door docenten te vragen om verschillende manieren te bedenken waarop studenten kunnen laten zien wat ze weten en kunnen. Hierbij kan gebruik worden gemaakt van een proces met drie stappen:
Richt je op één leeruitkomst.
Selecteer drie verschillende soorten assessment uit bovenstaande lijst, bij voorkeur één formatieve en één summatieve soort.
Beeld je in hoe deze drie verschillende assessments van dezelfde uitkomst eruit zouden zien.
Stap 5
Over de tijd heen ontwikkelen docenten een repertoire van verschillende vormen van testvragen. In het ontwerppatroon worden deze vragen gezet onder het kopje ‘karakteristieke taakkenmerken’. Deze taakkenmerken representeren de essentiële componenten van een assessment in het technisch hoger onderwijs. Ontwerppatronen omvatten ook specifieke beschrijvingen van variabele taakkenmerken om de moeilijkheidsgraad van assessments te verhogen of verlagen, zoals of studenten de assessment individueel of in groepsverband uit moeten voeren.
Stap 6
Tijdens een pilot test bleek dat docenten aanzienlijk verschilden in de manier waarop zij het werk van studenten beoordelen. Om de consistentie van het beoordelen te vergroten, worden gedetailleerde voorbeelden gegeven van goede prestaties van studenten. Uiteindelijk is een scorerubriek ontwikkeld met drie niveaus: (1) bovengemiddeld vaardig, (2) gemiddeld vaardig, en (3) beneden gemiddeld vaardig. Om het toepassen van de verschillende rubrieken te vergemakkelijken, worden voorbeelden gegeven.
Inhoudsvaliditeit
Onderzoek naar inhoudsvaliditeit beoogt de volgende vraag te beantwoorden: Is hetgeen we onderwijzen en testen een reflectie van gewaardeerde leeruitkomsten in het technische vakgebied? Deze vraag wordt beantwoord door het oordeel van experts te verzamelen over ieder assessmentitem. Ook de SBL taken en de bijbehorende assessments zijn beoordeeld door experts. Zij vonden de kwaliteit van de taken assessments en de kennis en vaardigheden relevant voor het vakgebied. Wel deden zij vele aanbevelingen om de taken en assessments te verbeteren. Over het algemeen wilden de experts uit het vakgebied (technici) meer complexiteit in zowel de taken als assessments om de complexiteit van de praktijk beter te reflecteren. De onderwijskundige experts (docenten in het technisch onderwijs) raadden aan om de leerdoelen van iedere taak duidelijker te specificeren en om de problemen in zowel de taken als assessments bondiger te presenteren.
Uit de studie kan worden geconcludeerd dat zowel de experts uit het vakgebied als de onderwijskundige experts het toepassen van technische kennis op echte problemen als veel belangrijker leeruitkomst dan het simpelweg uitvoeren van een technische procedure.
Constructvaliditeit
Het doel van onderzoek naar constructvaliditeit is achterhalen of itemstimuli en prompts de beoogde kennis en vaardigheden opwekken. Een methode om te controleren of alle items werken zoals bedoeld, is interviews waarbij studenten hardop denken tijdens het uitvoeren van een taak. Uit onderzoek blijkt dat de prompts redelijk goed werken voor de beter presterende studenten, die sociaal-technische vaardigheden meer gecoördineerd en systematisch toepassen dan slechter presterende studenten, die technische problemen vaak problemen op te lossen door middel van ‘trial and error’. In de praktijk kunnen docenten deze informatie gebruiken om het onderwijs te verbeteren.
Het in kaart brengen van een probleem
Het in kaart brengen van een probleem is een sociaal-technische vaardigheid, waarbij de technicus informatie moet verzamelen over de behoeften van een cliënt en deze informatie vervolgens moet vertalen naar technische specificaties. Voor deze vaardigheid moeten studenten een gedeeltelijke mentale representatie van de behoeften van de cliënt construeren en moeten ze bedenken welke informatie ze nog nodig hebben (welke vragen ze nog aan de cliënt moeten stellen). De items om deze vaardigheid te meten, omvatten vaak een ‘scenario-based’ stimulus uit de praktijk en een prompt om studenten te richten op het toepassen van de specifieke vaardigheid van het stellen van vragen aan de cliënt. Dat studenten deze vaardigheid beheersen, wordt gereflecteerd in zowel het aantal als de technische relevantie van de vragen die ze stellen.
Het maken van een product
Sommige items die de vaardigheid meten om een product te maken zijn vooral technisch, maar sommige items combineren de sociale en technische aspecten van de vaardigheid. Een voorbeeld hiervan is het koppelen van de vraag van een cliënt aan een technische oplossing.
Onderzoek en analyse
Om de vaardigheid onderzoek en analyse te meten, moeten studenten de strategische kennis toepassen over de manier waarop een onderzoeksstrategie gepland moet worden. Dit omvat het gebruiken van kennis van de relevante databases en biologische concepten bij het bedenken van onderzoeksstappen en zoektermen.
Over het algemeen tonen de bevindingen van constructvaliditeitsonderzoek aan dat de ontwikkelde assessments leidden tot reacties waarbij de sociale en technische elementen van het oplossen van een probleem uit de praktijk werden gecombineerd. Het vermogen om de sociale en technische elementen te coördineren was niet consistent aanwezig bij de studenten, wat suggereert dat studenten deze vaardigheid meer moeten oefenen.
Moeilijkheden in het EC-AR proces
In het EC-AR proces kan sprake zijn van de volgende moeilijkheden:
Het is moeilijk om de vereiste kennis en vaardigheden voor een vakgebied te definiëren. Soms is prioritering het probleem en soms specificering. Prioritering wordt gefaciliteerd door het beschrijven van de vormen van kennis die het belangrijkst zijn voor een goede prestatie.
Sommige docenten vrezen dat de motivatie van studenten voor de SBL taak door de assessmentprocedures afneemt. Dit probleem kan worden opgelost door studenten te motiveren door leerdoelen en beoordelingscriteria te definiëren.
Studenten geven vaak relatief korte antwoorden. De assessments wekten de beoogde vaardigheden op, maar niet uitgebreid genoeg. Mogelijk is expliciete prompting nodig om een meer gedetailleerde beschrijving van de redenatie van studenten te krijgen.
Itemanalyse is een proces, waarbij statistieken voor individuele items van een test worden berekend en geïnterpreteerd. Deze statistieken helpen bij het beoordelen van de statistische waarde van items en bij het identificeren van beperkingen en mogelijke biases van items. Zelfs met kleine klassen kunnen informele itemanalyses nuttig zijn. De resultaten van een itemanalyse wijzen de docent op de sterke en zwakke items in een test, zodat de slechte items uit de test gehaald kunnen worden of aangepast kunnen worden.
De keuze en het gebruik van itemstatistieken hangt vaak af van het type testitem. Bij meerkeuze items kan een itemanalyse drie soorten statistieken bieden: statistieken met betrekking tot de moeilijkheidsgraad van het item, het onderscheidend vermogen van het item, en de effectiviteit van afleiders (onjuiste antwoordmogelijkheden) van het item. Ieder type statistiek zal hieronder worden besproken.
Moeilijkheidsgraad
Dichotome data
De moeilijkheidsgraad van een item is de gemiddelde prestatie van studenten op een item, ook wel de p-waarde van een item genoemd. In het geval van dichotome items (die met 0 of 1 worden gescoord) representeert de p-waarde de proportie studenten die het item correct beantwoordt. Een hoge p-waarde betekent dat een item gemakkelijk is. Het is belangrijk om te benadrukken dat de p-waarde afhankelijk is van de steekproef studenten. De p-waarde kan, net als alle andere itemstatistieken, alleen naar vergelijkbare groepen studenten worden gegeneraliseerd. Er is wel een manier om de moeilijkheidsgraad van een item te berekenen, die onafhankelijk is van de steekproef, maar deze techniek is moeilijk en vereist een redelijk grote steekproef.
Naast de p-waarde zijn er nog andere manieren om de moeilijkheidsgraad te berekenen, waaronder het gebruik van delta-waarden: een niet-lineaire transformatie van de p-waarde naar een normaalverdeling met een gemiddelde van 13 en een standaardafwijking van 4. Met deze methode kan de moeilijkheidsgraad worden uitgedrukt op een intervalschaal van 1 tot 25, waarbij hogere delta-waarden staan voor moeilijkere items.
Polytome data
De meeste technieken voor het berekenen van de moeilijkheidsgraad van items zijn voor items die dichotoom worden gescoord. Er zijn enkele methoden voor het uitdrukken van de moeilijkheidsgraad van polytome items. Zo kan voor iedere mogelijke itemscore de kans worden berekend. Zie tabel 20.1 op bladzijde 299 voor statistieken met betrekking tot de moeilijkheidsgraad van items.
Onderscheidend vermogen
Dichotome data
Het onderscheidend vermogen van een dichotoom item wordt meestal geschat door middel van de correlatie tussen de itemscore en een bepaald criterium (meestal de totale testscore). Meestal wordt een onderscheidend vermogen index van 0.30 of hoger als acceptabel beschouwd. Bij een klassenassessment is de verwachting dat de waarde in ieder geval hoger dan 0.0 is. Zie tabel 20.2 op bladzijde 301 voor statistieken met betrekking tot het onderscheidend vermogen van items.
De meest gebruikte correlatiestatistieken zijn de biseriële en de punt-biseriële correlatiecoëfficiënt. Deze correlatiecoëfficiënten kunnen worden gebruikt als de ene variabele dichotoom is (itemscore) en de andere variabele continu is (vaak de totale testscore). Het grootste verschil is dat de punt-biseriële correlatie de dichotome variabele als daadwerkelijk dichotoom behandelt, terwijl de biseriële correlatie ervan uitgaat dat de dichotome score een manifestatie is van een latente vaardigheid, die normaal verdeeld zijn onder studenten. Als deze aanname toepasbaar is, wordt de voorkeur meestal gegeven aan de biseriële correlatie, omdat deze vaker consistent is tussen verschillende steekproeven.
Als zowel de itemscore als de totale testscore dichotoom zijn, zijn de phi en de tetrachorische correlatieocëfficiënten het meest geschikt.
Polytome data
De polyseriële en polychorische correlatiecoëfficiënten worden het meest gebruikt voor het berekenen van het onderscheidend vermogen van polytome items. Soms wordt gebruik gemaakt van de D-statistiek: het verschil van de p-waarde in de groepen studenten die het best en slechtst presteren.
Afleiders
De effectiviteit van afleiders is een belangrijk aspect van meerkeuze items. Statistieken met betrekking tot afleiders en onjuiste antwoorden kan informatie geven over mogelijke zwakke punten van een item. Zie figuur 20.1 en 20.2 op bladzijde 302 en 303 voor de statistische samenvatting van twee items. Deze figuren laten zien hoe vaak de verschillende antwoordmogelijkheden gekozen zijn door de studenten die de test het best en het slechtst hebben gemaakt. Wanneer weinig goed presterende studenten het juiste antwoord hebben gekozen, moet worden gekeken of er een fout is gemaakt in de antwoordsleutel en of een ander antwoord correct is. Als een afleider niet of weinig wordt gekozen, is dit blijkbaar geen aannemelijke antwoordmogelijkheid en is de afleider weinig effectief.
Items met een bias
Er zijn drie veelgebruikte manieren om het probleem van een bias in een testitem te verkleinen of elimineren. Allereerst moeten docenten aandacht besteden aan aspecten van de ontwikkeling of selectie van testitems, die mogelijk interfereren met een eerlijke beoordeling van studenten. Zo kan een bepaalde groep studenten bevoordeeld worden door een bepaalde manier van formulering van het item. Ook de tijd om een test te maken, kan zorgen voor differentieel functioneren van een item (‘differential item functioning’; DIF). Studenten die in een tweede taal schrijven, hebben mogelijk meer tijd nodig, waardoor met name de laatste testitems tekenen van DIF vertonen.
Een meer formele manier om de kans op een bias in een item te verkleinen, is het gebruik van een checklist en feedback van mensen op de testitems en scorerubrieken.
Tot slot kan een empirische analyse worden uitgevoerd als de test door meer dan honderd studenten wordt gemaakt. Zie figuur 20.3 tot en met 20.7 op bladzijde 305 en bladzijde 306 voor voorbeelden. Bij deze analyse worden de studenten in twee groepen verdeeld:
Referentiegroep: de groep waarbij geen problemen worden verwacht
Focale groep: de groep die mogelijk wordt benadeeld
Vervolgens worden de studenten in iedere groep verdeeld in subgroepen op basis van hun totale testscore, bijvoorbeeld 0-8, 9-16, enzovoorts. Binnen de testscore intervallen zouden de referentie- en focale groep niet teveel van elkaar moeten verschillen. Ieder verschil in prestatie moet dan verklaard worden door een kenmerk van de test, dat niet gerelateerd is aan het construct dat door de test wordt gemeten.
Empirische analyses kunnen zowel met kleine als grote steekproeven worden uitgevoerd, maar hebben meer betekenis bij een grote steekproef. De steekproef is belangrijk voor zowel de referentiegroep als de focale groep: beide groepen moeten ongeveer even groot zijn.
In het hoger onderwijs worden testscores vaak gebruikt om beslissingen te maken. Studenten met een score boven een bepaald punt worden dan bijvoorbeeld toegelaten tot een cursus, terwijl studenten met een score onder dit punt worden afgewezen. Dat bepaalde punt wordt de afkapscore genoemd. ‘Standard setting’ verwijst naar het proces waarbij de afkapscore wordt gedefinieerd.
Het is belangrijk om te benadrukken dat een belangrijke beslissing niet op basis van een enkele testscore gemaakt mag worden. Ook andere relevante informatie moet in aanmerking worden genomen om de validiteit van de beslissing te verbeteren.
Soorten afkapscores
In het hoger onderwijs worden afkapscores meestal gebruikt voor beslissingen met betrekking tot toelating en plaatsing. Bij beslissingen met betrekking tot toelating worden studenten vaak in twee categorieën ingedeeld: studenten die wel en niet worden toegelaten. Bij beslissingen met betrekking tot plaatsing kan het wenselijk zijn om studenten in meerdere groepen in te delen. In dit hoofdstuk zullen enkel voorbeelden worden besproken, waarbij één afkapscore wordt gebruikt om studenten in twee groepen in te delen.
Standard setting
Afkapscores kunnen niet worden bepaald met behulp van een statistische formule. Standard setting is een subjectief proces. Experts oordelen over wat de studenten moeten weten en kunnen om in een bepaalde categorie ingedeeld te worden. Het standard setting proces start met een onderzoek, waarin onderscheid kan worden gemaakt tussen twee belangrijke rollen: de facilitator en de inhoudelijke experts. Het onderzoek leidt tot een aanbeveling, dat door de beleidsmaker wordt gebruikt om te bepalen wat de afkapscore wordt.
Facilitator
De facilitator houdt toezicht op het standard setting proces, zorgt ervoor dat de juiste procedures worden doorlopen en houdt de documentatie bij. De facilitator mag geen belang hebben bij de uitkomst van het onderzoek, om te voorkomen dat de aanbeveling van de inhoudelijke experts niet onafhankelijk is. De facilitator heeft de volgende taken:
De beleidsmaker ondersteunen in het kiezen van een standard setting methode en het ontwerpen van de studie.
Bevestigen dat de juiste procedures en taken worden uitgevoerd tijdens de standard setting.
Ervoor zorgen dat procedures en taken worden uitgevoerd zoals bedoeld.
De inhoudelijke experts training geven met betrekking tot de standard setting taken.
Toezicht houden op groepsdiscussies.
De inhoudelijke experts de informatie geven, die ze nodig hebben om mee te nemen tijdens het standard setting onderzoek.
De facilitator mag geen mening geven over de testinhoud, die invloed kan hebben op het oordeel van de inhoudelijke experts.
Inhoudelijke experts
De inhoudelijke experts dienen als panelleden en doen een aanbeveling over de afkapscore. Ze beschikken over kennis over de studentenpopulatie en de kennis en vaardigheden die vereist zijn, gezien de beslissing die gemaakt moet worden. Het panel moet representatief zijn voor de instelling waar de beslissing voor gemaakt wordt en bestaat idealiter uit 15 tot 25 leden.
Beleidsmaker
De beleidsmaker maakt gedurende het gehele standard setting proces vele beslissingen, zoals over de samenstelling van het panel inhoudelijke experts en over de definitieve afkapscore. De beleidsmaker kan een individu zijn, maar is meestal een klein groepje mensen.
Prestatieniveau beschrijver
Een prestatieniveau beschrijver (‘performance level descriptor’; PLD) beschrijft de kennis en vaardigheden van studenten in een bepaald prestatieniveau.
Grensgebied en classificatiefouten
Studenten met een score nét boven de afkapscore, bevinden zich in het grensgebied. Testscores bevatten altijd een meetfout, die het gevolg is van factoren die niet direct gerelateerd zijn aan wat de test beoogt te meten, zoals omstandigheden waaronder de test is gemaakt. Gezien deze meetfout is het waarschijnlijk dat studenten met een testscore nét onder of boven de afkapscore in werkelijkheid hetzelfde niveau (dezelfde werkelijke score) hebben. Als gevolg hiervan kunnen twee soorten classificatiefouten optreden:
Vals positieve fout: een student met een werkelijke score onder de afkapscore wordt geclassificeerd als zijnde boven de afkapscore.
Vals negatieve fout: een student met een werkelijke score boven de afkapscore wordt geclassificeerd als zijnde onder de afkapscore.
Om de kans op één van deze twee soorten classificatiefouten te verkleinen, kan de beleidsmaker ervoor kiezen om de aanbevolen afkapscore te verlagen of verhogen.
Stappen in een standard setting onderzoek
Een standard setting onderzoek bestaat vaak uit de volgende stappen:
Identificatie van de doelen van het onderzoek
De beleidsmaker moet aanvangen met het bepalen van de doelen van het onderzoek. Indien nodig is de facilitator betrokken bij het maken van bepaalde beslissingen.
Kiezen van een methode om de afkapscore te bepalen
Kiezen van een facilitator
Kiezen van een standard setting panel
Het is van belang om verschillende soorten panelleden te selecteren.
Oriëntatie
Het is belangrijk om de panelleden informatie te geven over het standard setting proces, zodat ze weten wat ze kunnen verwachten. Deze oriëntatie omvat de agenda en hoeveel tijd voor iedere activiteit is uitgetrokken. Ook moeten de panelleden informatie krijgen over de context van het standard setting onderzoek, zoals over de doelen van de assessment en wat de gevolgen zijn van de afkapscore.
Testafname bij de panelleden
De panelleden maken de test waarvoor de afkapscore bepaald moet worden om bekend te raken met de inhoud en structuur van de test.
Training van de panelleden met betrekking tot PLD’s
Om de objectiviteit van het oordeel van panelleden over de verschillende prestatieniveaus te vergroten, moeten zij een set prestatieniveau beschrijvers (PLD’s) krijgen. Deze PLD’s moeten beschrijven wat studenten in een bepaald niveau dienen te weten en kunnen. Daarnaast moeten ze duidelijk onderscheid maken tussen de verschillende niveaus, moeten ze in positieve termen zijn omschreven, en moeten ze in eenduidige taal worden beschreven. Kennis en vaardigheden moeten zoveel mogelijk worden gekwantificeerd.
Definiëren van de student in het grensgebied
De panelleden specificeren de kennis en vaardigheden van de student die nét boven de afkapscore scoort.
Training van de panelleden met betrekking tot de standard setting methode
Verzamelen van de oordelen van de panelleden
De oordelen van panelleden worden meestal drie keer verzameld, met paneldiscussies tussen iedere verzamelronde. Het aantal verzamelrondes is afhankelijk van de specifieke omstandigheden en de methode die wordt gebruikt. Echter, er moeten minstens twee verzamelrondes plaatsvinden, zodat er mogelijkheid is tot een paneldiscussie en het herzien van het oordeel.
Paneldiscussies
Discussies kunnen in kleine of grote groepen worden gevoerd. Het voordeel van een discussie in groter groepsverband is dat alle panelleden alle standpunten en dezelfde informatie horen. Een nadeel is dat sommige panelleden het niet fijn vinden om hun mening in een grote groep te delen. Daarnaast kan een dominant panellid veel invloed op de groep uitoefenen. Als discussies in kleinere groepen worden gevoerd, is het belangrijk dat er op een bepaald moment een discussie met de volledige groep plaatsvindt.
Aanbieden van normatieve, itemniveau en/of impact data aan het panel
Nadat de oordelen van de panelleden zijn verzameld, krijgen panelleden één of meer van de volgende soorten data:
Normatief: geeft het panellid informatie over waar zijn/haar oordeel zich bevindt in relatie tot de andere panelleden
Itemniveau: geeft het panellid een beeld van de relatieve moeilijkheidsgraad van items in de groep studenten die de test heeft gemaakt
Impact: geeft het panellid informatie over de gevolgen van de huidige aanbeveling voor de afkapscore, bijvoorbeeld het percentage studenten dat met de huidige aanbevelingen binnen ieder prestatieniveau zou presteren
Feedback van de panelleden
Evaluaties door panelleden hebben twee doelen: (1) het krijgen van feedback over de duidelijkheid van de training en het begrip van de panelleden, en (2) het bepalen van de mate van tevredenheid van de panelleden met het proces en de uiteindelijke afkapscore. Het aantal evaluaties kan verschillen. Er zouden minimaal twee evaluaties moeten plaatsvinden: na afloop van de training en aan het eind van het standard setting onderzoek. Aanbevolen wordt om ook een evaluatie in te plannen na de eerste ronde van aanbevelingen over de afkapscore.
Documentatie van het proces
Aanbevelingen aan de beleidsmaker
De beleidsmaker is degene die de definitieve afkapscore bepaalt.
Standard setting methoden
Er kan onderscheid worden gemaakt tussen twee soorten standard setting onderzoeken:
Traditioneel: panels van inhoudelijke experts oordelen over assessmentmateriaal of studenten en bepalen het kennis- of vaardigheidsniveau dat de student moet laten zien om voor een bepaalde cursus in aanmerking te komen.
Empirisch: data van daadwerkelijke prestaties van studenten worden verzameld als externe criteria om de afkapscore te bepalen.
In dit hoofdstuk ligt de focus op traditionele standard setting onderzoeken. Er bestaan verschillende traditionele standard setting methoden. De keuze voor een methode moet worden gebaseerd op een aantal factoren:
Soort items: meerkeuze items of open items.
Beschikbaarheid van testgerelateerde informatie: sommige methoden vereisen bijvoorbeeld dat er voor minstens een subset studenten totale testscores beschikbaar zijn.
Kennis over de studenten: nodig voor studentgerichte methoden, die hieronder besproken worden.
Beschikbare middelen: standard setting methoden verschillen in de benodigde middelen in termen van tijd, materialen en analyse.
Consistentie met eerder standard setting onderzoek: als er op een instelling eerder standard setting onderzoek is gedaan, kan het wenselijk zijn om te zorgen voor consistentie in de methode.
Mate van gebruik en beschikbaarheid van onderzoek: de beschikbaarheid van onderzoek die de validiteit van de methode ondersteunt en de mate waarin de methode is gebruikt, speelt een rol bij het bepalen van de mate waarin een bepaalde standard setting methode gerechtvaardigd kan worden.
Testgerichte standard setting methoden
Bij testgerichte standard setting ligt de focus op de testitems. Panelleden oordelen over hoe studenten op de items zullen presteren. Hiervoor moeten ze bekend zijn met de studentenpopulatie waar de afkapscore voor wordt bepaald.
Angoff methode
Angoff stelde dat de afkapscore van een test bepaald kan worden door het optellen van de kansen dat een student in het grensgebied (die nét boven de afkapscore scoort) ieder individueel item correct beantwoordt. Deze methode wordt veel gebruikt. Bij deze methode krijgen panelleden testitems, die ze moeten beoordelen. De panelleden moeten nagaan over welke kennis en vaardigheden de student in het grensgebied beschikt. Als ze eenmaal een goed beeld hebben van de kenmerken van deze student, beoordelen ze ieder item. Ze moeten de kans schatten dat de student het item met een bepaalde afkapscore correct zou beantwoorden. Vervolgens worden deze proporties opgeteld tot een afkapscore. De uiteindelijke afkapscore is het gemiddelde van de afkapscores van de panelleden.
De hierboven beschreven methode wordt toegepast bij meerkeuze items. Als de methode wordt toegepast op open items, wordt het de ‘uitgebreide Angoff methode’ of de ‘gemiddelde schatting methode’. Het panellid wordt dan gevraagd om de score te schatten die de student in het grensgebied op het item zou behalen.
Directe consensusmethode
Bij de directe consensusmethode zijn de items al in clusters gegroepeerd en geven panelleden een oordeel over het aantal items in ieder cluster dat de student in het grensgebied correct zou beantwoorden. Vervolgens worden de scores voor de verschillende clusters van ieder panellid bij elkaar opgeteld tot een afkapscore. De uiteindelijke afkapscore is het gemiddelde van de afkapscores van alle panelleden.
Er is bewijs voor de validiteit van de directe consensusmethode. Een voordeel van deze methode is dat het minder tijd kost dan de Angoff methode. Echter, de methode wordt nog minder vaak gebruikt en heeft enkele beperkingen:
De methode is minder toepasbaar op tests die niet verdeeld kunnen worden in inhoudelijke subcategorieën.
Consensus tussen de panelleden is niet altijd mogelijk.
Groepsdynamieken moeten nauwlettend in de gaten worden gehouden, omdat deze methode een zeer interactief proces is, waarbij panelleden een meer directe invloed kunnen uitoefenen op de uiteindelijke aanbeveling.
Bladwijzermethode
Bij de bladwijzermethode zijn items in een ‘boek’ georganiseerd in de volgorde van de moeilijkheidsgraad. Panelleden moeten de items in deze volgorde doorlopen en moeten voor ieder item bedenken welke kennis en vaardigheden nodig zijn. Vervolgens plaatsen ze de bladwijzer op het punt waarop de student in het grensgebied een bepaalde kans op een correct antwoord heeft. De afkapscore wordt bepaald door het berekenen van de verwachte score voor deze student, op basis van de locatie van de bladwijzer.
De bladwijzermethode wordt veel gebruikt, maar er is nog weinig onderzoek gedaan. Daarnaast zijn er twijfels over het bepalen van de volgorde van de items en zijn er voor deze methode grote datasets nodig. Tot slot moet de methode niet worden gebruikt als er tussen opeenvolgende items grote verschillen zijn in de moeilijkheidsgraad.
Studentgerichte standard setting methoden
Studentgerichte standard setting methoden richten zich op de studenten die de test maken in plaats van op de testitems.
Grensgroepmethode
Bij de grensgroepmethode bestaat het panel uit leden, die kennis hebben over een aantal studenten waarvan de testscores beschikbaar zijn. Voordat de panelleden deze testscores zien, moeten zij iedere student beoordelen in termen van kennis en vaardigheden relatief aan prestatieniveau definities. Iedere student wordt in één van de volgende categorieën geplaatst:
Duidelijk onder de grens
In het grensgebied tussen de twee prestatieniveaus
Duidelijk boven de grens
De middelste testscore van de beoordeelde studenten die in de tweede categorie worden geplaatst, is de afkapscore.
De grensgroepmethode vereist dat de panelleden voldoende bekend zijn met een groep studenten om hen in een bepaalde categorie te plaatsen. Als dit het geval is, is het oordeel niet altijd objectief. Daarnaast kunnen panelleden geneigd zijn een student in het grensgebied te plaatsen, als zij niet zeker zijn van de kennis en vaardigheden van de betreffende studenten. Daarnaast kan het zijn dat deze categorie uit weinig studenten bestaat, waardoor de scoreverdeling instabiel is.
Contrasterende groepenmethoden
Ook voor de contrasterende groepenmethode zijn panelleden nodig die bekend zijn met de kennis en vaardigheden van studenten en zijn de testscores van deze studenten nodig. Echter, bij deze methode worden de studenten in één van twee prestatiecategorieën geplaatst. Vervolgens worden analytische methoden gebruikt om de afkapscore te bepalen. Meestal wordt het midden van de medianen van de twee verdelingen als afkapscore gebruikt.
De voor- en nadelen van de contrasterende groepenmethode zijn hetzelfde als voor de grensgroepmethode. Andere nadelen zijn dat de kans groot is dat de grootte van de twee groepen erg van elkaar verschilt en dat de scoreverdelingen vaak overlap vertonen.
‘Body of work’ methode
De focus ligt bij de ‘body of work’ methode niet op de studenten zelf, maar op steekproeven van het werk van studenten. Daarom is het voor deze methode niet nodig dat de panelleden bekend zijn met een bepaalde groep studenten. Ieder ‘oeuvre’ wordt geclassificeerd in één van de prestatiecategorieën. Deze methode is het meest geschikt voor tests met open items. Het kost veel tijd om de materialen voor te bereiden.
Documentatie en evaluatie
Het is belangrijk om alle stappen tijdens het ontwerpen en implementeren van het standard setting onderzoek te documenteren. Er moet een rapport worden geschreven over de manier waarop de methode is gekozen, hoe het is uitgevoerd en wat de resultaten waren. Dit rapport kan worden gebruikt als de afkapscore gerechtvaardigd moet worden. Daarnaast wordt het door middel van documentatie mogelijk om het standard setting proces indien gewenst te herhalen en verbeteren.
Ook een evaluatie van het standard setting onderzoek is belangrijk, zodat bepaald kan worden of er op basis van de afkapscores valide conclusies getrokken kunnen worden. Deze evaluatie informatie moet in het rapport staan. Er kan onderscheid worden gemaakt tussen drie soorten validiteit: procedurele validiteit, interne validiteit en externe validiteit.
Procedurele validiteit
De volgende procedurele aspecten van het standard setting onderzoek moeten worden geëvalueerd:
De mate waarin de doelen van de beslisprocedure expliciet zijn beschreven.
De mate waarin de selectie en training van de panelleden systematisch en grondig is geïmplementeerd.
De mate waarin de definitie van de prestatiemaatstaven en de student in het grensgebied systematisch en grondig is geïmplementeerd.
De mate waarin de dataverzameling systematisch en grondig is geïmplementeerd.
Interne validiteit
Interne validiteit heeft betrekking op de hoeveelheid variatie in prestatiemaatstaven die verwacht kan worden als de standard setting procedure herhaald zou worden. De meest directe manier om deze informatie te verkrijgen, is het daadwerkelijk herhalen van de procedure, maar dat is niet altijd mogelijk in het hoger onderwijs. Als het aantal panelleden groot genoeg is (meer dan 15), kan het panel na de training worden opgesplitst en kunnen data van de twee panels worden gebruikt als schatting van de repliceerbaarheid van de oordelen.
Andere bronnen van interne validiteit zijn:
Interpanelleden consistentie: de mate waarin oordelen tussen panelleden consistent zijn. Een zeer lage schatting van interbeoordelaarsbetrouwbaarheid suggereert dat panelleden geen gemeenschappelijk beeld hebben van bijvoorbeeld de student in het grensgebied.
Intrapanelleden consistentie:
Het verband tussen het oordeel van een panellid en itemniveau data. Als het verband tussen het oordeel van een panellid en itemniveau data zwak is, kan de inhoudelijke kennis van het panellid in twijfel worden getrokken.
De mate waarin het oordeel van een panellid tussen rondes verandert. Als het oordeel van een panellid tussen rondes niet verandert, suggereert dit dat hij/zij mogelijk een bepaald motief heeft of de gegeven feedback niet in aanmerking neemt.
Externe validiteit
Er zijn verschillende mogelijke bronnen van bewijs voor externe validiteit:
De mate van vergelijkbaarheid tussen de resultaten van twee standard setting methoden. Dit is in het hoger onderwijs vaak niet praktisch gezien de beperkte middelen.
De mate waarin de categorisering van een student in een prestatieniveau overeenkomt met andere informatie die beschikbaar is over de kennis en vaardigheden van de betreffende student. Voorbeeld: het gebruik van logistische regressie om het verband tussen testscores en cijfers voor vakken te bestuderen.
Tot slot kan met betrekking tot externe validiteit worden gekeken naar de redelijkheid van de afkapscore. Als een afkapscore er bijvoorbeeld toe leidt dat maar weinig studenten extra begeleiding nodig hebben, terwijl dit in het verleden anders was, kan de afkapscore in twijfel worden getrokken.
Authentieke assessment verwijst naar het beoordelen van het leren van studenten aan de hand van criteria voor echte vaardigheden (‘real-life-skills’). In dit hoofdstuk wordt de rubriekenkubus besproken. Dit is een heuristiek voor het in kaart brengen van authentiek en andere assessmentactiviteiten en beslissingen op drie dimensies: type en niveau van taxonomie, niveau van assessmentbeslissing en type valideringsmethode.
Als een rubriek wordt toegepast op een authentieke assessment, helpt de rubriek bij het beoordelen van het werk van studenten aan de hand van specifieke criteria, wat resulteert in een score om de prestatie van de student te kwantificeren. Er kan onderscheid worden gemaakt tussen twee soorten rubrieken:
Holistische rubrieken: beoordelen de algehele kwaliteit van een prestatie of product. Holistische rubrieken kunnen variëren in complexiteit. Een simpele variant omvat bijvoorbeeld vier categorieën (variërend van ‘onvoldoende’ tot ‘uitstekend’), waarbij iedere categorie door enkele zinnen wordt beschreven, terwijl de categorieën bij een complexe variant uitgebreider worden beschreven.
Analytische rubrieken: delen de prestatie of het product op in verschillende componenten en beoordelen ieder deel afzonderlijk op een schaal met beschrijvers. Een analytische rubriek lijkt op een matrix met twee assen: dimensies (criteria) en prestatieniveau (gespecificeerd door schalen en beschrijvers).
Prestaties kunnen anders worden beoordeeld, afhankelijk van het type rubriek dat gebruikt wordt. Rubrieken worden vaak ontworpen om onzichtbare concepten via zichtbare trekken te meten. Het doel is dus het kwantificeren van een prestatie. Rubrieken bieden scorestandaarden om authentieke assessments te sturen. Hoewel ze worden beschreven als objectieve en consistente scoresleutels, worden ze eveneens bekritiseerd in verband met het gebrek aan bewijs voor betrouwbaarheid en validiteit. Een manier om de betrouwbaarheid en validiteit te vergroten, is door hier tijdens de assessmentlus (‘assessment loop’) aandacht aan te besteden. De assessmentlus voor rubrieken omvat drie stappen, die continu herhaald worden om de kwaliteit van de assessment te verbeteren:
Ontwikkelen/herzien van een rubriek
Onderzoek naar de betrouwbaarheid en validiteit van de rubriek
Assessmentbeslissing maken
De rubriekenkubus kan worden gebruikt om de lus gebruiksvriendelijker te maken.
Rubriekenkubus
Zie figuur 2 voor de heuristische rubriekenkubus. Iedere dimensie representeert een ander aspect van de assessment:
Hoogte: gevolgen van de assessment (assessmentbeslissingen)
Groot: bijvoorbeeld in het geval van een certificaatexamen
Gemiddeld
Klein: bijvoorbeeld een cijfer voor een opdracht
Breedte: methodologische benaderingen om de betrouwbaarheid en validiteit van de assessmentbeslissingen te bewijzen
Interbeoordelaarsbetrouwbaarheid: andere betrouwbaarheidsparameters, zoals interne consistentie en test-hertestbetrouwbaarheid, worden niet besproken. De focus ligt op interbeoordelaarsbetrouwbaarheid, omdat de scores worden gebaseerd op menselijke oordelen.
Validiteit
Diepte: leertaxonomieën
Cognitief
Gedragsmatig
Affectief
Figuur 2. Rubriekenkubus
Assessmentbeslissingen op basis van taxonomie
Zie tabel 1 voor een voorbeeld van de manier waarop de cognitieve leertaxonomie in verhouding staat tot rubriekcriteria en assessmentbeslissingen. Het voorbeeld betreft de vaardigheid tot kritisch denken.
Tabel 1
Uit de tabel kan worden afgelezen dat de assessmentbeslissing voor studenten met vijf minnen is dat zij een remediale training moeten volgen, terwijl studenten met drie of vijf plusjes respectievelijk de gerichte en geavanceerde training moeten volgen.
Assessmentbeslissingen op basis van methoden
De methoden die worden gebruikt om de validiteit en interbeoordelaarsbetrouwbaarheid van een assessment te schatten, zijn afhankelijk van het niveau van invloed van de assessment:
Assessment met kleine invloed:
Validiteit: inhoudsvaliditeit
Interbeoordelaarsbetrouwbaarheid: consensus (percentage van overeen-stemming tussen beoordelaars)
Assessment met middelmatige invloed:
Validiteit: inhouds-, construct- en de gelijktijdige (concurrent) validiteit
Interbeoordelaarsbetrouwbaarheid: consensus en consistentie
Assessment met grote invloed:
Validiteit: inhoudsvaliditeit, constructvaliditeit (convergent en discriminant) en criteriumgerelateerde validiteit (gelijktijdig en predictief)
Interbeoordelaarsbetrouwbaarheid: consensus en consistentie
In het hoofdstuk worden zes studies naar de interbeoordelaarsbetrouwbaarheid en validiteit van assessments met kleine, middelmatige en grote invloed besproken. Zie tabel 2 voor een samenvatting van de onderzoeksbevindingen:
Tabel 2
| Betrouwbaarheid | Inhoudsvaliditeit | Constructvaliditeit | Criteriumgerelateerde validiteit |
Assessment met kleine invloed | ||||
Studie 1 | Consistentie | Ja | Nee | Nee |
Assessment met middelmatige invloed | ||||
Studie 2 | Consensus | Ja | Nee | Nee |
Studie 3 | Consistentie | Niet beschreven | Ja | Nee |
Assessment met grote invloed | ||||
Studie 4 | Consistentie | Niet beschreven | Niet beschreven | Nee |
Studie 5 | Consistentie | Ja | Ja | Ja (gelijktijdige validiteit) |
Studie 6 | Niet beschreven | Ja | Ja | Ja (gelijktijdige en predictieve validiteit) |
Discussie
De generaliseerbaarheid van rubrieken kan vaak in twijfel worden getrokken. Terwijl psychologische tests vaak universeel toepasbaar zijn, zijn rubrieken vaak domeinspecifiek en gebaseerd op kleine steekproeven en daardoor niet generaliseerbaar. Daarnaast is het belangrijk om te benadrukken dat valide assessmentrubrieken toepasbaar zouden moeten zijn op zowel mannen als vrouwen en op verschillende etnische subgroepen.
Tot op heden is er weinig consensus over de definitie van de kwaliteit van docenten en de manier waarop dit geoperationaliseerd en gemeten zou moeten worden. Aangezien de evaluatie van docentkwaliteit invloed heeft op onderwijskundige beslissingen, zoals de werving van docenten en de verdeling van docenten en middelen binnen het onderwijssysteem, is de discussie hieromtrent belangrijk. Momenteel zijn 19 staten van de Verenigde Staten bezig met het ontwikkelen en testen van een prestatie-assessment voor potentiële docenten, die gebruikt zou kunnen worden om de kwaliteit van opleidingen van docenten te beoordelen.
Achtergrond
In het verleden waren discussies over docentkwaliteit ingebed in debatten met betrekking tot de relatieve invloed van school versus gezins- en kindkenmerken op uitkomsten van studenten. Een studie in de jaren ’60 heeft aangetoond dat school een belangrijke invloed heeft op deze uitkomsten. Meer recentelijk is de interesse verschoven naar de docent als belangrijkste factor voor de prestatie van studenten.
Definitie van docentkwaliteit
De vraag is hoe docentkwaliteit gedefinieerd kan worden. Vaak worden de volgende twee componenten genoemd bij het beschrijven van de kwaliteit van docenten:
Input van de docent: bijvoorbeeld kenmerken van de docent, professionele voorbereiding en diploma
Effectiviteit van de klas: wordt vaak gemeten in termen van de prestaties van studenten op gestandaardiseerde tests
Volgens de ‘No Child Left Behind’ (NCLB) wet hebben hoog gekwalificeerde docenten bepaalde diploma’s. Echter, in deze definitie wordt geen rekening gehouden met het onderscheid dat gemaakt kan worden tussen ‘hoog gekwalificeerde docenten’ en ‘docenten van hoge kwaliteit’. Docenten kunnen namelijk overeenkomstige kwalificaties hebben en tegelijkertijd verschillen in de mate van effectiviteit in de klas.
Verschillen in definities van docentkwaliteit lijken samen te hangen met verschillen in ideeën over het doel van onderwijs. Zo zou de NCLB wet het onderwijs beschouwen als middel om studenten voor te bereiden op een toekomstig beroep en om het economische succes van de Verenigde Staten te waarborgen. Vanuit dit perspectief is het logisch dat docentkwaliteit wordt gedefinieerd in termen van intellectueel vermogen en inhoudelijke kennis en de prestatie van studenten op gebieden die belangrijk worden geacht voor de arbeidsmarkt. Echter, de definitie van docentkwaliteit zou anders zijn voor andere doelen van het onderwijs. Mensen die het onderwijs zien als middel om studenten voor te bereiden op een democratische samenleving, zouden docentkwaliteit bijvoorbeeld definiëren in termen van disposities richting democratische idealen en het vermogen om maatschappelijke betrokkenheid bij studenten te vergroten.
Zelfs als er consensus bestaat over de algemene doelen van onderwijs, blijven er verschillen bestaan in de definitie van docentkwaliteit. Er kan onderscheid worden gemaakt tussen twee perspectieven:
Perspectief van de professionalisten: docentkwaliteit vereist de verwerving van een set professionele standaarden. Hoge kwaliteit wordt gedefinieerd in termen van certificatie.
Perspectief van de deregulationisten: deregulatie van certificatie-eisen is nodig om de kwaliteit van docenten te waarborgen. Hoge kwaliteit wordt gedefinieerd in termen van intellectueel vermogen en inhoudelijke kennis.
Hoewel de NCLB wet deze twee definities lijkt te combineren, blijkt uit analyse dat de voorkeur meer ligt bij het deregulationistische perspectief. De overeenkomst tussen beide perspectieven is dat docentkwaliteit wordt gedefinieerd in termen van kenmerken van de docent (input van de docent). Input van de docent wordt gedefinieerd als:
Een algemeen vermogen, zoals gemeten door intelligentietests of prestatietests
Inhoudelijke en/of pedagogische kennis, zoals gemeten door de graad of certificatietype en certificatiestatus
Aantal jaren ervaring
Gezien de complexiteit van het concept docentkwaliteit, is het wellicht beter om de focus te leggen op docentkwaliteiten. Terwijl sommigen vooral geïnteresseerd zijn n de kwalificatie van docenten, hebben anderen interesse in onderwijspraktijken, het vermogen om prestaties van studenten te verbeteren en overtuigingen van docenten. Volgens Kennedy vallen deze interesses in drie categorieën:
Persoonlijke resources
Prestatie in de klas
Effectiviteit of invloed op studenten
Berliner maakt onderscheid tussen goed onderwijs (onderwijs dat voldoet aan de maatstaven) en effectief onderwijs (het bereiken van prestatiedoelen van studenten). Zowel goed als effectief onderwijs is nodig voor docentkwaliteit.
Het onderscheid in verschillende definities van docentkwaliteit is niet alleen een academische kwestie, omdat sommige definities leiden tot ongelijke verdeling van hoge kwaliteit docenten, vooral in gebieden die worden gekenmerkt door armoede en minderheidsgroepen.
Het is de vraag of een docent die in het algemeen geclassificeerd is als hoog gekwalificeerd, even effectief is in verschillende niveaus en soorten onderwijs en voor verschillende studenten. De contextspecificiteit van docentkwaliteit kan een rol spelen bij de gemengde onderzoeksbevindingen die hieronder worden besproken.
Onderzoek naar docentkwaliteit
In het onderzoek naar docentkwaliteit kan onderscheid worden gemaakt tussen twee soorten studies. Allereerst zijn er studies gedaan naar variatie in docenteffecten door verschillen te meten tussen klassen in prestaties. Hieruit blijkt dat docenten in effectiviteit verschillen en dat deze verschillen samenhangen met prestaties van studenten. Echter, deze bevindingen zijn weinig nuttig voor beleidsmakers in verband met een gebrek aan informatie over de specifieke kwaliteiten waar het om gaat.
Het tweede type omvat regressiestudies naar het verband tussen specifieke docentkenmerken en prestaties van studenten. Deze onderzoeken worden ook wel productiefunctiestudies genoemd en geven meer informatie over de specifiek kenmerken die gerelateerd zijn aan prestaties van studenten, zoals voorbereiding of certificatie. Echter, de onderzoeksbevindingen zijn inconsistent. Bovendien kunnen de resultaten zijn beïnvloed doordat er wegens een gebrek aan data bepaalde factoren uit de analyses zijn weggelaten. Deze mogelijke biases kunnen de interpretatie van de causale richting van de verbanden beïnvloeden.
De problemen met bovenstaande benaderingen worden deels opgelost met behulp van studies die gebruik maken van ‘value-added modeling’, afhankelijk van een voor- en nameting. Echter, de data van veel van deze studies zijn afkomstig van vragenlijsten en administratieve datasets. Dit leidt door de volgende factoren tot overeenkomstige problemen:
Een beperkt aantal docentkenmerken dat onderzocht kan worden
Beperkingen van prestatietests
Niet-willekeurige toewijzing van studenten en docenten aan scholen en klassen
Meerdere verstorende invloeden op de prestaties van studenten
Vanwege de problemen met de methoden voor het bestuderen van het verband tussen docentkwaliteit en studentprestaties, is het niet verrassend dat de onderzoeksresultaten inconsistent en tegenstrijdig zijn. Hoewel veel studies een relatie vonden tussen de input van docenten en de output van studenten, geldt dit niet voor alle studies. Sommige studies tonen aan dat ervaring van de docent, scores op tests en combinaties van docentkwaliteiten een positieve invloed hebben op prestaties van studenten.
Meer recente studies hebben de definitie van docentkwaliteit vergroot. Hoewel het meeste onderzoek zich richt op individuele docentkwaliteit, kan het concept van collectieve docentkwaliteit nuttig zijn bij het verklaren van verschillen in prestaties tussen studenten van verschillende scholen. In één studie werd collectieve docentkwaliteit gedefinieerd als het percentage volledig gecertificeerde docenten, die inhoudelijke kennistests voldoende maakten en voldeden aan professionele maatstaven. Uit dit onderzoek blijkt dat docentkwaliteit een positieve invloed heeft op de lees- en rekenprestaties van studenten. Daarnaast profiteerden sommige subgroepen meer van collectieve docentkwaliteit dan andere subgroepen: collectieve docentkwaliteit was een mediator van sociaal-economische status en etniciteit.
Assessmentinformatie wordt meestal alleen gebruikt om te voldoen aan bepaalde vereisten. Deze informatie wordt vaak niet gepresenteerd aan verschillende doelgroepen binnen of buiten de instelling en wordt niet gebruikt om de kwaliteit van het onderwijs en het leren van studenten te verbeteren.
Verbetering en verantwoording
Instellingen moeten een balans vinden tussen het rapporteren voor verbetering van het leren van studenten en voor verantwoording tegenover extern publiek. De manier waarop assessmentinformatie gebruikt kan worden, is deels afhankelijk van het niveau waarop de assessment plaatsvindt: een klassenassessment wordt meestal gebruikt voor het verbeteren van het leren van studenten in de klas, terwijl assessment op het niveau van de instelling vaak wordt gebruikt ten behoeve van verantwoording. Echter, bij communicatie naar interne en externe mensen moet aandacht worden besteed aan dezelfde aspecten van presentatie, waaronder de doelgroep, de taal en de structuur van het rapport. Het presenteren van assessmentinformatie aan de faculteit om het leren van studenten te verbeteren is in die zin hetzelfde als het presenteren van deze informatie aan een externe doelgroep om de kwaliteit van de instelling te verantwoorden.
In 2006 stelde de ‘National Commission on the Future of Higher Education’ in een rapport dat er onvoldoende transparantie en verantwoording is voor het meten van de prestaties van instellingen, wat steeds meer nodig is om het vertrouwen in het hoger onderwijs in stand te houden. Daarnaast pleitte deze commissie voor gebruiksvriendelijke informatie om instellingen met elkaar te vergelijken. Volgens Kuh zouden instellingen daarnaast aandacht kunnen besteden aan de manier waarop het presenteren van transparante informatie aan interne en externe doelgroepen kan leiden tot verbetering van de instelling. Dit spreekt de integriteit van de instelling aan om de kwaliteit van de belangrijkste onderwijsactiviteit (het leren van studenten) te beschrijven.
Rapporteren van assessmentinformatie
Een rapportage van assessmentinformatie moet niet alleen de stappen beschrijven die genomen zijn om het leren van studenten te beoordelen, maar ook welke veranderingen gemaakt zullen worden om het leren van studenten en daarmee de kwaliteit van de instelling te verbeteren. Verschillende auteurs hebben richtlijnen beschreven om assessmentinformatie effectief te presenteren. Hieronder zal besproken worden hoe assessmentinformatie transparant gepresenteerd kan worden door aandacht te besteden aan vier aspecten: (1) aandacht besteden aan het publiek, (2) presentatie van de resultaten, (3) structuur van het rapport, en (4) verspreiding van de informatie.
Publiek
Bij het maken van een rapport over een assessment is het belangrijk om de doelgroep in het achterhoofd te houden. Verschillende doelgroepen hebben verschillende interesses en belangen met betrekking tot assessmentinformatie. Voor doelgroepen binnen de instelling kan assessmentinformatie invloed hebben op beslissingen om het leren van studenten te verbeteren. Om het nut van de assessment te vergroten, zou voordat het rapport wordt geschreven en idealiter zelfs voordat de assessment wordt uitgevoerd contact opgenomen moeten worden met potentieel intern publiek en gebruikers van de assessmentinformatie. Op deze manier kunnen zij worden betrokken bij het assessmentproces en kunnen zij aangeven welke informatie zij het meest nuttig vinden en welke problemen zij met behulp van de assessmentinformatie op zouden willen lossen.
Het presenteren van assessmentinformatie naar extern publiek dient om het vertrouwen in de instelling te vergroten en om te voldoen aan eisen van verantwoording. Externe doelgroepen willen weten wat studenten leren en welke stappen instellingen nemen om dit te bevorderen. Toekomstige studenten kunnen assessmentinformatie bijvoorbeeld gebruiken om te beslissen naar welke instelling zij gaan en beleidsmakers om het budget voor instellingen te rechtvaardigen. Externe doelgroepen willen een kort overzicht met relevante informatie.
Presentatie van resultaten
Bij het presenteren van de resultaten van een assessment moet gebruik worden gemaakt van duidelijke taal in een begrijpelijk format. Het gebruik van tabellen en grafieken kan de begrijpelijkheid van de informatie vergroten. Om de informatie meer betekenisvol te maken voor de specifieke doelgroep, kunnen de resultaten worden opgesplitst op basis van bijvoorbeeld studie, sekse of etniciteit, of door middel van vergelijkingen met andere instellingen.
Structuur van het rapport
Om de interesse van lezers te vergroten, is het belangrijk om het rapport met interessante of onverwachte assessmentresultaten te beginnen. Het rapport moet zowel positieve als negatieve bevindingen presenteren. Daarnaast moeten resultaten worden besproken in de context van de instelling en de missie van de instelling. Een belangrijk deel van een assessmentrapport is het bespreken van verklaringen voor de resultaten en van mogelijkheden voor toekomstig handelen. Ook moet het rapport een discussie van de bevindingen en de implicaties voor de instelling bevatten. Echter, of het rapport alle hierboven benoemde informatie bevat, hangt onder andere af van het doel en de doelgroep van het rapport. Een goed alternatief voor het schrijven van één rapport is het schrijven van meerdere korte rapporten voor specifieke doelgroepen.
Verspreiden van het rapport
Een rapport kan op verschillende manieren worden verspreid, zoals via internet, e-mail of nieuwsbrieven. Assessmentinformatie moet breed beschikbaar worden gemaakt om het aantal potentiële gebruikers te vergroten. Daarnaast kan het zorgen voor een cultuur van bewijs, waarin instellingen assessments gebruiken om de instelling te verbeteren. Een belangrijk doel is bovendien om de informatie niet alleen te delen, maar iedereen er ook van bewust te maken dat deze informatie beschikbaar is. Op die manier wordt voorkomen dat de informatie bijvoorbeeld op het internet terechtkomt, zonder dat mensen weten dat deze informatie beschikbaar is.
Rapportagestrategieën
Er zijn verschillende strategieën om assessmentinformatie te presenteren:
Door middel van een dashboard: een centrale weblocatie om assessmentinformatie te presenteren. In de ideale situatie is in één oogopslag zichtbaar hoe iedere instelling in het systeem presteert.
Door middel van benchmarking. Dit is hetzelfde principe als bij een dashboard, maar bij benchmarking kunnen instellingen met elkaar worden vergeleken.
In papieren vorm.
Via de eigen website.
Aanbevelingen voor de manier waarop assessmentinformatie effectief op de eigen website gepresenteerd kan worden, zijn:
Zet de informatie prominent op meerdere plaatsen op de website
Zorg ervoor dat de informatie regelmatig geüpdatet wordt
Leg de betekenis van de resultaten in begrijpelijke taal uit
De ‘National Institute for Learning Outcomes Assessment’ (NILOA) heeft een ‘transparantieraamwerk’ ontwikkeld, die instellingen kunnen gebruiken om hun website te bestuderen en om te beoordelen in welke mate assessmentinformatie beschikbaar, nuttig en betekenisvol is voor het beoogde publiek. Het transparantieraamwerk identificeert zes componenten van een assessment:
Informatie over leeruitkomsten van studenten
Assessmentplannen
Assessmentmiddelen
Huidige assessmentactiviteiten
Bewijs van het leren van studenten
Gebruik van het bewijs van het leren van studenten
Het interpreteren en gebruiken van assessmentinformatie
Assessmentinformatie kan op verschillende manieren gebruikt worden. Zo kan assessmentinformatie aantonen hoe de instelling voldoet aan de gestelde missie en kan het inzicht geven in de manier waarop instructie en het leren van studenten verbeterd kan worden. Echter, voordat de informatie gebruikt kan worden, moet het eerst geïnterpreteerd worden en vertaald worden naar bruikbare informatie.
Bij het interpreteren van de assessmentresultaten is het moeilijk om oorzaak en gevolg te bepalen in termen van wat de instelling heeft gedaan om een bepaalde leeruitkomst bij studenten teweeg te brengen. Daarnaast leidt triangulatie niet altijd tot één ‘juist’ antwoord. Daarom is het belangrijk om de betekenis van de resultaten in een diverse groep mensen te bespreken.
Er zijn verschillende raamwerken met ethische richtlijnen voor assessments. In dit hoofdstuk zal een overzicht worden gegeven van enkele van deze richtlijnen. Bij een assessment voor het verbeteren van een instelling komen vele ethische principes kijken. Allereerst betreft dit het feit dat studenten en producten van studenten de focus van assessments zijn. Daarnaast gaat het om het ethisch gebruiken en implementeren van data ten behoeve van verbetering van de instelling. Het doel van dit hoofdstuk is het in twijfel trekken van de toepasbaarheid van ethische principes binnen de context van succes en verbetering van een instelling. Het probleem is niet dat ethiek en verbetering van een instelling op gespannen voet met elkaar staan, maar dat ethiek relatief is.
Consensus over ethiek
De ‘American Evaluation Association’ (AEA) heeft de volgende ethische principes voor een assessment vastgesteld: systematisch onderzoek, competentie, integriteit/eerlijkheid, respect voor mensen en verantwoordelijkheid voor het algemene en publieke welzijn. De principes die de ‘Joint Committee on Standards for Educational Evaluation’ (JCSEE) heeft vastgesteld, zijn: nut, mogelijkheid, fatsoen, nauwkeurigheid en onderwijskundige verantwoording. De principes van de JCSEE verwijzen naar:
De noodzaak van assessments om rekening te houden met het gebruik en de nauwkeurigheid van data
Verantwoordelijke implementatie en documentatie van het evaluatie-ontwerp en dataverzamelingsmethoden
Legale en ethische behandeling van subjecten en gebruikers van de evaluatie
Dit hoofdstuk stelt dat er twee lagen zijn van complexiteit in de toepassing van deze ethische principes:
De ethische behandeling van menselijke subjecten tijdens assessments.
Het gebruik en de interpretatie van data.
Ethiek met betrekking tot mensen
Een onderzoek heeft aangetoond dat bijna twee derde van de mensen die wel eens een assessment heeft uitgevoerd, te maken heeft gehad met een ethisch dilemma. Eén van deze dilemma’s heeft betrekking op vertrouwelijkheid. Vertrouwelijkheid is vooral een kwestie wanneer de steekproef zo klein is dat de identiteit van studenten al achterhaald kan worden op basis van demografische gegevens.
Er kunnen ook situaties zijn waarin het in het belang van de studenten is dat hun identiteit bekend is. Dit is bijvoorbeeld het geval bij een assessment van het leven van studenten, in zowel academisch als sociaal opzicht. Het betreft hier meestal de risico’s die studenten lopen, zoals alcoholgebruik en kwesties met betrekking tot de mentale gezondheid. Als bijvoorbeeld uit een assessment blijkt dat bepaalde studenten depressieve symptomen vertonen, is het in hun belang dat zij worden doorverwezen naar een psycholoog.
Naast vertrouwelijkheid is vrijwilligheid een belangrijk ethisch aspect van assessments. Om de vrijwilligheid van deelname te garanderen, kan gebruik worden gemaakt van toestemmings-formulieren. Echter, het is vaak lastig om voldoende respondenten te verwerven. Daarom wordt regelmatig gebruik gemaakt van beloningen.
Ethiek met betrekking tot data
Er zijn ook ethische richtlijnen met betrekking tot data, bijvoorbeeld als het gaat om nauwkeurigheid. Nauwkeurigheid wordt gedefinieerd als de verantwoordelijkheid om technisch adequate informatie over te dragen. De richtlijn stelt dat er aandacht moet zijn voor gerechtvaardigde conclusies en beslissingen, valide en betrouwbare informatie, een goede dataopslag en een goede dataverzamelingsmethode. De betrouwbaarheid van data kan op twee manieren worden vergroot:
Het verkleinen van de meetfout: dit kan op twee manieren.
Willekeurige steekproeftrekking of het gebruiken van meerdere pseudo-willekeurige steekproefontwerpen, die allemaal een element van randomisatie bevatten.
Het verzamelen van grote steekproeven of vergelijkingsgroepen binnen een steekproef. Een steekproef van meer dan 100 wordt groot genoemd.
Het elimineren van verstorende factoren: analyses zouden rekening moeten houden met en moeten controleren voor variabelen die de uitkomsten kunnen beïnvloeden, zoals demografische gegevens en omgevingsfactoren.
De menselijke kant van praktische ethiek
Bias
Ondanks het ideaal om waardevrij te blijven, is het een kenmerk van het hoger onderwijs dat de grenzen tussen subject en onderzoeker vaag zijn. Echter, betwijfeld kan worden of dit een probleem is en leidt tot een bias in de assessment. Het perspectief en de ervaringen van faculteitsleden zou niet gedistantieerd moeten worden van de analyse en interpretatie van data. Het is van groot belang om te verhelderen wat er binnen de leeromgeving gebeurt om te begrijpen waarom data wel of niet tot de verwachte uitkomsten leiden. Perspectieven zorgen voor een context waarin de data geïnterpreteerd kunnen worden.
Vertrouwelijkheid
Hoewel vertrouwelijkheid belangrijk is voor bepaalde soorten assessments, is het in sommige gevallen niet belangrijk of zelfs belemmerend. Dit betreft bijvoorbeeld assessments gericht op het achterhalen van het leerproces of de behoeften van studenten.
Vrijwillige deelname
Beloningen voor deelname aan assessments worden vaak ingezet om ervoor te zorgen dat de steekproef voldoende representatief is. Echter, het is onmogelijk om te achterhalen waar de grens ligt waarop beloningen meer ethische schade aanrichten dan dat ze goed doen. Een oplossing is om studenten duidelijk te maken dat ze de beloning ook krijgen als ze uiteindelijk beslissen om voortijdig met de assessment te stoppen. Het is beter om de noodzaak van beloningen te verkleinen door studenten meer bewust te maken van de noodzaak van assessments.
Goede data en praktische ethiek
Onderzoekers hebben dus niet alleen een ethische verantwoordelijkheid met betrekking tot menselijke subjecten, maar ook om data nauwkeurig te representeren en om goede conclusies te trekken. Ethische richtlijnen met betrekking tot het gebruik van data stellen dat conclusies die gebaseerd zijn op een kleine steekproef niet overtuigend zijn, door de kans dat de steekproef niet representatief is en er sprake is van een grote meetfout. Echter, is het niet ook een ethische verplichting om de leerervaringen van deze kleine steekproef studenten te erkennen en begrijpen? Dit geldt ook voor de ethische plicht om data te verzamelen onder ondergerepresenteerde groepen, zoals ethische of minderheidsgroepen.
De praktische ethiek suggereert dat er een manier bedacht moet worden om zelfs kleine steekproeven te representeren. Data van kleine steekproeven kunnen beschrijvend worden gerepresenteerd en kunnen leiden tot discussies over ervaringen van studenten.
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Field of study
Add new contribution