Collegeaantekeningen Onderzoek, inhoudsanalyse

Deze samenvatting is gebaseerd op het studiejaar 2013-2014.


Hoorcollege 1 – 2 juni 2014

Het grote verschil tussen een survey en een inhoudsanalyse zit in het materiaal. Bij een inhoudsanalyse gaat het om dood materiaal, bij een survey om levende mensen. Bij een inhoudsanalyse onderzoek je geen mensen, dus wat je onderzoekt, praat niet terug. Het voordeel hiervan is dat je meer controle over het onderzoeksvoorwerp hebt, maar je moet de antwoorden wel zelf uit het materiaal halen. Nadelen van surveys zijn dat bij surveys je vraagformulering en volgorde van vragen je bevindingen behoorlijk kan beïnvloeden. Ook is er een groeiende afkeer tegen surveys. Deze nadelen gaan niet op voor de inhoudsanalyse. In principe kan een inhoudsanalyse over alle inhoud van communicatie gaan. Vaak gaat het over nieuws en informatie, maar soms ook over bijvoorbeeld Twitterberichten, nieuwe media, entertainmentonderwerpen, songteksten of hoe personages worden neergezet in films. Een inhoudsanalyse kan zowel kwantitatief als kwalitatief zijn. In dit vak gaat het vooral om kwantitatief onderzoek. Er wordt vaak over gepraat als een systematisch-kwantificerende inhoudsanalyse.

 

Berelson en Holsti zijn de grondleggers van de inhoudsanalyse. Beiden hebben ze definities van een inhoudsanalyse vastgelegd. Berelson: “Content analysis is a research technique for the objective, systematic and quantitative description of the manifest content of communication.” Holsti: “Content analysis is any technique for making inferences by objectively and systematically identifying specified characteristics of messages.” Beiden noemen ze de kenmerken ‘objectief’ en ‘systematisch’ op. Holsti laat meer ruimte over voor de kwalitatieve inhoudsanalyse in zijn definitie, Berelson houdt het heel erg kwantitatief. Bij het practicum beperken we ons grotendeels tot het onderzoeken van manifeste inhoud, maar als het zowel valide als systematisch, objectief, betrouwbaar en repliceerbaar kan, kan meer latente inhoud ook (bijvoorbeeld over framing).

 

De globale opzet van inhoudsanalyse is heel vergelijkbaar met die van survey-onderzoek. Bij beide onderzoeken ga je een groot aantal eenheden onderzoeken voor statistische analyse. Je gebruikt een waarnemingsinstrument: bij de inhoudsanalyse het codeboek, bij de survey de vragenlijst. Je behandelt de eenheden bij beide soorten onderzoek op dezelfde manier. Ook de fasering is gelijklopend. Je begint bij een conceptueel model met een probleemstelling, dan de operationalisatie, steekproeftrekking, waarneming, analyse en conclusie. De opzet is dus heel vergelijkbaar, maar bij de inhoudsanalyse komen er wel wat dingen bij.

 

Bij de inhoudsanalyse zijn validiteit, betrouwbaarheid en repliceerbaarheid (ook) heel belangrijk. De nadruk ligt op betrouwbaarheid, omdat er vaak meer dan één codeur is. De speciale aandachtspunten zijn de theorie niet vergeten, de eenheden goed kiezen en expliciteren, het maken van goede variabelen en sampling. Het is nodig om deductief te werk te gaan: je vertrekt vanuit een theorie, om zo overzicht te houden over de context, de relatie met de sociale realiteit. Dit is vooral belangrijk bij het interpreteren van de resultaten. Een voorbeeld is tellen. Tellen is zo eenvoudig, dat te weinig wordt nagedacht over wat en hoe te tellen, wat het betekent (context) en waarom (validiteit). Er is dus nood aan een conceptueel model om het wetenschappelijk te maken. Kwantitatief onderzoek is dus niet zomaar tellen, maar proberen de sociale realiteit/communicatie-inhoud telbaar te maken.

 

Een kwantitatieve inhoudsanalyse begint vaak vanuit beschrijvende probleemstellingen. Bij monitoring houd je een bepaald fenomeen over de realiteit op de lange termijn in de gaten, bijvoorbeeld het voorkomen van minderheidsgroepen in media inhoud. Dit is eenvoudig en er is weinig theoretisch kader nodig. Monitoring is niet gelijk wetenschappelijk onderzoek. Bij wetenschappelijk onderzoek gaan we meer comparatief te werk. Indien het voldoende comparatief uitgewerkt is, kan het ook verklarend worden. Vergelijken kan in tijd (binnen eenzelfde medium), tussen media (binnen eenzelfde land) en tussen media in verschillende landen.

 

Bij het vertrekken vanuit de theorie is het doel onderzoeksvragen/hypothesen te formuleren die je kan beantwoorden met de middelen die je hebt. Onderzoeksvragen zijn iets meer open dan hypothesen. Hypothesen veronderstellen een uitgebreider theoretisch kader of eerder gelijkwaardig onderzoek. Deelhypothesen zijn niet altijd nodig, maar wel erg handig. Ze kunnen helpen de hoofdvraag te beantwoorden en zijn vaak veel concreter. Wel zijn ze meer werk.

 

Eenheden zijn niet universeel of medium gebonden, maar ze hangen af van de probleemstelling. Er zijn vier grote soorten eenheden: de samplingeenheid, de analyse-eenheid, de registratie-eenheid (+ teleenheid) en de contexteenheid. Bij een survey komen deze eenheden vaak overeen, maar bij de inhoudsanalyse is dit niet altijd zo. De samplingeenheid is de eenheid die je gebruikt om te selecteren in je materiaal. Hierbij volg je de best natuurlijke afbakeningen van het materiaal. Dit is bij bijvoorbeeld een krantenonderzoek een exemplaar van een krant. De analyse-eenheid is de eenheid waarover je uitspraken wil doen in je analyse. Dit wordt bepaald door je onderzoeksvraag. Bijvoorbeeld: ‘Populaire kranten brengen meer celebrity-nieuws.’ Je doet dan een uitspraak over kranten, dus de krant is je analyse-eenheid. Je analyse-eenheid kan gelijk zijn aan de registratie-eenheid, maar dit is niet noodzakelijk zo.

 

De registratie-eenheid (recording unit of observation unit) is de eenheid die je beoordeelt en categoriseert. Dit is altijd een kleinere of hooguit gelijke eenheid dan de sampling unit en analyse-eenheid. Bij het voorbeeld van populaire kranten die meer celebrity-nieuws brengen, hoef je niet per se per krant te meten, maar kun je ook per artikel het thema coderen en later aggregeren. Het artikel is dan je registratie-eenheid. Vaak zijn er registratie-eenheden op verschillende niveaus in eenzelfde onderzoek. In veel gevallen zijn deze dan gelinkt aan verschillende onderzoeksvragen. Bijvoorbeeld bij krantenonderzoek kun je analyseren op niveau van de krant (tabloid of broadsheet), op niveau van het exemplaar van de krant (dikte, weekdag), op artikelniveau (titel, lengte, thema) en op niveau van delen van het artikel (paragrafen, uitspraken). De registratie-eenheid moet steeds per variabele bepaald worden. Vermeld het ook in je codeboek en groepeer in je codeboek de variabelen met dezelfde registratie-eenheid.

 

De contexteenheid is het blok informatie dat je mee in rekening neemt bij het coderen. Het gaat hierbij om de hoeveelheid materiaal die de codeur moet meenemen bij het beantwoorden van vragen bij het coderen. Om bijvoorbeeld te beoordelen of een persoon in een film wordt neergezet als een gewelddadig karakter, maakt het namelijk uit of je rekening houdt met de volledige film of met alleen één scene.

 

Eenheden moeten gepast vastgelegd worden voor elke variabele. Je moet de eenheden expliciteren voor je onderzoek en pas als dat vastligt, kan je aan de codering beginnen te denken. Dat kan dus per deelvraag verschillen. Variabelen moet je categoriseren, zodat ze meten wat je wil weten en het voor iedere waarnemer duidelijk is wat ze betekenen. De sampling hangt ook grotendeels af van de onderzoeksvraag. Bepaal eerst de populatie/universum die relevant voor jouw onderzoeksvraag. De tijd en het budget zijn altijd beperkt, dus selectie in het materiaal is meestal nodig. Slechte of weinig doordachte sampling is vaak een probleem bij inhoudsanalyse.

 

Hoorcollege 2 – 4 juni 2014

In het hoorcollege zijn tips gegeven om van het thema naar variabelen te gaan. Maak enkel variabelen die je nodig hebt en gaat gebruiken. Je onderzoeksvraag hoeft zeker niet in één variabele gestopt te worden voor de codering, dit kan ook vaak niet. Denk aan de eenheden. Op welk niveau ga je meten? Dit moet je per variabele bepalen. Maak zoveel mogelijk ondubbelzinnige variabelen en hou ze eenvoudig. Vaak zijn JA/NEE vragen het duidelijkst. Het is niet erg als er daardoor méér variabelen zijn. Voorzie per variabele uitleg over hoe die moet gecodeerd worden. Desnoods maak je een beslissingsboom. Als je zelf niet kan uitleggen aan een medegroepslid hoe je tot een beslissing bent gekomen, ben je niet goed bezig. Zorg dat de antwoordcategoriëen elkaar in ieder geval niet overlappen (mutueel-exclusief) en dat ze alles afdekken (exhaustief). De basis van je codering is in principe Lexis Nexis artikelen. Denk eraan dat je genoeg materiaal hebt om te coderen. Je moet hiervoor 3 keer 8 uur gebruiken. Hoeveel artikelen je gaat coderen, hangt af van je codeboek.

 

In het artikel van Strijbos et al. (2006) wordt er fout gebruik gemaakt van ‘unit of analysis’. Ze willen kijken naar een verschil tussen de communicatie van twee groepen mensen. Hierbij zijn de groepen mensen de analyse-eenheid. De registratie-eenheid (observation unit) is een deel van de methode, van hoe je wil meten. De tekst gaat eigenlijk over registratie-eenheid, maar de onderzoekers noemen het telkens unit of analysis (analyse-eenheid). De analyse-eenheid wordt bepaald door wat je wil verklaren. Het artikel wil illustreren dat ook de procedure van het opdelen in eenheden onderhevig is aan fouten. Die fouten moeten dus ook gerapporteerd worden. De ene codeur ziet een tekstgedeelte als één geheel ‘unit of meaning’, terwijl de andere codeur ze ziet als twee delen van ‘unit of meaning’ en ze dus apart gaat opdelen en coderen. Dit zorgt voor extra problemen voor de betrouwbaarheid. Werken met units of meaning werkte dus niet, omdat er overlap door kwam. Uiteindelijk blijkt werken met een kleinere registratie-eenheid, zoals een zin of deelzin, beter dan met een unit of meaning. Een unit of meaning is te vaag.

 

Bij sampling bepaal je eerst de populatie/universum relevant voor jouw onderzoeksvraag. De tijd en het budget is altijd beperkt in een onderzoek, dus is selectie in het materiaal (universum) meestal nodig. Slechte of weinig doordachte sampling is vaak een probleem bij een inhoudsanalyse. Als sampling op een slechte manier gebeurt, krijg je vertekening in de resultaten of resultaten die helemaal niet kloppen. Het is niet nodig om een hele grote steekproef te nemen, als je met een kleinere steekproef ook goede resultaten kunt krijgen. Twee problemen die vaak voorkomen bij steekproeven zijn dat steekproeven fout/te klein zijn of dat steekproeven te groot zijn. Steekproeven die fout zijn of gewoon te klein zijn geven je geen goede resultaten, die je niet kan generaliseren. Steekproeven die te groot zijn leiden ertoe dat je tijd en geld (efficiëntie) verspilt. Er zijn twee soorten steekproeven die vaak terugkomen in onderzoek: aselecte steekproeven en selecte steekproeven. Aselecte steekproeven (probability samples) zijn volledig of deels op toeval gebaseerd. Bij selecte steekproeven heb je convenience samples en quota samples. Convenience samples zijn steekproeven die bestaan uit het materiaal dat je al ter beschikking had. Mogelijk is er beter materiaal, dat niet beschikbaar is voor jou als onderzoeker, omdat het bijvoorbeeld te duur of te ver is. Bij een quota sample helpt een expert je te bepalen welk materiaal te selecteren.

 

Bij aselecte steekproeven heb je volledig aselecte steekproeven en systematische steekproeven of steekproeven die over een geconstrueerde periode gaan. Een volledig aselecte steekproef (op toevalsbasis) is niet altijd geschikt. De natuurlijke eenheden zijn namelijk vaak niet-homogeen. Je kunt dan ook een systematische steekproef. Het beginpunt is dan random, daarna kies je elke zoveelste dag. Deze steekproef is aangewezen als je een algemene uitspraak over een periodiek verschijnende inhoud wil doen.

 

Uit het artikel van Riffe et al. (1995) bleek dat je bij kranten een random steekproef kan gebruiken, maar dan heb je wel een groot sample nodig. Ook bleek dat materiaal van een aaneensluitende periode coderen geen goede resultaten oplevert. Een constructed sample (samengestelde week) werkt het best en één week is dan al voldoende. Dit komt doordat krantendagen niet gelijk zijn: een krant op zaterdag heeft niet dezelfde hoeveelheid van elke inhoud als een krant op maandag.

 

Uit het artikel van Lacy et al. (1995) kwam de conclusie dat voor weekbladen 14 random gekozen dagen voldoende zijn als sample voor een jaar. Een constructed sample (samengestelde periode) van 12 dagen is ook mogelijk, dus één per maand. Beide zijn dus voldoende voor de beperkte variabelen die hij onderzocht, maar de samengestelde periode is goedkoper. Toch is het beter om risico’s te vermijden, vooral als je niet al te veel informatie op voorhand hebt.

 

Bij een gestratificeerde steekproef verdeel je de populatie eerst volledig in homogene verschillende subpopulaties (strata), waaruit dan wel weer random of systematisch geselecteerd kan worden. Een nadeel is dat je je hele universum moet kennen voor je zo’n steekproef kan doen. Een voordeel is dat je zo wel zeker kan weten dat ook uit heel klein stratamateriaal wordt geselecteerd. Clustersampling gebruik je wanneer niet alle bestaande te onderzoeken eenheden in een universum te verzamelen zijn, maar er wel grote groepen (clusters) van bestaan en bekend zijn. Veel krantenonderzoek werkt zo, in combinatie met bovenstaande technieken. Een nadeel is dat je geen volledig overzicht hebt van je materiaal. Zo kunnen er eerder fouten ontstaan. Een voordeel is dat je het hele universum dus niet hoeft te kennen. Soms heb je voor je onderzoek het volledige universum tot je beschikking. Dan is sampling niet nodig en dus ook geen issue. Je hoeft dan ook geen significantietoetsen te doen.

 

Voor de grootte van een sample zijn geen vuistregels. Om de sample size te bepalen, bekijk je je onderzoeksvraag. Hoeveel precisie is nodig? Hoe zeldzaam zijn de gevallen? Als je bijvoorbeeld een onderzoek doet naar de beeldvorming van mensen met een beperking, gaat een klein sample niet voldoende zijn. Bij geconstrueerde samples moet je ook een afweging maken op basis van de homogeniteit van de titels, bijvoorbeeld de krant op zondag t.o.v. weekdagen. Je kunt ook een split-half gebruiken, als je een zware codering hebt.

 

Een computer-assisted content-analysis is in eerste instantie aanvullend en instrumenteel.

Elke onderzoeker gebruikt een computer of bepaalde software bij het maken van codeboek en codeerschema. Er is specifieke software om het coderen zelf in te doen (inladen en annoteren van materiaal). Soms wordt er een automatische inhoudsanalyse gedaan. De computer kan namelijk veel materiaal tegelijk opnemen in de analyse en de computer is consequenter dan een menselijke codeur. Dit kan echter ten koste gaan van de validiteit, want fouten in de data die wij wel zouden opmerken, spoort de computer niet op doordat een computer geen gezond verstand heeft.

 

Bij een automatische inhoudsanalyse begin je bij de probleemstelling. Er is een verschil tussen een thematische inhoudsanalyse en een relationele inhoudsanalyse. Bij een thematische inhoudsanalyse gaat het om ‘of/hoe vaak’, bijvoorbeeld hoe vaak er aandacht is voor komkommers in kranten. Bij een relationele inhoudsanalyse gaat het om welke relatie er in inhoud is. Hierbij onderscheiden we een netwerkanalyse en een semantische analyse. Bij een netwerkanalyse gaat het erom of twee begrippen samen voorkomen in inhoud, bijvoorbeeld of komkommers vaak in eenzelfde artikel worden genoemd als tomaten. Bij een semantische analyse gaat het ook om de aard van de relatie, bijvoorbeeld of komkommers tomaten ziek maken. Hiermee komen er meer problemen bij kijken, want je moet bij de computer goed aangeven hoe deze de relatie moet herkennen. Vaak kan de relatie op meerdere manieren verwoordt worden in de tekst, dus moeten deze manieren allemaal in de computer gezet worden.

 

Bij een automatische inhoudsanalyse is de volgende stap de waarneming. Je moet aangeven naar welke thema’s, actoren, waarden etc. je op zoekt bent. Dit moet je heel ver specifiëren in de computers, want computers kunnen zelf niet verder denken. Voor een automatische inhoudsanalyse is elektronisch beschikbaar materiaal ideaal. Je moet opletten of begrippen manifest of latent zijn. Een computer denkt heel manifest en reageert alleen op vastgelegde termen. Voorkomende problemen worden vaak veroorzaakt door synoniemen, homoniemen en hyponiemen. Disambigueren is het vastleggen in welke omstandigheden een woord een bepaalde betekenis heeft. Dit is heel belangrijk. Bij een semantische analyse moeten dan ook alle indicatoren van het predikaattype gegeven worden. Bij bijvoorbeeld de zin ‘Komkommers maken tomaten ziek’ (=predikaattype) horen ook de termen ‘besmetten’, ‘infecteren’, ‘doen verrotten’, ‘vervuilen’, ‘slecht maken’ etc. Het is heel lastig om deze termen allemaal op voorhand uit te denken.

 

De derde stap bij een automatische inhoudsanalyse draait om de data. Je moet bepalen wat de waarnemingseenheid is. Dit is afhankelijk van je onderzoeksvraag. Je moet ook zorgen dat de computer deze waarnemingseenheid kan herkennen. Je gebruikt een term-by-document-matrix en de linguïstiek. Lemmatisering is het reduceren tot de stam: het korter maken tot de basisstam van het woord. Deze stam wordt dan door de computer herkend. Je moet zorgen voor taalkundige en rekenkundige ontleding, hierbij kan bepaalde software helpen.

 

De vierde stap is de analyse zelf. Dit gaat in principe op dezelfde manier als een ‘gewone’ inhoudsanalyse. Er zijn wel meer mogelijkheden, bijvoorbeeld de Latent Semantic Analysis (soort factoranalyse) en de analyse van patronen, die je vervolgens kan definiëren. Deze exploratie is het grootste voordeel van een automatische analyse, samen met de grote hoeveelheden die gecodeerd kunnen worden. De grootste nadelen zijn onopgemerkte fouten en dat er een grote begininspanning nodig is.

 

Bij een prominentieanalyse telt de computer voor jou in inhoud die jij selecteert. Je kunt zowel een thematische analyse als een relationele analyse uitvoeren, maar dan wel alleen een netwerkanalyse, geen semantische. Vraagstellingen die je zo kunt onderzoeken zijn, zijn vaak op het volgende gebaseerd: ‘Hoe vaak komt … voor in de periode….?’ Je kunt hier ook een vergelijkend aspect aan toevoegen: ‘Komt …. in periode …. vaker voor in krant X dan in krant Y?’

 

Hoorcollege 3 – 10 juni 2014

Een kwantitatieve inhoudsanalyse kan soms heel beschrijvend en manifest zijn. De codering is dan meer een soort telling, zoals een prominentieanalyse. Soms is er echter meer interpretatie nodig, als de antwoorden niet meer zo duidelijk en manifest waar te nemen zijn. In dit soort gevallen moet de variabele niet geteld, maar beoordeeld worden. Die oordelen moeten zoveel mogelijk gelijk zijn voor alle codeurs. In hoeverre dit het geval is, heeft gevolgen voor de betrouwbaarheid van het onderzoek. Bij betrouwbaarheid gaat het erom of alle codeurs hetzelfde meten. Gebruiken verschillende mensen het instrument op dezelfde manier? Tussen de validiteit en betrouwbaarheid in een onderzoek moet een balans gevonden worden. Soms gaat een verbetering van de validiteit namelijk ten koste van de betrouwbaarheid, en andersom. Veel categorieën om variabelen in te delen maakt een meting namelijk meer valide, maar wel onbetrouwbaarder. Door uit meer categorieën te kunnen kiezen, is het voor de codeurs lastiger op dezelfde resultaten van coderen uit te komen.

 

Het artikel van Rourke & Anderson (2004) wijst op het belang van validiteit in de kwantitatieve inhoudsanalyse. Bij validiteit gaat het erom of je meet wat je wilt meten. Dit is vooral belangrijk bij onderzoek waarbij je op basis van gecodeerde inhoud uitspraken doet over een fenomeen buiten die inhoud. Zo kun je in een onderzoek aan de hand van de online posts van studenten uitspraken proberen te doen over hun cognitive processing. Volgens het artikel moet er meer aandacht besteed worden aan de validiteit. Dit kan door in het theoretisch kader de link tussen de inhoud en het construct duidelijk te maken. Verder is een ruime lijst van indicatoren beter dan één indicator. Je kunt ook empirisch onderzoeken of je meting valide is, door bijvoorbeeld experts, andere onderzoeksmethoden en te vergelijken met gelijkaardig onderzoek. In je onderzoek kun je gebruik maken van bestaande meetinstrumenten en ze indien mogelijk verbeteren.

 

Er zijn een aantal belangrijke begrippen bij het coderen: het codeboek, codeerschema, codeurselectie en codeurstraining, codeerprocedure en betrouwbaarheidstest.

 

Het codeboek moet ten eerste informatie bevatten over de eenheden, zoals de registratie-eenheid en de contexteenheid. Hoe worden die eenheden bepaald? Zijn er verschillende niveaus registratieheden? Zorg steeds voor elke variabele voor duidelijkheid op welk niveau die wordt gemeten, en met welke context de codeur rekening mag houden. Het is handig de variabelen per niveau te groeperen in het codeboek en het codeerschema. Verder is het belangrijk dat je altijd te coderen materiaal kan identificeren! Je moet later, op basis van wat je gecodeerd hebt, in staat zijn om dat specifieke artikel terug te vinden. In dit practicum heeft elk krantenartikel een uniek nummer.

 

Ten tweede moet het codeboek informatie bevatten over de variabelen: er moet een volledige lijst van alle categorieën per variabele in staan met voldoende uitleg. De variabelen moeten zo gecategoriseerd staan, dat voor iedere waarnemer duidelijk is wat ze betekenen. Hierdoor is de kans groter dat ze betrouwbaar gecodeerd kunnen worden. Alle codeurs moeten ten alle tijde met dezelfde instructies werken. Bij het meten van variabelen moet je de keuze maken tussen gesloten en open vragen. Bij een kwantitatieve inhoudsanalyse is er de voorkeur voor gesloten categorieën. Open vragen kan ook, maar dat is eigenlijk het probleem voor je uitschuiven. Als je later die inhoud kwantitatief wilt analyseren, zal je toch gesloten categorieën moeten maken. Open vragen komen zeer weinig voor, want je moet nog een inhoudsanalyse doen op de antwoorden van je vragen.

 

Er zijn vijf dingen waar je aan moet denken als je je variabelen gaat opstellen. Ten eerste moet je er op letten dat je maar één dimensie per variabele meet. Soms kan een vraag meerdere dingen meten en dit moet je vermijden. Als oplossing hiervoor kun je verschillende variabelen maken. Verder moet je zorgen voor exhaustieve categorieën. Het probleem kan voorkomen dat je wel één dimensie meet, maar je categorieën toch overlappen. Je hebt dan twee verschillende mogelijkheden die beiden juist zijn op je vraag. Ook moet je zorgen voor mutueel-exclusieve categorieën. Het kan zijn dat de categorieën niet volstaan om alles te coderen en dat er essentiële categorieën ontbreken. De oplossing hiervoor is die essentiële categorieën toevoegen. Als vierde zijn er duidelijk instructies nodig: sommige instructies zijn vaag of onbestaande. Vaak zijn er meer instructies nodig dan op het eerste gezicht lijkt. Sommige termen die als antwoord op vragen gegeven worden, zijn te onduidelijk als begrip om zomaar te gebruiken zonder uitleg. De oplossing hiervoor is om alles duidelijk in detail uit te leggen en te definiëren, of moeilijke, onduidelijke termen (categorieën) op te delen in subtopics. Tenslotte is weggegooide informatie nog een probleem. Het kan voorkomen dat men soms antwoordcategoriëen maakt die uit zichzelf een deel interessante informatie wegnemen. Zo geeft een mogelijk antwoord ‘een combinatie van meerdere van bovenstaande thema’s’ niet echt informatie en is dus informatie-arm. De oplossing hiervoor is andere variabelen maken.

 

Wat er verder in het codeboek moet staan, is informatie over de procedure die bij het coderen gevolgd moet worden. Maak een soort scenario of stappenplan dat de codeur telkens opnieuw moet doorlopen bij elke codering. Ook moet je de verdeling van coderingen vastleggen, wie dus wat codeert. Soms is er misschien een grote tekst die door meer codeurs gecodeerd moet worden, dan moet je afspreken wie welk deel doet. Soms zijn er ‘itemization’-instructies nodig, als de codeur zelf moet bepalen wat items zijn die gecodeerd moeten worden. Ook moet bij deze stap de volgorde waarin de variabelen gecodeerd moeten worden, vastgelegd worden, en wat er gedaan moet worden bij belangrijke onduidelijkheden.

 

Tenslotte moet het administratieve elementen bevatten die de replicatie en cleaning vergemakkelijken. Deze elementen zijn inhoudelijk niet belangrijk en worden daardoor vaak vergeten, maar ze zijn zeer handig voor cleaning en replicatie. Essentieel in dit onderdeel zijn de naam of het nummer van de codeur, de indicatie van elk registratieniveau en een uniek nummer voor elke record (idealiter met betekenis). Soms is het handig een indicatie van volgorde van codering/invoeren (autonummer) te geven of dat datum van codering te vermelden.

 

Zorg in het practicumonderzoek voor consistentie in de categorieën. Variabelen die je zeker moet hebben zijn de codeur (naam of nummer), een opmerkingenveld, een identificatie van het registratieniveau en elk artikel moet een unieke code krijgen. Dit is al gegeven, namelijk het artikelnummer. Die moet je er altijd inlaten! Het opmerkingenveld is een leeg vak waarin je eventuele onverwachte, maar interessante dingen kan schrijven. Het hebben van een opmerkingenveld is niet verplicht, maar wel aan te raden. Als je aan het coderen bent en er is een specifiek geval, kun je dit gelijk noteren om later makkelijk de probleemgevallen te gaan bekijken.

 

Op basis van je codeerschema maak je je onderzoekschema. Beperk je tot de essentie van je onderzoeksvraag. Het codeerschema bevat geen nieuwe elementen waarvan geen spoor is in het codeboek. Alles wat in je codeerschema staat, moet dus al in je codeboek staan. Hoe het codeerschema eruitziet is afhankelijk van de persoonlijke voorkeur van de onderzoeker en de grootte en complexiteit van het onderzoek. Werk je graag met bepaalde software of programma’s, dan kun je zorgen dat deze terugkomen in je onderzoek. In het practicum doen we dit niet en gebruiken we allemaal dezelfde. Het codeerschema kan verschillen van eenvoudig (een leeg blad) tot ondersteunend en faciliterend (codeerformulier dat helpt sneller en correcter te werken).

 

Het codeerschema kan pas gemaakt worden als het codeboek klaar is. In de minimale vorm is het codeerschema de tabel in SPSS die je ook zal gebruiken voor analyse. Een variatie daarop is een lijst met je variabelen afdrukken, en op papier telkens opnieuw invullen, en later in de tabel invoeren (bijvoorbeeld. in Excel of SPSS). Deze minimale vorm van een codeerschema is te gebruiken voor kleine projecten met weinig variabelen, weinig te coderen materiaal en weinig complexiteit.

 

Bij onderzoeken die minder simpel zijn, moet men een apart codeerschema maken. Hiervoor zijn verschillende mogelijkheden (bijvoorbeeld Access, SPSS data entry, Qualtrics, Thesistools etc.). In principe wordt datgene wat je invoert/codeert meteen ook in de tabel opgenomen. Na het invoeren, heb je dus na twee minuten je databestand voor analyse.

 

Om het codeerschema wat geavanceerder te maken, heb je verschillende opties. Je kunt de lay-out aanpassen (mooier, functioneler, persoonlijker), het coderen makkelijker maken door categorieën van variabelen te voorzien in drop-down menu’s en alvast controleren op invoerfouten: je kan het programma vragen om bepaalde onmogelijke waarden te weigeren. Dat bespaart later werk bij de data-cleaning.

 

Vermijd missings in het codeerschema door de mogelijkheden van de software te gebruiken. Vaak kan je aanduiden dat een variabele verplicht moet ingevuld worden. Maak zoveel mogelijk gebruik van drop down lijstjes.

 

Vaak heb je meerdere codeurs nodig om je project tot een goed einde te brengen. Voor een onderzoek is het het beste als de onderzoeker niet zelf gaat coderen. Dit doen we in het practicum echter wel. Codeurs hoeven niet representatief te zijn voor de bevolking. Ze moeten voor het coderen wel een gemeenschappelijk referentiekader ontwikkelen. Voor het coderen selecteer je goede codeurs, want niet iedereen is geschikt. In dit practicum moet echter iedereen gewoon coderen. Op het gebied van codeursselectie moet je informatie geven over hoe je codeurs geselecteerd hebt. Een homogene groep codeurs (bijvoorbeeld studenten of experts) is niet noodzakelijk een probleem en zorgt juist voor een hoge betrouwbaarheid. Maar je moet wel altijd rapporteren hoe die groep is samengesteld, zodat toekomstige onderzoekers dat ook weten. Op het gebied van codeurstraining is er een volgorde die het beste is. Eerst komt de training van de codeurs met informele tests, dan een pilot study (niet op de echte data), dan wordt het codeboek aangepast en de codeurs opnieuw getraind. Vervolgens gaan de codeurs coderen. Bij het coderen hoort ook nog eens een betrouwbaarheidstest.

 

Bij het practicum is er uiteraard geen selectie (ieder groepslid codeert, evenveel) en de training is beperkt wegens tijdsgebrek. Als er blijkt dat er een slechte betrouwbaarheid is in dit practicum, is dat niet erg. Suggesties over hoe je variabelen te verbeteren zijn een belangrijk deel van het onderzoeksverslag. In een echt onderzoek zou je dat dus doen in een pilot study.

 

Bij het codeerproces is er ook een volgorde die het beste is. Je begint met een onderzoeksvraag, die je gaat operationaliseren in variabelen. Dan maak je de eerste versie van het codeboek op basis van literatuur, eerder onderzoek, overleg en gezond verstand. Dan ga je naar het materiaal kijken en op basis van het testen van dit datamateriaal maak je de tweede versie van het codeboek. Vervolgens maak je een codeerschema en ga je codeurs trainen. Je doet een pilot study op een deel van het materiaal, waarna je eventueel dingen gaat aanpassen of extra training geeft aan de codeurs. Indien het coderen betrouwbaar genoeg blijkt, ga je het coderen starten met een definitief vastgelegd codeerschema. Er is dus veel werk voor het eigenlijke coderen begint. Je moet altijd een leidraad of procedure opstellen die steeds moet gevolgd worden. Hoe strikt en uitgebreid die is, kan variëren. De intracodeurbetrouwbaarheid is de stabiliteit in de codering, binnen het werk van één codeur. Ook als je geen team van codeurs ter beschikking hebt, kan je dus een betrouwbaarheidstest doen. Het testen van de inter-codeurbetrouwbaarheid is echter sowieso beter.

 

Het aantal codeurs is belangrijk. Meerdere codeurs geeft extra werk in het codeerproces. Als je meerdere codeurs hebt, kun je ook de inter-codeurbetrouwbaarheid meten. Meerdere codeurs zullen samen een beter en meer repliceerbaar instrument maken, want problemen met het instrument zullen eerder worden blootgelegd. De codeeropdracht zal ook sneller klaar zijn. Een nadeel van meerdere codeurs is echter dat hoe meer codeurs je hebt, hoe meer potentieel verschillende referentiekaders er bij het coderen zijn. Dit is een risico voor de betrouwbaarheid.

 

Bij de betrouwbaarheid gaat het erom of iedereen de variabelen op gelijke wijze codeert. Dit kun je onderzoeken door dubbelcoderingen te doen en deze te vergelijken. Soms merk je hierbij problematische verschillen op. Deze verschillen kun je dan oplossen of je kunt op basis hiervan suggesties doen voor toekomstig onderzoek. Normaal geeft een pilot study aan of het coderen voldoende betrouwbaar gebeurt.

 

Een lage betrouwbaarheid wordt veroorzaakt door verschillen in codering tussen verschillende codeurs. Er zijn een paar mogelijke oorzaken voor deze verschillen. Zo kan het voorkomen dat er toch nog meerdere dimensies in de variabele gemeten worden. Deze variabele moet je dan uit elkaar halen in verschillende variabelen. Ook kunnen de categorieën niet duidelijk genoeg zijn gedefinieerd of anders zijn begrepen. Deze moet je dan verduidelijken. De codeerprocedure kan niet duidelijk zijn of niet juist gevolgd zijn. Er moeten dan duidelijkere instructies worden gegeven en codeurs moeten niet uitgaan van veronderstellingen, maar alles volledig invullen. Ten slotte kunnen er verschillende referentiekaders bij de codeurs zijn. Dit is problematisch bij meer nood aan interpretatie in het onderzoek. Verdere oplossingen die je kunt gebruiken voor (nog) onbetrouwbare variabelen of codeurs zijn de variabelen ontdubbelen (bij meerdere dimensies), betere definities van categorieën geven, de procedure aanpassen, extra training geven, een codeur eruit gooien of een variabele eruit gooien. Bij het kritisch zijn op eigen onderzoek in het practicum, kun je deze oplossingen ook als aanbevelingen geven in vervolgonderzoek.

 

Bij een inter-codeurbetrouwbaarheidstest ga je per variabele testen in welke mate meerdere codeurs voor dezelfde recording unit dezelfde codering geven. Zowel codeurs als variabelen kunnen onbetrouwbaar zijn. Dit is belangrijk, want dit moet op verschillende manieren opgelost worden.

 

Bij het testen van de betrouwbaarheid moet je eerst materiaal selecteren voor de betrouwbaarheid. Dit kun je doen met random sampling. Voor de hoeveelheid materiaal die je moet selecteren voor de betrouwbaarheidstest is een internationale standaard: 10 procent van de volledige sample. Maar je moet ook kijken naar de specifieke situatie van je onderzoek. In dit practicum moet je minimaal 50 artikelen door alle codeurs laten coderen.

Soms moet je specifiek samplen op bepaalde variabelen.

 

De betrouwbaarheid kun je onder andere meten door het percentage van overeenkomst te berekenen. Dit is het aantal procent items dat identiek gecodeerd is door de vergeleken codeurs. Deze manier houdt echter geen rekening met toevalstreffers en geeft dus vaak een te goede indruk. Stel namelijk dat er een dichotome variabele is waarbij er 50% kans is op het antwoord ‘ja’ en 50% kans op antwoord ‘nee’, dan zou je met random coderen 50% overeenkomst kunnen halen! Dat heeft echter niks te maken met juist coderen, maar met toevalskansen. Soms kun je door toeval gewoon juist coderen als er maar weinig categorieën zijn. Toeval kan ook tot juiste resultaten leiden, net zoals tot foute.

 

Om de betrouwbaarheid te berekenen, kunnen we ook Scott’s pi, Cohen’s Kappa of Krippendorff’s Alpha gebruiken. Deze manieren houden wel rekening met toevalstreffers. Wat nu de beste manier is, blijft een discussie tussen wetenschappers. Velen gebruiken Cohen’s kappa. Ondertussen is er meer en meer consensus over dat Krippendorff’s Alpha beter is. In dit practicum gebruiken we Krippendorff’s Alpha. Het nadeel van deze manier is dat deze moeilijker te berekenen is. Gelukkig kun je deze wel berekenen in bijvoorbeeld SPSS.

 

Hoorcollege 4 – 18 juni 2014

Descriptieve analyses gaan om het beschrijven, vergelijkende analyses om het vergelijken/verklaren. Er zijn in het onderzoeksverslag twee verschillende analyses: Analyse A (grafiek van prominentieanalyse) en Analyse B (codering).

 

Bij de analyse en resultaten maak je tabellen. Wat in je tabellen staat, hangt af van je onderzoeksvraag. Je moet niet te veel in de tabel zetten, dus geen onnodige informatie, maar ook niet te weinig. Alle essentiële informatie moet er wel in staan. De lezer ziet niet meteen waar het over gaat als er te veel in de tabel staat. Bij het rapporteren gebruik je kruistabellen en gemiddelden. Kruistabellen bevatten meestal percentages. Uitzonderlijk (bij lage N-waarden) kunnen dat ook absolute aantallen zijn. Gemiddelden zijn nuttig bij interval en ratio variabelen, dus ook bij schalen die je eventueel zelf maakt van een aantal dichotome variabelen.

 

Een grafiek kan ook gebruikt worden in plaats van een tabel, zelfs in wetenschappelijke rapporten, als het visuele aspect een meerwaarde geeft. Soms kan dit er voor zorgen dat er een duidelijker beeld is van de data. Een grafiek is meestal geen goed idee als er te veel cijfers te rapporteren zijn, als de significantie van verschillen ook weergegeven moet worden, als data van verschillen ook weergegeven moet worden, als je data van meerdere variabelen in een overzicht wilt plaatsen of als je met je rapport over het algemeen een (terecht of onterecht) wetenschappelijke indruk wilt maken.

 

Meestal wil je weten wat de relatie tussen variabelen is, vaak tussen een onafhankelijke variabele (vaak krant of tijdsperiode) en een afhankelijke variabele. Je zal daarom vrijwel altijd asymmetrische relaties onderzoeken, waarbij er dus een onafhankelijke en afhankelijke variabele is. Gebruik wat je geleerd hebt in MCO over de opbouw van een onderzoeksrapport en statistische maten en technieken.

 

Bij nominale of ordinale variabelen kun je naar proporties kijken. Dit kan het beste via crosstabs. Bij interval en ratio variabelen kijk je naar gemiddelden, dit kan het beste via compare means. Vele groepen hebben al voorzien om van een aantal dichotome variabelen of schalen één index of somschaal te maken. Dat is doorgaans een goede manier om een interval-variabele te creëren. Het is belangrijk om te rapporteren zoals je geleerd hebt, met een factoranalyse, betrouwbaarheid etc. Als er bij het practicum niets uit de factoranalyse komt, of de schaal die je wilde maken is niet betrouwbaar, mag je die toch gebruiken voor het onderzoeksverslag. Je moet wel vermelden en uitleggen waarom de schaal volgens jou wel zin heeft, het liefst op basis van theoretische gronden.

 

Gemiddelden vergeleken kun je onder andere doen met associatiematen of met ANOVA, T-test of U-test. Associatiematen hebben als voordeel dat je die geleerd hebt bij MCO. Als nadeel hebben ze dat ze soms geen idee van significantie geven. Je vindt ze bijna nooit op die manier terug in gepubliceerde inhoudsanalyses. Bij significantie wil je uitsluiten dat de gevonden verschillen gebaseerd zijn op toeval en dus niet kunnen gegeneraliseerd worden naar de populatie. Bij associatiematen zijn vooral Eta en Eta^2 interessant. Deze pas je toe bij een asymmetrische relatie. De onafhankelijk variabele moet nominaal zijn, de afhankelijke variabele interval of ratio.

 

ANOVA, T-test of U-test hebben als voordeel significatie, generaliseerbaarheid en dat het een standaard procedure is. Je moet wel opletten welk soort je gebruikt, dit is een nadeel.

 

Maak als het kan nieuwe variabelen, zodat je op interval niveau kan werken. Probeer wat uit. Je hoeft niet noodzakelijk alle variabelen die je gecodeerd hebt, ook te gebruiken in de analyse. Je onderzoeksvraag blijft altijd van het hoogste belang. Wat wil je weten? Dat heeft ook zijn weerslag op de keuze van associatiematen en dergelijke.

 

Andere analysemogelijkheden zijn op multivariaat niveau, met meer vergelijkingspunten en met informatie die niet uit de teksten zelf komt.

 

In de conclusie moet je duidelijk aangegeven of je onderzoeksvraag beantwoord is en met welke data je dit gedaan hebt. In je discussie moet je bespreken van je resultaten betekenen in een maatschappelijke en wetenschappelijke context. Verder moet je suggesties geven voor vervolgonderzoek. Bij inhoudsanalyses is er vrijwel altijd nood aan enige uitleg/speculatie over potentiele effecten. Het effect zelf test je meestal niet met je inhoudsanalyse.

 

De voordelen van een inhoudsanalyse zijn dat ze transparant zijn en makkelijker repliceerbaar. Ook zijn er mogelijkheden voor comparatief onderzoek en longitudinaal onderzoek. Er is geen reactive-effect: het materiaal doet niks terug, wordt niet beïnvloed, zoals wel bij surveys. Het is een flexibele onderzoekstechniek: de inhoudsanalyse is met slechts kleine aanpassingen op veel verschillende media-inhouden toe te passen.

 

Potentiele problemen bij kwantitatieve inhoudsanalyse zijn dat alles staat of valt met je materiaal. Validiteit moet soms wijken voor betrouwbaarheid. Er is een tendens om heel beschrijvend te werk te gaan, waarbij je cijfers zonder theorie of context overhoudt. Een inhoudsanalyse kost vaak vrij veel tijd en geld. Grote langdurige inhoudsanalyseprojecten zijn daarom zeldzaam. Sampling is vaak een zwak punt: er worden te vaak convenience samples gebruikt. Inhoudsanalyses die de media halen, zijn vaak niet de best uitgevoerde onderzoeken. Er zijn een aantal uitdagingen voor inhoudsanalyses, zoals het omgaan met nieuwe media, interactiviteit en liquidity van mediamateriaal. Men moet op een verantwoorde manier gebruik maken van computers bij een inhoudsanalyse. Hoe kan je frames met algoritmes meten? Hoe kan zo’n computer omgaan met nieuwe gegevens? Kunnen mensen ooit compleet uitgeschakeld worden?

 

Op het tentamen zijn er 30 multiple choice vragen mét gokcorrectie die 70% meetelt, met een open vraag-gedeelte die 30% meetelt. Er wordt kennis en inzicht getoetst, je moet niet alleen kunnen reproduceren wat op de slides gekomen is, maar ook toepassen. De hoorcolleges zijn de basis voor de meeste tentamenvragen. De tekst van Selm & Wester is heel belangrijk, maar ook uit de andere teksten zullen vragen komen (geen details, steeds over iets relevants). Er zijn verschillende niveaus van vragen.

Contributions

Summaries & Study Note of Sociale Wetenschappen World Supporter
Join World Supporter
Join World Supporter
Log in or create your free account

Why create an account?

  • Your WorldSupporter account gives you access to all functionalities of the platform
  • Once you are logged in, you can:
    • Save pages to your favorites
    • Give feedback or share contributions
    • participate in discussions
    • share your own contributions through the 11 WorldSupporter tools
Content
Switch Font
Statistics
328
Selected Categories
Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Main Category
Learn & Develop
Language of your text
Nederlands