TOE Aantekeningen hoorcolleges Correlationeel - Universiteit Utrecht

CORRELATIONEEL HOORCOLLEGE 1

Inleiding

In deze les staan de links naar verschillende video-clips van stukken van de hoorcolleges van vorig jaar. Na elke video-clip kun je een aantal vragen over de inhoud van de video beantwoorden.

De onderwerpen die in deze les aan bod komen, zijn:

  • Typen correlationele data
  • Doelen van dataverzameling
  • Methoden van dataverzameling
  • Fouten bij surveys

 

Typen correlationele data

KOM overview

  • Qualitative research

    • Study people in natural environment
    • Holistic approach
    • Interviews, focus groups, text analysis
  • Correlational research
    • Quantitative
    • Relationships between variables
    • Causal study difficult
  • Experimental research
    • Researcher manipulation
    • Experimental and control group
      • Randomization of respondents into groups
    • Quantitative measures
    • Suitable for causal research

*als je dit niet weet, moet je dit bij KOM opzoeken.

Correlational data is everywhere

*-

Different types of data

Customer satisfaction
*bijv. mails over je bestelling ter beoordeling
Political polls
*bijv. misgaan bij VS, dat Trump wel won terwijl voorspeld van niet
Governmental statistics
*zodat overheid weet wat er speelt onder de bevolking

The growth of digital data
*groeit bijna exponentieel tegenwoordig. Want iedereen met smartphones enzo.

Correlational Data

*eigenlijk 2 manieren geproduceerd. Eeste is toevallig en 2e is opzettelijk. Toevallige manier wordt ‘organic’ genoemd. Opzettelijke manier hebben we ontworpen.
*[bij schema] organic wordt al geproduceerd, hoef je geen moeite voor te doen. Bijv. via social media. Al die tweets produceren data bijvoorbeeld. Toevallige manier opgesplitst in opzettelijk, niet omdat ze meedoen aan onderzoek, maar omdat ze wereld wat willen vertellen. 2e manier is transactional, bijv. wat gebeurt met je creditcard; je kan ook denken aan bijv. gegevens van energiemaatschappijen.
opzettelijke manier à bijv. administratieve, zoals belastingdienst. Wordt opzettelijke verzameld, maar niet echt experiment of survey.
‘transactional data’ is bijv. gegevens van bol.com over hoeveel bestellingen, maar ga je data verzamelen over hoe tevreden ze zijn over bol.com dan is het opzettelijk
Vandaag gaan we hebben over surveys. Hoe kunnen we die data verzamelen en wat zijn voor- en nadelen.

Doelen van data verzameling

Correlational data (designed)

We kunnen hopelijk terugkoppelen naar hele populatie: inferentie. We willen werkelijkheid beschrijven: beschrijvende statistiek. En relaties beschrijven. En we willen generaliseren. Dat zijn 3 doelen van data verzamelen. Verschillende doelen van inferentie: beschrijven, oorzaak vinden, voorspellen. Die drie doelen gaan we oefening mee doen.

Description, causation, prediction

Cbs statistics over economische positie van de vrouw à beschrijven, want niet gekeken waardoor economische positie gegroeid is bijv

The impact of fathering daughters (wat is mening van mannen over gendergelijkheid) à oorzaak gevolg, want kijken of mannen anders kijken naar gendergelijkheid als ze een dochter hebben

Waarschijnlijke resultaten dag voor verkiezingsuitslag à voorspellen

Plaatje of je van plan bent te gaan stemmen à eigenlijk beetje beschrijvend en voorspellend. Toch beschrijvend omdat artikel achter het model puur beschrijvend is. Bij voorspelling kan je beter ja/nee-vraag stellen. Dus daarom beschrijvend.
Afbeelding met tekst

Automatisch gegenereerde beschrijving

 

Methoden van dataverzameling

How to ask? Survey Modes

CAPI: computer assistent personal interview à omdat tegenwoordig interviews altijd met computer gaan
vragenlijst via post bestaat ook. kan ook via telefoon, vooral in avonduren. Telefooninterview; CATI: computer assistent telephone interview
internet gebeurt steeds vaker.
mixed-mode is combi van 2 verschillende methodes.

Differences between the modes

Bemoeienis van interview. Interviewer heeft invloed op resultaten. Verschilt tussen methoden: bij facetoface is dat veel meer bijv. dan op internet. Privacy is ook meer als je achter scherm zit bijv. Channels of communication: bijv als via telefoon is kan je niet zeggen kijk even naar dit plaatje. Dus manier waarop je kan communiceren hangt van afname manier af. Met gebruik van technologie geldt hetzelfde natuurlijk.

Survey modes in comparison


Mensen vragenlijsten laten afnemen, kost geld.
Als je iemand persoonlijk vraagt, is response het hoogst. Post is laagste, mensen vergeten de post.
Bij internet ook best veel controle, omdat met computer gaat en je dus veel kan inbouwen, bijv. vraag verplicht laten invullen & dat je naar bepaalde vragen gaat ahv je antwoord.
Als niet persoonlijk is dan laag interviewer effect.
Zo verschillende manieren afwegen.

Survey Modes in NL

Mixed devised surveys worden veel gebruikt. Bijv. dat zowel op smartphone als computer makkelijk te lezen is.
Online panels worden zowel gedaan met selecte als aselecte steekproeven, dat laatste nodig voor generaliseren.

Types of mixed-mode design

Antwoorden die mensen geven kunnen methode afhankelijk zijn. Bijv. als je niet comfortabel voelt door niet-anonimiteit. Kan ook zijn dat je ene methode gebruikt om mensen voor je te winnen en andere methode om in te laten vullen. Bijv. brief om doel onderzoek te promoten en vervolgens email met vragenlijst sturen. Reminders kunnen bijv. ook via post terwijl vragenlijst online. Persoonlijk interview via online vragenlijst, maar bijv. heel gevoelige info via post.

Cross-sectional and panel surveys

Panel surveys worden ook wel cross-sectional genoemd.
Onderzoeken van mensen over de tijd heen. Zo kan je ontwikkeling bijv. zien.
Voordeel is dus verandering over tijd beschrijven. En je kan zo achtergrondfactoren meenemen in je analyse.
Nadelen: uitval (kan komen door verschillende redenen, bijv. mensen willen niet meer mee doen, mensen overlijden, wave non-response kan ook: als iemand wel invult, dan tijdje niet en dan weer wel). Learning effect speelt ook een rol: als mensen een vraag al meerdere malen hebben ingevuld.

Types of mixed-mode design

Laatste manier is dat je per moment maar 1 type survey doet, maar elk ander moment dus een andere survey.

Voorbeeld zomertijd

Example

Moeten we zomertijd nou wel of niet afschaffen? EU dacht we gaan onderzoeken wat mensen in Europa daarvan vinden.

EU Summer Time Arrangements

Gelijkgetrokken voor de handel. Erna afgeschaft. Door oliecrisis weer ingevoerd, want dan bezuinigen door minder stoken. Dus historisch gezien weten we waar vandaan komt, maar wat vinden de mensen nu?

Public Consultation on summertime arrangements

Met zo’n grote steekproef, zou je genoeg moeten weten.
In antwoorden zie je waar mensen vandaan komen. 70% van antwoorden kwam uit Duitsland, maar afgezet tegen bevolkinghoeveelheid, dus echt veel.

Opinions of respondents by country

Meningen per land. Dan zie je landen in Zuiden willen zomertijd houden.

Reasons fort he opinion

We zien groot verschil voor redenen. In zuiden van Europa zijn leisure activites redenen, terwijl human health een reden voor afschaffing is.

Conclusions of the EC

Rare redenen komen eruit, zoals avondactiviteiten als reden om zomertijd af te schaffen, dat is raar.

Problems with the results

Niet representatief: niet afgenomen om hele populatie te meten.

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Fouten bij surveys

Remember the research cycle from KOM?

Onderzoeksontwerp rolt uit onderzoeksvraag. Bij wie en hoe gaan we meten? Daar gaat het fout.

Survey Lifecylce

2 kanten spelen een rol tot we een uitkomst hebben van wat we willen meten. We hebben conceptuele en operationele definitie nodig. Dan krijgen we meetinstrument en respons. Aan de andere kant hebben we mensen. Daar willen we steekproef uittrekken. Vaak hebben we een lijst daarvoor. Elke keer bij stapje nemen, is dat een bron voor het maken van fouten. En die staan in rood. Als we fouten negeren, kunnen we vertekening van resultaten krijgen. Eerste 3 fouten bij KOM behandeld.
Dekkingsfout
Steekproeffout
Non-responsefout

Nog 3 zijn er. Meet fout, aanpassingsfout en proces fout.

Target population & coverage
doelpopulatie daarin ben je geïnteresseerd. Lijst met mensen is steekproefkader. Sommigen staan niet op de lijst, of staan er 2x in, dus 2x zoveel kans om in steekproef te komen. Maar er zijn ook telefoonnummers die horen niet bij mensen, maar bij bedrijven bijv. Dekking is hoeveel mensen uit doelpopulatie staan werkelijk op je lijst.

Example

Waarom gaat dit fout? Vrijwilligers uit algemene populatie i.p.v. populatie waarin hij geïnteresseerd is. Oudere mensen is doelpopulatie en oudere mensen zitten minder op internet.

Coverage error

Speelt rol als mensen op lijst staan niet overeenkomen met mensen in doelpopulatie: zowel mensen die erin horen en niet op staan als mensen die erin staan maar niet in horen. Maar speelt pas rol als die mensen anders zijn dan doelpopulatie.

Onderschatting: wat niet op lijst staat, maar wel in populatie

Overschatting: wel op lijst, maar niet in populatie

Example

Wat gaat fout? Steekproef is eigenlijk veel te klein. Foutmarge: standaardfout bij gebruik van kleine steekproef wordt heel groot, bij grote steekproef steeds kleiner. Als fout groot is, kan je eventuele verschillen niet vinden. Verschillen worden dan niet significant gevonden.

Sampling error

Steekproeffout komt altijd voor, want steekproef nooit exact zelfde als populatie. Maar steekproeffout wordt belangrijk als steekproef te klein maakt en geen aselecte steekproef. Foutmarge is maat om die onzekerheid aan te geven. Bij surveys is vaak genoeg om survey af te nemen met 3 percentagepunten foutmarge.

Coverage and sampling error

Als je steekproef trekt vanuit steekproef kader, kan je ook verkeerde telefoonnummers hebben. Daarom moet je screenen; bepaalde nummers vallen nog uit en worden verwijderd uit steekproef.

Example 

Wat gaat fout? Survey is veel te lang, waardoor uitval hebt. Non-response: mensen gaan bepaalde vragen niet beantwoorden.

Nonresponse

Als mensen die geselecteerd zijn om vragen in te vullen, niet invullen. Wordt pas probleem als ze anders zouden antwoorden dan mensen die dat wel doen. Daar kom je heel moeilijk achter of dat zo is, want ja ze vullen niet in.

Unit-nonresponse: als mensen weigeren überhaupt mee te doen
item-nonrespronse: als mensen weigeren bepaalde vragen in te vullen

Redenen zijn verschillend: geen zin meer, geen vertrouwen meer.

Coverage, sampling & nonresponse

Plaatje compleet nu, je ziet verschillenden dingen die mis kunnen gaan. Verschillende fouten samen.

Total Survey Error Framework

Dan nu adjustement error.

Adjustment error

Data-analist behandelt de data anders. Bijv. data komt uit verschillende groepen, of non-response is in ene groep hoger dan in andere groep. Daardoor kan je data niet op 1 grote hoop gooien. Data-analisten doen dit op andere manieren, dus fouten erin. Gewogen gemiddelde berekenen kan bijv. op verschillende manieren.
Impute betekent opvangen door kijken wat in omgeving gebeurt. Bijv. als 1 antwoord mist, dan kijk je wat mensen met soortgelijke antwoorden daar antwoorden. Maar data-analist 1 doet dat anders dan data-analist 2.

Voorbeeld van poll Clinton en Trump. Verschillende antwoorden, want gewogen gemiddelden uitgerekend door een ahv ratio man/vrouw, ander ahv staat, etc. Dat is zon adjustement error.

Measurement error

Komt voor doordat mensen eigenlijk verkeerde antwoord geven. Kan door effect van manier waarop je vragenlijst afneemt. Dus survey mode effect. De laatste 2 (slechte vragen stellen of gedrag respondent) hebben we het andere keer over.
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Survey error bij voorbeeld zomertijd

EU Summer Time

Wat ging er nou allemaal fout bij die EU vragenlijst?
Dekkingsfout? Ja, want genoeg mensen in EU die niet online zitten.
Steekproeffout? Ja, want alleen vrijwilligers, dus alleen mensen die geïnteresseerd erin zijn. Waarom belangrijk aselecte steekproef? Dan kan je generaliseren door inferentiële statistiek.
Non-response fout? Ja heel hoog, want mensen die geïnteresseerd waren vulden in.
Aanpassingsfout? Ja, want percentage Duitsers bijv. was heel hoog, terwijl niet gecontroleerd voor grootte van het land. Niet een gewogen gemiddelde berekend.
Measurement error? Vragenlijst zal al heel snel in elkaar.
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Samenvatting

In deze les heb je kennisgemaakt met typen correlationele data, inferentiële doelen, methoden van dataverzameling en het total survey error framework.

Je kunt meer oefenen met de leerstof door het maken van de volgende exercises.



let op: internet was een fout antwoord!
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

 

Correlationeel Hoorcollege 2

Inleiding

In deze les staan de links naar verschillende video-clips van stukken van de hoorcolleges van vorig jaar. Na elke video-clip kun je een aantal vragen over de inhoud van de video beantwoorden. 

De onderwerpen die in deze les aan bod komen, zijn:

  • Herhaling (KOM) validiteit, betrouwbaarheid en correlatie 
  • Problemen bij data-verzameling
  • Het respons proces
  • Bias

 

 

Betrouwbaarheid en validiteit

Let op: Bij 28:33, wanneer de interne betrouwbaarheid besproken wordt, zegt de docent per ongeluk "interne validiteit".

Remember

Er zijn constructen waarvoor geen duidelijke meetinstructen zijn. Zoals intelligentie. Dus de volgende stappen volgen. Definiëren van begrip. En dan hoe je kan testen: operational definiton. Dus heel belangrijk dat er een conceptuele definitie komt om operationele definitie te kiezen. Score die eruit komt is variabele. Belangrijk onderscheid tussen construct en waarde van die variabele. IQ-score is iets anders dan intelligentie.

Example

Meetinstrument kan gezocht worden als conceptuele definitie duidelijk is. Schaalscore; meetniveau. Zie dat terug bij KOM. Schaalscore is meetniveau interval. De nul zegt namelijk niet dat je geen last hebt. En 50 is niet 50x zoveel als 1.

Good measurement?

-

Reliability & Validity

Betrouwbaarheid: dat niet varieert als je meet. Dus precisie. Dus consistente metingen.
Validiteit: valide als het meet wat het beoogt te meten. Hoe accuraat het meetinstrument bij het construct past.

Example

Stappenteller is bijv. accuraat voor aantal stappen meten. Je kan activiteiten ook opschrijven en afstanden inschatten. Dat is juiste manier, maar misschien niet heel betrouwbaar. Andere manier op telefoon locatie achterhalen en zo stappen inschatten. Niet valide als je alles met auto doet bijv. Dus verschillende manieren, niet alles is betrouwbaar en valide.

2-Minute exercise

Links: alle puntjes op verkeerde plek, wel dicht bij elkaar. Dus steeds op zelfde plek, dus betrouwbaar. Maar niet valide.

Midden: niet op juiste plek en telkens op andere plek. Dus zowel lage validiteit als betrouwbaarheid

Rechts: zowel valide als betrouwbaar

Measurement validity

Begripsvaliditeit: validiteit van meetinstrument. Kan je op 5 manierne bekijken.
indruks: of expert het goed lijkt
content: of alle aspecten gemeten worden
convergent: meten als er ander meetinstrument is dat zelfde meet, dan moeten uitkomsten nauw samenhangen
divergent: als er ander meetinstrument dat iets anders meet, dan moet minder samenhang zijn
criterium: hoort samenhang te zijn met begrip waarvan we weten dat er samenhang is. Dit kan ook bekeken worden ahv groepen.

Convergent validity of PTSD
mooie samenhang, dus dit is goed

Measuring strength

Met r, correlatiecoëfficiënt. De sterkte en richting meten van de lineaire relatie. Van interval of ratio meetniveau. Die r varieert tussen -1 en +1. Als we nul vinden? Dan is er geen lineair verband, er kan dus wel een verband zijn, maar niet lineair. Dicht bij -1 of +1, dan sterk verband.

Reliability

3 soorten.
test-hertest: als nog een keer afgenomen, willen we zelfde resultaten.
interrater: onafhnakelijk van degene die meetinstrument gebruikt
interne: in hoeverre hangen vragen binnen vragenlijst samen
Voorbeeldje zie je dat sterke correlatie bij test-hertest.

Report

Er staat nog andere betrouwbaarheid gerapporteerd: crohnbachs alfa, dat is voor volgende week.

Example: eating behavior

Belangrijk om gedrag te kwantificeren.

2-Minute exercise & Some ideas

Hoe kan je meten wat mensen eten gedurende de dag? Bijv. eetdagboek of in app bijhouden.

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Voorbeeld eetgedrag, deel 2

Je ziet vragenlijsten met ‘habits’.

Survey

Probleem is dat je moet herinneren en gaat over wat je normaal doet en niet nu à daardoor niet betrouwbaar. Als je wil kijken naar verschillen tussen groepen, dan is het wel handig, bijv. man of vrouw.

The effect of the recall period

Effect van herinnering heeft te maken met tijd. Percentage fout vanuit geheugen wordt heel snel heel hoog. 42% ernaast als 1 jaar geleden is.

Nog een voorbeeld over ziekenhuisbezoeken. Als tijd lang teruggaat, dn vaker mis.

Observations in a lab

Ook problemen mee. reactiviteit: mensen gaan zich anders gedragen als ze geobserveerd worden. Dus ook niet valide manier om te meten.

Pictures of 1 week of groceries

Wat gaat hier mis? Wekelijkse boodschappen fotograferen is al lastig, omdat je niet maar 1x boodschappen doet. En je weet niet of alles opgegeten wordt en wie wat eet. Dus geen valide manier om te meten.

Food diary (on paper)

Dat werkt voor mensen zelf. Want als mensen willen, houden ze nauwkeurig bij. Maar als mensen het moeten doen voor een onderzoek, dan is het niet nauwkeurig. Want dan schatten na een paar dagen. En dan meestal te weinig.

Diary (modern)

-

Diary (smartphone)

Instructies zijn zo ingewikkeld, dat het niet werkt. Daarnaast: werkt het wel voor iedereen, niet iedereen kan met zo’n app omgaan. Dekkingsfout dan, dus probleem met validiteit.

 


Antwoordproces

Problems with measurement

Ook de invloed op externe validiteit is belangrijk voor goed meten. Dekkingsfouten en non-responsefouten hebben daar bijv. invloed op.

Schatten maakt meetinstrument minder betrouwbaar.

Als je bepaalt meetinstrument ontwikkelt, dan hangt er vanaf wie de populatie is, of zo’n meetinstrument ook gaat werken. Als je niet genoeg geld hebt, kan je zo’n app ook niet maken, dus geld ook belangrijk.

Measuring

Vragenlijst werkt heel vaak. Als het gaat over meerdere dingen, over gedrag of meningen, dan werkt een vragenlijst.

The response process

We moeten ons afvragen: hoe kunnen we meten zonder fouten? Zo valide en betrouwbaar mogelijk.

4 stappen van response process. Eerst begrip: je moet eerst begrijpen wat de stelling of vraag betekent. 2e terugvinden van info: info opgraven uit geheugen. 3e beoordelen: is deze info antwoord op de vraag? 4e antwoord.

Comprehension
retrieval
judgement
response

Dus brein gaat door verschillende stapjes bij beantwoorden van vraag.

Onderzoeker hoopt dat jouw brein door die 4 stapjes gaat, maar in werkelijkheid skippen mensen stapjes en is de beoordeling niet altijd juist.

How many glasses of alcohol did you have last week?

 Je vergeet dingen, kan je beoordelen hoeveel je hebt gedronken, en wil je wel eerlijk antwoorden.

Recall: effect on means & variance

Beoordeling van meeste studenten zal onderschatting zijn, dus gemiddelde gaat omlaag.

Voorbeeld douchewater. En wat gebeurt er met spreiding? Wat gebeurt er als je gaat beoordelen (stap 3)?  Bij vragen is veel meer spreiding in antwoorden dan met sensor. Omdat betrouwbaarheid lager is bij vragen dan bij meten, dan is spreiding dus groter.

Survey issues that lead to bias

Ook bronnen in vraagstelling leiden tot vertekening. ? Question wording: Is de vraag wel eenduidig of kan het verschillende geïnterpreteerd worden Stelling/vraag moet kort en duidelijk zijn. En ook niet leidende vragen. Met leidende vragen stuur je iemand in een bepaalde richting. Double-barred questions: kan zijn ‘vind je stoelen in omega leuker en comfortabeler dan in theatron’? Dit is een dubbele vraag; wat beantwoordt je hier. Order effects: gaan we zo over hebben. Telescoping effects: hoe verder terug/hoe groter periode, hoe moeilijker schatten, dus meer vertekening. Sensitive questions: gevoelige onderwerpen zorgen voor vertekening; daarbij speelt relatie met onderzoeker ook een rol in wat gevoelig is.

Example

Als gevraagd wordt of amerikanen naar communistisch land mogen, dan veel ja. Als die vraag als 2e gevraagd wordt, dan veel minder ja. Order effect!

Bij replicatiestudie iets minder groot effect, maar nog steeds hetzelfde. Dus volgorde waarin je vragen stelt, heeft grote gevolgen voor uitkomsten.

Order effects

Volgorde effect heeft invloed op ophalen van informatie. Beoordeling wordt beïnvloed en antwoord. dus 3 van 4 delen van proces worden beïnvloed en natuurlijk invloed op validiteit van meting. Dus volgorde effect kan grote rol spelen en geeft vertekening.

Extra example: matrix questions

-

Response biases

Veel stapjes worden overgeslagen zijn bij matrix vragen. Dat heet satisficing. Ook gedrag respondent kan dus vertekening veroorzaken. Social desirability: je geeft antwoord wat je denkt wat iemand wil horen. Acquiescen: eerder geneigd mee eens te zijn dan niet geneigd zijn. Primacy/recency effects: je kiest wat je laatst hoort of eerste hebt gezien. Fence setting: neiging om extreme categorieën te mijden. Straight-lining/nondifferentation: je vult alles beetje middelmatig in.

Example

Acquiescence effect voorbeeld: neiging ergens mee eens te zijn. Dus in 1e optie neiging om het ergens mee eens te zijn.

Vragenlijstje over lessen op school. Middelste optie is daar weggehaald. Omdat je dan moet kiezen en niet in midden kan zitten. Dus avoiding fence setting.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
 

Samenvatting

In deze les heb je de onderwerpen validiteit, betrouwbaarheid en correlatie uit KOM herhaald en heb je kennisgemaakt met problemen bij data-verzameling, het respons proces en bias.

Je kunt meer oefenen met de leerstof door het maken van de volgende exercises.


Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

 

C0B: Inleiding tot SPSS

SPSS staat voor Statistical Package for the Social Sciences. Dit softwarepakket wordt sinds 1968 uitgegeven door technologie ontwikkelaar IBM. SPSS wordt gebruikt voor het uitvoeren van berekeningen en het creëren van visualisaties op basis van data.

Dit is een interactieve tutorial, je kunt het volgen terwijl je in je eigen versie van SPSS meekijkt, maar je kunt ook eerst kennismaken met SPSS hier in Grasple en jezelf vervolgens testen met behulp van de challenges. Je mag zelf kiezen wat voor jou het gemakkelijkste leert.

In deze cursus zal consistent een punt (.) gebruikt worden als decimaalteken.

Dit is gebruikelijk in de meeste Engelstalige landen. Voor iemand uit de Verenigde Staten zou $20.001 gelijk zijn aan 20 dollar en een tiende dollarcent. $20,001 (let op de komma) zou duizend keer zoveel waard zijn!

In Nederland, net als vele andere landen, doen wij het juist andersom en gebruiken we een decimale komma.

Het is mogelijk dat jouw versie van SPSS de komma gebruikt in plaats van de punt als decimaalteken. Als dat zo is, kun je nog gewoon de lessen volgen. Je moet alleen even een komma (in gedachten) invullen in plaats van een punt!

Mooi. Nu zitten we in SPSS. Zoals je ziet lijkt het redelijk op Excel: respondenten staan in de rijen, variabelen in de kolommen.

Let op: het werkt nogal anders!

Het grootste verschil is dat SPSS tenminste twee verschillende bestanden hanteert :

1. De 'data file'

Dit is waar SPSS de onbewerkte data bewaart.

2. De 'output file'

Dit is waar SPSS de opgevraagde bewerkingen en de gemaakte visualisaties bewaart.

Dit betekent dus dat wanneer je de data verandert, bijvoorbeeld door een respondent toe te voegen, de output niet mee verandert. Als je bijvoorbeeld daarna een nieuwe frequentietabel wilt hebben zul je die weer opnieuw op moeten vragen.

Dit betekent ook dat je er bij het werken met SPSS altijd aan moet denken dat je beide documenten apart moet opslaan!

We nemen nu een voorbeeld erbij:

Stel, je runt een supermarkt en je wilt precies weten hoeveel je verkoopt en hoeveel producten je nog op voorraad hebt. Je hebt daarom de volgende tabel gemaakt:

Afbeelding met tafel

Automatisch gegenereerde beschrijving
Afbeelding met tafel

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Laten we de 'data file' eens induiken en kijken hoe de data wordt opgeslagen in SPSS.

 

Zoals je linksonder in beeld kunt zien bestaan er twee verschillende schermen (views): de 'data view' en de 'variable view'.

  • Variable view: in dit scherm kun je informatie over je variabelen invoeren, bekijken en opslaan. Variable view geeft gedetailleerde informatie over de betekenis van variabelen en de waarden die bij deze variabelen horen
  • Data view: in dit scherm kun je de verschillende waardes voor elke variabele invoeren, bekijken en opslaan. Data view geeft gedetailleerde informatie over de scores van de respondenten.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Dit is de variable view. In de eerste kolom (onder 'name') staan de namen van de verschillende variabelen die in de dataset zijn opgenomen.

Onze tabel bevat informatie over drie verschillende variabelen, namelijk 'product', 'prijs' en 'aantal voorraad'. Zoals je ziet vind je deze variabelen terug in de eerste drie rijen van de variable view. Als je mee kijkt in je eigen SPSS, deze namen hebben we gemaakt door onder het kopje Name de verschillende namen in te voeren.
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Iedere kolom in de 'variable view' bevat een ander stukje informatie over een variabele. Er zijn best een hoop kolommen en na verloop van tijd zul je ze allemaal wel leren kennen.

Onder 'Name' geef je iedere variabele een korte informatieve naam (spaties zijn niet toegestaan) zodat je gemakkelijk kunt herkennen om welke variabele het gaat. In de kolom 'Label' kun je vervolgens een langere omschrijving van de variabele kwijt. Bijvoorbeeld een korte uitleg over hoe deze is geoperationaliseerd.
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Voor iedere variabele wordt ook aangegeven wat voor type variabele het is (zie kader).

Er zijn verschillende opties, de belangrijkste hieronder zijn:

  • 'String': de waardes zijn woorden of een stuk tekst.
  • 'Numeric': de waardes zijn getallen.

Afbeelding met tekst, schermafbeelding, computer

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving
De andere kolommen in de variable view (i.e. width, decimals etc.) behandelen we in de volgende lessen.

Afbeelding met tekst, schermafbeelding, computer

Automatisch gegenereerde beschrijving
Afbeelding met tafel

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Tot zover de 'data file'.

Het tweede deel van SPSS bestaat uit de 'output file'. Dit is waar je de resultaten van je berekeningen en gemaakte visualisaties kan bekijken.

In volgende lessen leer je hoe je berekeningen en visualisaties uitvoert.

Voor nu zijn er wat de 'output file' betreft twee dingen van belang:

  • Grafieken en berekeningen worden onder elkaar weergegeven. Van iedere nieuwe analyse die je uitvoert komen de resultaten onder de reeds verkregen output in de 'output file'.
  • In de 'output file' vind je ook de code om de grafiek opnieuw te generen. Dit wordt de SPSS Syntax genoemd. Hier hoef je voor nu niets mee te doen, het is gewoon even belangrijk dat je weet dat het bestaat.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Wanneer je klaar bent, moet je de bestanden opslaan. Onthoud dat je altijd twee bestanden moet opslaan!

  • De 'data file' sla je op; deze krijgt de extensie .sav.
  • De 'output file' sla je op; deze krijgt de extensie .spv.

Om de bestanden op te slaan, kies je binnen het scherm  voor 'File' > 'Save As' en sla de bestanden op. Denk aan een zinvolle naam en verwerk de datum erin en eventueel een versienummer als je een bestand meerdere keren moet bewerken.

Let op: in de output file staan, als je tussendoor niets hebt verwijderd, álle bewerkingen, dus ook die niet (helemaal) goed waren. Bewaar alleen relevante output, dus schoon het bestand op voordat je het opslaat!

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Samenvatting

Deze introductie zit er alweer op. Wat heb je allemaal geleerd? Je weet nu dat:

  • SPSS je kan helpen bij het uitvoeren van berekeningen en visualisaties.
  • SPSS twee typen 'files' kent: een 'data file' en een 'output file'.
  • de 'data file' twee 'views' heeft: de 'variable view' en de 'data view'.
  • elke variabele een type heeft . De twee meest gebruikte zijn 'String' (tekst) en 'Numeric' (getallen).
  • je bij het invoeren van data een punt gebruikt om decimalen te scheiden (alleen in de Nederlandse versie gebruik je tóch een komma).
  • de output file ook syntax bevat.
  • een data file opgeslagen wordt als een .sav bestand en een output file als een .spv bestand.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tafel

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tafel

Automatisch gegenereerde beschrijving
Afbeelding met tafel

Automatisch gegenereerde beschrijving
Dus een mens is een variabele en leeftijd, gender, opleiding etc zijn waarden? Nee toch? Ooh wacht ik zie dat indd er dingen als variableen daar staan. Maar hoe noem je dan die dingen ernaast?

Afbeelding met tekst

Automatisch gegenereerde beschrijving

C0c: Handmatig data invoeren in SPSS

Er zijn drie manieren om data in SPSS te krijgen.

  • Een bestaand databestand (.sav) openen
  • Zelf handmatig data invoeren
  • Importeren vanuit een ander type bestand (bijvoorbeeld Excel of .csv)

Door een bestaand databestand te openen, open je ook gelijk SPSS. Dat is natuurlijk de makkelijkste manier. Maar wanneer je je eigen data wilt analyseren, moet je zelf data invoeren. In deze les ga je leren hoe je dat zelf kan doen.

Open je eigen SPSS; dan kun je aan de slag met deze les!

We gaan oefenen met het maken van een 'data file' met informatie over verschillende films.

We starten bij voorkeur met het toevoegen van variabelen.

Wanneer je SPSS opent, opent het automatisch in de 'variable view'. Als dit niet het geval is open je deze 'view' door linksonder in de hoek op de bijbehorende knop te drukken.
Afbeelding met tafel

Automatisch gegenereerde beschrijving
Je voegt een nieuwe variabele toe door een naam en verdere details in de eerste rij in te vullen. Maak een variabele Movie aan zodat SPSS eruit ziet als hieronder.
Afbeelding met tafel

Automatisch gegenereerde beschrijving
De variabele die we net hebben toegevoegd is nu 'numeric'. Echter, de titels van de films zijn woorden. We moeten er dus een type 'string' variabele van maken. Dit maakt het mogelijk om tekst in te vullen in plaats van nummers.
Als je in de kolom 'type' op het woord 'numeric' klikt, dan zie je een knop voor meer opties. Klik hierop, dan opent er een pop-up scherm.
Afbeelding met tekst, schermafbeelding, computer

Automatisch gegenereerde beschrijving
Dit geopende pop-up scherm heet Variable type'. Klik op 'String' en vervolgens op 'OK' om het type variabele te veranderen.
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Het toevoegen van nieuwe data is gelukkig niet lastig. Als je op een cel klikt kun je de gegevens gewoon intypen.

Probeer de volgende films eens toe te voegen: Jaws, Shrek, Chocolat en Her.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Voeg nu de variabele 'Duration' toe, waarin we gaan aangeven hoe lang de film duurt.

Kies het juiste bijbehorende type ('string' of 'numeric').
Je 'variable view' zou er nu zo uit moeten zien.

Zoals je ziet is het type 'numeric', want de duur van een film druk je meestal uit in getallen.
Afbeelding met tekst, schermafbeelding, computer

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Verander de naam van de nieuwe variabele van '3D' naar 'In3D'.

Dat werkt wel!

We gaan nog een nieuwe variabele toevoegen.

Tegenwoordig experimenteren bioscopen met het verspreiden van speciale geuren tijdens de vertoning van een film. De bediener van de geurmachine dient precies de juiste dosis toe te voegen.

  • Voeg een nieuwe variabele toe en noem deze 'smell_choc'. Deze variabele geeft aan hoeveel chocolade aroma er precies in de machine gedaan moet worden om het gewenste effect te bereiken.
  • Stel het type van de variabele in op 'numeric'.
  • Voeg voor de film Chocolat een 'smell_choc' waarde van 0.002 toe. (Let op: bij de Nederlandse versie van SPSS moet je 0,002 gebruiken!)



Laten we ten slotte de zojuist gemaakte dataset opslaan.

Ga naar 'File' > 'Save As'.

Noem het bestand movies.sav en sla het op.

Nu zijn we klaar!
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Samenvatting

In deze les heb je geleerd hoe je handmatig data in kan voeren in SPSS.

Je weet nu:

  • Hoe je nieuwe variabelen kan toevoegen.
  • Hoe je nieuwe observaties kan toevoegen.
  • Hoe je variabelen de juiste naam kunt geven.
  • Waar de parameters in de 'variable view', zoals 'width' en 'decimals' voor zijn.

Je kunt je nieuwe skills testen in de volgende challenges.
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tafel

Automatisch gegenereerde beschrijving

 

 

 

Afbeelding met tekst

Automatisch gegenereerde beschrijvingAfbeelding met tekst

Automatisch gegenereerde beschrijving

C0D: Coderen en het codeboek

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Dat duurt best lang om zo’n antwoord in te vullen he? Stel dat je dit 300 keer moet doen, dan ben je nog wel even bezig…

Je vraagt een aantal vrienden om mee te helpen. Dat scheelt.
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Als je data met de hand invoert geeft dit gedoe:

  • Het kost veel tijd
  • De kans op fouten bij het invoeren is groot

Oplossing: Coderen

In statistisch onderzoek betekent coderen dat je elk antwoord vervangt door een getal en vervolgens elk getal koppelt aan een label.

  • Dat scheelt tijd
  • Het verkleint de kans op fouten

Coderen, definitie:

Het proces van waardes/getallen (de code) aan labels (de tekst) toekennen.

Hier zie je een mogelijke codering voor de de Interesse_College variabele.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Om te weten welke code je invult, moet je dus vooraf hebben afgesproken wat alle codes betekenen.

Deze lijst met afspraken noemen we het codeboek.
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Voorbeeld:

Laten we kijken hoe je de volgende vraag zou coderen:

Hoe ga je naar het werk?

Vervoermiddel:

  • Auto
  • Fiets
  • Trein
  • Anders

Vervoermiddel wanneer anders:

  • ___


Afbeelding met tekst

Automatisch gegenereerde beschrijving
Uiteindelijk zien je data er dan bijvoorbeeld zo uit :
Afbeelding met tafel

Automatisch gegenereerde beschrijving
Samenvatting

  • Coderen is het proces van waardes aan labels toekennen
  • De waardes zijn je code (1, 2, 3 etc.) en je label is de originele invoer (de tekst)
  • In het codeboek vat je samen wat alle codes en labels zijn
  • Coderen doe je voornamelijk bij categorische variabelen
  • Coderen werkt minder goed voor open vragen of interval/ratio omdat er dan veel verschillende antwoorden mogelijk zijn


Afbeelding met tafel

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tafel

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

C0e: (optioneel) Data importeren in SPSS

Het zal regelmatig voorkomen dat iemand je data toestuurt in een andere vorm dan een pasklaar SPSS-bestand.

Hoe importeer je die data dan in SPSS?

In deze les leer je de volgende twee typen bestanden in SPSS importeren:

  • Excel bestanden
  • CSV bestanden

We beginnen met Excel bestanden.

1. Excel bestanden importeren

Het importeren van Excel bestanden is vrij eenvoudig

Klik op de link om dit voorbeeldbestand te downloaden: Healthcare_survey_responses.xlsx

Ga nu in SPSS naar File > Open > Data en navigeer naar waar je het bestand hebt opgeslagen.

Selecteer 'Excel files' of 'All files' als het bestandstype en open het bestand.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Dit scherm verschijnt:

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Een Excel bestand bestaat meestal uit verschillende werkbladen. Je kunt echter maar één blad tegelijk in SPSS invoeren. In dit scherm kun je aangeven welk blad je wilt gebruiken.

Selecteer hier het tweede werkblad en klik op 'OK'.

Afbeelding met tafel

Automatisch gegenereerde beschrijving

of, afhankelijk van jouw versie van SPSS:

Afbeelding met tekst

Automatisch gegenereerde beschrijving

En je kunt aan de slag!

Afbeelding met tafel

Automatisch gegenereerde beschrijving

Dit is dus hoe je Excel bestanden in SPSS importeert.

Een ander bestandstype dat veel gebruikt wordt is een CSV bestand.

CSV is de afkorting van Comma Separated Values.

Het zal je niet verbazen dat dit een bestand is dat uit door komma's gescheiden tekst bestaat.  Wat je misschien wel zal verbazen is dat dit ook een ander teken dan een komma kan zijn, zoals een puntkomma. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Laten we nu eens een CSV bestand importeren. Klik hier om het voorbeeld bestand te downloaden: Movies.csv

Sla het bestand op en sluit Excel, dat automatisch opent bij het downloaden van een CSV bestand. Doe je dit niet, dan kan SPSS de file niet inlezen omdat deze geopend is..

Ga nu naar SPSS en klik op 'Open' > 'Data' en navigeer naar waar je het bestand hebt opgeslagen.
Selecteer 'CSV (*.csv)' in 'Files of type' en open Movies.csv.

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Je ziet nu een import scherm. In de onderste helft van dit scherm vind je de informatie die we in SPSS willen invoeren, netjes gescheiden door komma's.

Als je regelmatig bestanden met dezelfde opmaak moet invoeren kun je SPSS de opdracht geven om deze opmaak te onthouden. De volgende keer kunnen deze bestanden dan sneller geïmporteerd worden.
We hebben deze optie nu niet nodig dus houd de selectie op 'No' en klik op 'Next'.

Nu moeten we SPSS laten weten hoe de data die we willen importeren gestructureerd zijn. Onze data worden gescheiden door een komma, dus je kiest 'Delimited' en 'Comma' als 'decimal symbol'. Zoals je in de onderste helft van het scherm kunt zien staan de namen van de variabelen inderdaad in de eerste rij van het bestand vermeld. Kies 'Yes' en klik op 'Next'.

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Geef in het volgende scherm de volgende dingen aan:

  • Dat de eerste waardes in de tweede rij te vinden zijn ('data begin on line 2')
  • Dat iedere rij informatie over één observatie bevat ('Each line represents a case')
  • Dat je alle data wilt importeren ('all of the cases')

Als jouw scherm er zo uitziet als hiernaast, klik dan op 'Next'.

Linksboven in het import scherm kun je nu aangeven met welke tekens de waardes in je CSV bestand worden gescheiden. In ons bestand komen enkel komma's voor. De huidige selectie bevat ook spaties ('Space'). Als je goed naar de 'data preview' kijkt kun je zien dat deze selectie de opmaak van de data in de war brengt.

Afbeelding met tafel

Automatisch gegenereerde beschrijving

Deselecteer 'Space' en klik op 'Next'.

Er stonden spaties tussen de namen van de variabelen en dit staat SPSS niet toe dus je stuit op een foutmelding.

Afbeelding met tafel

Automatisch gegenereerde beschrijving

Gelukkig heeft SPSS de spaties zelf al weggehaald en vervangen met "V1". Je hoeft hier geen actie te ondernemen. Klik 'OK'.

Afbeelding met tafel

Automatisch gegenereerde beschrijving

Door op de verschillende kolommen in de data preview te klikken kun je de naam en het type variabele ('Data format') aanpassen.

Pas voor nu enkel de naam van de eerste kolom aan naar 'Rank' zodat deze gemakkelijk te lezen is.

Klik dan op 'Next'.

Dit scherm toont je een voorbeeld van hoe de data zo dadelijk in SPSS te zien zullen zijn.Afbeelding met tafel

Automatisch gegenereerde beschrijving

In dit geval hoef je het format van dit specifieke bestand niet op te slaan. De syntax hebben we op dit moment ook niet nodig. Je kunt dus op 'Finish' klikken.

Tadaaa! Je hebt zojuist een .csv bestand in SPSS geïmporteerd. Je kunt het nu als SPSS databestand gebruiken en opslaan.

Afbeelding met tafel

Automatisch gegenereerde beschrijving

Ga naar de 'variable view'. Zoals je ziet heeft SPSS de kenmerken van de variabelen (type, width, decimals etc.) automatisch ingevuld.Afbeelding met tafel

Automatisch gegenereerde beschrijving
Samenvatting

Je weet nu:

  • Hoe je data uit Excel bestanden in SPSS kunt invoeren.
  • Wat .csv bestanden zijn.
  • Hoe je data uit .csv bestanden in SPSS kunt invoeren.

Deze skills komen goed van pas wanneer je verschillende datasets in één SPSS bestand wilt samenbrengen.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving

C1a: Eerste visualisaties

We raden je sterk aan tijdens deze les je eigen versie van SPSS geopend bij de hand te hebben zodat je de stappen mee kunt doen.

We gaan ervan uit dat je de SPSS Intro les gevolgd hebt en weet hoe je data bestanden in SPSS kunt openen.

In deze les gebruiken we een bestand met data. Download de volgende data file en sla deze ergens op waar je hem gemakkelijk kunt terugvinden (op je bureaublad bijvoorbeeld): ex1.sav

Begin met het openen van SPSS.

Klik op 'Open'> 'Data'.

Selecteer de map waarin je ex1.sav hebt opgeslagen.

Klik op 'Open'.

Je zou nu ongeveer hetzelfde moeten zien als hieronder:

Afbeelding met tafel

Automatisch gegenereerde beschrijving

Cool! We hebben nu onze dataset in SPSS staan.

Volgende stap: het creëren van onze eerste visualisatie.

Dit kunnen we doen door naar de bovenste balk te gaan en te klikken op 'Graphs' > 'Chart Builder'.

Afbeelding met tafel

Automatisch gegenereerde beschrijving

Het kan zijn dat je dit scherm te zien krijgt. Je kunt hier op OK klikken. We zullen je later nog uitleggen waarom dit scherm naar voren komt en wat het betekent.

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Je krijgt nu dit scherm te zien.

In de onderste helft van het scherm kun je verschillende grafieken selecteren. In het lege vak rechtsboven bouw je je nieuwe diagram of grafiek.


Laten we beginnen met het maken van een staafdiagram. Sleep het plaatje met het eenvoudige staafdiagram naar het veld waar je je grafieken en diagrammen bouwt (lege veld rechtsboven in de hoek).


De variabele 'Color' moet dus op de X-as van ons diagram. SPSS stelt je in staat om variabelen naar het veld rechtsboven te slepen.

Sleep de variabele 'Color' naar het 'X-Axis' veld.


Na het succesvol verslepen van de variabele naar de X-as zie je de naam van de variabele onder het plaatje van het staafdiagram staan.

Let op, als je een grafiek maakt krijg je altijd een voorbeeld van hoe de grafiek er ongeveer uit gaat zien. Dit is niet hoe hij er uiteindelijk ook echt uit gaat zien.


Al je nu op 'OK' drukt verschijnt er een nieuw output-scherm.

Hierin zou je onderstaand diagram moeten zien. De lay-out van het diagram (bijv. de achtergrond) kan verschillen per SPSS versie. Je zou in ieder geval 4 bars moeten zien van deze hoogte:

Je kunt met de 'Chart Builder' allerlei verschillende grafieken en diagrammen bouwen. Laten we nu eens testen of je er eentje helemaal zelf kunt maken.

Bouw een cirkeldiagram voor de variabele 'Color'.

Als het het goed hebt gedaan dan zou je diagram er zo uit moeten zien:

Let op: afhankelijk van je versie van SPSS kunnen de kleuren afwijken, dat is niet erg, het gaat om de verdeling van de vlakken.

Laten we nog een cirkeldiagram maken, maar nu voor een andere variabele.

Hoe zou het cirkeldiagram voor de variabele 'Income' eruitzien?

Probeer het eens.

Wow! Voor elke waarde van inkomen is er een aparte punt in het cirkeldiagram gemaakt! Dit ding lijkt meer op een mandala dan op een duidelijk diagram. Misschien hebben we ergens iets over het hoofd gezien....

Enig idee wat dit zou kunnen zijn?

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Kijk aan! Nu weten we waarom dat diagram er zo gek uitzag. Cirkeldiagrammen zijn simpelweg niet geschikt voor het visualiseren van continue (interval/ratio) variabelen.

'Income' kun je prima visualiseren met bijvoorbeeld een histogram.

In de volgende lessen ga je leren welk type grafieken er allemaal zijn, wanneer je welke grafiek moet selecteren en hoe je deze maakt in SPSS.


Samenvatting

Wat heb je nu geleerd?

  • Je weet hoe je verschillende diagrammen/grafieken kunt selecteren via 'Graphs'> 'Chart builder' in SPSS.
  • Hoe je in de 'Chart builder' een staafdiagram maakt.
  • Hoe je in de 'Chart builder' een cirkeldiagram maakt.
  • Dat je afhankelijk van je variabelen een andere vorm van visualisatie moet kiezen.

Afbeelding met tekst

Automatisch gegenereerde beschrijving


Afbeelding met tekst

Automatisch gegenereerde beschrijving

C1b: Frequentietabellen

n 2009 publiceerde de krant The Guardian een lijst getiteld '1000 songs you need to hear before you die'.

Wat voor soort liedjes zouden ze daarvoor hebben geselecteerd? Laat dat nou net zijn wat we nu gaan uitzoeken :)

Download de dataset hier.

Open het bestand in SPSS.

Als je de dataset hebt geopend, dan zie je als het goed is het volgende:

We gaan nu een frequentietabel maken.
Dit doe je door te klikken op:

Analyze > Descriptive Statistics > Frequencies

In het scherm dat nu verschijnt kun je selecteren welke variabele je in de frequentietabel wilt opnemen.

We kiezen hier voor Theme.

 

 

Klik op OK.

Als alles goed is gegaan zie je nu de volgende tabel:

Afbeelding met tafel

Automatisch gegenereerde beschrijving

Afbeelding met tafel

Automatisch gegenereerde beschrijving
Afbeelding met tafel

Automatisch gegenereerde beschrijving
Afbeelding met tafel

Automatisch gegenereerde beschrijving
Afbeelding met tafel

Automatisch gegenereerde beschrijving
Afbeelding met tafel

Automatisch gegenereerde beschrijving
Afbeelding met tafel

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Als alles soepel is verlopen, dan zou je de volgende weergave moeten zien:

Afbeelding met tafel

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Frequentietabellen gebruik je vooral om categorische variabelen (nominaal/ordinaal) overzichtelijk weer te geven. Vooral als je de specifieke aantallen wilt zien.

In andere gevallen is het meestal slimmer om een visualisatie te gebruiken (bijvoorbeeld een histogram). Hier leer je later meer over.

Samenvatting

  • In SPSS maak je een frequentietabel door te kiezen voor Analyze > Descriptive Statistics > Frequencies en dan de gewenste variabele te selecteren.
  • Je gebruikt frequentietabellen voornamelijk voor variabelen op nominaal/ordinaal niveau.
  • Een frequentietabel uit SPSS toont:
    • het totale aantal observaties
    • het aantal missende waarden
    • de frequentie, het aandeel van de frequentie ('percent' en 'valid percent') en het cumulatieve percentage per categorie

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

C1c: Beschrijvende Statistieken

De voorbeelden in deze les zijn gebaseerd op een dataset over winsten via aandelen en obligaties.

Download de dataset hier.

Open de dataset in SPSS.

  • C1C: BESCHRIJVENDE STATISTIEKEN
  •  6%
  •  
  • Fout gespot?

Als het goed is heb je de dataset nu voor je en ziet deze er ongeveer zo uit:

Afbeelding met tafel

Automatisch gegenereerde beschrijving

Deze dataset bevat informatie over de gemiddelde verandering in de koers van aandelen en obligaties gedurende de periode 1928-2015. Hieronder vind je een beschrijving van de variabelen die je in de dataset kunt terugvinden.

Variabele

Beschrijving

YEAR

het jaartal

TBONDS

Koers Treasury Bonds, obligaties van de Amerikaanse overheid. Een getal van 0.44 betekent bijvoorbeeld een stijging van 44%.

SPSTOCKS

Koers S&P500 Stocks, aandelen van 500 grootste Amerikaanse bedrijven. Een getal van 0.44 betekent bijvoorbeeld een stijging van 44%.

TBONDS_D

Geeft aan of Treasury Bonds dat jaar zijn gestegen (1) of gedaald/gelijk zijn gebleven (0).

SPSTOCKS_D

Geeft aan of de S&P500 aandelen dat jaar zijn gestegen (1) of gedaald/gelijk zijn gebleven (0).

In SPSS zijn er verschillende manieren om beschrijvende statistieken te berekenen. In deze les zullen we twee mogelijkheden behandelen:

  1. Via het menu Descriptive Statistics
  2. Via het menu Frequencies

We beginnen met de eerste manier.

1. 'Descriptive Statistics' menu

Het opvragen van de beschrijvende statistieken in SPSS is relatief eenvoudig:

Ga naar 'Analyze' > 'Descriptive Statistics' > en klik op 'Descriptives'.

Vervolgens selecteer je de variabele waarvoor je de beschrijvende statistieken wilt berekenen. Selecteer voor nu de variabele TBONDS (nog niet 'OK' klikken, dat komt zo).

Klik nu op Options. In dit scherm kun je de gewenste statistieken selecteren. In de meeste gevallen wil je op z'n minst:

  • het gemiddelde (mean)
  • de standaarddeviatie (Std. deviation)
  • het bereik (range/Minimum/Maximum)

Selecteer deze statistieken, klik op 'Continue' en dan op 'OK'.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
SPSS heeft de opgevraagde statistieken voor de variabele TBONDS netjes in een tabel gezet.

Afbeelding met tafel

Automatisch gegenereerde beschrijving

... kun je de tabel niet vinden? Kijk nog eens goed in je output file.


Afbeelding met tekst

Automatisch gegenereerde beschrijving
ndien je beschrijvende statistieken wilt opvragen van meerdere variabelen, kun je meerdere variabelen tegelijk selecteren. Probeer het eens met TBONDS en SPSTOCK.
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
2. 'Frequencies' menu

Als je de mediaan of de modus van een variabele wilt genereren moet je SPSS nét andere instructies geven. Je kunt deze informatie namelijk als extra opties toevoegen bij het opstellen van een frequentietabel.

Dat gaat als volgt, klik op:

'Analyze' > 'Descriptive Statistics' > 'Frequencies'.

Je moet ook hier kiezen voor welke variabelen je de frequentietabel wilt opstellen. Kies hier voor TBONDS en SPSTOCK, maar klik nog niet op 'OK'.

lik op Statistics.

In dit 'Statistics' scherm kun je nu onder het kopje 'Central Tendency' de modus en de mediaan aanvinken

 

 

Selecteer deze opties, naast de standaard opties zoals het gemiddelde, de standaardafwijking, het minimum en maximum.

Note: Als je het practicum op maandag maakt, heb je wellicht nog niet de grasplelessen over deze onderwerpen gemaakt. De mediaan is de middelste waarde in je , de modus is de meest voorkomende waarde. Er zijn aparte grasplelessen waar dit iets uitgebreider wordt uitgelegd, deze maak je later thuis. 
 

Klik op 'Continue' en daarna op 'OK'.

In de output file vind je nu een tabel met de gevraagde beschrijvende statistieken. Deze staat vlak boven de frequentietabel.
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Samenvatting

In deze les heb je in SPSS op twee verschillende manieren een tabel met beschrijvende statistieken gemaakt:

  1. Via Analyze > Descriptive Statistics > Descriptives
  2. Via Analyze > Descriptive Statistics > Frequencies

PS: SPSS biedt ook nog andere manieren om beschrijvende statistieken te genereren (bijvoorbeeld bij het maken van een histogram) maar dit zijn de meest toegankelijke opties.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving

C1d: Meer grafieken

e komt visualisaties overal tegen. Kranten, rapporten en artikelen staan er vol mee. Het maken van visualisaties is dus een belangrijke en handige vaardigheid.

Je weet inmiddels al hoe je eenvoudige visualisaties zoals staaf- en cirkeldiagrammen kunt maken in SPSS. Je weet ook wanneer je welk type visualisatie kunt gebruiken.

In deze les leer je voor nog een aantal andere handige visualisaties hoe je deze in SPSS kunt maken.


In deze les ga je 4 nieuwe, veelvoorkomende visualisaties leren maken in SPSS:

  1. Histogram
  2. Geclusterd staafdiagram
  3. Boxplot
  4. Spreidingsdiagram

Voor deze les gaan we gebruik maken van het databestand rekenvaardigheid.sav. De dataset is te vinden op Blackboard. Sla het bestand op een goede plek op je computer op. Je zult dit databestand ook voor andere oefeningen nodig hebben. 

In dit databestand staat informatie over bijna 200 leerlingen die op verschillende momenten getoetst zijn op verschillende rekenvaardigheden. 

Open het databestand in SPSS. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving


Dit gebeurt bij mij niet???[SJ(1] 

Je kunt natuurlijk ook gewoon gelijk de optie 'Histogram' selecteren, dan krijg je precies hetzelfde resultaat.

 

Maak nu zelf een histogram van de variabele leeftijd. 


Afbeelding met tekst

Automatisch gegenereerde beschrijving
Stel, je wilt weten of er een verschil is in de verhouding tussen jongens en meisjes tussen leerlingen die basisonderwijs volgen en leerlingen van speciaal onderwijs. 

Om deze groepen te kunnen vergelijken gaan we een geclusterd staafdiagram maken in SPSS.

Deze optie vind je in het menu 'Bar' in de Chart Builder. Het is de tweede optie (zie kader).

NB: voordat je een nieuwe grafiek maakt, is het handig op de knop 'Reset' te klikken. Zo begin je met een schone lei.


In dit type staafdiagram kun je een staafdiagram maken van twee categorische (nominale/ordinale) variabelen samen. 

Sleep nu de variabele 'type onderwijs' naar de X-as. In het kader ‘Cluster on X: set color’ plaats je de variabele 'sekse'. Door deze extra variabele toe te voegen, geef je aan op basis van welke variabele je wilt groeperen. Dit noem je ook wel clusteren

Klik op OK en creëer de geclusterde staafdiagram. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Een boxplot maak je door 'boxplot' in het menu te selecteren. 

  • Op de X-as zet je de categorische variabele (geeft groepen aan)
  • Op de Y-as zet je de variabele waarvan je het centrum en de variatie wilt laten zien (interval/ratio variabele)
  • Bij twee categorische variabelen, kun je eventueel de tweede boxplot optie gebruiken

Maak nu een boxplot van 'CITO score rekenvaardigheid' per type onderwijs.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Probeer nu een boxplot te maken met zowel type onderwijs als sekse op de X-as. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving


Als laatste grafiek gaan we een spreidingsdiagram maken.

Laten we aan de hand van een spreidingsdiagram eens kijken of er een relatie is tussen de CITO score rekenvaardigheid (variabele 'cito4') en de voormeting op hoofdrekenen (variabele 'hoofdv'):

  • Kies 'Scatter/dotplot'

    • Sleep de variabele 'cito4' naar de x-as
    • Sleep 'hoofdv' naar de y-as
  • Klik 'OK'.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Samenvatting

In een vorige les had je al geleerd hoe je een staafdiagram en cirkeldiagram in SPSS maakt.

In deze les heb je daar de volgende grafieken bij geleerd:

  1. Histogram
  2. Geclusterde staafdiagram
  3. Boxplot
  4. Spreidingsdiagram

En daarbij ook hoe je groepeert (clustert).

Het is handig als je deze handelingen goed in de vingers hebt. Dus probeer een paar keer zelf de verschillende grafieken te maken!

In de challenges kun je controleren of je de juiste grafieken hebt gemaakt. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving



C1e: Variabelen berekenen

Voor deze les gaan we gebruik maken van het databestand PTSD.sav. De dataset is te vinden op Blackboard. Sla het bestand op een goede plek op je computer op. Je zult dit databestand ook voor andere oefeningen van volgende week nodig hebben.

In dit bestand staan data over slaapproblemen en posttraumatische stress. Deze data zijn onderdeel van het onderzoek van Victor Spoormaker (voormalig onderzoeker bij Psychologie). 

Open het databestand in SPSS. 

Kijk goed naar de variabelen in het databestand. In het bestand staan naast wat achtergrondvariabelen van ongeveer 100 mensen ook de antwoorden op vragen uit twee vragenlijsten: 

  1. een vragenlijst over slaapproblemen (de items slaap1 t/m slaap51)
  2. een vragenlijst over PTSD symptomen (de items ZIL1 t/m ZIL22)

De variabele gebjaar geeft aan wat het geboortejaar van de respondenten is. Hiermee kan niet gemakkelijk gerekend worden. Daarom maken we een nieuwe variabele, waarin we het geboortejaar omrekenen in iemands leeftijd op het moment van het onderzoek. Dit onderzoek is uitgevoerd in 2005. Om iemands leeftijd tijdens het onderzoek (of eigenlijk op 31 december 2005) te berekenen moet dus de volgende berekening gedaan worden: 2005 – geboortejaar.

Om dit te doen, ga naar:

Transform > Compute variable

  • Tik een goede naam voor de nieuwe variabele die je gaat maken in het kader 'Target Variable' links-bovenaan
  • In het kader 'Numeric Expression' tik je het begin van de berekening: 2005 – 
  • Plaats nu m.b.v. de pijl de variabele gebjaar achter wat je net getikt hebt
  • Klik op OK

Let op: Er verschijnt nu een nieuwe variabele in het databestand: in Data view helemaal rechts en in Variable view helemaal onderaan.

Ga naar de Variable View:

  • Pas het aantal decimalen aan voor de nieuw gemaakte variabele 
  • Kies het juiste meetniveau bij Measure (Let op: ‘Scale’ wordt in SPSS gebruikt voor zowel interval als ratio meetniveau).

Maak nu een frequentietabel van de variabele leeftijd.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Er zitten in SPSS ook een heleboel standaardfuncties ingebouwd. Bij deze functies kun je denken aan wiskundige functies zoals logaritme en sinus, maar ook statistische functies, zoals de normaal verdeling (en andere verdelingen) of het gemiddelde. Door het gebruik van deze functies kunnen ook weer nieuwe variabelen gemaakt worden.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Nu ga je leren hoe je een ingebouwde functie kunt gebruiken.

Voor deze oefening gaan we de absolute waarde van de variabele avond berekenen. De absolute waarde betekent dat positieve getallen positief blijven en negatieve getallen positief worden. -5 wordt bijvoorbeeld 5:

Transform > Compute Variable

  • Klik eerst op de Reset knop. Zo begin je met een schone lei.
  • Begin nu met het invoeren van een passende naam in het kader 'Target Variable'.
  • Nu moeten we de functie 'absolute waarde' zoeken. Dit kan op twee manieren. Laten we kijken hoe. 

Manier 1:

Wanneer je weet wat voor functie het is, kun je een voorselectie maken in het kader 'Function group' (zie kader). Zo behoort de functie 'Mean' tot de groep 'Statistical' en de functie 'Abs' (kort voor absolute waarde) tot de groep 'Arithmetic'. 

  • Klik op de groep 'Arithmetic'. Er verschijnen in het kader 'Functions and Special Variables' nu verschillende soorten wiskundige functies. Zo zie je hier Cosinus, Sinus, Ln, etc. Bovenaan vind je de functie 'Abs'. 
  • Klik op de functie 'Abs' en deze verschijnt, samen met een korte uitleg over hoe je de functie moet gebruiken en wat het oplevert, in het kader in het midden. 
  • Plaats de functie via de pijl of door er dubbel op te klikken in het bovenste kader 'Numeric Expression'. 

Manier 2:

Wanneer je niet zo goed weet wat voor functie het is, kun je zoeken. Een voorselectie maken is dan niet nodig. 

  • Klik op de groep 'All'. In het kader 'Functions and Special Variables' verschijnt nu een lijst van alle beschikbare functies. Scroll maar eens naar beneden in de lijst. De lijst is best lang. 
  • Wanneer je in de lijst op een willekeurige functie klikt, kun je middels het toetsenbord een functie intikken. De lijst verspring naar de benodigde functie. Probeer het maar eens met de wortel functie. In SPSS is dat de functie SQRT. Tik 'sq'. Springt de lijst nu naar de wortel functie? 
  • Tik nu 'abs'. De lijst springt nu naar de absolute waarde functie. 
  • Klik op de functie 'Abs' en plaats deze via de pijl in het bovenste kader 'Numeric Expression'. 
  • Welke manier je ook kiest, de functie 'abs()' staat nu in het bovenste kader. 
  • Zoek in de linker kolom nu de variabele avond. Middels de pijl kun je die in het zelfde kader plaatsen. Als het goed is wordt deze nu tussen de haakjes geplaatst.
  • Klik op OK.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
In de Output Window staat nu eigenlijk niks nieuws. Wat gebeurt er dan?

Er verschijnt hier een nieuwe variabele in het databestand: 

  • In de Data view helemaal rechts
  • In Variable view helemaal onderaan

Controleer dat nu inderdaad alle waarden positief zijn (je hebt tenslotte de absolute waarde berekend). 

Samenvatting

In deze les heb je geleerd hoe je nieuwe variabelen kunt berekenen. Dit kan door:

  • zelf een berekening in te tikken
  • een ingebouwde functie te gebruiken

In de challenges kun je controleren of alles goed gegaan is. 


Afbeelding met tafel

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

C1f: Correlatie berekenen

Voor deze les gaan we gebruik maken van het databestand rekenvaardigheid.sav. De dataset is te vinden op Blackboard. Het kan zijn dat je dit databestand al hebt opgeslagen, of zelfs nog open hebt staan, van een vorige oefening. 

In dit databestand staat informatie over bijna 200 leerlingen die op verschillende momenten getoetst zijn op verschillende rekenvaardigheden.

Open het databestand in SPSS. 

Stel dat we de volgende vraag willen beantwoorden: "Is er een relatie tussen de CITO  rekenvaardigheidsscores en de voormeting op bewerkingen?"

Om deze vraag te beantwoorden moet je eerste een spreidingsdiagram maken. In les P1d heb je geleerd hoe dit moet. 

Maak het spreidingsdiagram. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Wanneer er een relatie gevonden is tussen twee variabelen, en de relatie is lineair, kunnen we voor deze relatie bepalen hoe sterk de relatie is. Dit doen we m.b.v. de correlatiecoëfficiënt rr

Om iets te berekenen in SPSS gebruiken we het menu 'Analyze'. Dit menu heb je ook gebruikt om beschrijvende statistieken te berekenen en om een frequentietabel te maken. 

Om de correlatie tussen de CITO rekenvaardigheidsscores en de voormeting op bewerkingen te bepalen ga je naar:

Analyze > Correlate > Bivariate

Hier selecteer je de twee variabelen 'cito4' en 'bewerv' en plaats je die middels de pijl in het kader 'Variables'. 

Klik op OK.


ls het goed is ziet de output er nu zo uit:

Afbeelding met tafel

Automatisch gegenereerde beschrijving

Laten we eens kijken wat we hier allemaal zien. 

n de tabel kunnen we ten eerste de correlatie tussen de twee variabelen terugvinden. SPSS maakt een tabel met de correlaties tussen alle combinaties van variabelen; dit heet een correlatiematrix. Hierdoor staat de correlatie er twee keer in: zowel de correlatie tussen 'CITO rekenvaardigheidscore'  en 'voormeting bewerkingen' als de correlatie tussen 'voormeting bewerkingen' en 'CITO rekenvaardigheidscore'. Deze zijn precies gelijk. 

SPSS toetst automatisch of de correlatie significant is. De default is een tweezijdige toets. In de correlatiematrix is de p-waarde terug te vinden voor deze toets. 

Afbeelding met tafel

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Verder is er in de tabel te zien hoeveel observaties er gebruikt zijn om de correlatie te berekenen (rood kader). Onder de tabel staat een notitie over de significantie van de correlatie (blauw kader). 

Wanneer een onderzoeker van te voren verwacht dat de correlatie negatief of positief zal zijn, kan de onderzoeker er voor kiezen een éénzijdige toets uit te voeren. In SPSS kan dit ook. 

Ga weer naar:

Analyze > Correlate > Bivariate

De variabelen staan al geselecteerd. In het kader 'Test of Significance' kun je aanvinken of je één- of tweezijdig wilt toetsen.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Wanneer een onderzoeker variabelen op ordinaal meetniveau heeft, kan de onderzoeker geen gewone correlatie uitrekenen. Een van de voorwaarden voor deze correlatie, ook wel Pearson correlatie genoemd, is dat de variabelen van interval of ratio meetniveau zijn. In dit geval kan de onderzoeker er voor kiezen een andere correlatie te gebruiken: voor ordinale variabelen is dit de Spearman correlatie. In SPSS kan dit ook.

Ga weer naar:

Analyze > Correlate > Bivariate

De variabelen staan al geselecteerd. In het kader 'Correlation Coefficients' kun je aanvinken dat je de Spearman correlatie wilt berekenen. Probeer het maar eens. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Samenvatting

Je hebt nu het volgende geleerd:

  • hoe je een correlatie kunt berekenen en toetsen 
  • hoe je de opdracht kunt geven om een correlatie één- of tweezijdig te toetsen
  • hoe je de correlatie kunt berekenen voor ordinale variabelen

 In de challenges kun je controleren of je de juiste grafiek/output hebt gemaakt.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
let op: bij significantie gaat het om die sign waarde en niet om de correlatie natuurlijk!


dit had ik eerst niet, omdat ik nog de Pearson correlatie aan had staan, dus ik moet erop letten dat ik de check of de bij het meetniveau passende correlatie aangevinkt is!


Dus juist een kleine p-waarde betekent significantie!!!

  • Overschrijdingskans: de kans dat de waarde in de steekproef nog verder van nul ligt dan de geobserveerde waarde = oppervlakte onder de curve (=computer-berekend)
  • p-waarde: andere naam voor de overschrijdingskans
    • grote p-waarde à veel overeenkomst met nul-situatie à weinig support voor theorie dat er een relatie is tussen 2 variabelen
    • kleine p-waarde à weinig overeenkomst met nul-situatie à veel support voor theorie dat verband is tussen 2 variabelen

 


Maar hier kan je een horizontale lijn door trekken toch? Is dat dan geen verband? Ik dacht indd dat horizontale lijn geen verband was, want dan heb je geen correlatie als het goed is[SJ(2] 

En je moet toch altijd two-tailed kiezen als er niet een richting aangegeven staat in de vraag?[SJ(3] 


Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

 

C1g: Werken met SYNTAX

Voor deze les maken we weer gebruik van het databestand rekenvaardigheid.sav. De dataset is te vinden op Blackboard. Het kan zijn dat je dit databestand al hebt opgeslagen, of zelfs nog open hebt staan, van een vorige oefening. 

Open het databestand in SPSS. 

SPSS staat voor Statistical Package for the Social Sciences. Het is software die gebruikt kan worden voor statistische analyses. Ook al gebruik jij de pull-down menu's, achter de schermen wordt er een programmeertaal gebruikt. In het SYNTAX venster van SPSS kun je dit zichtbaar maken, bewerken en uit laten voeren. 

Als je veel berekeningen doet op een groot databestand, is het verstandig alle juiste SYNTAX op te slaan. Op deze manier kun je heel eenvoudig zien welke berekeningen je hebt uitgevoerd en die nogmaals uitvoeren als je bijvoorbeeld respondenten hebt toegevoegd.

SYNTAX code kun je ook zelf schrijven of aanpassen. Door te beginnen met kleine dingen aanpassen leer je langzaam hoe de SYNTAX werkt. Zo kun je een variabele naam vervangen, een stukje code weghalen of vervangen. Zo is de SYNTAX handig als je dezelfde handelingen uit moet voeren op veel verschillende variabelen. Je kunt de code in het SYNTAX venster gewoon kopiëren en dan aanpassen met andere variabele namen.

Ook kun je opmerkingen toevoegen, zodat je later nog weet wat je precies gedaan hebt. Om een opmerking toe te voegen, begin je op een lege regel in de SYNTAX. Begin de regel met een * en eindig de regel met een punt (.); op deze manier leest SPSS deze regel niet als bewerking wanneer er SYNTAX uitgevoerd wordt. 

Maak een frequentietabel van de variabele conditie. 

Hier selecteer je de variabele conditie en plaats je die middels de pijl in het kader 'Variable(s)'. 


Afbeelding met tafel

Automatisch gegenereerde beschrijving
Maak opnieuw een frequentietabel van de variabele conditie. 

In plaats van op OK te klikken, klik deze keer op PASTE. 

SPSS opent een nieuw venster: het SYNTAX venster. Hier kun je de SPSS code lezen die uitgevoerd wordt. 


Afbeelding met tekst

Automatisch gegenereerde beschrijving
DataSet1 was ook onjuist

Als je de code wilt uit laten voeren, selecteer je het juiste stuk code. Nu kun je onder het menu RUN de optie SELECTION kiezen, of gewoon op de groene pijl () drukken. Nu is de output te vinden in het OUTPUT venster van SPSS. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Kopieer en plak de SYNTAX van de frequentietabel voor de variabele conditie nogmaals eronder. Houd een paar witregels tussen de opdrachten.

Pas nu het tweede stuk SYNTAX aan, zodat je een frequentietabel voor de variabele sekse maakt. Het enige wat je hier hoeft te doen is het woord conditie te vervangen door het woord sekse

Selecteer nu dit stuk code. Voer de SYNTAX uit door op de groene pijl () drukken. Nu is de output weer te vinden in het OUTPUT venster van SPSS. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Voeg opmerkingen toe aan het SYNTAX bestand. 

Schrijf boven de eerste frequentietabel-opdracht een regel waarin staat voor welke variabele je hier een frequentietabel maakt. Bijvoorbeeld: Dit is een frequentietabel voor de onderwijsmethode (variabele conditie). Herhaal dit voor het tweede stuk SYNTAX.

NB: Om een opmerking toe te voegen, begin je op een lege regel in de SYNTAX. Begin de regel met een * en eindig de regel met een punt (.) Vergeet je het sterretje aan het begin of de punt aan het eind dan snapt SPSS niet dat je een opmerking hebt toegevoegd en zal een foutmelding geven!

 


Bepaal de beschrijvende statistieken (gemiddelde, standaardafwijking, etc.) van de voormeting van hoofdrekenen (variabele: hoofdv). 

De stappen die je hier voor moet volgen zijn Analyze > Descriptive Statistics > Descriptives.

Gebruik weer de PASTE, RUN methode. 

 

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Stel dat je de beschrijvende statistieken van de nameting en de follow-up-meting van hoofdrekenen ook wilt opvragen, maar je wilt alleen het gemiddelde en de standaardafwijking en niet het minimum en maximum. 

Extra variabelen kun je toevoegen aan de SYNTAX door ze in dezelfde regelen toe te voegen met een spatie tussen iedere variabele. 

Voeg de juiste variabelen toe aan de SYNTAX en pas de opdracht van de beschrijvende statistieken zo aan dat het minimum en het maximum niet meer in de tabel opgenomen zullen worden. 

Selecteer het nieuwe stuk SYNTAX en laat het uitvoeren. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Voeg nog een opmerking toe aan de SYNTAX boven de laatste opdracht.

Sla nu het SYNTAX bestand op. 

Samenvatting

Je hebt nu het volgende geleerd:

  • hoe je een SYNTAX kunt produceren 
  • hoe je een opdracht vanuit SYNTAX kunt runnen
  • hoe je de SYNTAX kunt aanpassen

 In de volgende oefeningen kun je je kennis controleren.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

maar ik zie dit niet, hoe kan dat?[SJ(4] 


C2a: Oorzaken van bias in surveys

In de cursus KOM heb je geleerd over operationaliseren. In de Grasple les hierover staat:

Wanneer we fysieke kenmerken meten, is het voor iedereen meteen duidelijk wat er mee bedoeld wordt, hoe het gemeten moet worden en welke waarden de variabele aan kan nemen.

Bij theoretische begrippen is dat vaak wat minder duidelijk. Daarom is het belangrijk dat onderzoekers het hele proces van operationalisatie doorlopen en duidelijk beschrijven.

 

Bij het meten van theoretische begrippen (constructs), maken veel sociaal wetenschappelijke onderzoekers gebruik van een vragenlijst (survey). 

Hierbij kun je denken aan de WAIS om intelligentie te meten bij volwassenen of de WISC die speciaal ontworpen is voor kinderen. Zo is er de CBCL om probleemgedrag en vaardigheden van kinderen en jongeren te meten of de Beck Depression Inventory (BDI) voor het meten van de ernst van depressie bij volwassenen en jongeren ouder dan 13 jaar.

Bij het gebruiken van een vragenlijst in onderzoek, zijn er vier mogelijk bronnen van fouten:

  1. Non-respons
  2. Dekkingsfouten
  3. Steekproeffouten
  4. Meetfouten

Over de eerste drie fouten heb je van alles geleerd in de cursus KOM. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving
De steekproeffout is de fout die ontstaat doordat niet de gehele populatie wordt onderzocht maar slechts een beperkt deel (een steekproef) daarvan.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Meetfouten

Meetfouten ontstaan wanneer de manier van meten invloed heeft op de response van de participanten. Dit kan komen door:

  • het ontwerp van de vragenlijst (survey design)
  • de interviewer
  • de omgeving

In deze les focussen we ons eerst op survey design

Meetfouten als gevolg van Survey Design

Om meetfouten zo veel mogelijk te beperken, is het belangrijk dat er simpele en duidelijke vragen worden gesteld. Zo niet, kan dit tot vertekening van de resultaten leiden (question bias).

Hiervoor is het belangrijk dat we naar het antwoordproces (response process) kijken:

Wanneer een respondent een vraag gaat beantwoorden, gaat het brein door deze 4 stappen.

Laten we eens kijken wat er mis kan gaan bij de vraagstelling.

Voorbeeld:

Een onderzoeker maakt gebruik van een vragenlijst over gezondheidsgedrag en wil iets weten over het gebruik van de sportschool onder studenten.

Meetfouten als gevolg van survey design: telescoopeffect

Waarschijnlijk ben je er achter gekomen dat de tweede vraag makkelijker te beantwoorden was dan de eerste vraag. Dit komt door het telescoopeffect. 

Het telescoopeffect beschrijft vertekening die ontstaat door de onzekerheid over het terughalen van informatie uit het verleden. Dit neemt toe hoe verder de herinneringen in het verleden vallen.  

Een belangrijk resultaat van het telescoopeffect is het overschatten van het aantal keer dat je iets gedaan hebt. Dat komt voornamelijk doordat mensen onbewust de neiging hebben de periode waarnaar gevraagd wordt iets te verlengen, zowel naar achteren als naar voren. 

Bijvoorbeeld: bij de vraag "hoe vaak ben je vorig jaar in de zomervakantie naar het strand geweest?", hebben mensen de neiging ook het strandbezoek in mei mee te nemen (toen het heel mooi weer was) en het strandbezoek in september, toen de zomervakantie al voorbij was. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Meetfouten als gevolg van survey design:  volgorde effect

De volgorde waarin vragen gesteld worden kan ook vertekening veroorzaken. De vraag vóór een vraag kan een bepaalde context creëren, waardoor het antwoord op de vraag erna beïnvloed wordt. Verschillen kunnen best groot zijn.

Kijk naar het volgende voorbeeld:

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Een mooie oplossing is om de helft van de respondenten de ene volgorde te geven en de andere helft de andere volgorde. Op deze manier kan de vertekening ontdekt worden. 

Meetfouten als gevolg van survey design: leading questions

Het volgende advies is om leidende vragen (leading questions) te vermijden. Een leidende vraag is een vraag waarbij de woorden die in de vraag gebruikt worden de respondent naar een bepaald (door de onderzoek blijkbaar gewenst) antwoord leiden. 

Een voorbeeld hiervan is: "Wat vond u van ons heerlijke dessertbuffet?". Hier wordt de respondent gestuurd richting het antwoord dat het buffet heerlijk was en is het moeilijker om te zeggen dat hij er niets aan vond. Een betere, neutrale vraag zou zijn: "Wat vond u van ons dessertbuffet?". 

Een tweede voorbeeld:
"De GHOR is de Geneeskundige Hulpverleningsorganisatie in de Regio. De meeste Nederlanders hebben een goede ervaring met de GHOR. Hoe is uw ervaring met de GHOR?"

  • Heel goed
  • Goed
  • Niet goed, maar ook niet slecht
  • Slecht
  • Heel slecht

Door de inleiding van de vraag (dat de meeste Nederlanders een goede ervaring hebben) wordt de respondent weer gestuurd om een goede beoordeling te geven.  

Meetfouten als gevolg van survey design: double barreled questions

De vorige vraag was: Vond je de cursus KOM leuk en leerzaam?

Het was waarschijnlijk lastig deze vraag te beantwoorden. Misschien vond je de cursus KOM wel leerzaam, maar niet leuk. Of juist wel leuk, maar niet leerzaam. Hoe moet je de vraag dan beantwoorden?

Er is hier geen sprake van een eenduidige vraag. Er worden eigenlijk twee dingen gevraagd. Dit heet een double barreled question: een vraag waarin twee verschillende dingen gevraagd worden maar waar maar één antwoord op gegeven kan worden. Het is belangrijk dit soort vragen te vermijden. 

De beste oplossing voor de vraag over KOM is twee aparte vragen te stellen:

  1. Vond je de cursus KOM leerzaam?
  2. Vond je de cursus KOM leuk?

 

 

Meetfouten als gevolg van survey design: gebruik vakjargon

Vermijd het gebruik van vakjargon en moeilijke woorden in vragenlijsten. Laten we naar een voorbeeld kijken: 

Was er een significant verschil tussen de mannen en de vrouwen? 

Iemand die iets over statistiek weet, interpreteert deze vraag heel anders dan iemand die dat niet weet. Het woord significant betekent voor iemand in het dagelijks leven waarschijnlijk 'opmerkelijk' of 'zichtbaar'. Dit soort woorden vermijden is dan ook good practice bij het maken van vragenlijsten. 

 

Meetfouten als gevolg van survey design: gevoelige onderwerpen

Het stellen van vragen over gevoelige onderwerpen is lastig. Als een onderzoeker iets wil weten over bijvoorbeeld seksueel of illegaal gedrag onder scholieren, is het begrijpelijk dat scholieren niet zomaar eerlijk antwoord willen geven op dit soort vragen. Het is dus belangrijk voorzichtig om te gaan met:

  • het opstellen van dit soort vragen
  • de antwoorden van de respondenten op dit soort vragen

Dit doe je bijvoorbeeld door de anonimiteit van de respondenten te garanderen en ook duidelijk te zijn wat je met de gegeven antwoorden gaat doen. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Antwoordcategorieën

Ook het aanbieden van de antwoordcategorieën bij vragen/ stellingen in een vragenlijst vergt de aandacht van de onderzoeker. 

Bij het gebruik van een Likert schaal (helemaal niet mee eens - helemaal mee eens) moet de onderzoeker kiezen uit hoeveel opties de respondenten moeten kiezen. Veel gebruikte aantallen zijn 5 en 7. Sommige onderzoekers geven de voorkeur aan een even aantal (zoals 4 of 6) om te voorkomen dat respondenten in het midden van de schaal gaan antwoorden. 

Er zijn twee kenmerken waar de antwoordcategorieën altijd aan moeten voldoen.

Kenmerk 1:

De antwoorden moeten uitputtend zijn:

  • Iedereen moet zich kunnen identificeren met één van de aangeboden antwoordmogelijkheden. 
  • Het mag niet zo zijn dat het antwoord van een respondent niet tussen de antwoordcategorieën staat. 

Kijk goed naar het voorbeeld. Stel je hebt een salamander thuis. Welk antwoord moet je geven? Die optie staat er niet tussen. De antwoorden zijn niet uitputtend.

Een oplossing hiervoor is een antwoordcategorie "Anders" of "Overig". Een andere mogelijkheid is een open vraag. Dan kunnen mensen met meerdere huisdieren ook hun antwoord kwijt. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Kenmerk 2:

De antwoorden moeten uitsluitend zijn:

  • Respondenten moeten in de mogelijkheid gesteld worden een antwoord te kúnnen kiezen.
  • Het mag niet zo zijn dat het antwoord van een respondent in twee antwoordcategorieën valt.

Kijk goed naar het voorbeeld. Wat moet iemand antwoorden wanneer iemand meteen aan de honden denkt? Is het "Mijn hond(en)" of "Mijn huisdieren"? Deze antwoordcategorieën overlappen elkaar en zijn dus niet uitsluitend. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving
n veel vragenlijsten kom je matrixvragen tegen. Een matrixvraag is een verzameling vragen die allemaal dezelfde antwoordcategorieën hebben. 

Hier een voorbeeld:

Afbeelding met tafel

Automatisch gegenereerde beschrijving

Response bias:

Bij het beantwoorden van vragenlijsten (en daarbij matrixvragen), gaan we er van uit dat respondenten netjes de stappen van het antwoordproces volgen.

Vaak is het zo, dat respondenten stappen overslaan. Hierdoor kan response bias ontstaan. Er zijn verschillende bronnen van deze vorm van vertekening, zoals: 

  • Acquiescence Bias
  • Fence Sitting
  • Straightlining
  • Primacy/Recency effects
  • Social Desirability

Over sociale wenselijkheid (social desirability) heb je al van alles geleerd in KOM. 

Meetfouten als gevolg van response bias: Acquiescence 

Acquiescence bias is een soort van response bias waarbij de respondenten de neiging hebben om het maar eens te zijn met een stelling, vooral als de respondent twijfelt of hij/zij de inhoud wel helemaal goed begrijpt. Doordat respondenten het dan vaker eens zijn dan niet eens, wordt dit ook wel "yea-saying" genoemd.

Meetfouten als gevolg van response bias: Fence sitting

Fence sitting is het vermijden van extreme antwoordopties. Vooral als er veel opties zijn, zullen respondenten de uitersten vermijden ook al is dat misschien wel het antwoord wat het best bij hen past. 

Meetfouten als gevolg van response bias: Straightlining

Straightlining is het idee dat mensen na het beantwoorden van meerdere vragen de neiging krijgen om overal maar hetzelfde antwoord te geven. Bijvoorbeeld bij een cursusevaluatie die studenten aan het einde van een cursus invullen. Wanneer de student overal het rechter bolletje inkleurt (of juist het linker bolletje), noemen we dat straightlining

Afbeelding met tafel

Automatisch gegenereerde beschrijving

Onderzoekers proberen dit op te vangen door sommige vragen/stellingen negatief in plaats van positief te formuleren. Een voorbeeld zou kunnen zijn: Ik heb weinig geleerd in deze cursus. Wanneer een student het met de meeste stellingen eens is en hier ook 'eens' invult, geeft deze student de cursus géén goede beoordeling, ook al was dat wel de bedoeling. Hierdoor ontstaat dus vertekening. Studenten die de vragen goed lezen, zullen deze vraag gewoon op de juiste manier beantwoorden.  

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Meetfouten als gevolg van response bias: Primacy/ Recency

Primacy/Recency effects  zijn bronnen van vertekening die vooral voorkomen bij vragen waar de respondent uit een (lange) rij opties moet kiezen.

  • Primacy: respondenten hebben (vooral bij vragenlijsten die op papier of het internet afgenomen worden) meer de neiging opties bovenaan de lijst te kiezen dan onderaan de lijst (deze opties lezen ze het eerst en het best)
  • Recency:  respondenten hebben (vooral bij vragenlijsten die via de telefoon afgenomen worden) meer de neiging opties onderaan de lijst te kiezen (deze hebben ze als laatste gehoord, de eerste zijn ze dan al weer vergeten). 

 

 

Afsluiting

Het schrijven van goede, heldere, eenduidige vragen voor een vragenlijst is heel belangrijk. In deze les hebben we verschillende bronnen van vertekening bekeken die het resultaat zijn van niet zorgvuldig geformuleerde vragen (question bias)

Ook hebben we gekeken naar verschillende bronnen van vertekening die veroorzaakt worden door het gedrag van de respondenten zelf (response bias).

In de volgende oefeningen kun je hier nog wat meer mee oefenen.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving


Afbeelding met tekst

Automatisch gegenereerde beschrijving
Dus betrouwbaarheid is of mensen anders zullen antwoorden. Hier zit het probleem dus bij validiteit omdat juist IEDEREEN lager zou oordelen.


Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

 

CORRELATIONEEL HOORCOLLEGE 3

Schaalscores

Example

Hoe maken we nou variabele uitiendelijk?

Coding answers

Er zit geen middelste waarde bij die Likert scale, dus geen fence sitting. Om al die antwoorden in te voeren is veel werk, dus moet er gecodeerd worden. Ordinale schaal, dus bijv. getallen 1 tot 4 is logisch. Minste mee eens is dan waarde 1. Maar kan ook op andere manier.

Item score: score op 1 vraag/item. Bijv. rather much is dan item score 3.

Creating a variable

Maar hoe krijgen we nou 1 waarde? 1e manier is som nemen van alle scores. Nadeel aan som score is dat er soms vragen leeg gelaten worden; bij ontbrekende waarden is dit niet handig.
Mogelijkheid 2 is gemiddelde score; dat kan nog steeds bij ontbrekende waarden.

Be aware!

Bij coderen van scores, moet je realiseren dat vaak stellingen tussen die andersom zijn gesteld.
We willen meestal dat hoge score veel aangeeft van construct. Dus we hebben afspraak als je iets meet, hoe hoger score hoe bijv. agressiever de persoon. Maar wat gebeurt bij omgekeerd gestelde vragen? Niet kunnen hechten is bijv. van ptss. Als stelling wel kunnen hechten is, moet je daar dus iets mee. Zie ook bijv. nummer 12, ptss kunnen meestal niet consenteren. Dus die scores moeten we omdraaien. We zien ook die gemiddelden zijn relatief hoog terwijl rest laag is. Dus moeten we ompoolen/recoderen. Dat is logisch, maar bij inlezen van data gaat dit niet automatisch, dus extra handeling om scores om te draaien. Als we dat niet doen, dan rare scores.

Bij vraag 6 zie je omgepoold en in beschrijvende statistieken en frequenties zijn dan ook omgedraaid/

Calculating the scale score & Graphing the scale score

Gemiddelde score kan je vervolgens berekenen. Zo bepaal je per persoon gemiddelde score en daarover kan je beschrijvende statistieken doen. Dan heb je mooie histogram van alle scores. Schaal loopt van 1 tot 4 dus meesten scoren relatief laag.


ja duh, nasty gevraagd

Betrouwbaarheidsanalyse

Good measurement à construct validity and reliability
3 soorten betrouwbaarheid bij KOM: interbeoordelaars, test-hertest (2x gebruiken bij zelfde groep mensen), interne (gemeten met cronbach alpha; in hoeverre items binnen vragenlijst met elkaar colrreleren)

Reliability

Als je vragenlijst in 2en splitst en dan kijken hoeveel die 2 met elkaar correleren. Split-half reliability. Maar hoe bepaal de je de helft. Daarvoor computer gebruiken met crohnbachgs alfa. Daarmee meet je dus interne betrouwbaarheid. Belangrijk bij betrouwbaarheidsnanalyse is ompolen; dat moet eerst!

Hier tabel met beschrijvende statistieken met gemiddelde scores. En dan zie je dat 6 en 12 niet meer eruit springen. Dan zie je betrouwbaarheidsanlyse.  Die crohnbacks alfa. Hoe interpreteer je dat? Hangt af van waarvoor je de vragenlijst gebruikt? Gaat het over individu, groep of ga je er zelfs beslissingen mee nemen? Dus interpretatie van betrouwbaarheid schaal hangt af waar je van gebruikt, maar over algemeen geldt algemeen dat onder 0,7 zwak is.

Andere tabel: item total statistics. Kan je gebruiken om betrouwbaarheid te gebruiken. We zien helemaal rechts wat crohnbachs alfa zou zijn zonder die bepaalde stelling. Zonder de stelling wordt iet lager bij item 1, dus die wil je niet verwijderen. Item rest correlatie (RIT-waarde, correlation item total): correlatie tussen ene item en vragenlijst zonder dat item. Bij vraag 1 is dat 0,54; dat is best hoog, dus goed.

Als correlatie onder 0,2 ongeveer valt, dan zou item mogelijk verwijderd kunnen worden. Dan hangt dat item en rest van schaal verwijderd kunnen worden. Dan kijken naar laatste kolom: gaat cronbachs alfa dan ook omhoog?

Maar je kan natuurlijk niet veel meer dan 1 of 2 verwijderen. Dus kijken bij welke vraag verwijderen cronbachs alfa omhoog gaat. We hebben 3 kandidaten met lage cit, bij laatste kolom zien we groote sverhoging bij cronbachs alfa, dus die verwijderen. Je mag maar 1 item tegelijk verwijderen. Nu zien we dat vraag 2 nu boven 0,2 zit. Vraag 10 nog steeds laag, maar cronbachs alfa echt omhoog.
Wat is er met vraag 10? Die gaat over vroeger, dus misschien past ie er daarom niet echt bij, maar niks mis mee. als we vraag 20 verwijderen zie je dat betrouwbaarheid van 2heel erg omhoog gaat.
2 gaat ook over verleden, dus misschien meoten daar meer vragen over komen of in een aparte vragnelijst. Nu zien we goede cronbachs alfa en allemaal hoge item rest correlaties dus we weten goede interne betrouwbaarheid.

vraag: kan inhoudsvaliditeit ten koste gaan bij vragen verwijderen? Ja wel als je 2 op 12 vragen verwijderd, maar is meestal grotere vragenlijst.

Introductie regressie

Prediction

We verwachten negatieve relatie tussen ptsd en productiviteit op werk. Dat zien we ook op grafiek. Je ziet ook negatieve correlatiescore. We zien in table ook p-waarde. Daarmee beoordelen nul hypothese verwerpen en significantie. Hier zo kleine p, dat je 3 nullen achter komma zit.

[opmerking tussendoor: als je negatieve relatie verwacht doe je normaal een eenzijdige toets ipv tweezijdige]

Regression

Met correlatie kan je sterkte en richting bepalen. minteken is negatieve relatie. Regressielijn kan beschrijving van de relatie. Daarmee voorspellingen doen.

Predictions

Regressie analayse à onderscheid maken tussen 2 variabelen: onafhaneklijke (x) en afhankelijke (y). welke welke is hangt af van onderzoeksvraag. Afhaneklijke in voorbeeld is productivitieti (want die willen we voorspellen;hangt af van hoeveel ptsd iemand heeft), en onafhnakelijke is ptsd.

Regression line

Hoe komen we op regressie lin? Hoe bepalen we vergelijking? Least squares regression is de techniek. We zien een spreidingsdiagram, daar kunnen we lijnen door tekenen, maar welke past best? Groen past best. Maar doen we op het oog. Dus we hebben manier nodig om het te meten. Dat gaan we doen ahv residue. Afstand in richting van afhankelijk variabele, y, en geobserveerde waarde uitrekeknen. Zie pijltjes. Stel lijn die niet bij puntenwolk past? Dan krijg je grote residuen. Dus die residuen gebruik je om richting te meten tussen geobserveerde waarden en punt op lijn. Residue is altijd negatief of positief, door punt omhoog of omlaag. Daarom gaan we kwadrateren. Al die residuen dus kwadrateren, bij elkaar optellen en dat geeft bij hele grote som aan dat lijn niet bij puntenwolk past. Als die som klein is, past het wel. Dus we gaan op zoek naar lijn die kleine som oplevert. Daar hebben we lekker computer voor om die vergelijking op te stellen.

Residuen

Als we voorsppelingen doen met lijn met kleine residuen, dan goede voorspellingen. Bij veel spreiding rond regressielijn, dan minder nauwkeurige voorspellingen. Hoe meten we nauwkeurigeheid? Standaard schattingsfout= gemiddelde fout die we maken als we vergelijkingen gebruiken om voorspellingen te doen. Dus standaard deviatie van residue.

Regressievergelijking incl. verklaarde variantie

Regressievergelijking is wiskundig bepaald. Sum of squared residuals. Ssr. Regressievergelijking gebruiken om voorspellingen mee te doen. Schrijf je als lineaire vergelijking. Daarvoor gebruik je b0 en b1. B0 is snijpunt met y-as. B1 is richtingscoefficient/hellingsgetal/hoe scheef de lijn loopt.

Regressieanalyse doen we altijd met computer. Output bestaat uit 4 tabellen. Eerste tabel gebruiken we bijna nooit, daar staat welke variabelen we hebben. We kijken eerst naar onderste met coefficienten. Daar zien we afhankelijke variabele onder staan. Eerste kolom staan waarden van snijpunt met y-as. Waarde van b0. En daaronder richtingscoefficient. Daarmee kan je regressie opstellen. Dat dakje op y betekent dat het een schatting is. Vergelijking hier betekent dat productiviteit schatten we als 33,5 min 12,5 keer de ptsd score.  Gaat ptsd score omhoog, dan zie je productiviteit snel afneemt. Zo kan je regressievergelijking lezen en interpreteren.

Deze regressievergelijking geldt alleen maar voor bereik dat wij hebben geobserveerd! Dus buiten dit bereik kunnen we dit model niet voor gebruiken. Schaal van 0 tot 40 hier.

Voorspellingen hoe doen we dat? Waarde van x in vergelijking stoppen. Dan komt er voorspelling van productiviteit uit.

In model summary kunnen we zien hoe nauwkeurig de regressievergelijking is. De correlatie is alleen maar in absolute waarden. Helemaal rechts staat standaard schattingsfout. Gemiddelde fout die we maken als regressie gebruiken om te schatten. Hier gemiddeld zitten we er 5,3 punten vanaf. Indicatie van nauwekuerigheid van voorspelling dus.
Ook r square, die gebruiken we als maat om aan te geven hoe goed de lijn bij puntenbubbel past. R kwadraat of verklaarde variantie, omdat als je het uitdrukt als percentage, dan geeft het aan  dat … Per waarde van ptsd score is er spreiding in scores van productiviteit. Rkwadraat meet hoeveel van die spreiding wordt verklaard door de relatie met deze onafhankelijke variabele. Er zijn nog andere bornnen die invloed hebben op die productiviteit. Hier wordt 28,5% van de productiviteit scores bepaald door de lineaire relatie met ptsd.

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Toetsing bij regressie

We willen ten slotte ook nog toetsen of model significant is. Als we productiviteit voorspellen zonder ptsd, dan hebben we gemiddelde productiviteit van mensen. Maar als we informatie hebben over andere variabele, zoals ptsd, kunnen we dan beter voorspellen?

NHST steps:
step 1: nulhypothese en alternatieve hypothese opstellen (hier kiest onderzoeker ook significantieniveau, waar onderzoeker waarde van alpha kiest; welke kans sta je jezelf als onderzoeker toe dat je eventueel ene foute keuze maakt, dat je een type I fout maakt, dat je nulhypothese verwerpt terwijl deze eigenlijk waar is. Hoe kleiner die kans, hoe extremer je bewijs meot zijn voordat je de nulhypothese verwerpt)
step 2: data verzamelen [in KOM was een van de fouten stap 1 en 2 omdraaien]
step 3: p-waarde berekenen à kans dat je data vind net zo extreem of nog extremer als de nulhypothese waar zou zijn/als er geen relatie is
Step 4: beslissen om nulhypothese wel of niet te verwerpen. Als p kleiner of gelijk aan alpha dan verwerpen.

Significance

Plaatje als nulhypothese waar is, dan geen relatie, dan is lijn horizontaal. Wat is de r van ene horizontale lijn? die is 0. Om signficante relatie te zien kan je kijken of r gelijk is aan nul. Maar 2e toets is verklaarde variantie. Kunnen we met x variabelen beter voorspellen dan zonder. Spreiding rond regressielijn is precies hetzelfde als spreiding rond het gemiddelde van y. dus dit model verklaart nul van de spreiding. Dus die 2 manierne van toetsen doen hetzelfde.

Die eerste is de richtingscoefficient. Gemiddelde steekproef met n, maar in hypothese letter mu. Voor r geldt hetzelde, in steekproef b, in hypothese dus over populatie is beta. Gemiddelde is nul dan zelfde toets eigenlijk, want is t-toets. Die kunnen we gebruiken om te testen of significant. Door SPSS automatisch uitgevoerd. T- score had je standaard schaal, dan vielen scores tussen -1 en plus 3 als nulhypothese waar is. Hier hebben we extreme waarde, je ziet ook dat p-waarde heel klein is. Hier dus nulhypothese verwerpen. Conclusie is dan r is significant verschil van nul, dus voorspellingen met dit model zijn significant beter dan voorspellingen zonder.

2e optie gaat over r kwadraat. In populatie ro. ook dit is standaard toets door spss. Dit is een f-toets. Zie tabel ANOVA. Als nulhypothese waar is dan is F ongeveer 1. F gaat over gekwadrateerde waarden, dus F wordt heel snel groter dan 1. We zien dan ook kleine p-waarde, dus kunnen nulhypothese verwerpen. Dus conclusie is dat model verklaart significant deel van spreiding indien productiviteitsscores en daardoor is het model significant.

LET OP: de conclusie bij optie 1 en 2 is dus anders, maar uit beiden volgt significantie

Leuke weetjes nog over tabel. Je ziet kwadratensom deel van spreiding dat verklaart wordt door regressiemodel, dus 1036:3643 = 28,5%.

 

In deze les heb je kennis gemaakt met schaalscores en het beoordelen van schalen. Daarnaast heb je kennis gemaakt met regressie analyse, waarmee we scores op een afhankelijke variabele proberen te voorspellen op basis van een score op een onafhankelijke variabele.

Je kunt meer oefenen met de leerstof door het maken van de volgende exercises.



 

Werkgroep 2


Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving

De keuze voor een bepaalde analyse hangt onder andere af van het meetniveau van de variabelen. Misschien kun je je nog herinneren uit KOM dat de keuze voor een centrummaat ook o.a. afhankelijk was het meetniveau van de variabele: je kunt wel een gemiddelde bepalen bij variabelen van interval of ratio meetniveau, maar niet bij variabelen van nominaal meetniveau. Meetniveau is dus belangrijk! Maar omdat je nog niet precies weet hoe je je data gaat analyseren is het dringende advies om variabelen met een zo hoog mogelijk meetniveau te meten, dan heb je de meeste keuze in analysetechnieken.


Afbeelding met tekst

Automatisch gegenereerde beschrijving


Afbeelding met tekst

Automatisch gegenereerde beschrijving
Filtervragen zijn vragen waarmee je die groep selecteert die je volgende vraag kan beantwoorden: dus eerst vragen of iemand kinderen heeft voordat je vraagt hoe oud de kinderen zijn (want die vraag is niet relevant voor respondenten zonder kinderen).
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tafel

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Correlationeel Hoorcollege 4

Gestandaardiseerde regressie coefficient

Last time

Ahv ptsd scores productiviteit op werk proberen te voorspellen? Spss output. Ze laat ook JASP output zien, is eigenlijk hetzelfde. Rechtsboven staat alleen andere naam voor standaardfout: fout die we gemiddeld maken als we voorspellingen maken met dit model. ANOVA table met F-toets: of deel van spreiding dat wordt verklaard door model ook significant is en enige kleine verschil is ehlemaal rechts is dat bij hele kleine p-waarde wordt opgeschreven als kleiner dan .001 ipv 0.000.
In 3e tabel kopjes wat korter. En in SPS staat intercept ipv constante voor snijpunt met y-as.

Coefficients

Zelfde vergelijking, we voorspellen score. Voor elke hele punt dat ptsd score omhoog gaat, dan gaat voorspelde productiviteit met 12 omlaag; dat is wat coefficient aangeeft.
gestandaardiseerde richtingscoefficient noemen we beta en die is gelijk aan correlatie.  Maar in dit geval interpreteren we hem heel anders. Als we variabelen standaardiseren, halen we eenheden weg. Als we eenheidvrij maken, valleen gestandaardiseerde scores, dan delen door standaardafwijking. Dus hoeveel standaardafwijkien gaat die fahneklijke variabele omhoog of naar beneden als die onafhaneklijek variabele met 1 standaardafwijking toeneemt. Zo interpreteren we die gestandaardiseerde. Waarom zo? We meten vaak op veel verschillende schalen. Bijv. als de ene variabelen in miljoenen loopt en de ander maar van 1 tot 4. Daardoor kunnen we niet goed richtingsoceffient zien, want ze zijn zo groot dat ze worden ingekort door het porgramma en daarom voorkeur voor gestandaardiseerde coefficient. Dan veel exactere waarden voorspellen. Die gestandaardiseerde richtingscoefficienten worden meestal gerapporteerd in literatuur. 2e reden gaat over multipele regressie, dat komt nog aan bod in dit HC.


Assumpties bij lineaire regressie

Assumptions

Voorwaarden waaraan data moet voldoen als regressiemodel valide is.

1. lineair, anders kan je geen enkelvoudig regressiemodel gebruiken
2. Meetniveau vna beide variabelen van interval/ratio.
3. Residuen (verticale afstanden observaties en regressielijn) zijn normaal verdeeld, volgens klokvormige verdeling tov regressielijn, als de meeste observatie dicht bij regressie liggen.
4. Residuen rond regressielijn zijn gemiddeld gzien ongeveer even groot. Gelijke verdeling van residuen
5. Geen uitschieters

1. lineaire relatie controlen ahv spreidingsdiagram. Dat hebben we hier.
2. Meetniveau. Schaalscore dus per definitie interval. Dus voldaan.
3. Normale verdeling residuen? Histogram en die heeft ongeveer die klokvorm. Let op: computer tekent klokvorm, maar daar meot je dus niet naar kijken, je meot kijken of histogram de klokvorm volgt. Hoe weet je dat goed genoeg is? Kijken naar grote deviaties of heel scheve verdeling, dan niet.
hier wel check
4. Residuen gelijke spreiding/ongeveer even groot? Grafiek maken van residuen op y-as en op x-as x-variabele zetten (kan niet bij mutipele regressie) dus daarom kan ook gebruik maken van voorspelde waarde, ydakje. Is spreiding rond x-as ongeveer gelijk? Hier wel vraagteken of dat zo is. Voorbeelden waar de duidelijk verschil zien, maar als we die weglaten is spreiding ongeveer gelijk. In ander voorbeeld dat hoe verder langs x-as, hoe groter spreiding wrodt, dan niet voldaan. Waarom is dat probleem? Bij niet gelijk verdeelde spreiding, wordt schatting standaardfout opeens niet meer valide schatting. Vandaar die voorwaarde.
5. Geen uitschieters? Voorwaarde 3 was normaal verdeeld, daarover hebben we geleerd dat gros van observaties tussen -3 en +3 moet liggen, anders heb je iets extreems. Hier heb je geen uitschieters buiten die lijnen dus ook voldaan aan die voorwaarde.

Afbeelding met tekst

Automatisch gegenereerde beschrijving 
Introductie multipele regressie

Multiple Linear regression

Lengte is niet enige vorospeller van gewicht. Allerlei andere bronnen van info om steeds betere voorspellingen te doen. Dus bijv. job satisfaction. Maar moet ook praktisch/duidelijk model zijn. Balans tussen nauwkeurigheid en duidelijkheid. 2e onafhankelijke variabele toevoegen dan krijgen we b2. Hier staat hij tot k, dus 5 onafhankelijke variabelen, dan 5 zulke termijn in vergelijking. Maar de mehtode blijft hetzelfde. Nog steeds zoeken naar die vergelijking waardaar som van gekwadrateerde residuen het kleinst wrodt/dichtst bij puntenwolk ligt.

Eerste is hoe meer variabelen toevoegen, dan zal model altijd meer spreiding verklaren. De voorspellingsfout/standaardschattingsfout wordt altijd kleiner bij meer variabelen, dus nauwkeuriger. Als meer variabelen toevoegen, wil dat helaas niet altijd zeggen dat het beter is, vershcil met kleiner model hoeft niet significant te zijn. Waarom is dit interessant? Als er meer spreiding vekrlaar dwordt, wordt rkwadraat steeds gorter. Als standaardschattingsfout steeds kleiner wrodt. Of model beter wordt, kunnen we toetsen met f-toets, significantie van model. En die onafhankelijke variablee die we toeveogen kunnen we toetsen met t-toets. Laten we naar output gaan kijken en vergelijken met enklevoudige regressiemodel.

Nog steeds 4 tabellen. Job satisfaction toegevoegd en percentage op werk. 1e tabel model summary, zie je onafhankelijke variabelen.

We zien dat r kwadraat bijna 50 procent is. In enkelvoudig model was 28,5. Dus r kwadraat neemt toe als variabelen toevoegen. De staandaard inschaatingsfout vermindert juist.

Er staat dat voorspellen dat productiviteit als 35,2- pts dsocre- zoveel keer satisfactionjob en -zoveel worrk. Dus gaat meer informatie in vergelijking. Wat zien we nog meer? Er is eigenlijk nog 2e reden. Dat is multipele regressie. Als we dat bouwen, kan je regressiecoefficienten niet echt vergelijken welke nou meeste invloed heeft op de vorospelling. Dat kan wel ahv gestandaardiseerde coeffictnen. Wnat variable met grootste waarde van beta heeft meeste invloed op voorspellingen. Dus degene met grootste absolute waarde, die heeft meeste invloed op die voorspellingen.
 
Toetsing bij multipele regressie

2 hypothesetoesten bij enkelzijdige regressie zijn echt anders dan bij multipele.
‘is de verhoging van r kwadraat significant?’ Is de vraag

1e is toetst gehele model signficant deel van spreiding? Weer f waarden en p waarde. Pwaarde heel klein weer, dus we kunnen nulhypothese verwerpen. Conclusie met 3 onafhaneklijek variabelen verklaart significatn deel van de spreiding.

Die t-toets voor elke onafhankelijke variabele in het model . of die bepaalde regressiecoefficient gelijk is aan nul in aanwezigheid van de andere variabelen. Beta is regressiecoefficient in de poulatie. Zelfde t-toets, maar deze kan je alleen maar uitvoeren voor 1 variabele tegelijk. Als blijtk dat 1 variabele niet significant is, dan kan je die variabele uit je model halen, want zonder die variabelen in het model zit geen significant verschil. Dus in dit geval niet significant in dit model. Dat wil niet zeggen dat er geen relatie is, maar in aanwezigheid met andere 2 variabelen is deze niet signitifcant. Dus conclusie si voorspellingen voor productiviteit emt job satisifcation of zonder job satisfacktkon hebben geen significant model. Dus liever simpeler model: parsimonious. Dus nog een keer een regressieanalyse waarbij job satisfaction eruit is. R kwadraat maar ietsje naar beneden. Dus iets verlaagd, maar maar heel klein dus geen sifniticant verschil. Standaar schatitngsfout iets omhoog, maar bijna niks. Maar nu alle variabelen significant in het model. Dus nauwkeurig en zo simpel mogelijk. Dus t-toetsen gebruiken om te kijken of variabelen verwijderd kan wroden. Bij gestandaardiseerde regressiecoefficienten zien we ‘back at work’ is nog steeds meeste invloed.

Welke voorwaarden kunnen we met deze 2 grafieken ook al weer controleren?
historgram van residuen. Daarmee kunnen we voorwaarden controleren of residuen normaal verdeeld zijn, dan zien we ietsje scheef verdeeld/kop iets links, maar nisk om zorgen over te maken. 2e grafiek is spreidingsdiagram van residue. Daarmee kunnen we 2 voorwaarden controleren: gelijke verdeling (is grootte van spreiding gelijk of we nou links of recht zitten) en controleren of er uitschieters zijn.

Ten slotte voorbeeld uit literatuur.
in titel staat iets over predicting. Dan weet je dat over regressie analyse gaat. In methode iets over meetinstrumenten. Gemeten door child .. index. Die wordt afgenomen door gestructureerd interview. 20 stellingen door likert schaal gecodeerd door 0 tot 4. En netjes uitgelegd dat door somscore tot schaalscore gekomen. Dan staat er nog: sterke relaties met andere ptsd schaalscore à daarmee wordt convergente validiteit gemeten, want 2 verschillende meeintstumnten voor zelfde construct. Dan nog cronbach alfa, voor interne betrouwbaarheid.
dus in heel klein stukje over heel veel onderdelen van de cursus.
in tabel zie je beta coefficenten, de standaardiseerde regressiecoefficnten met daarbij p-waarde. Hele kleine voor eerste tijdstip en voor vader, de rest is niet significant.
onder tabel staat F en r kwadraat en p-waarde, die worden altijd gerapporteerd
Afbeelding met tekst

Automatisch gegenereerde beschrijving
doornemen waarvoor F-waarde en waarvoor T-toets!!

In deze les heb je kennisgemaakt met multipele regressie en geleerd waarvoor gestandaardiseerde regressiecoëfficiënten gebruikt worden. Verder weet je nu aan welke voorwaarden voldaan moet zijn om een regressie analyse uit te mogen voeren.  

Je kunt meer oefenen met de leerstof door het maken van de volgende exercises en de aparte lessen over regressie.  




 

C2B: Voorbereiding

Voor deze les gaan we gebruik maken van het databestand PTSD.sav. De dataset is te vinden op Blackboard. Deze data zijn onderdeel van het onderzoek van Victor Spoormaker (voormalig onderzoeker bij Psychologie).

Sla het bestand op een goede plek op je computer op. Je zult dit databestand ook voor de andere oefeningen van Practicum 2 nodig hebben.

 

De vragenlijst ZIL (Zelf Inventarisatie Lijst) meet in hoeverre er sprake is van een posttraumatische stressdisorder (PTSD). Een vragenlijst bestaat uit verschillende vragen die zo veel mogelijk hetzelfde onderliggende construct moeten meten. 

Open het bestand in SPSS. 

Bij het analyseren van vragenlijsten, worden de namen van de items vaak vraag1vraag2, enz. genoemd. Om te weten met welke vragen deze overeenkomen, worden de labels van de items gebruikt om de vragen in te voeren. Dit kun je allemaal bekijken in de Variable View

Het is echter in de analyse en in de output soms handiger om alleen de namen van de items (vraag1vraag2, enz.) en niet de labels te zien te krijgen. Je gaat nu leren hoe je dit in SPSS kunt instellen.

Om in de analysemenu's de korte namen te zien, volg je de volgende stappen:

  • Edit > Options
  • Het menu springt open op het tabblad ‘General’. In het kader ‘Variable Lists’ selecteer je ‘Display names’

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Samenvatting:

Deze les is al weer afgelopen. Je hebt nu het geleerd hoe je de instelling van SPSS aan kunt passen om de naam van een variabele of de label van een variabele te zien in de menulijst en in de output. 


C2c: Ompolen van variabelen

Voor deze les gaan we gebruik maken van het databestand PTSD.sav. De dataset is te vinden op Blackboard. 

De vragenlijst ZIL (Zelfinventarisatielijst) meet in hoeverre er sprake is van een posttraumatische stressstoornis (PTSD). Door de 22 vragen van deze vragenlijst samen te voegen, ontstaat een totaalscore waarmee bepaald kan worden in welke mate iemand een posttraumatische stressstoornis heeft.

De vragen van de ZIL kunnen alleen worden samengevoegd als “alle vragen in dezelfde richting zijn gesteld”, dat wil zeggen wanneer bij alle vragen een hoge score betekent dat er in hogere mate sprake is van een posttraumatische stressstoornis. In dit databestand is dat (nog) niet het geval.

Open het databestand in SPSS (indien je het niet al open hebt staan). 

 

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Om deze variabelen om te polen (recode/hercoderen), zodat ook bij deze variabelen een hogere score betekent dat er in hogere mate sprake is van een posttraumatische stressstoornis, maken we gebruik van de volgende procedure in SPSS. Deze stappen zijn ook terug te vinden in het boek van Field. 

Tip: Bij deze stappen is het handig om de namen van de variabelen te gebruiken en niet de labels. Als het goed is heb je dit net (in de vorige les) aangepast onder 'Options'. Of je kunt in het menu met je rechter muisknop op de lijst met variabelen klikken. Selecteer dan 'Display variable names'. Nu zie je de lijst met slaap1, slaap2, etc. en zil1, zil2, zil3, etc.

  1. Transform > Recode into Different Variables
  2. Zet beide variabelen (ZIL12 én ZIL22) in het vak ‘Input Variable – Output Variable’.
  3. Geef de variabelen één voor één een nieuwe naam. Vergeet niet elke keer op 'Change' te klikken.  
    NB: De naam is vaak hetzelfde als de oude naam plus een i voor inverse of een r voor reverse; bedenk zelf een passende naam. Bij label hoef je niks in te vullen.


Klik nu op 'Old and New Values' (zie kader).

Voer bij 'Old Value' en bij 'New Value' precies in wat er veranderd moet worden. Dit betekent dat lage scores hoog worden, en hoge scores laag. 

Verander de andere scores op de volgende manier: 1 \rightarrow 4,  2 \rightarrow 3,  3 \rightarrow 2,  4 \rightarrow 1.

Let op! 

  • Klik tussendoor steeds op 'Add', anders verdwijnen de aangegeven veranderingen. Je ziet dan de veranderingen in de box rechtsonder verschijnen.
  • Ook de missing values (aangegeven met een 9) moeten worden toegevoegd. Wanneer dit niet aangegeven wordt, verdwijnen de scores uit het databestand. Dus, voeg 9 \rightarrow 9 nog toe. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Klik op 'Continue' en op 'OK'. 

  1. Ga naar de Data View: de nieuwe variabelen staan helemaal rechts in het bestand. Controleer of de hercodering gelukt is. Bekijk voor een paar mensen of hun waardes op de originele variabelen inderdaad goed zijn omgepoold bij de nieuwe variabelen.
  2. Controleer in de Variable View ook of het meetniveau (measure) juist is. Zo niet, pas het aan.
  3. Zet in de Variable View ook het aantal decimalen op nul.

Afbeelding met tekst, illustratie

Automatisch gegenereerde beschrijving

In de Variable View staan de nieuwe variabelen onderaan. SPSS weet nog niet dat ook voor de gehercodeerde variabelen een 9 een ontbrekende waarde (missing value) betekent. Geef dit aan in de kolom Missing door de 9 als discrete missing value op te geven. Doe je dit niet, dan zullen veel van de volgende bewerkingen onjuiste resultaten opleveren!


Geef in de omgepoolde variabele zil12r de waarde 1 het label zeer veel. Dit doe je ook in het menu onder Values in Variable View (maar dan bij zil12r). 

Vul bij Value '1' in en bij Label 'zeer veel'. Klik op Add.

Bedenk zelf welke labels de andere waarden (2, 3 en 4) horen te krijgen en vul ook deze in. Vergeet niet tussen elke waarde op Add te klikken.

 

Sla je dataset met omgepoolde variabele op. Het liefst met een 2 o.i.d. erachter zodat je een back-up hebt met de originele data. Bewaar het op een plek waar je later bij kan, je hebt de omgepoolde variabelen ook in de volgende Grasple lessen nodig.


Samenvatting

In deze les heb je geleerd hoe je items van een vragenlijst kunt ompolen. Hier bedoelen we mee dat de codes die aan de antwoorden hangen omgedraaid worden. 

Dit ompolen is belangrijk om goed onder de knie te krijgen, want het wordt bij sociale wetenschappen veel gebruikt. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

C2d: Betrouwbaarheidsanalyse

Een vragenlijst bestaat uit verschillende vragen die zo veel mogelijk hetzelfde onderliggende construct moeten meten. Als dit zo is, zou iemand op al deze vragen ongeveer dezelfde score moeten hebben. Dit noemen we een betrouwbare vragenlijst.

Om te kunnen toetsen of de ZIL op een betrouwbare manier PTSD heeft gemeten in onze steekproef, gebruiken we weer het databestand PTSD.sav. Deze is te vinden op Blackboard. 

Open het bestand in SPSS (indien je het niet al open hebt staan). 

Nu ga je de betrouwbaarheid van de ZIL schaal bepalen. 

  1. Ga naar Analyze > Scale > Reliability Analysis
  2. Voer alle variabelen in die je ook gaat gebruiken voor het berekenen van de schaalscore voor de ZIL
    (Let op: je hebt net 2 items omgepoold. Gebruik hier de omgepoolde items en niet de oorspronkelijke items!)
  3. Klik op 'Statistics' en vink 'Scale if item deleted' aan. 
  4. Klik op OK.



maar dat heb ik net niet?[SJ(5] 

Je hebt ook 'Scale if item deleted' aangevinkt. Hier berekent SPSS voor elk item hoe hoog de betrouwbaarheid van de schaal zou zijn als je dit item niet zou meenemen. Soms hebben items niet gedaan wat ze moeten doen. Je zou ervoor kunnen kiezen om ze dan uit de berekening van de schaalscore weg te laten. Zo kun je een betrouwbaardere schaal creëren. 

Let op: Je moet dit nóóit alleen doen op basis van de uitkomsten uit deze tabel. Blijf altijd zelf nadenken wat logisch is, wat de betekenis van de items is en wat in het geval van jouw data de beste keuze is. Echter gaan we het nu voor de oefening wel doen. 

 

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Nu gaan we proberen om een schaal te creëren met een zo hoog mogelijke betrouwbaarheid. Verwijder de items altijd één voor één. 

  1. Begin met die items die een lage item-rest correlatie hebben. Dit is de correlatie tussen de scores van dat item en de schaal gemaakt met alle andere items (dus alle andere items bij elkaar opgeteld). Wanneer deze laag is (kleiner dan 0.20) is dat een indicatie dat dit item niet goed samenhangt met de rest van de schaal.
  2. Kijk nu ook naar de 'Cronbach's Alpha if item Deleted' . Het item dat de hoogste score heeft, heeft de grootste impact op de betrouwbaarheid van de schaal. 
  3. Wanneer je weet welk item uit de schaal weg te laten, run je de analyse opnieuw maar nu met 1 item minder. Verwijder het item nooit uit de dataset!!

Afbeelding met tekst

Automatisch gegenereerde beschrijving



Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Run de analyse opnieuw zonder ZIL2 (je hebt nog 20 items over) en check dat de Cronbach's alpha voor deze schaal gelijk is aan wat er aangegeven werd in de vorige analyse. 

Samenvatting:

Deze les is al weer afgelopen. Je hebt nu het volgende geleerd:

  • Hoe je een betrouwbaarheidsanalyse uitvoert in SPSS
  • Waar je de waarde van Cronbach's alpha kunt vinden
  • Dat je items uit de schaal kunt verwijderen om de betrouwbaarheid te verhogen
  • Dat je dit één voor één moet doen

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

C2e: Samenvoegen van variabelen

Zojuist heb je twee vragen van de ZIL omgepoold om ervoor te zorgen dat ook bij deze variabelen een hoge score duidt op een hogere mate van posttraumatische stressstoornis. 

Ook heb je een betrouwbaarheidsanalyse uitgevoerd om te bepalen welke items goed bij elkaar passen en een zo betrouwbaar mogelijke schaal vormen. 

De volgende stap is het samenvoegen van alle vragen van de ZIL tot een schaalscore waaruit blijkt of iemand een posttraumatische stressstoornis heeft.

Voor het berekenen van een schaalscore heb je de keuze uit het optellen van de scores op de variabelen of het nemen van het gemiddelde

  • Het optellen van de scores levert een schaal op met hele getallen. Voor de interpretatie kan dat handig zijn. Het nadeel van deze manier is dat voor alle respondenten die een score op een variabele missen, geen schaalscore wordt berekend. Dat is jammer, omdat je de statistische analyses wilt uitvoeren op een zo groot mogelijk databestand.
     
  • Wanneer het gemiddelde wordt berekend als schaalscore, wordt dit ook berekend voor respondenten die een score missen. SPSS berekent het gemiddelde van de ingevulde antwoorden. Een nadeel is dat als respondenten bijna niets hebben ingevuld, hun gemiddelde, hun schaalscore, eigenlijk niets zegt.

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Straks gaan we de schaalscore van de ZIL maken. Maar eerst:

Let op!

  • Het gaat hier om een gemiddelde score van 20 ZIL items.
  • Gebruik de omgepoolde items en neem voor die items de originele niet mee.
  • Gebruik niet de items waarvan je zojuist hebt besloten dat die betrouwbaarheid verlagen.
  • Je krijgt hier geen output; er verschijnt een nieuwe variabele in het databestand.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Sla deze nieuwe file op en zorg ervoor dat je deze kan bereiken voor de komende Grasple opdrachten.

Maak een histogram van de nieuwe variabele. Zo kun je controleren of de scores ongeveer een normale verdeling volgen. Dit is namelijk een voorwaarde voor analyses zoals een t-toets, een correlatie en een regressie.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Samenvatting

In deze les heb je geleerd hoe je een schaalscore kunt maken. Hierbij moet je de ingebouwde functie 'mean' gebruiken.

Let bij het creëren van een schaal op omgepoolde items en items die je beter kunt weglaten als resultaat van je betrouwbaarheidsanalyse. 

 In de challenges kun je controleren of je de juiste grafiek/output hebt gemaakt.


Beide vragen stellen tijden practicum!!

 

C2f: Enkelvoudige Regressieanalyse

In deze les willen we de volgende onderzoeksvraag beantwoorden: "Kan PTSD voorspeld worden a.d.h.v. slapeloosheid?"

  • PTSD wordt gemeten met de ZIL-schaalscore die je net gemaakt hebt. 
  • Slapeloosheid wordt gemeten met de scores op de slaapproblemenschaal "Insomnia". 

De onderzoeksvraag kan beantwoord worden met behulp van enkelvoudige regressie. Maar voordat de regressievergelijking berekend kan worden, moet eerst onderzocht worden of er een lineair verband is tussen deze twee variabelen. 

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Voordat de regressievergelijking berekend kan worden, moet eerst onderzocht worden of er een lineair verband is tussen deze twee variabelen. 

Maak een spreidingsdiagram met de onafhankelijke variabele op de X-as en de afhankelijke variabele op de Y-as. Kies binnen de categorie Scatter/dot de variant Simple Scatter with Fit Line: als je met de muis over de plaatjes gaat worden de namen van de varianten getoond.


Voer nu de regressie analyse uit:

  • Analyze > Regression > Linear
  • Denk goed aan wat de afhankelijke en onafhankelijke variabelen zijn en zet deze in de goede vakjes. 
  • We willen ook grafisch de voorwaarde van homoscedastisiteit, lineariteit en de afwezigheid van uitschieters controleren:

 

    • Klik op Plots
    • Plaats de variabele *ZPRED (de gestandaardiseerde voorspelde waarden) op de X-as
    • Plaats de variabele *ZRESID (de gestandaardiseerde residuen) op de Y-as
    • Klik op Continue
  • Druk op OK.

We zullen nu naar de Output gaan kijken. Deze bestaat uit 4 tabellen en een grafiek.  

In de bovenste tabel staan de variabelen die gebruikt zijn om de regressievergelijking op te stellen. Meer niet. Deze tabel is nu niet zo interessant. 

Kijk vervolgens naar de tweede tabel: de tabel Model Summaries. Hier vind je de volgende informatie:

  1. de waarde van RR, de absolute waarde van de correlatie tussen de twee variabelen.
  2. de verklaarde variantie, R^2R2
  3. een aangepaste waarde van R^2R2.
  4. De standaardschattingsfout, de gemiddelde grootte van de schattingsfout die je maakt wanneer je dit regressiemodel gebruikt om voorspellingen mee te doen. Dit is hetzelfde als de standaardafwijking van de residuen (het verschil tussen de voorspelde en geobserveerde waarde).


klopt weer niet met mijn data


Kijk nu naar de tabel ANOVA. Hierin wordt getoetst of het model dat je gespecificeerd hebt significant is. Met andere woorden: wordt een significant deel van de spreiding in de afhankelijke variabele verklaard door de lineaire relatie met de onafhankelijke variabele?

Hiervoor wordt een F-toets gebruikt. Kijk in de tabel of je de waarde van F kunt vinden.

In de cel 'Sig.' staat de p-waarde die bij deze F-waarde hoort. 


Nu gaan we kijken naar de tabel Coefficients

Er wordt allerlei informatie gegeven over deze predictor: 

  • de richtingscoëfficiënt b
  • de standaardfout van b: SE(b)
  • de gestandaardiseerde richtingscoëfficiënt: beta
  • de toetsingsgrootheid t 
  • de bijbehorende p-waarde




Samenvatting

In deze les heb je geleerd hoe je een regressie-analyse kunt uitvoeren. Hierbij moet je goed weten wat de afhankelijke en de onafhankelijke variabele is. Ook hebben we gekeken naar de vier verschillende tabellen van de regressie-output. 

In de challenges kun je controleren of je de juiste grafiek/output hebt gemaakt.

Afbeelding met tekst

Automatisch gegenereerde beschrijving

 Afbeelding met tekst

Automatisch gegenereerde beschrijving

kortom: regressievergelijkingen kennen!

a = constante b
b = slapeloosheid b

x = score op insomnia


belangrijk dat outliers dus geen indicatie zijn voor niet-lineaire relatie!

 

C2g: Meervoudige Regressieanalyse

In de vorige les heb je gekeken of Insomnia een voorspeller is voor PTSD symptomen. Dit bleek zo te zijn. Echter kunnen er ook meerdere factoren zijn die van invloed zouden kunnen zijn.  We kunnen dan een regressieanalyse met meerdere voorspellers uitvoeren: een Multipele Regressieanalyse

Voer een multipele regressieanalyse uit met de ZIL-scores als afhankelijke variabele en de voorspellers Insomnia, Leeftijd en Narcolepsy (Slaapaanvallen). Vraag ook om een residuenplot. 

Weet je niet meer precies hoe? Kijk is het hoofdstuk "Linear Model (Regression)" van Field. 

NB: De schaalscore van de ZIL heb je zelf in een vorige les gemaakt. Deze is gebaseerd op 20 van de ZIL-items. 

De output van een Multipele Regressie-analyse lijkt erg op de output van een Enkelvoudige Regressie-analyse. We zien er dezelfde 4 tabellen terug.

  1. In de eerste tabel staan weer de onafhankelijke én de afhankelijke variabelen.
  2. In de tweede tabel staan de algemene kwaliteitsgegevens van het regressiemodel. 

 


dus de r2 moet je keer 100 doen om het percentage te krijgen

Laten we naar de overige 2 tabellen kijken.

  • In de derde tabel staat weer de uitkomst van de F-toets die toetst of het gehele model significant is. Een andere manier om dat te zeggen is: de F-toets toetst of de 3 voorspellers een significant deel van de spreiding van de ZIL-scores verklaren. 
  • In de laatste tabel staat de informatie over de regressiecoëfficiënten. 



Afbeelding met tekst

Automatisch gegenereerde beschrijving
Nu dat we weten dat 'Leeftijd' geen significante voorspeler is voor de ZIL-scores, kunnen we de regressie-analyse opnieuw uitvoeren; ditmaal zonder de variabele 'Leeftijd'. 

Doe de regressie-analyse opnieuw met enkel Insomnia en Narcolepsy als voorspellers. Vraag ook weer om een residuenplot.


Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Samenvatting

In deze les heb je geleerd hoe je een meervoudige regressie-analyse kunt uitvoeren. Hierbij moet je goed weten wat de afhankelijke variable is en wat de onafhankelijke variabelen zijn. 

In de challenges kun je controleren of je de juiste output hebt gemaakt.





Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

C2h: Correlatie en regressie met SYNTAX

Voor deze les maken we weer gebruik van het databestand rekenvaardigheid.sav. De dataset is te vinden op Blackboard. Het kan zijn dat je dit databestand al hebt opgeslagen, of zelfs nog open hebt staan, van een vorige oefening. 

Open het databestand in SPSS. 

Bepaal de correlatie tussen de CITO rekenvaardigheidsscores en de voormeting op automatiseren (Analyze > Correlate > Bivariate). 

Hier selecteer je de twee variabelen cito4 en aut1v en plaats je die middels de pijl in het kader 'Variables'. 

Klik op PASTE en niet op OK. 

SPSS opent een nieuw SYNTAX venster: 

Afbeelding met tekst

Automatisch gegenereerde beschrijving


Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Bepaal of er een positief verband is tussen de CITO-scores en de nametingen van automatiseren (aut1n). Vraag om de Spearman correlatiecoëfficiënt. Laat ook de Pearson correlatiecoëfficiënt aangevinkt (ter vergelijking). 

Gebruik weer de PASTE, RUN methode.

Afbeelding met tekst

Automatisch gegenereerde beschrijving


Afbeelding met tekst

Automatisch gegenereerde beschrijving
Voeg boven de drie correlatie-opdrachten een opmerking in waarin staat tussen welke variabelen je een correlatie uitrekent. 

 
Voer nu een regressie-analyse uit om de nameting van hoofdrekenen (hoofdn) te voorspellen met behulp van de voormeting van hoofdrekenen (hoofdv):

  • Analyze > Regression > Linear
  • Denk goed aan wat de afhankelijke en onafhankelijke variabelen zijn en zet deze in de goede vakjes. 

Gebruik weer de PASTE, RUN methode.

Afbeelding met tekst

Automatisch gegenereerde beschrijving

Samenvatting

Je hebt nu het volgende geleerd:

  • hoe je correlatie en regressie vanuit SYNTAX kunt runnen
  • hoe je de SYNTAX kunt aanpassen

 In de volgende oefeningen kun je je kennis controleren.

Dus opletten bij opstellen correlatie dat eenzijdig of tweezijdig kies!!

Afbeelding met tekst

Automatisch gegenereerde beschrijving

 

C2i: Enkelvoudige regressie - oefenen met output

Regressie kan je gebruiken om een continue afhankelijke variabele te voorspellen vanuit één (enkelvoudige regressie) of meerdere (meervoudige regressie) onafhankelijke variabelen.

In dit voorbeeld zullen we eenzaamheid onder ouderen voorspellen aan de hand van hun gezondheid. Dit is een enkelvoudige regressie. We zouden daarnaast ook nog andere variabelen kunnen gebruiken, zoals het aantal kinderen dat iemand heeft. Dat zou een multipele regressie zijn.

Voordat we de resultaten kunnen interpreteren, moeten we eerste kijken of er voldaan is aan de aannames. In deze cursus zijn dat voor regressie: lineariteit, uitschieters, en multicolineariteit. Die laatste is alleen bij multipele regressie, dus daar hoeven we ons nu geen zorgen om te maken.

Afbeelding met tekst

Automatisch gegenereerde beschrijving


Het lijkt erop dat we aan beide assumpties hebben voldaan.

In de rest van deze les zullen we de output van de regressieanalyse uit SPSS bekijken en interpreteren.

De eerste interessante tabel is de Model Summary tabel:

In deze tabel staan de R, de verklaarde variantie, en de standaardschattingsfout. De kolom met 'Adjusted R Square' mag je overslaan.

Afbeelding met tafel

Automatisch gegenereerde beschrijving

RDit is de correlatie tussen de voorspelde score en de afhankelijke variabele. Voor een enkelvoudige regressie is dit hetzelfde als de correlatie tussen X en Y, met als verschil dat R altijd positief is en de correlatie ook negatief zou kunnen zijn. 

In dit geval is dit (de absolute waarde van) de correlatie tussen gezondheid en eenzaamheid.

R Square: Dit heet in het Nederlands de verklaarde variantie. Deze geeft aan hoeveel van de variantie van de afhankelijke variabele verklaard wordt door de de lineaire relatie met de onafhankelijke variabele(n).

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tafel

Automatisch gegenereerde beschrijving

Std.Error of the Estimate
Dit heet in het Nederlands de standaardschattingsfout. Dit is de gemiddelde fout die we maken wanneer we dit model gebruiken om eenzaamheid te voorspellen. Met andere woorden, dit is het gemiddelde residu van alle deelnemers.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
De volgende tabel in de regressie output is de ANOVA tabel. Hier wordt de significantie van de verklaarde variantie getoetst.

Afbeelding met tekst

Automatisch gegenereerde beschrijving


Afbeelding met tekst

Automatisch gegenereerde beschrijving
Ten slotte is er de Coefficients tabel:

Hier staan, onder andere, de volgende dingen:


Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving
In de coefficients tabel staat ook de gestandaardiseerde regressiecoëfficiënt. Deze kan je vinden onder 'Standardized Coefficients Beta':

De gestandaardiseerde richtingscoëfficiënt betekent hoeveel standaarddeviaties Y verandert als de X-variabele met 1 standaarddeviatie omhoog gaat. Dit is bij een enkelvoudige regressie hetzelfde als de correlatie tussen X en Y.
Let op het verschil met de gewone richtingscoëfficiënt, het is bijna hetzelfde maar bij de gestandaardiseerde gaat het over verschil in standaarddeviaties.

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Conclusie 

Je hebt het volgende geleerd deze les:

  • Hoe je in de output van SPSS de volgende dingen kunt vinden: verklaarde variantie, standaardschattingsfout, intercept, richtingscoëfficiënt, en de gestandaardiseerde richtingscoëfficiënt.
  • Hoe je de regressievergelijking opstelt.
  • Waar je de hypothese toetsen voor de verklaarde variantie en de richtingscoëfficiënt kunt vinden.

Je kunt nu oefenen met allerlei verschillende onderdelen van de SPSS output in de exercises.


opzoeken wat de grootte van effecten zijn voor Rkwadraat[SJ(6] 

Afbeelding met tekst

Automatisch gegenereerde beschrijving 
ze vroegen niet om percentages, maar om het deel!

Afbeelding met tekst

Automatisch gegenereerde beschrijving Afbeelding met tekst

Automatisch gegenereerde beschrijving
belangrijk onderscheid, misschien dat daarmee samenhangt dat B in hypothese niet met alfa is maar met is wel 0 of is niet 0






 

Werkgroep 3 TOE POWW

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Selftest correlationeel

Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Afbeelding met tekst

Automatisch gegenereerde beschrijving
Waar is F-toets dan ook al weer voor?
Afbeelding met tekst

Automatisch gegenereerde beschrijving

Afbeelding met tekst

Automatisch gegenereerde beschrijving
let op verschil tussen standaardfout en standaardschattingsfout!!

 


 [SJ(1]???

 [SJ(2]Even checken

Contributions, Comments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Summaries & Study Note of Julia Schravendijk
Join World Supporter
Join World Supporter
Log in or create your free account

Waarom een account aanmaken?

  • Je WorldSupporter account geeft je toegang tot alle functionaliteiten van het platform
  • Zodra je bent ingelogd kun je onder andere:
    • pagina's aan je lijst met favorieten toevoegen
    • feedback achterlaten
    • deelnemen aan discussies
    • zelf bijdragen delen via de 11 WorldSupporter tools
Content
Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
4
Promotions
wereldstage wereldroute

Tussenjaar of sta je op het punt op kamers te gaan?

Wereldroute biedt jou een leerzaam en onvergetelijk Student Prepare Program aan