College 3: Centrale tendentie, variabiliteit, schaaltransformaties
Centrale tendentie
Stel, wij willen van 6 studenten uit het eerste jaar die bijles hebben gevolgd voor statistiek weten hoe hoog zij scoren op het tentamen van onderzoekspracticum 1. Zij hebben de volgende cijfers gehaald:
Student | Cijfer |
1 | 7 |
2 | 6 |
3 | 6.5 |
4 | 8 |
5 | 7 |
6 | 7.5 |
Dit willen wij samenvatten in één nummer. De vraag hierbij is: hoe doen we dit? Hier zijn verschillende manieren voor oftewel er zijn verschillende maten voor centrale tendentie.
Centrale tendentie, het gemiddelde
Het gemiddelde bereken je door alle waarden bij elkaar op te tellen en deze te delen door het aantal waarden. De formule luidt:
Oftewel
Stel, we hebben n observaties met waarden x1, x2… dan is het gemiddeld (x-bar) van deze observaties.
De bovengenoemde studenten hebben volgens deze formule gemiddeld een 7 gehaald.
Stel dat er een student bij is gekomen die een 1.0 heeft gehaald. De rest van de cijfers zijn hetzelfde gebleven:
Het gemiddelde is van een 7 naar een 6.14 gezakt, omdat er een extra waarneming bij is gekomen. Met één extra waarneming is het gemiddelde bijna met een heel punt gezakt en alle studenten op twee na scoren boven het gemiddelde. Dit laat zien hoe gevoelig het gemiddelde is voor uitbijters. Een uitbijter is een extreme waarde die sterk afwijkt van de rest van de waarden. Het gemiddelde kan hierbij flink omlaag of omhoog gaan. Hierdoor kan het voorkomen dat er veel studenten boven of onder het gemiddelde scoren. Het gemiddelde is dus geen resistente centrummaat.
Centrale tendentie, de mediaan
De mediaan M, ofwel middelpunt van de verdeling. Dat getal waarvoor geldt dat de ene helt van de waarneming eronder valt en de andere helft erboven. Hoe vinden we de mediaan:
Alle getallen rangordenen van klein naar groot.
Heb je oneven aantal waarnemingen is het middelste getal de mediaan. De locatie van de mediaan vind je door de formule : (n+1)/2.
Bij een even aantal is de mediaan het gemiddelde van de middelste twee waarnemingen de mediaan. De locatie van de mediaan vind je door de formule : (n+1)/2.
Voorbeeld 1: We nemen de cijfers van de studenten die we eerder in dit college gebruikten. Deze rangordenen we van klein naar groot: 6 – 6.5 – 7 – 7 – 7.5 – 8. We hebben hier 6 waarnemingen, de locatie van de mediaan is dus (6+1)/2=3,5. De mediaan zit tussen het 3e en 4e getal in. In dit geval tussen twee zevens. De mediaan is dus 7.
Voorbeeld 2: We nemen de cijfers van de studenten die we eerder in dit college gebruikten met de 7e student met een 1 erbij. Deze rangordenen we van klein naar groot; 1 – 6 – 6.5 – 7 – 7 – 7.5 – 8. We hebben hier 7 waarnemingen, de mediaan is dus (7 + 1)/2 = 4. De locatie van de mediaan is dus het 4e getal. In dit geval is dit de 7.
Voordelen van de mediaan ten opzichte van het gemiddelde:
Ondanks één extreme waarneming is de mediaan onveranderd gebleven
Evenveel studenten scoren boven als onder de mediaan
Ongevoelig voor extreme waarnemingen, de mediaan is dus een resistente centrummaat. Let op: de mediaan kan wel veranderen, maar nooit zo veel als het gemiddelde.
Bij een symmetrische verdeling zijn het gemiddelde en de mediaan gelijk. Naar mate de verdeling schever is, verschillen de mediaan en het gemiddelde meer van elkaar.
Variabiliteit
Met het gemiddelde en de mediaan kan je niet alle eigenschappen van een verdeling beschrijven. Dit zijn maten voor centrale tendentie, maar geven niet aan hoeveel waarnemingen gespreid liggen rondom het centrum
Voorbeeld:
Student | Cijfer |
| Student | Cijfer |
1 | 7 |
| 1 | 7 |
2 | 6 |
| 2 | 10 |
3 | 6.5 |
| 3 | 3 |
4 | 8 |
| 4 | 9 |
5 | 7 |
| 5 | 4 |
6 | 7.5 |
| 6 | 9 |
Variabiliteit, de variantie
In beide gevallen is het gemiddelde 7, mar in de 2e tabel variëren de waarden veel meer. Centrummaten alleen zijn dus niet genoeg om verdelingen te beschrijven, maar spreidingsmaten zijn dus ook belangrijk. Variantie is een maat voor spreiding.
Van iedere persoon kunnen we de afwijking tot het gemiddelde uitrekenen. Het gemiddelde in de eerste tabel uit het vorige voorbeeld was een 7. Als we van elke waarde 7 aftrekken hebben we de afwijking per persoon uitgerekend. Als we al deze afwijkingen bij elkaar optellen en delen door het totaal aantal waarnemingen krijgen we altijd 0 (de gemiddelde afwijking is dus altijd 0), omdat de positieve en negatieve getallen elkaar opheffen. We moeten dus zoeken naar een manier om ‘-‘ op te heffen. Een veel gebruikte manier om negatieve getallen positief te maken is kwadrateren. Kwadrateren is beter dan het weglaten van de ‘-‘tekens, omdat we met gekwadrateerde getallen meer berekeningen uit kunnen voeren dan met absolute getallen.
Student | Cijfer | Afwijking tov gemiddelde | Gekwadrateerde afwijking tov gemiddelde |
1 | 7 | 7 – 7 = 0 | (7 – 7) ² = 0² |
2 | 6 | 6 – 7 = -1 | (6 – 7) ² = (-1) ² |
3 | 6.5 | 6.5 – 7 = -0.5 | (6.5 – 7) ² = (-0.5) ² |
4 | 8 | 8 – 7 = 1 | (8 – 7) ² = 1² |
5 | 7 | 7 – 7 = 0 | (7 – 7) ² = 0² |
6 | 7.5 | 7.5 – 7 = 0.5 | (7.5 – 7) ² = 0.5² |
Als we alle gekwadrateerde afwijkingen bij elkaar optellen krijgen we de totale kwadratensom (Total sum of squares). Om een gemiddelde gekwadrateerde afwijking te vinden delen we door n-1. Je hoeft niet te weten waarom we door n-1 delen, alleen dat het voor een eerlijkere weergave zorgt dan wanneer we alleen door n delen. Dus:
Deze maat noemen we de variantie (s)² en is conceptueel de gemiddelde gekwadrateerde afwijking tot het gemiddelde. De formule luidt:
Oftewel:
Als we kijken naar de twee tabellen die eerder zijn gebruikt waarbij bij beide tabellen het gemiddelde 7 was, zien we dat bij de eerste tabel de variantie 0.5 is en bij de tweede tabel is de variantie 8.4.
Variabiliteit, de standaarddeviatie
Het probleem met de variantie is dat de gemiddelde gekwadrateerde afwijking moeilijk inhoudelijk te interpreteren is. Vandaar dat we gebruik maken van de standaarddeviatie. De standaarddeviatie (s) is de wortel uit de variantie. De standaarddeviatie geeft aan hoeveel de waarden gemiddeld afwijken tot het gemiddelde. De standaarddeviatie is wel makkelijk te interpreteren In het voorbeeld van de twee tabellen is in de eerste tabel de standaarddeviate 0.71 en in de tweede tabel 2.90. De officiële formule luidt:
Eigenschappen standaarddeviatie:
s geeft de gemiddelde spreiding rondom het gemiddelde aan. Enkel te gebruiken wanneer gemiddelde als centrummaat wordt gekozen
Wanneer er geen spreiding is: s = 0
Bijvoorbeeld iedereen haalt een 7, gemiddelde is automatisch ook 7. S = 0
S en s² zijn niet resistent, uitbijters kunnen grote invloed hebben. Bij uitbijters of scheve verdelingen kun je beter gebruik maken van een andere spreidingsmaat, namelijk kwartielen, percentielen en de mediaan.
Variabiliteit, kwartielen
Percentielen: p-de percentiel is de waarde waarvoor geldt dat p procent van alle waarden onder die waarde valt. De mediaan is het 50ste percentiel. 50% van alle waarnemingen valt er onder en 50% valt er boven. Kwartielen kunnen ook worden weergegeven in percentielen. De mediaan is bijvoorbeeld het 50e percentiel
Kwartielen delen de waarneming in 4 gelijke delen op:
Eerste kwartiel Q1: Is het 25e percentiel. 25% van de waarnemingen valt onder Q1
Tweede kwartiel: de mediaan, 50% van de waarnemingen valt onder de mediaan, 50% valt erboven
Derde kwartiel Q3: Is het 75e percentiel. &5% van de waarnemingen valt onder Q3.
Berekeningen kwartielen
- Rangordenen van de observaties van laag naar hoog
De mediaan berekenen
Eerste kwartiel Q1 is de mediaan van de waarnemingen onder de algehele mediaan
Derde kwartiel Q3 is de mediaan van de waarnemingen van de kwartielen boven de algehele mediaan
Voorbeeld: Behaalde cijfers voor OP1: 4, 5, 3, 4, 4, 5, 6, 4, 6, 5, 4, 7, 8, 4
- Rangordenen: 3, 4, 4, 4, 4, 4, 4, 5, 5, 5, 6, 6, 7, 8
Mediaan: (14+1)/2= 7.5. De mediaan is het gemiddelde van 4 en 5 = 4.5
Mediaan: 3, 4, 4, 4, 4, 4, 4 | 5, 5, 5, 6, 6, 7, 8
- Eerste kwartiel: Voor Q1 kijken we alleen naar de getallen onder de mediaan: 3, 4, 4, 4, 4, 4, 4. (7+1)/2= 4. Q1 is dus het vierde getal, wat in dit geval 4 is. 3, 4, 4, 4, 4, 4, 4.
Derde kwartiel: Voor Q3 kijken we alleen naar de getallen boven de mediaan: 5, 5, 5, 6, 6, 7, 8. (7+1)/2=4. Q1 is dus het vierde getal, wat in dit geval 6 is. 5, 5, 5, 6, 6, 7, 8
Q1 = 4, M=4,5, Q3=6
Variabiliteit, de vijfnummersamenvatting (five-number summary)
De vijf-nummersamenvatting van een stel observaties bestaat uit de laagste waarneming, het eerste kwartiel, de mediaan, het derde kwartiel en de hoogste waarneming. Het idee hierachter is een zo volledig mogelijk beeld geven van de spreiding. Dus:
Minimum > Q1 > M > Q3 > Maximum
Een boxplot geeft de vijfnummersamenvatting grafisch weer. De onderkant van de box geeft Q1 weer, de bovenkant van de box geeft Q3 weer. De lijn in de bos geeft de mediaan weer. De lijnen boven en onder de box strekken uit tot aan de minimum en maximum geobserveerde waarden.
Variabiliteit, de interkwartielafstand (Interquartile range, IQR)
Zoals eerder beschreven: de variantie en standaarddeviatie zijn geen resistente maten tegen uitbijters (extreme waarnemingen). Er is een alternatieve maat: de interkwartiel afstand. Deze maat is minder gevoelig voor extreme waarden dan de standaarddeviatie.
IQR= Q3 - Q1
Voorbeeld:
Student | Cijfer |
| Student | Cijfer |
1 | 7 |
| 1 | 7 |
2 | 6 |
| 2 | 6 |
3 | 6.5 |
| 3 | 6.5 |
4 | 8 |
| 4 | 8 |
5 | 7 |
| 5 | 7 |
6 | 7.5 |
| 6 | 7.5 |
|
|
| 7 | 1 |
Mediaan: 6, 6.5, 7 | 7, 7.5, 8 Q1 en Q3: 6, 6.5, 7 | 7, 7.5, 8 IQR: Q3 – Q1 = 7,5 – 6.5 = 1 |
| Mediaan: 1, 6, 6.5, 7, 7, 7.5, 8 Q1 en Q3: 1, 6, 6.5, 7, 7, 7.5, 8 IQR: Q3-Q1 = 7.5 – 6 = 1.5 |
De interkwartielafstand is ‘maar’ 1.5x zo groot, ondanks de uitbijter. De standaarddeviatie is in dit voorbeeld ruim 3x zo groot ( 0.71 in de eerste tabel en 2,36 in de 2e tabel). IQR is alleen zinvol bij uitbijters, niet bij een scheve verdeling.
Voor uitbijters bestaat de ‘1.5 x IQR’ regel. Dit wilt zeggen dat een waarneming vermoedelijk een uitbijter is wanneer hij meer dan 1.5 x IQR onder het eerste of boven het derde kwartiel valt.
1, 6, 6,5, 7, 7, 7,5, 8
IQR: 7,5 – 6 = 1.5
1.5 x 1.5 = 2.25
Alles lager dan 6 – 2.25 = 3.75 en hoger dan 7.5 + 2.25 = 9.75 is een uitbijter. In dit voorbeeld is 1 dus een uitbijter.
Schaaltransformaties
Wanneer dezelfde variabele in verschillende meeteenheden gemeten kan worden wordt er gebruik gemaakt van schaaltransformaties. Bijvoorbeeld:
Snelheid in km/uur of m/s.
Temperatuur in graden Celsius, kelvin of Fahrenheit
Een meeteenheid is makkelijk te veranderen, omdat het lineaire transformaties van elkaar zijn. We gebruiken de formule: xnieuw = a + bx (a = constante)
Voorbeeld: van km/uur naar m/s:
1 km = 1000 m > dit weten we
1 uur = 3600 sec > dit weten we
1km/uur = 1000/3600 = 0,2778 m/s
Xnieuw = 0,2778x
a= 0; b=0.2778
Nieuwe snelheid in meeteenheden: Aantal km x 0,2778
Dus: 120 km/uur in m/s = 0.2778 x 120 = 33.34 m/s
Voorbeeld: Celsius naar Kelvin
Als de temperatuur met 1 graad Celsius stijgt, stijgt de temperatuur in Kelvin ook met 1 graad.
0 graden Celsius =
Xnieuw = 273,15 + x
a=273.15; b=1
Dus: van 27 graden Celsius naar Kelvin: 273.15 + 27 = 300.15 Kelvin
Effecten bij lineaire transformaties:
De vorm van de verdeling verandert niet, met andere woorden : stel dat je een scheve of een normaal verdeling hebt blijft dit zo.
De gemiddelden en de mediaan veranderen wel. Vermenigvuldigen van elke observatie met b, vermenigvuldigt gemiddelde, mediaan, IQR en standaarddeviatie ook met b.
Optellen van constante a bij elke observatie, verhoogt gemiddelde, mediaan en kwartielen ook met a. Let op: standaarddeviatie en IQR blijven gelijk.
College 4: Meten in de gedragswetenschap, ethiek
Er zijn verschillende soorten metingen:
Observeren, direct zicht op het gedrag.
Fysiologische maten, metingen in/aan het lichaam, zelfrapportage -bijvoorbeeld een vragenlijst/interview.
Zelfrapportage
Het archief, dit zijn bestaande gegevens, secundair
Operationalisatie: Begrip zoals bedoeld > operationalisatie > begrip zoals bepaald. Wat ga je meten en op welke manier ga je dit doen?
Soorten onderzoek:
Beschrijvend
Correlationeel
Experimenteel
Quasi-experimenteel
Alle soorten metingen kan je doen in alle soorten onderzoek. Zo hoef je in observationeel onderzoek niet altijd alleen te observeren en bij relationeel onderzoek niet altijd alleen vragenlijsten in te vullen. De onderzoek bepaalt welke metingen bij de onderzoeksvraag passen.
Observatie
Als er wordt gekozen voor observeren moeten er drie beslissingen worden gemaakt.
Welke setting kies ik? Natuurlijke omgeving of vooropgezet (contrived)?
Hoe stel ik mijn onderzoeker op? Verborgen of openlijk
Welke observatie methode gebruik ik?
Welke setting kies ik?
Natuurlijke omgeving: In een naturalistische setting wordt er geobserveerd in een natuurlijke omgeving. Zonder interventie van de onderzoeker. Participerende observatie is een belangrijke methode om in de natuurlijke omgeving van mensen te observeren. Het is een realistische context, je bevindt je in de situatie waarin de onderzochte groep zich ook bevind. Bijvoorbeeld: op een schoolplein kijken hoe ouders en kinderen met elkaar omgaan. In deze situatie is de context zichtbaar en spontane gebeurtenissen kunnen worden gezien. Er komen gedragingen naar voren waar je als onderzoeker niet altijd over na hebt gedacht. Het nadeel is dat je weinig controle hebt over je onderzoek, je hebt onbewust altijd invloed op de groep waar je observeert, je wordt zelf deel van het onderzoek, het is redelijk subjectief. Conclusies trekken wordt dus moeilijker. Je moet je afvragen of dit invloed heeft op het coderen.
Vooropgezet: In een vooropgezette setting is de situatie ingericht voor observatie en registratie van het gedrag. Je weet van begin tot eind hoe je het aanpakt en wat er gaat gebeuren. Een voorbeeld is de vreemde situatie procedure, hierbij kan je je afvragen of de reacties thuis hetzelfde zullen zijn. Bij deze setting heb je veel controle en veel overzicht. Het nadeel is dat de setting niet realistisch is voor de proefpersonen. Dingen die kunnen voorvallen in een natuurlijke setting zullen in de vooropgezette setting minder vaak voorvallen. De vraag is dus of het wel realistisch is.
Veldexperiment: In een veldexperiment wordt er gezocht naar een tussenvorm tussen de natuurlijke omgeving en manipulatie van de omgeving. Het is realistischer dan laboratoriumonderzoek, maar er is toch een zekere mate van controle. Bijvoorbeeld; keihard bellen in de stilte coupe in de trein of een ongeluk in scene zetten. Hierbij kan je kijken hoe mensen reageren, maar je hebt wel invloed op de situatie. Let op: niet verwarren met een experimentele opzet!
Hoe stel ik mijn onderzoeker op?
Verborgen: De onderzoeker kan zich zelf verborgen opstellen, hierin weten de participanten niet dat er iemand naar ze kijkt. Nadeel hiervan is dat er vaak ethische problemen aan hangen. Ook is het moeilijk om in sommige situaties binnen te komen als verborgen onderzoek. Bijvoorbeeld: een kinderdagverblijf, hier kan je niet zomaar binnenlopen en gaan observeren.
Open: De onderzoeker kan ook openlijk worden opgesteld, hier weten de participanten wel dat ze worden geobserveerd. Nadeel hiervan is de reactiviteit, de reactie van mensen kan veranderen omdat zij weten dat ze worden geobserveerd (hierdoor gaan zij sociaal wenselijk gedrag vertonen).
Tussenoplossingen: Er zijn ook tussenoplossingen mogelijk:
Niet alles vertellen: Tot op een zekere hoogte informatie geven. Zo kan je bijvoorbeeld niet alle details geven of alleen leidinggevenden inlichten.
Informanten gebruiken: Andere mensen die informatie verzamelen, bijvoorbeeld: vrienden van de proefpersoon laten observeren
Indirect meten: Meten zonder directe observatie. Bijvoorbeeld: in het vuilnis kijken hoeveel flessen drank erin zitten om te kijken of iemand een alcoholist is.
Welke observatiemethode gebruik ik?
Welke methode je ook gebruikt, betrouwbaarheid is altijd belangrijk. Dit wordt onder andere gecheckt door te kijken of persoon A en B hetzelfde observeren en coderen (inter-beoordelaars betrouwbaarheid). Er zijn vier observatiemethoden:
Narratieven: de narratieve methode is ongestructureerd. Hierin wordt het gedrag exact geregistreerd. Dit is erg gedetailleerd en allesomvattend. Wel is deze methode erg intensief, tijdrovend en onoverzichtelijk. Deze methode wordt vooral bij kwalitatief onderzoek gebruikt. Na een dag krijg je een enorme lap tekst en wat moet je hier mee, hoe ga je dit analyseren. Ook moet je jezelf afvragen of je wel alles ziet. Meestal heb je al een idee in je hoofd als je begint met observeren, je kan hierdoor onmogelijk alles zien. Je kan zeggen dat je heel gedetailleerd bent, maar hoe weet je zeker dat je niks over het hoofd hebt gezien.
Checklist: Wanneer er gebruik wordt gemaakt van een checklist wordt de aanwezigheid of afwezigheid van gedrag geregistreerd, dus hoe vaak iets gedaan wordt. Het voordeel hierbij ligt is het gebruiksgemak en het is overzichtelijk en gemakkelijk te analyseren. Wel heb je duidelijke operationele definities nodig, omdat het redelijk subjectief is. Het gedrag wat onderzocht zal worden moet duidelijk gedefinieerd zijn. Checklists worden bijvoorbeeld in het onderwijs vaak gebruikt om te beoordelen of kinderen zich goed ontwikkelen. Één nadeel van deze methode is dat je in een grote groep dingen kan missen, zo kan een kind wel iets beheersen, maar niet laten zien op het moment dat je op het kind let. Ook wordt er alleen vanuit criterium gecheckt en wordt er vaak niet verder gekeken.
Tijdsmetingen: Wanneer er gebruik wordt gemaakt van tijdmetingen wordt er gekeken hoelang er zit tussen twee gedragingen of een gebeurtenis en een gedraging (= de latency tijd). Ook kan er worden gekeken hoe lang bepaalde gedragingen duren. Bijvoorbeeld: troosten door de moeder of een driftbui van een kind. Dit is gemakkelijk te meten en te analyseren. Wel is het moeilijk om het te interpreteren. Je moet je afvragen wat de tijden inhouden en betekenen.
Ratingscales: Dit zijn beoordelingsschalen. Deze meten de kwaliteit en intensiteit van het gedrag. Op deze manier krijg je meer informatie en dit is makkelijk te analyseren. Wel is er kans dat de observatoren anders beoordelen. Wat de één sensitief vindt, vindt de ander bijvoorbeeld niet sensitief. Hier ligt het probleem in de subjectiviteit van de beoordelaars en de afbakening van definities. Observatoren moeten met voor deze observatiemethoden heel goed getraind worden.
Fysiologische maten
Bij fysiologische maten worden processen in het lichaam gekoppeld aan psychologische processen zoals gedrag (cortisol en stress ). Dit wordt steeds vaker gebruikt in sociaalwetenschappelijk onderzoek. Voorbeelden hiervan zijn hartslagmetingen en bloedafname. Positief is dat het harde maten zijn, maar het is vaak lastig te interpreteren. Je moet je altijd afvragen wat het resultaat nou eigenlijk zegt. Vaak worden fysiologische maten en andere metingen (bijvoorbeeld vragenlijsten) gecombineerd.
Bij fysiologische maten die mensen zelf afnemen ishet belangrijk om te controleren dat mensen dit goed doen. Je moet jezelf afvragen hoe je het goed uit moet leggen en hoe je het gaat controleren.
Voorbeeld fysiologische maten:
Speeksel afnemen bij kinderen om bijvoorbeeld cortisol te onderzoeken. Hierbij kan er voor controle van de metingen een potje worden gebruikt om de tijd van speekselafname te registreren om zo zuiver mogelijk te meten.
Zelfrapportage
Bij zelfrapportage zijn er verschillende dingen die moeten worden besloten. Er kan gebruik gemaakt worden van een vragenlijst of van een interview.
Voordelen interview:
Mogelijk om te checken of mensen het begrepen hebben
Minder ontbrekende waarden
Geschikt voor kinderen, mensen met een beperking etc.
Gedetailleerd en volledig beeld mogelijk
Voordelen vragenlijst:
Anoniem
Relatief goedkoop en snel
Makkelijk te analyseren
Wanneer een vragenlijst wordt gebruikt, moet er nagedacht worden over de soort vragen. Dit kunnen open vragen zijn, een vijf-puntenschaal, multiple choice vragen (hierbij moet je altijd aangeven hoeveel antwoorden per vraag aangevinkt mogen worden. Bij meerdere antwoorden per vraag wordt analyseren moeilijker), Semantisch differentiaal
Vragen formuleren:
Je moet altijd goed nadenken over hoe je vragen formuleert. Bijvoorbeeld bij de volgende vragen:
Wat geeft u uw kind zoal te eten? Hier zijn er te veel antwoorden mogelijk, er ligt geen nadruk op een moment van de dag.
Hoe gaat u om met de driftbuien van uw peuter?: negeren, toegeven, wisselen. Hier zijn er te weinig keuzemogelijkheden, de vraag is niet uitputtend. Ten eerste moet een driftbui goed gedefinieerd worden, ten tweede ga je er van uit dat het kind driftbuien heeft.
Wat vindt u van uw opvoedingsstrategieën? Mensen weten niet precies wat hiermee bedoelt wordt. De vraag is te abstract en ruim.
Het nadeel van een vragenlijst is dat er bias kan optreden. Dit zijn vertekeningen in de antwoorden en als onderzoeker wil je zo min mogelijk vertekening hebben.
Sociale wenselijkheid: Het kan zijn dat mensen de vragenlijst sociaal wenselijk invullen, mensen doen zich hierbij beter voor dan ze zijn. Dit valt wel te controleren.,
Ja/nee zeggers: Dit zijn mensen die uitsluitend aan één kant zitten. Dit valt op te lossen door vragen regelmatig andersom te stellen, men wordt hier alerter van.
Centrale tendentie: Er kan ook centrale tendentie optreden, omdat mensen geneigd zijn om geen buitenste antwoorden in te vullen, maar deze mensen kiezen de middelste categorieën. Vooral op een driepuntsschaal kan dit problemen opleveren.
Logische fout: En er kan een logische fout ontstaan. Dit kan komen doordat bepaalde vragen erg op elkaar lijken. Bijvoorbeeld: geef je vaak leiding? en neem je vaak initiatief? Men koppelt dit aan elkaar, de nuancering vervalt en men vult hetzelfde antwoord in.. De logische fout kan worden tegengegaan door vragen die op elkaar lijken uit elkaar te trekken.
Archiefdata
Bij archiefdata worden bestaande gegevens gebruikt voor onderzoek. Het voordeel hiervan is dat de data al beschikbaar is. Een nadeel is dat je volledig afhankelijk bent van die data. Om precies te weten wat er in de data staat worden codeboeken ontwikkelt, zo weten jij en andere mensen precies wat je ook al weer bedoelde.
Soms wordt er gebruik gemaakt van meerdere methoden van dataverzameling naast elkaar. Methodologisch pluralisme is op meerdere manieren hetzelfde meten Op meerdere manieren kijken naar vergelijkbaar gedrag, kom ik op hetzelfde uit?. Bij methodologische convergentie wordt er steeds op hetzelfde resultaat uitgekomen.
Ethiek
De ethische regels kunnen op drie verschillende manieren worden toegepast.
Deontologische benadering: Er zijn ethische regels die voor iedereen gelden. Om ethisch te handelen moeten er universele regels zijn. Je mag bijvoorbeeld nooit liegen tegen een respondent dit geld voor iedereen overal en altijd.
Utilitaristische benadering: Gaat uit van kosten-baten. Wat kosten de ethische problemen en wat krijg ik ervoor terug? Gaat uit van de consequenties van wat je doet. Wat voor positiefs en negatiefs haal ik er uit en kan ik het in evenwicht brengen. Bijvoorbeeld: Ik moet liegen, maar verkrijg veel kennis. Baten zijn in deze situatie misschien hoger dan de kosten
Sceptische benadering: Het is aan de onderzoeker om een goede beslissing te nemen. Ieder onderzoek is altijd anders, de onderzoeker moet de beslissing nemen
Bij ethiek moet ook gedacht worden aan fraude. Voorbeelden hiervan zijn data verzinnen of verwijderen en plagiaat plegen.
College 5: Standaardnormaalverdeling
Verdeling
Iets wat aangeeft hoe personen over een waarde van een variabele verdeeld zijn. Kenmerken van een verdeling:
Vorm: een verdeling kan symmetrisch zijn of scheef. Als een verdeling scheef is zit de top niet in het midden, maar links of rechts van het midden.
Extreme waarnemingen: zitten er uitbijters in je verdeling? Ligt een waarde ver bij de andere waarden vandaan?
Centrum: geeft aan waar de meeste personen zitten of geeft aan waar het midden of zwaartepunt zit.
Spreiding: geeft de gemiddelde afwijking ten opzichte van het centrum weer.
Beschrijven verdeling: Vaak is het handig om een grafiek te maken, bijvoorbeeld een histogram. Je kan de vorm van de verdeling en mogelijke uitbijters zien. Ook is het handig om passende centrum en spreidingsmaten te berekenen, dan heb je een beeld wat de kenmerken van een verdeling zijn.
Belang van verdeling
Een populatie is de gehele groep mensen waar je iets over te weten wilt komen. Met de steekproef wil je iets zeggen over die populatie. Het is belangrijk om onderscheid te maken tussen de verdeling die je hebt in een bepaalde steekproef die uit een populatie getrokken is en de verdeling in de populatie. De verdeling in de steekproef geeft informatie over de onderzochte personen. De verdeling in de populatie geeft informatie over de onderzochte groep als geheel. Uitspraken over de populatie zijn wetenschappelijk het meest interessant, omdat je uitspraken niet wilt doen die niet alleen voor een bepaalde groep mensen geldt, maar voor de hele populatie. Wat je meestal doet is dat je een steekproef verzameld van mensen uit de populatie, deze onderzoek en probeert op basis van die steekproef een uitspraak te doen over de populatie.
Vandaag
We gaan het hebben over wat we voor kans uitspraken kunnen doen als we 1 persoon uit de populatie trekken. Hoe verhoudt deze persoon zich tot de populatie
Verdelingen: symmetrisch of scheef
Als we naar deze verdelingen kijken op dia 4 zijn de donker blauwe en de paarse verdelingen scheef verdeeld. De eerste is ook geen symmetrische verdeling, maar gaat er meer naar toe omdat er een top richting het midden zit.
Verdelingen steekpref en populatie
Je wilt dat je steekproef verdeling lijkt op de populatieverdeling. Ten eerste is aarbij de steekproefgrootte van belang, hoe groter de steekproef, hoe meer mensen van de populatie heb je gevangen. En tweede is de representativiteit van de steekproef van belang. We hebben hier in de collegezaal een groep pedagogiek studenten. Als we deze groep nemen als steeproef van de Nederlandse bevolking, dan geeft dit de Nederlandse bevolking als populatie niet goed weer. De steekproef is dan te homogeen qua leeftijd, geslacht, intelligentie en interesse. De groep is groot, maar niet representatief. Normaliter trekje via een random mechanisme personen uit de populatie, iedere persoon heeft een gelijke kans om in de steekproef te komen. Dan is je steekproef waarschijnlijk representatief.
Verdelingen: plaats individuele observatie
Stel een student is 1.81m lang
Hoe bijzonder is dat in de twee verdelingen op dia 6?: in de eerste histogram is het niet bijzonder, alle lengtes komen in frequentie overeen. In de tweede wel, hier is de frequentie van het aantal mensen die 1.80 lang zijn lager dan bij de andere lengtes.
Verdelingen: discreet vs. Continu
In steekproeven moeten we discreet meten. Discreet betekent dat er een beperkt aantal waarden zijn. In de populatie is vaak een continue verdeling verondersteld. Continu betekent dat alle waarden, tot oneindig achter de komma mogelijk zijn. Lichaamslengte of schoenmaat zijn variabelen die niet discreet, maar continu zijn. We moeten toch op een discrete manier meten, omdat onze meetinstrumenten vaak discreet zijn, Bijvoorbeeld: een meetlat, deze meet discreet in meters en centimeters. Populatie verdelingen zijn vaak ‘vloeiender’ dan de steekproevenverdeling, omdat in de steekproef continue variabelen discreet gemeten zijn. Wanneer er een histogram van een continue variabele wordt gemaakt geldt: hoe groter het aantal observaties en klassen, hoe gelijkmatiger de verdeling. Een curve is een ideaal plaatje. Het is nooit de werkelijkheid, maar een benadering van wat er in populatie gebeurt.
Dichtheidscurven
Een curve is een ideaal plaatje. Het is nooit de werkelijkheid, maar een benadering van wat er in populatie gebeurt. Een curve zou vloeiend zijn met oneindig veel observaties en klassen. Een dichtheidscurve is een wiskundige benadering van de werkelijkheid en worden gebruikt om populaties te beschrijven. De totale oppervlakte onder de curve is 1 ofwel 100%. De oppervlakte onder de curve is een percentage van de populatie. De oppervlakte is makkelijker in te schatten bij symmetrische verdelingen.
Bepalen of een observatie bijzonder is:
Oppervlakte van de staaf waarin de observatie valt bekijken: hoe langer het staafje, hoe groter de oppervlakte.
Oppervlakte van andere staven bekijken (hoeveel personen scoren hoger of lager)
Oppervlakte uitdrukken in proporties/percentages van het totaaloppervlakte. Dan krijg je een kans dat je bijvoorbeeld iemand van 1.81m of groter vindt.
Van dichtheidscurven met een specifieke vorm zijn de percentages bekend. Deze staan in tabellen weergeven.
Dichtheidscurven: centrummaten
Het gemiddelde in de verdeling is de balanspunt. Dit komt niet, omdat er aan beide kanten evenveel oppervlakte is. De modus is de top/piek van de verdeling en de mediaan is het midden van de verdeling. 50% van de waarnemingen ligt links en 50% ligt rechts. Bij een symmetrische verdeling is de mediaan gelijk aan het gemiddelde. Bij een groot verschil tussen de mediaan en het gemiddelde is er sprake van een scheve verdeling. Het gemiddelde trekt naar de staart van de verdeling, omdat deze maat gevoelig is voor extreme waarnemingen(uitbijters).
Normaalverdeling
We hebben een specifieke dichtheidscurve die we vaak gebruiken, namelijk de normaalverdeling. Dit is een theoretische dichtheidscurve en wiskundig model waarin we populaties zo goed mogelijk proberen te beschrijven. Bijvoorbeeld: lichaamslengte, we veronderstellen dat die bij benadering normaal verdeeld is. De normaal verdeling is symmetrisch, klokvormig en unimodaal (heeft één top). Niet alle normaalverdelingen zien er hetzelfde uit. De vorm van de verdeling wordt bepaald door het gemiddelde µ (mu) en standaarddeviatie σ (sigma).
Let op:
Als we spreken over een steekproef gebruiken we Romeins schrift. De standaarddeviatie druk je uit in ‘s’. Het gemiddelde druk je uit in .
Als we spreken over de populatie gebruiken we Griekse symbolen. Standaarddeviatie druk je uit in sigma ‘σ’. Het gemiddelde druk je uit in mu ‘µ’.
Voordelen normaal verdeling
Benadert veel natuurlijke processen
Makkelijk reken, basis voor veel statistiek. Veel toetsen gaan er vanuit dat bepaalde variabelen normaal verdeeld zijn. Heel veel variabelen zijn dan ook redelijk goed benaderd door een normaalverdeling, maar veel variabelen zijn duidelijk niet normaal verdeeld, zoals inkomen. Natuurlijke variabelen zoals lengte, gewicht en IQ zijn bij benadering wel normaal verdeeld.
Ieder deel van de verdeling representeert een percentage van de populatie. De relatieve positie van een observatie is makkelijk te bepalen
Let op: De kans dat iemand precies een lichaamslengte van 1.70 heeft is 0, door de oneindigheid van lengte. Bij een continue verdeling kan je dus niet zeggen wat de kans is dat je iemand van 1.70m trekt. Wel kan je zeggen wat de kans is dat je een persoon van 1.70 of kleiner trekt.
Normaalverdeling vuistregel
Je hebt een vuistregel die de 68-95-99,7 regel wordt genoemd. Dit verwijst naar het aantal standaarddeviaties dat je kan afwijken van het gemiddelde.
68% van de scores ligt binnen 1 σ ) vanaf µ
95% van de scores liggen binnen 2 σ vanaf µ (-1.96 tot 1.96)
99,7% van de scores liggen binnen 3 σ vanaf µ
Standaardnormaalverdeling
Het gemiddelde van een standaardnormaalverdeling is altijd nul en een standaarddeviatie van 1. De precieze percentages onder de curve staan in tabel A (More and McCabe). Er is geen enkele variabele die zo verdeeld is. We gebruiken de standaardnormaalverdeling om te bepalen wat de relatieve positie is van een individuele waarneming en voor het vergelijken van waarnemingen uit verschillende groepen/variabelen.
Standaardnormaalverdeling: z-scores
Iedere normaalverdeling kan worden omgezet in standaardnormaalverdeling. Dit doe je door:
Van iedere score het gemiddelde af te trekken
Vervolgens door de standaarddeviatie te delen
Dit is de betekening van de z-score. De formule luidt:
Voorbeeld: De gemiddelde leesvaardigheidsscore in groep 4 is 35 met een standaarddeviatie van 5. Joris scoort 40 punten op de test. Hier komt de volgende berekening uit:
De Z-score is het aantal standaarddeviaties dat een observatie afwijkt van het gemiddelde. In het voorbeeld wijkt Joris dus 1 standaarddeviatie af van het gemiddelde 35. De standaardnormaalverdeling is de verdeling van Z-scores van een normaal verdeelde variabele. Scores uit een niet-normale verdeling kunnen we omgezet worden in z-scores, maar deze zijn niet standaardnormaal verdeeld.
Let op: Een standaarnormaalverdeling is een normaalverdeling, maar een normaalverdeling is geen standaardnormaalverdeling. Één normaal verdeling zet je dus om naar een standaardnormaalvereling door het berekenen van z-scores, maar het omzetten van een niet-normaalverdeling naar een standaardnormaalverdeling is onmogelijk. Je hebt dus niks aan een z-score als iets niet normaal verdeeld is, want je kan geen kans opzoeken in de tabel.
Rekenen met z-scores
Toepassingen: mensen uit verschillende populaties onderling met elkaar vergelijken. Scores van één persoon op verschillende variabelen met elkaar vergelijken.
Score geef je aan met x. dat zet je om in z en daar hoort kans p bij. Hoeveel procent van de personen scoort beter/slechter dan de gegeven waarden of tussen twee gegeven waarden
Andersom kan ook: op/onder welke waarde scoort een gegeven percentage van de personen.
Rekenen met z-scores: appels en peren
Je kan dus personen uit verschillende groepen met elkaar vergelijken. Je kan je afvragen wie op een bepaalde variabele relatief het best heeft gescoord. In dit geval reken je beide scores om naar z-scores en ga je vergelijken.
Bijvoorbeeld:
Een leesvaardigheidstest is bij benadering normaal verdeeld
Gemiddelde groep 3 = 15, SD = 3
Gemiddelde groep 4 = 20, SD = 2
Jonas zit in groep 3 en scoort 17 punten. Marije zit in groep 4 en scoort 22 punten. Wie heeft relatief het hoogst gescoord?
Jonas zijn score ligt 0.67 SD boven het gemiddelde in zijn groep. Marije haar score ligt 1 SD boven het gemiddelde in haar groep. Marije scoort dus absoluut en relatief gezien het hoogst.
Stappenplan groter/kleiner/tussen
Formuleer het probleem precies
Maak een tekening
Arceer het gebied
Bereken z-scores van de gegeven x-waarde
Zoek de proporties op in tabel a
- A. bij kleiner dan (links): je bent klaar
- B. Bij groter dan (rechts): trek proportie van 1 af
- C. Bij tussen: trek proportie bij ondergrens af van proportie bij bovengrens (altijd kleinste van grootste aftrekken.
Voorbeeld:
Cholesterolgehalte bij 14-jarige jongens is bij benadering normaal verdeeld, met een gemiddelde van 170 en een standaarddeviatie van 30. Hoeveel procent van de 14-jarige jongens heeft een cholesterolgehalte tussen de 170 en de 240?
Formuleer het probleem: zie hier boven
Maak een tekening: zie dia 28
Arceer het gebied: die dia 28
Bereken: Z1 = 240 – 170/ 30 = 2.33 en Z2 = 170 – 170/ 30 = 0
Zoek de bijbehorende p-waarde op in Tabel a. en trek de gevonden p-waarden van elkaar af.
Wat nu als gevraagd wordt om een proportie rechts van (boven) een bepaalde score te vinden. Dan neem je de proportie links van de z-score behorende bij de gegeven score en trek je die af van 1. Bijvoorbeeld: bij een z-waarde van 1.43 is p = 1 – 0.9236 = 0.0764. De kans op die score of hoger is dan 7.6%.
Rekenen vanaf P stappenplan
Formuleer het probleem precies
Maak een tekening
Schets de gegeven proportie in de tekening =p
Zoek de bijbehorende z-score op in de tabel a
- Let op: Als p rechts in de verdeling ligt, moet je zoeken bij 1-p in de tabel (alleen
gebieden links van zet in tabel A.
Reken Z om naar een x-waarde (x = z* σ+ µ)
De stof over het normaal-kwantielplot moet je door een gebrek aan tijd in het college zelf behandelen! De volgende tekst komt direct uit de collegesheets en is niet besproken in het college.
Een voorwaarde voor rekenen met z-scores is een bij benadering normaalverdeling in de populatie. De enige manier om dit te controleren is door te kijken naar de verdeling in de steekproef. Een manier om in een steekproef de normaalverdeling te controleren is doro middel van een normaal-kwantielplot
Om een normaal-kwantielplot te tekenen volg je de volgende stappen:
Sorteer de observaties
Bereken de percentielscores voor iedere x-waarde
Zoek de bijbehorende z-scores die horen bij de berekende percentielen ( dus x p z).
Plot iedere x-waarde tegen de bijbehorende z-score.
Wanneer het plot een rechte lijn vertoont is het normaal verdeeld. Het is standaardnormaalverdeeld bij en rechte lijn op 45 graden.
- 1 of 2153
- next ›
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why would you use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, study notes en practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the menu above every page to go to one of the main starting pages
- Starting pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
- Use the topics and taxonomy terms
- The topics and taxonomy of the study and working fields gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
- Check or follow your (study) organizations:
- by checking or using your study organizations you are likely to discover all relevant study materials.
- this option is only available trough partner organizations
- Check or follow authors or other WorldSupporters
- by following individual users, authors you are likely to discover more relevant study materials.
- Use the Search tools
- 'Quick & Easy'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject.
- The search tool is also available at the bottom of most pages
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Field of study
- All studies for summaries, study assistance and working fields
- Communication & Media sciences
- Corporate & Organizational Sciences
- Cultural Studies & Humanities
- Economy & Economical sciences
- Education & Pedagogic Sciences
- Health & Medical Sciences
- IT & Exact sciences
- Law & Justice
- Nature & Environmental Sciences
- Psychology & Behavioral Sciences
- Public Administration & Social Sciences
- Science & Research
- Technical Sciences
Add new contribution