Samenvatting Statistics: The arts of learning from data (Agresti, 2009)

Hoofdstuk 1 Data
Hoofdstuk 2 Het onderzoeken van datagegevens
Hoofdstuk 3 Associaties tussen twee variabelen
Hoofdstuk 4 Data verzamelen
Hoofdstuk 5 Kansen
Hoofdstuk 6 Opsomming van kansen
Hoofdstuk 7 Betrouwbaarheidsinterval
Hoofdstuk 8 Hypothese toetsen
Hoofdstuk 9 Groepen vergelijken
Hoofdstuk 10 Associatie tussen categorische variabelen
Hoofdstuk 11 Associatie tussen kwantitatieve variabelen: de regressieanalyse
Hoofdstuk 12 Multipele regressie
Hoofdstuk 13 ANOVA: groepen vergelijken
Hoofdstuk 14 Niet parametrische statistiek

Inleiding

Voor veel psychologiestudenten is het vak statistiek beangstigend. Wat moet je met al die getallen en cijfertjes en hoe zitten alle formules in elkaar? Deze samenvatting zal zo goed mogelijk proberen statistiek op een duidelijke manier uit te leggen. Er zitten veel voorbeelden in die het wiskundige probleem proberen te verduidelijken. Deze samenvatting is echter geen wondermiddel. Het is vooral erg verstandig om veel te oefenen en aanwezig te zijn bij de colleges.

Voordat je aan deze samenvatting gaat beginnen toch enkele tips voor het werken met statistiek:

Wil niet altijd precies weten en begrijpen hoe een formule tot stand is gekomen. Soms is het van belang aan te nemen dat slimme wis- en natuurkundigen dit hebben verzonnen. Voor jullie is het belangrijk om er vooral mee te kunnen werken. Raak dus niet in paniek als je iets niet geheel snapt, maar probeer te kijken wat je wel begrijpt en probeer daarmee te werken.
Weet je een antwoord niet, sla de vraag dan tijdelijk over. Vaak komt het voor dat je tijdens het tentamen opeens op het antwoord komt of de manier waarop het berekend moet worden.
Het antwoord is altijd te vinden in de tekst; er wordt niet zomaar wat cijfers bij gegoocheld om het antwoord te vinden.
Lees dus goed, vaak wordt over belangrijke informatie heen gelezen.

Statistiek is dus niet om van in paniek te raken, maar zonder studeren wordt het wel erg moeilijk. Hopelijk maakt dit overzicht statistiek voor jullie wat duidelijker.

Succes!

Hoofdstuk 1 Data

Statistiek is de wetenschap die informatie uit verschillende studies en onderzoeken analyseert. Deze informatie wordt data genoemd. Op een objectieve manier worden onderzoeksvragen onderzocht en geanalyseerd. Na de analyse van data kunnen conclusies en voorspellingen gedaan worden.

De drie statistische processen die het meeste voorkomen:

Design: het plannen en onderzoeken van een studie. Hierbij kan gedacht worden aan hoe relevante data verkregen moeten worden. Dit wordt meestal met behulp van samples (steekproeven) uit een populatie gedaan. Een populatie duidt niet op de gehele wereldbevolking. Het kan ook duiden op bijvoorbeeld alle scholen van Nederland of alle voetbalclubs in Noord-Holland.
Descriptief: Het opsommen en uitvinden van patronen in een data sample. Dit wordt gedaan met behulp van grafieken en tabellen of op een beschrijvende manier, zoals het weergeven van gemiddelden en percentages.
Gevolgtrekking (inference): besluiten en voorspellingen maken over de hele populatie aan de hand van de informatie van de data sample.

Conclusies trekken en voorspellingen doen wordt aan de hand van kansen (probability) gedaan. Dit wordt gedaan, omdat er nooit een eenduidige conclusie over de hele populatie gedaan kan worden. De populatie bestaat uit alle subjecten waarin de onderzoeker geïnteresseerd is. Dit hoeven niet per se mensen te zijn, maar dat is meestal wel het geval. Het is echter onmogelijk elk subject te onderzoeken. Daarom wordt door middel van kansen een conclusie of voorspelling gedaan aan de hand van de steekproef/sample van deze subjecten.

Gegevens kunnen altijd op 2 manieren worden geïnterpreteerd: Ten eerste op het niveau van de sample. Als men door middel van percentages wat wil zeggen over de sample dan noemt men dit statistiek (statistic). Echter, als we een conclusie over deze sample willen trekken dan praten we over de populatie en wordt dit een parameter genoemd. Meestal zullen we de echte waarde van de parameter niet weten, maar omdat we er wel geïnteresseerd in zijn proberen we daar via de statistiek zo dicht mogelijk bij te komen.

Een sample moet een goede afspiegeling zijn van de bevolking willen we een conclusie kunnen trekken uit deze sample. Dit is het geval wanneer elk subject van de populatie een even grote kans heeft om in de sample terecht te komen. Dit wordt random sampling genoemd.

Daarnaast is de variantie van een sample ook belangrijk voor een goede weergave van de bevolking. Subjects verschillen van elkaar en metingen verschillen dan ook van subject tot subject. Als dit niet zo was dan was er maar 1 subject nodig voor de sample. Toch blijkt variantie goed te voorspellen, als men maar genoeg subjecten in een random sample heeft. Hierover later meer.

Statistiek wordt tegenwoordig voornamelijk met behulp van computers gedaan. In het tweede jaar van Psychologie gaan studenten zich hier mee bezig houden. Deze statistiekcursus is bedoeld om de basisbeginselen van de statistiek te leren, op een handmatige manier.

Veel wetenschappers doen onderzoek om data te bemachtigen, soms blijkt echter dat er gebruik gemaakt kan worden van bestaande databases. Het gaat dan om onderwerpen waar al veel gegevens over beschikbaar zijn. Deze databases zijn onder andere op het internet te vinden. Check wel altijd de bronnen voor de betrouwbaarheid van het onderzoek.

Hoofdstuk 2 Het onderzoeken van datagegevens

Soorten data

De data die we verzamelen bij een bepaalde onderzoeksvraag vallen onder bepaalde karakteristieken; deze worden variabelen genoemd. Variabelen zijn dus de onderdelen waar we data van willen verkrijgen. Enkele voorbeelden van variabelen zijn sekse, gewicht en leeftijd.

Variabelen kunnen ook weer verschillen. Zo bestaan er categorische variabelen en kwantitatieve variabelen. Categorische variabelen zijn variabelen waarbij elke observatie binnen een bepaalde categorie valt, denk hierbij bijvoorbeeld aan sekse (je bent man of vrouw), huwelijkse staat, of een vraag waar JA of NEE op geantwoord kan worden. Bij categorische variabelen wordt voornamelijk gekeken naar het relatieve aantal observaties per categorie. Daarnaast bestaan er ook kwantitatieve variabelen. Dit zijn variabelen waarbij elke observatie een bepaalde waarde kan aannemen, zoals gewicht en leeftijd. Bij kwantitatieve variabelen zijn gemiddelde en spreiding van de data de belangrijkste gegevens.

Kwantitatieve variabelen zijn daarnaast ook nog eens onderverdeeld in discrete of continue waarden. Een discrete kwantitatieve variabele bestaat uit vaststaande en eindige getallen, zoals 1, 2, 3, 4, 5 of 10, 100, 1000. Continue kwantitatieve variabelen kunnen elke waarden op een interval aannemen, zoals 1,892 en 100,9870, deze waarden zijn dus oneindig.

Om de gevonden data van variabelen om te zetten in duidelijke gegevens kunnen verschillende soorten methoden gebruikt worden. Voor categorische variabelen wordt ten eerste bepaald welke categorie de hoogste frequentie van observaties heeft, deze categorie wordt de modus (mode) genoemd. Daarnaast kunnen proporties en percentages gebruikt worden om de overige gegevens te benoemen. Proporties zijn het aantal observaties in een bepaalde categorie gedeeld door het totaal aantal observaties. Voor het percentage wordt deze proportie vermenigvuldigd met 100. Zowel proporties als percentages worden relatieve frequenties genoemd. Deze gegevens kunnen in een tabel worden gezet; deze tabel wordt dan een frequentietabel genoemd.

Voor kwantitatieve variabelen worden de waarden van de data eerst omgezet in bepaalde intervallen; er worden een soort van categorieën gemaakt. Van deze intervallen (bijvoorbeeld tussen 0-5 en 5-10) kunnen ook relatieve frequenties worden gemaakt. Daarnaast wordt ook veel naar het gemiddelde en de spreiding gekeken.

Grafieken

Grafieken zijn meestal makkelijker te begrijpen dan ruwe data of frequentietabellen. Er zijn twee soorten grafieken: één voor categorische variabelen en één voor kwantitatieve variabelen.

Grafieken voor categorische variabelen

Er zijn 2 grafieken die het meest gebruikt worden voor categorische variabelen. De eerste daarvan is de Pie chart, ook wel het taartmodel genoemd. In een cirkel (100%) staat elk stukje voor een categorie. De grootte van het stukje staat gelijk aan het percentage van de observaties in die categorie. De tweede grafiek die vaak voorkomt is het staafdiagram (bar graph). Dit zijn verticale staven waarbij de hoogte van de staaf het percentage van de observaties in de categorie aangeeft. Worden de staven in volgorde van hoog naar laag geordend dan wordt dit de Parerto Chart genoemd. Deze laatste wordt voornamelijk in de zakenwereld gebruikt.

Grafieken voor kwantitatieve variabelen:

De eerste grafiek die vaak gebruikt wordt is de dot-plot. Eén stip (dot) in deze grafiek staat voor één observatie. De waarde van de observatie staat op een horizontale lijn onder de stip vermeld. Deze grafiek wordt voornamelijk voor kleine metingen gebruikt. De tweede grafiek is de stem and leaf plots (stam en bladeren), ook deze wordt gebruikt voor kleine metingen. Bij deze grafiek splits je de data in een stem (alle cijfers behalve de laatste) en in leaves (het laatste cijfer in de observatie). Deze zet je vervolgens in een grafiek, zoals in het plaatje hieronder.

Figuur 1 (zie bijlage)

Hier is de observatie dus 75 in een sample size van 20

Ten derde heb je de timeplots. Soms worden observaties gedurende een langere periode uitgevoerd. Als deze gegevens in een grafiek worden gezet, waarbij de tijd op de x-as staat, dan wordt dit een timeplot genoemd. Vaak wordt bij deze grafieken gezocht naar een trend; oftewel een indicatie van een bepaald verloop van de data over een periode van tijd.

Ten slotte heb je een histogram, deze lijkt heel erg op een bargrafiek van categorische variabelen. Histogrammen worden gebruikt voor grote metingen, hierbij laten ze de frequenties zien van de kwantitatieve variabelen. De echte waarden, het aantal subjecten in dat interval, worden niet aangegeven.

Een grafiek van een kwantitatieve variabele, zoals een histogram, beschrijft de distributie van de data. Hierbij kijken we naar het patroon van de data; oftewel of de data geclusterd of gespreid zijn. Data kunnen eentoppig zijn, waarbij er maar 1 hoogste punt is (de modus); dit noemt men een unimodale distributie. Data kan echter ook tweetoppig zijn; dit wordt dan een bimodale distributie genoemd.

Figuur 2 (zie bijlage)

De vorm van een distributie is vaak symmetrisch of skewed (scheef). Symmetrisch houdt in dat er ongeveer even veel data links als rechts van het midden liggen. Skewed wil zeggen dat de data langer uitgerekt zijn naar één kant. Een voorbeeld hiervan is bijvoorbeeld het aantal uur dat een persoon achter de computer zit. De meeste mensen zullen tussen de 0 en 2 uur zitten, maar er zijn ook enkele gevallen waarbij mensen 5 of 8 uur achter de computer zitten. De data is dus voornamelijk gecentreerd rond de 0-2 uur, maar enkele hoge data zullen de grafiek uitrekken naar 8 uur. De uiteinden van een distributie worden ook wel tails (staarten) genoemd.

In het bovengenoemde voorbeeld is de rechterstaart dus langer dan de linker. Dit wordt “skewed naar rechts” genoemd. Als de linkerstaart langer is dan de rechter dan wordt dit “skewed naar links” genoemd.

Figuur 3 (zie bijlage)

Beschrijving van kwantitatieve data.

Grafieken geven vaak een duidelijk overzicht van de data. Daarna willen we echter statistiek (opsomming door cijfers) gebruiken. Bij de data van kwantitatieve variabelen kijken we voornamelijk naar 2 statistische maten; het centrum en de spreiding.

Het centrum:

Er zijn 3 belangrijke metingen voor het centrum van de data. De allerbelangrijkste is het gemiddelde (mean). Het gemiddelde is de som van alle observaties gedeeld door het aantal observaties. Een tweede belangrijke is de mediaan. Als alle observaties van klein naar groot (of groot naar klein) worden geordend, dan is de mediaan de middelste meting. Bij een even aantal observaties is de mediaan het gemiddelde van de middelste twee observaties. Ten slotte hebben we de modus; deze geeft het interval met de meeste observaties weer.

Een ander belangrijk punt bij het beschrijven van het centrum van de data is het bekijken van uitschieters (outliers). Een uitschieter is een observatie die ver boven of ver onder de meeste metingen valt. Een uitschieter verandert de uitkomst van het gemiddelde flink. De mediaan verandert echter niet door een uitschieter; de mediaan is resistent tegen uitschieters. De modus hoeft niet dicht bij het centrum van de gegevens te liggen.

Zie het voorbeeld hieronder:

Figuur 4 (zie bijlage)

De vorm van de distributie bepaald hoe het gemiddelde ligt ten opzichte van de mediaan. Is de distributie volledig symmetrisch dan is het gemiddelde gelijk aan de mediaan. Als de distributie skewed naar links is dan is het gemiddelde kleiner dan de mediaan en is de distributie skewed naar rechts dan is het gemiddelde groter dan de mediaan.

De spreiding:

Er zijn twee soorten manieren om de spreiding van een distributie te beschrijven. Ten eerste via het bereik (range). Het bereik is het verschil tussen de grootste observatie en de kleinste observatie. Het bereik wordt sterk beïnvloed door uitschieters. De range maakt echter geen gebruik van alle data. De tweede manier om spreiding te beschrijven doet dat wel; dit is de deviatie. Een deviatie is het verschil tussen een bepaalde observatie (x) en het gemiddelde, dus Formule 1 (zie bijlage). Een deviatie is positief wanneer de observatie (x) groter is dan het gemiddelde en een deviatie is negatief wanneer de observatie (x) kleiner is dan het gemiddelde. De som van alle deviaties is 0: omdat het gemiddelde van elke observatie wordt afgetrokken zullen de negatieve en de positieve deviaties elkaar uitmiddelen tot 0. Het gemiddelde van alle deviaties in het kwadraat wordt variantie genoemd. Als we van deze variantie de wortel nemen dan krijgen we de standaarddeviatie (standaardafwijking). Met deze standaarddeviatie kunnen we de spreiding van de distributie het best beschrijven. Hoe groter de standaarddeviatie is, hoe groter de spreiding van de data.

Formule 2 (zie bijlage)

Blijkt een distributie ongeveer symmetrisch, eentoppig en in de vorm van een bel (bellshape) te zijn, dan noemen we dit een normaalverdeling. Bij een normaalverdeling kunnen we de volgende uitspraken doen over de standaarddeviatie.

±68% van de observaties valt binnen 1 standaarddeviatie van het gemiddelde
±95% van de observaties valt binnen 2 standaarddeviaties van het gemiddelde
±99% van de observaties valt binnen 3 standaarddeviaties van het gemiddelde

Deze waarden zijn dus niet van toepassing bij skewed grafieken.

Er bestaat een verschil tussen de sample statistiek en de daadwerkelijke populatie in de notatie. Als we het hebben over het gemiddelde en de standaarddeviatie van de sample, dan gebruiken we: en s . Echter als we het hebben over het gemiddelde en de standaarddeviatie van de populatie, dan gebruiken we de parameters µ (gemiddelde) en σ (standaarddeviatie). Onthoud wel dat deze populatieparameters meestal onbekend zijn.

Een andere manier om spreiding te beschrijven is met behulp van percentielen. Het P^e percentiel is een waarde waarbij P procent van de observaties onder of op dat percentage valt. Dus bij het 30^e percentiel (bijvoorbeeld een waarde van 80) valt 30 procent van de observaties onder die waarde 80 en 70% valt er boven. Een makkelijke manier om percentielen te gebruiken zijn kwartielen. Het eerste kwartiel (Q1) is 25%, het tweede kwartiel (Q2) is 50% (de mediaan dus) en het derde kwartiel (Q3) is 75%. De afstand tussen het eerste en het derde kwartiel wordt het interkwartiele bereik (IQR: interquartile range) genoemd. 1,5 maal de IQR boven Q3 of onder Q1 is een maatstaf om mogelijke uitschieters te vinden.

Al deze gegevens kunnen worden weergegeven in een boxplot. De zogenaamde ‘box’ loopt van het eerste kwartiel tot het derde kwartiel. Vervolgens loopt er een verticale lijn in de box die de mediaan aangeeft. Een horizontale lijn loopt van de laagste observatie tot de hoogste observatie; deze lijn gaat dus ook door de box heen. Uitschieters worden echter aangegeven met een sterretje naast de lijn.

Figuur 5 (zie bijlage)

Hoofdstuk 3 Associaties tussen twee variabelen

Bij vele onderzoeken zijn er meerdere variabelen aanwezig. Wanneer we bepaalde data willen analyseren op basis van 2 variabelen, dan moet er eerst bepaald worden welke van deze variabelen de onafhankelijke variabele is en welke de afhankelijke variabele. De onafhankelijke variabele (explanatory variable) is de variabele die gemanipuleerd wordt. De afhankelijke variabele (respons variable) is de variabele die gemeten wordt, oftewel de uitkomst.

Er bestaat een associatie tussen deze twee variabelen wanneer een bepaalde waarde van de afhankelijke variabele eerder voorkomt als de onafhankelijke variabele een bepaalde waarde aanneemt. Een voorbeeld: Op de universiteit is de kans groter iemand te vinden met een IQ van 120 dan op een MBO opleiding. Er is dus een associatie tussen universiteit en IQ.

Associatie tussen 2 categorische variabelen

Bij twee variabelen die categorisch zijn wordt er door middel van een tabel gekeken of er een associatie is. Een dergelijke tabel wordt een “contingency” tabel genoemd. Ten eerste wordt er gekeken welke van de twee categorische variabelen de onafhankelijke en welke de afhankelijke variabele is. Het kan ook voorkomen dat ze beiden kunnen zijn. Het belang van deze informatie is om een duidelijke conclusie te kunnen trekken over welke variabelen een associatie hebben met elkaar en welke juist niet.

Om de tabel te maken worden de gegevens van de ene categorische variabele in de kolom gezet en de gegevens van de andere categorische variabele in de rij gezet. Hierbij maakt het niet uit waar de onafhankelijke variabele wordt geplaatst en waar de afhankelijke. Een combinatie van een rij met een kolom wordt een cel genoemd. In deze cel staat de frequentie van hoe vaak de combinatie van de twee categorische variabelen voorkomt. In plaats van frequenties kunnen er ook proporties of percentages worden weergegeven. Er is een associatie tussen de twee categorische variabelen wanneer de percentages/proporties genoeg van elkaar verschillen.

Figuur 6 (zie bijlage)

Associatie tussen 2 kwantitatieve variabelen

Wanneer er twee variabelen zijn die kwantitatief zijn, zoals inkomen en IQ, dan wordt er gebruik gemaakt van een scatterplot om te kijken naar een mogelijke associatie. Een scatterplot heeft een x-as (de onafhankelijke variabele) en een y-as (de afhankelijke variabele). De waarde van beide variabelen wordt door middel van een punt aangegeven tussen de twee assen. Vervolgens wordt er gekeken of alle punten bij elkaar een trend vormen. Een trend heeft een lineaire vorm. Er is een positieve associatie wanneer de waarde van X omhoog gaat en de waarde van Y ook. Er is een negatieve associatie wanneer de waarde van X omhoog gaat en de waarde van Y naar beneden.

Om de sterkte van een associatie te bepalen wordt er gekeken naar de correlatie. Een correlatie somt de richting en de sterkte van de associatie tussen twee kwantitatieve variabelen op. Er zijn een aantal voorwaarden voor een correlatie. Ten eerste moet de lijn een lineaire vorm aannemen. Ten tweede valt de correlatie altijd tussen de -1 en +1. Hoe dichter de waarde bij de +1 ligt, des te sterker is de positieve correlatie. Ligt de waarde dicht bij -1, dan is er een sterke negatieve correlatie. Ligt de waarde dicht bij 0, dan is er een zwakke tot geen correlatie aanwezig (de lijn is hier haast niet meer lineair). Een belangrijk punt is bovendien dat een correlatie geen oorzaak weergeeft; beide variabelen kunnen zowel afhankelijk als onafhankelijk zijn. Een dergelijke conclusie als A heeft B veroorzaakt mag dan ook nooit bij correlaties!

Een laatste voorwaarde is dat een correlatie niet afhangt van variabele units. Het maakt dus niet uit of je met kilometers of centimeters bezig bent, alles valt tussen de -1 en +1. Correlatie is een gestandaardiseerde waarde.

Zie Formule 3 (in bijlage)!

Associatie tussen kwantitatieve en categorische variabelen

Een voorbeeld van een kwantitatieve en categorische variabele samen is IQ en sekse. Wanneer bij deze variabelen gekeken wordt naar een associatie dan vergelijk je de categorieën (man en vrouw) door het gebruik van het gemiddelde en spreiding van de kwantitatieve variabele. Voorbeeld: mannen hebben een IQ van gemiddeld 104 en een standaarddeviatie van 6,34. Vrouwen hebben een IQ van gemiddeld 108 en een standaard deviatie van 5.68. Vervolgens kan er bepaald worden of deze gemiddelden genoeg van elkaar verschillen om te zeggen dat er een associatie is tussen sekse en IQ. Dit wordt later uitgebreid besproken.

Voorspellen van de uitkomst van een variabele

Wanneer twee variabelen een lineair verband hebben dan kunnen we dit met een correlatie beschrijven. Echter, in de statistiek wil men naast beschrijven ook graag voorspellingen doen. Dit wordt gedaan met behulp van een regressie. Er wordt een vergelijking opgesteld die het patroon van het lineaire verband het best kan beschrijven. Met deze vergelijking kunnen dan voorspellingen gedaan worden. In tegenstelling tot bij de correlatie, moet bij een regressie altijd de onafhankelijke en afhankelijke variabele geïdentificeerd worden. Als X de Y voorspelt ontstaat er namelijk een andere lijn dan wanneer Y de X voorspelt. Dit komt omdat bij regressie de lineaire lijn afhangt van units (kilo’s, meters, etc) terwijl dit bij correlatie niet het geval is.

Formule 4 (zie bijlage)

In deze formule staat de Aanduiding 1 (zie bijlage) voor de y-intercept. Dit is waar de lijn de Y-as raakt; de X waarde is op dat moment 0. De Aanduiding 2 (zie bijlage) in de formule wordt de helling (slope) genoemd. Dit geeft aan hoeveel de Y-waarde veranderd als de X met 1 unit omhoog gaat. Is de helling gelijk aan 0, dan is de regressielijn horizontaal.

Figuur 7 (zie bijlage)

Een regressievergelijking wordt ook wel een voorspellingsvergelijking genoemd. Wordt er bij de X een getal ingevuld, dan kan door de berekening van de formule de y worden voorspeld.

Een regressielijn probeert zo goed mogelijk een voorspelling te doen. Er zal echter vaak een verschil zitten tussen de echte waarde en de voorspelde waarde. Dit verschil wordt ook wel de voorspellingsfout genoemd, de waarde van dit verschil is het residu (residual). Om de beste voorspellingslijn te krijgen moeten deze residuen zo klein mogelijk zijn. Je moet het Y-intercept en de helling dus zodanig kiezen dat de regressielijn het beste past. Dit kan berekend worden door middel van de “least square” methode. Deze wordt echter met de computer berekend. Handmatig zou dit veel tijd in beslag nemen. Men moet namelijk eerst een regressielijn kiezen, vervolgens moeten de waarde van elk punt van de werkelijke waarde worden afgetrokken. Dit wordt gekwadrateerd en bij elkaar opgeteld. Dit zou dan voor elke mogelijke regressielijn moeten worden gedaan. De regressielijn met de laagste residuen is de beste regressielijn

Figuur 8 (zie bijlage)

De som van de residuen is altijd 0. Sommige residuen zijn namelijk negatief en anderen positief; ze middelen elkaar echter altijd uit tot 0. Dit is de reden dat in de formule de residuen eerst worden gekwadrateerd voordat ze worden opgeteld. Daarnaast loopt een regressielijn altijd door het punt Aanduiding 3 (zie bijlage).

Wordt er geen goede grafiek gegeven, maar wel een aantal waarden dan is het ook mogelijk het Y-intercept en de helling te berekenen aan de hand van deze waarden.

Formule 5 (zie bijlage)

Waarschuwingen bij associaties

Bij zowel correlaties als regressies moet men terughoudend zijn met conclusies trekken. Enkele potentiële problemen komen hier aan bod.

Een eerste probleem wordt extrapoleren genoemd. Dit is een time trend (tijdserie) volgen en de toekomst voorspellen, zonder dat er data beschikbaar zijn over de toekomst. Een trend kan in de toekomst anders zijn dan in het heden of in het verleden. Op het moment dat er dus wel een voorspelling gedaan wordt over de toekomst, wordt de assumptie gelegd dat de trend in de toekomst hetzelfde blijft. Voorspellingen over de toekomst die gebruik maken van tijdseries worden ook wel forecasts genoemd.

Een tweede probleem dat zich kan voordoen heeft te maken met de regressie-uitschieters. Dit zijn uitschieters die voor X en Y samen uitschieters zijn, maar voor X en Y afzonderlijk niet. Daarom moet er altijd een scatterplot worden geconstrueerd om te kijken of er uitschieters zijn.

Een derde en heel belangrijk punt om te onthouden is het feit dat een correlatie nooit een oorzakelijk verband impliceert. Er is wel een associatie tussen twee variabelen, maar er mag nooit geconcludeerd worden dat de ene variabele de andere variabele veroorzaakt. Een verband tussen twee variabelen kan namelijk ook door andere dingen komen. Zo kan er bijvoorbeeld sprake zijn van een lurking variabele; dit is een niet geobserveerde derde variabele die invloed heeft op de associatie tussen de twee variabelen. Als een derde variabele wordt toegevoegd en de richting van de associatie blijkt te veranderen, dan noemen we dit een Simpson’s paradox. Een voorbeeld: het aantal geslaagden correleert met het aantal leraren en met het aantal Engels boeken. De lurking variabele is hier natuurlijk de grootte van de school.

Daarnaast kan ook nog iets anders invloed hebben op de associatie tussen twee variabelen. We noemen dit een confound; oftewel een geobserveerde derde (onafhankelijke) variabele. De twee onafhankelijke variabelen zijn zowel met de afhankelijke variabele geassocieerd als met elkaar. Het verschil tussen een lurking variabele en confounds is dat confounds wel geobserveerd worden in het onderzoek. Een lurking variabele zou dus als het later gevonden is en meegenomen wordt in het onderzoek kunnen veranderen in een confound.

Hoofdstuk 4 Data verzamelen

Type onderzoek

Om even te herhalen wat al eerder is genoemd: bij statistiek is men vaak geïnteresseerd in bepaalde gegevens van de populatie. Om hier onderzoek naar te doen is het vaak onmogelijk de hele populatie te onderzoeken, daarom wordt er gebruik gemaakt van een deel van de populatie, namelijk een sample. Er zijn vervolgens twee soorten onderzoeken mogelijk, observatieonderzoek of experimenteel onderzoek.

Bij observatieonderzoek observeert de onderzoeker de afhankelijke en onafhankelijke variabele van de sample zonder iets gemanipuleerd te hebben. Een probleem bij observatieonderzoek is de mogelijke invloed van een lurking variabele op de resultaten. Er kunnen bij dit soort onderzoek dan ook geen causale verbanden gelegd worden. Experimentele onderzoeken hebben geen last van deze problemen. Bij dit soort onderzoeken worden de subjecten (mensen, dieren, etc) uit de sample random toegewezen aan bepaalde condities. De eigenschappen van de subjecten zijn dus gelijk verdeeld over de condities; alleen de condities zelf zijn gemanipuleerd en verschillen dus van elkaar. De waarde van de afhankelijke variabele die wordt gemeten wordt dus bepaald door de verschillende condities waarin de subjecten zitten. Dit soort onderzoek verkleint de kans op een lurking variabele en geeft de mogelijkheid om causaliteit vast te stellen.

Waarom wordt dan niet alleen experimenteel onderzoek gebruikt als dit zoveel voordelen geeft? In een aantal gevallen is experimenteel onderzoek niet mogelijk. Ten eerst is experimenteel onderzoek niet altijd ethisch. Denk hierbij aan onderzoek naar de invloed van kindermisbruik op de toekomst van een kind. Ten tweede is het in de praktijk niet altijd zo dat de subjecten doen wat er van ze gevraagd wordt. Onderzoek je dan nog wel het juiste? Ten slotte nemen sommige onderzoeken jaren in beslag, en welke subjecten willen nu 30 jaar wachten/meedoen aan een onderzoek? Voor dit soort problemen wordt vaak observatieonderzoek ingezet.

Er zijn verschillende vormen van observatie. Ten eerste heb je een sample survey; hierbij wordt een sample van mensen geselecteerd en geïnterviewd om data te verzamelen. Een tweede type observatie is een census, dit is een survey waarbij men probeert het aantal mensen in de populatie te tellen en daarbij bepaalde eigenschappen te meten. Hierbij willen ze dus de hele populatie meten. Dit is in de praktijk echter zelden mogelijk. Het is praktischer om een sample te nemen.

Een laatste type observatie, die vrij onbetrouwbaar is, is de anecdotal evidence. Dit zijn persoonlijke informele observaties en vaak niet representatief. Een voorbeeld hiervan is dat jij iemand kent die aan een hartstilstand is overleden en altijd heel veel varkensvlees at. Is dit bewijs dat varkensvlees een hartstilstand kan veroorzaken? Resultaten van goed ontwikkelde studies zijn meer geloofwaardig dan van anecdotal evidence.

Verkrijgen van samples

Om goede resultaten te verkrijgen uit een onderzoek is het van groot belang dat de sampling van een populatie op een goede manier tot stand is gekomen. Om dit te doen wordt vaak eerst een sampling frame genomen. Dit is een lijst van alle subjecten in de populatie waar later een sample uit wordt genomen. Vervolgens wordt door middel van een random sampling design een aantal subjecten uit het sampling frame geselecteerd. De kans voor elk subject om geselecteerd te worden is door randomisering even groot.

Vervolgens zijn er verschillende methodes om data voor sample surveys te verkrijgen. Ten eerste door middel van persoonlijke face-to-face interviews. Voordeel hiervan is dat mensen eerder meedoen. De hoge kosten vormen echter een nadeel. Een tweede middel is via telefonische interviews. Een voordeel hiervan zijn de lagere kosten, maar heeft als nadeel dat mensen via de telefoon vaak minder tijd hebben en eerder afhaken. Ten slotte wordt meestal via vragenlijsten data verkregen. Een voordeel is dat het goedkoper is en minder persoonlijk dan face-to-face, een nadeel is dat minder mensen meedoen.

Een belangrijk punt bij het verkrijgen van samples is in hoeverre de resultaten van deze samples representatief zijn voor de gehele populatie. Om hier iets meer zekerheid over te geven bestaat er een margin of error. Een voorbeeld van een margin of error is dat als de sample 100 keer wordt uitgevoerd, deze 95 keer de echte waarde bevat. De formule van de margin of error staat hieronder. Deze is niet volledig, maar zal in latere hoofdstukken uitgebreid worden.

Formule 6 (zie bijlage)

Wanneer de resultaten van de sample niet representatief zijn voor de populatie dan spreekt men over een bias. Er zijn verschillen vormen van bias. Ten eerste is er de sampling bias, dit kan of inhouden dat er geen gebruik is gemaakt van random sampling of dat er “undercoverage” is van de sample. Undercoverage van een sample wil zeggen dat een deel van de populatie mist. Een tweede soort bias is de non-respons-bias, dit is als een bepaalde groep mensen vaker niet aan een onderzoek mee wil doen. Een laatste soort bias is de responsbias, dit houdt in dat mensen geen eerlijke antwoorden geven (ze willen bijvoorbeeld goed overkomen), of als de onderzoeker een verkeerde en/of misleidende vraagstelling hanteert.

Manieren van experimenteel onderzoek doen

Bij experimenteel onderzoek worden de subjecten aan verschillende behandelgroepen (treatmentgroups) toegewezen. Een goed experiment heeft naast de bepaalde behandelgroepen ook een controlegroep. Na afloop van het experiment worden de behandelgroepen met de controlegroep vergeleken op mogelijke verschillende resultaten. Blijkt er een verschil te zijn dan heeft de manipulatie van de behandelgroepen waarschijnlijk gewerkt. Om er zeker van te zijn de er geen psychologische effecten optreden wordt er vaak gebruik gemaakt van een placebo. Een placebo (nepbehandeling) wordt dan aan de controlegroep gegeven zodat ze wel denken dat ze de behandeling ondergaan, maar de echte werking van de behandeling niet aanwezig is. Soms kan namelijk het idee van bijvoorbeeld medicijnen innemen een persoon al beter maken. Zodra nu de controlegroep met placebo wordt vergeleken met de behandelgroep, komt de mogelijke echte werking van de behandeling naar voren en niet het psychologische effect.

Een andere manier van een goed experimenteel onderzoek opzetten is het gebruik maken van geblindeerde onderzoeken. Een enkel geblindeerd onderzoek houdt in dat de deelnemers van het onderzoek niet weten aan welke conditie of behandelgroep ze zijn toegewezen. Is het onderzoek dubbel geblindeerd dan weten zowel de deelnemers als de onderzoekers niet wie in welke conditie zit. Het belang van de “geblindeerde” onderzoeker is dat hij/zij dan niet (on)bewust informatie of support kan verstrekken aan een bepaalde behandelgroep.

Wanneer de verschillen in resultaten tussen de twee behandelingen zo groot is dat het niet aan toeval te wijden valt, kunnen we deze verschillen aan de onafhankelijke variabele toewijzen. De resultaten zijn dan statistisch significant.

Andere manieren van onderzoek doen

Behalve de twee bekendste type onderzoeken, experimenteel en observatie, zijn er nog vele andere mogelijkheden. Hieronder wordt een aantal voorbeelden gegeven van andersoortig onderzoek.

Matched-pair design is een design waarbij je als deelnemer zowel in behandelgroep A als in behandelgroep B zit. Hierbij kan gedacht worden aan twee soorten diëten. Een deelnemer zal eerst een nepdieet ondergaan en vervolgens het echte dieet. De resultaten van beide behandelingen worden dan met elkaar vergeleken.

Cross-over design. Dit is een design waarbij de deelnemers meerdere keren wisselen gedurende het onderzoek. Dit kan eruit zien als A-B-A-B of B-A-B-A of A-B-A-C.

Er zijn verschillende mogelijkheden van het random toewijzen van subjecten aan samples. De eerste manier is de simple random sampling, deze is al eerder genoemd. Hierbij hebben alle subjecten in de populatie een even grote kans om in de sample terecht te komen. Een tweede manier is door cluster sampling. Hierbij worden eerst clusters gemaakt (bijvoorbeeld alle scholen in Amsterdam), vervolgens wordt één of meerdere clusters gekozen voor in de sample. De leerlingen zijn dus niet random, alleen de scholen. Tenslotte bestaat er ook stratified sampling. Hierbij wordt de populatie in verschillende groepen (strata) verdeeld, waarna uit elke strata een sample wordt gekozen (bijvoorbeeld alle eerste klassen in Amsterdam zijn één strata en alle tweede klassen zijn één strata, etc).

Figuur 9 (zie bijlage)

Er zijn ook observatieonderzoeken die gedurende een bepaalde periode plaatsvinden. Deze onderzoeken wordt cross-sectional genoemd. Daarin kan weer onderscheid worden gemaakt tussen retrospectieve en prospectieve onderzoeken. Retrospectieve onderzoeken kijken terug in de tijd. Voorbeeld: het aantal kankerpatiënten vergelijken met het telefoongebruik van deze mensen. Prospectieve onderzoeken kijken in de toekomst. Tenslotte bestaat er ook nog een case control studie. Bij deze vorm van retrospectief onderzoek worden proefpersonen met een relevante responsuitkomst (zoals het hebben van een bepaalde ziekte) vergeleken met mensen die deze uitkomst niet hebben. De ‘patiënten’ en ‘controles’ worden vergeleken op een onafhankelijke variabele (zoals wel of niet roken).

Hoofdstuk 5 Kansen

In veel onderzoeken en gebeurtenissen in ons dagelijks leven zijn er onzekerheden. In de statistiek wil men graag toch iets kunnen zeggen over deze onzekerheden. Hiervoor gebruikt men kansen. Wanneer men onderzoek doet met een random sample, dan is de kans de relatieve frequentie op de lange duur. Voorbeeld: de kans op het gooien van een 4 met een dobbelsteen bij 100 maal gooien is 1/6 of terwijl 16,7 keer.

Het voorbeeld van de dobbelsteen is een voorbeeld van een onafhankelijke trial (simulatie). De uitkomst van een trial heeft geen invloed op een andere trial. Gooi je bij de eerste trial een 4, dan is de kans op elk getal op de dobbelsteen nog steeds even groot voor de volgende trial, namelijk 1/6. Het totaal van het aantal kansen is altijd gelijk aan 1.0. Denk aan het gooien van een munt. De kans op kop is ½ en de kans op munt is ½. Het totaal van alle kansen is dus ½ + ½ = 1.

Er zijn nog enkele andere termen die vaak in het dagelijks leven worden gebruikt met kansen. Ten eerste heb je de law of large numbers, dit speelt in het casino een grote rol. Op korte duur kan het namelijk lijken alsof de kansen in jou voordelen werken en win je veel geld, echter op de lange duur verlies je toch. Ten tweede heb je de Bayesian Statistics; dit is een subjectieve definitie van kansen. Normaal gesproken zijn kansen natuurlijk objectief. In dit geval komt de uitkomst in de verhouding die jij zelf gelooft, gebaseerd op verkrijgbare informatie en kennis. Voorbeeld: als je gaat trouwen en je voor jezelf de kans inschat dat je ooit gaat scheiden, dan doe je dit door je eigen subjectieve kansen te berekenen en niet door trial en error. Deze manier van kansberekening komt minder vaak voor in de statistiek en wordt daarom ook niet verder behandeld.

Het vinden van kansen

Om kansen te vinden zijn er regels die toegepast kunnen worden. Ten eerste een paar algemene begrippen voordat we deze regels kunnen begrijpen. Bij een random sample worden alle mogelijke uitkomsten samen de sample space genoemd. Bij een dobbelsteen is dit :U = {1,2,3,4,5,6}. Een mogelijke uitkomst van deze sample space wordt een event genoemd. Voorbeeld: bij 3 keer gooien met een dobbelsteen is {2,6,2} een event.

De kans op event A staat gelijk aan het aantal uitkomsten in event A gedeeld door het aantal mogelijke uitkomsten in de sample space.

Figuur 10 (zie bijlage)

Voorbeeld: Event A is de kans op een 4 of lager bij het 1 keer gooien met een dobbelsteen. De sample space = U = {1 ,2, 3, 4, 5, 6}. Het aantal uitkomsten in event A is {1,2,3,4}. Dus: Formule 7 (zie bijlage)

Het tegenovergestelde van event A, namelijk de kans dat event A NIET gebeurt, wordt het complement van een event (A) genoemd. Dit wordt weergegeven als Formule 8 (zie bijlage). Dit is duidelijker te zien in onderstaand Venn-diagram.

Figuur 11 (zie bijlage)

Een laatste begrip wat hier wordt uitgelegd is disjoint; dit is wanneer 2 events geen uitkomst gemeen hebben.

Figuur 12 (zie bijlage)

Hieronder volgen nu enkele regels die toegepast kunnen worden om kansen te berekenen.

De eerste regel is dat wanneer we de kans op zowel A en B willen weten en de trials onafhankelijk zijn, de eerste trial geen effect heeft op het tweede trial. De kans op zowel A en B wordt ook wel intersection genoemd. De formule van deze regel is P (A en B) = P (A) x P (B). Zijn de events A en B disjoint dan is P (A en B) = 0.

De tweede regel is de kans op A of B of beide, dit wordt ook wel union genoemd. Hier wordt de kans op A plus de kans op B berekend. Echter, omdat nu tweemaal de kans op “A en B” is berekend halen we eenmaal de kans op “A en B” eraf. De formule wordt dus: P (A of B) = P (A) + P (B) – P (A en B). Zijn de events A en B disjoint dan is de formule P (A of B) = P (A) + P (B) ( P (A en B) is namelijk 0 wanneer events disjoint zijn).

Figuur 13 (zie bijlage)

Een derde regel is het vinden van de kans van een event A als de kans op event B is gegeven (of andersom).

Formule 9 (zie bijlage)

eze regel gaat op ongeacht of de events onafhankelijk of afhankelijk van elkaar zijn. Voor de eerste twee regels is het echter wel van belang om te weten of event A en B onafhankelijk zijn. Event A en B zijn onafhankelijk wanneer:

P (A|B) = P (A)

P (B|A) = P (B)

P (A en B) = P (A) x P (B)

Samples zonder teruglegging zijn altijd afhankelijk en disjoint events zijn ook sterk afhankelijk.

Hoofdstuk 6 Opsomming van kansen

Kansen bij continue random variabelen

In de vorige paragraaf hebben we het gehad over enkele kansen. Soms is er echter een onderzoek waarbij de random sample meerdere keren wordt getoetst. Vervolgens wil men dan de kans over meerdere trials berekenen. Deze kansen worden uiteengezet in een kansendistributie (probability distribution). Voorbeeld: het testen van de snelheid van auto’s op de snelweg waar 100 km per uur gereden mag worden. Gemiddeld zullen mensen 100 km per uur rijden. Er zijn daarentegen ook een aantal mensen die harder rijden dan 100 en mensen die minder hard rijden. De gegevens uit dit voorbeeld kunnen weergegeven worden op een continue schaal, waarbij de laagste snelheid links staat en de hoogste snelheid rechts. De meeste mensen zullen rond het midden van de schaal zitten, de uitschieters zullen aan de zijkant van de distributie zitten. Dit is een typisch voorbeeld van een normaalverdeling. Bij een normaalverdeling is de distributie symmetrisch, bell-shaped en heeft altijd 2 parameters, namelijk het gemiddelde en de standaarddeviatie.

Als we nog even teruggaan naar hoofdstuk 2 van deze samenvatting dan stond daar de uitleg over parameters: als men het heeft over het gemiddelde en de standaarddeviatie van de sample, dan worden de parameters en s gebruikt . Echter, als men het heeft over het gemiddelde en de standaarddeviatie van de populatie dan worden de parameters µ (gemiddelde) en σ (standaarddeviatie) gebruikt. Onthoud wel dat deze populatieparameters meestal onbekend zijn. Als er met een normaalverdeling wordt gewerkt, dan worden vaak de parameters µ en σ gegeven. Deze parameters worden vervolgens vergeleken met de parameters van het sample dat is onderzocht.

Om te bepalen waar een bepaalde observatie van een continue random variabele ligt in de normaalverdeling wordt vaak de Z-score berekend. De Z-score is het aantal standaarddeviaties dat deze observatie van het gemiddelde vandaan ligt. Ter herhaling staan hieronder de percentages van de observaties die binnen een bepaalde standaarddeviatie vallen.

±68% van de observaties valt binnen 1 standaarddeviatie van het gemiddelde
±95% van de observaties valt binnen 2 standaarddeviaties van het gemiddelde
±99% van de observaties valt binnen 3 standaarddeviaties van het gemiddelde

Om de Z-score te bepalen van een bepaalde observatie, haal je van deze geobserveerde waarde het gemiddelde af en deel je dat getal door de standaarddeviatie. Is deze score negatief dan valt de observatie onder het gemiddelde, is de Z-score positief dan valt de observatie boven het gemiddelde.

Formule 10 (zie bijlage)

Kansen bij discrete random variabelen.

Bij discrete random variabelen gaat het om de kans tussen twee mogelijke uitkomsten. De verdeling die hieruit voortkomt wordt de binomiale verdeling genoemd. In een sample wordt eerst de kans op een van de twee mogelijke uitkomsten berekend. De uitkomst waarin men geïnteresseerd is wordt “succes” genoemd, de andere uitkomst is “geen succes”. Vervolgens wordt deze sample trial meerdere keren uitgevoerd, waarna van alle gegevens een verdeling kan worden gemaakt. Er zijn echter een paar voorwaarden. Ten eerste moet elke trial dezelfde kans op “succes” hebben; deze kans wordt genoteerd als P. De kans op “geen succes” wordt genoteerd als 1 – P. Daarnaast moeten de trials ook onafhankelijk van elkaar zijn. Dat wil zeggen dat de ene trial geen invloed heeft op de andere trial. Het aantal succes bij n trials wordt genoteerd als X.

Voorbeeld: het aantal 6 bij het 3 maal gooien met een dobbelsteen.

Elke trial is een gooi met de dobbelsteen. Er zijn twee mogelijke uitkomsten. Succes is het gooien van een {6}, “geen succes” is het gooien van een {1,2,3,4,5}. De kans op succes is gelijk aan P = Deze kans is voor elke gooi gelijk. De 3 trials zijn ook onafhankelijk; het gooien van de dobbelsteen hangt niet af van de vorige gooi. n = 3 (het aantal maal gooien); X = het aantal 6 dat gegooid wordt; dit kan {0,1,2,3} als uitkomst hebben.

Om de kans van een binomiale random variabele te berekenen is er de volgende formule:

Formule 11 (zie bijlage)

De gegevens van het bovenstaande voorbeeld zullen worden gebruikt om de formule uit te leggen. Stel dat we de kans willen weten van het twee maal gooien van een 6 bij drie trials.

We berekenen dan de P(2) = de kans op twee successen, dus twee maal het gooien van een 6.
Formule 12 (zie bijlage) = de kans op succes tot de macht van het aantal keren dat dit succes gegooid moet worden.
Formule 13 (zie bijlage) = de kans op geen succes (1 – de kans op succes) tot de macht van het aantal keren dat “niet succes” (totaal aantal keer gooien – aantal worpen succes) gegooid wordt.
Formule 14 (zie bijlage) = Dit deel van de formule geeft weer hoeveel mogelijkheden er zijn. Het gooien van tweemaal een 6 kan op verschillende manieren, bijvoorbeeld: {662} of {366} of {626}. Deze formule maakt gebruik van het nCr knopje op de rekenmachine. De n staat voor het totaal aantal worpen en de x staat voor het aantal worpen succes. Deze formule wordt uitgesproken als 3 boven 2. Dit wordt als volgt in de rekenmachine ingevuld: 3 nCr 2. Hier komt het getal 3 uit. Er zijn dus drie verschillende mogelijkheden om tweemaal een 6 te gooien bij drie worpen.

Simpel gezegd zegt de formule: de kans op succes maal de kans op geen succes maal het aantal mogelijkheden.

Formule 15 (zie bijlage)

Ook bij binomiale distributies kan een gemiddelde en een standaarddeviatie worden bepaald. Dit gaat met de volgende formules:

Formule 16 (zie bijlage)

Bijna alle kansen van de binomiale distributie vallen tussen de µ - 3 σ en µ + 3 σ. De binomiale distributie heeft bij benadering een normaalverdeling. Dit geldt alleen wanneer n groot genoeg is. n is groot genoeg wanneer zowel de uitkomst van n∙p als n(1 - p) beide minstens 15 zijn.

Sampling distributie

In het vorige deel is er gekeken naar hoe kansen worden berekend. Dit zijn allemaal kansen uit een steekproef. Toch wil men graag bepalen hoe dicht deze kansstatistiek bij de populatieparameter (de echte waarde) valt. Dit wordt berekend door middel van kansdistributies. Wanneer er een kansdistributie van statistiek wordt gemaakt dan noemt met dit een sampling distributie. Er zijn twee soorten distributies. Eén voor categorische variabelen, waarbij men geïnteresseerd is in proporties. De andere distributie is voor kwantitatieve variabelen, waarbij men geïnteresseerd is in de gemiddelden.

Een voorbeeld van een sampling distributie voor proportie: hoeveel Nederlanders zijn voor de monarchie? In een steekproef van 500 deelnemers komt daar 0.67 uit. Dit zijn niet alle Nederlanders, dus hoe dicht zitten we bij de echte proportie van het totaal aantal Nederlanders? Door meerdere malen een steekproef van 500 deelnemers te nemen komen er steeds verschillende proporties uit: 0.70; 0,65; 0,78; 0,54, etc. Wanneer van deze proporties een kansdistributie wordt gemaakt, noemen we dat een sampling distributie.

Van deze sampling distributie van een proportie kan het gemiddelde en de standaarddeviatie worden berekend.

Formule 17 (zie bijlage)

Wordt er vanuit een binomiale distributie naar een sampling distributie gewerkt, deel dan het gemiddelde en de standaarddeviatie van de binomiale distributie door n trials. Om verwarring te voorkomen tussen standaarddeviatie van een normale kansdistributie en die van een sampling distributie wordt de standaarddeviatie van een sampling distributie de standaarderror genoemd.

Er bestaat dus niet alleen een sampling distributie van proporties, maar ook van het sample gemiddelde Aanduiding 4 (zie bijlage). Van alle gemiddelden in meerdere steekproeven kan een sampling distributie gemaakt worden. De vorm van deze distributie is normaal verdeeld. Het sample gemiddelde Aanduiding 4 (zie bijlage) fluctueert van sample tot sample rond het populatie gemiddelde µ. De standaard error wordt berekend door de standaarddeviatie te delen door de wortel van n (sample grootte).

Formule 18 (zie bijlage)

De standaard error wordt kleiner naarmate de sample grootte groter wordt.

Centrale limietstelling.

Wat als blijkt dat de sample niet een normaalverdeling heeft? Denk hierbij aan het aantal uren tv kijken. Het grootste gedeelte van de mensen kijkt tussen de één à twee uur televisie per dag. Er zijn echter uitzonderingen, waarbij mensen acht uur tv kijken per dag. Deze distributie zal dan skewed naar rechts zijn. Ondanks dat deze kans distributie niet normaal verdeeld is, is de sampling distributie van het sample gemiddelde wel normaal verdeeld . Dit wordt de centrale limietstelling genoemd. Dit gebeurt alleen als de sample grootte n groot genoeg is, dit is het geval vanaf n = 30.

Overzicht alle soorten distributies die we hebben gehad.

Populatiedistributie: dit is de kansdistributie waarvan we een sample nemen. De waarde van de parameters worden voor categorische variabelen uitgedrukt in p en voor de kwantitatieve variabele in µ. Meestal zijn deze waarden onbekend, maar door middel van de onderstaande distributies proberen we hier toch in de buurt van te komen.

Datadistributie: dit is de distributie van de sample data, die verkregen zijn door middel van onderzoek. De statistische waarden zijn sample proporties en sample gemiddelden. Hoe groter de steekproef hoe dichter de waarde bij de populatie distributie komt te liggen.

Sampling distributie: Dit is de kansdistributie van een sample statistiek, zoals sample proporties en sample gemiddelden. De sampling distributie laat zien hoe dicht de sample statistiek ligt bij de onbekende parameter. Wanneer sample grootte n groot genoeg is dan is deze distributie volgens de centrale limietstelling bij benadering normaal verdeeld. De standaarddeviatie bij een sampling distributie wordt de standaarderror genoemd.

Voor categorische (binaire) data, heeft de sampling distributie voor de sample proportie een gemiddelde dat gelijk staat aan de populatie proportie p en een standaard error van Formule 19 (zie bijlage).

Hoofdstuk 7 Betrouwbaarheidsinterval

Met behulp van statistiek wil men graag bepaalde conclusies trekken. Deze statistische gevolgtrekkingen maken gebruik van sampling distributies die via data van gerandomiseerde experimenten verkregen zijn. Deze distributies zijn bij benadering normaal verdeeld. Echter om meer zekerheid te verkrijgen over de conclusies die gemaakt moeten worden, wil men iets zeggen over de betrouwbaarheid van de sample. Hoe betrouwbaar zijn de samplegegevens tegenover de echte (onbekende) populatiegegevens? Hiervoor zijn verschillende methodes:

Populatieparameters schatten kan op twee manieren.

Puntschatting: bij een puntschatter wordt door middel van één getal een zo goed mogelijke gok gedaan. Dit is een gecentreerde parameter zoals het gemiddelde of de mediaan. Daarnaast is een kleine standaarderror ook gewenst.
Intervalschatting: een betrouwbaarheidsinterval is een range waarbinnen de meeste echte waarden vallen. Er kan een interval van de sampling distributie gemaakt worden met behulp waarvan we bijvoorbeeld kunnen zeggen dat 95% van de echte waarden binnen deze range valt. Om een dergelijke range te maken gebruiken we het gemiddelde en de standaarderror. Eerder hebben we al gezegd dat 95% van de observaties binnen 2 standaarddeviaties van het gemiddelde valt. Om precies te zijn valt 95% van de observaties 1.96 standaarddeviatie boven en onder het gemiddelde of proportie. De margin of error (de range) heeft dan ook als formule:

Formule 20 (zie bijlage)

Betrouwbaarheidsinterval voor categorische data: populatieproportie

Bij het construeren van een betrouwbaarheidsinterval van categorische data is men geïnteresseerd in de populatieproportie. De gegevens zijn meestal binair (bestaand uit 2 categorische variabelen) en er wordt gekeken of de gegevens wel of niet in de te onderzoeken categorie valt. Hierbij wordt onderscheid gemaakt tussen succes en geen succes. Vervolgens worden de data van de sample proportie van successen opgeteld en wordt er een betrouwbaarheidsinterval van de populatieproportie geconstrueerd. De populatie proportie wordt genoteerd als p en de sample proportie wordt genoteerd als . Het dakje op de p staat voor het feit dat het om een geschatte waarde gaat. Meestal gaat men uit van een betrouwbaarheidsniveau van 95%. Dus op de lange termijn vallen 95% van de populatieproporties binnen dit interval.

Formule 21 (zie bijlage)

Om deze formule te laten gelden is er een voorwaarde en dat is dat zowel het aantal successen en het aantal niet successen Formule 22 (zie bijlage)

Daarnaast gebruikt men voor heel belangrijke beslissingen (leven of dood) een hoger betrouwbaarheidsinterval van 99%. De formule verandert dan in Formule 23 (zie bijlage).

De margin of error is de kans dat de methode resulteert in een verkeerde uitkomst. Deze kans is 1- 0,95 (betrouwbaarheidsniveau van 95%) = 0,05. De margin of error voor een betrouwbaarheidsinterval wordt groter wanneer het betrouwbaarheidsinterval groter wordt en wordt kleiner wanneer de sample grootte groter wordt.

Betrouwbaarheidsinterval bij kwantitatieve variabelen.

Bij het construeren van een betrouwbaarheidsinterval voor kwantitatieve data is men geïnteresseerd in het populatiegemiddelde. De formule voor een populatiegemiddelde lijkt erg op die van populatieproportie. Ook hier gaat men uit van een geschatte waarde ± de margin of error. De geschatte waarde wordt genoteerd als Aanduiding 5 (zie bijlage). De margin of error wordt echter anders berekend. Bij populatieproportie gebruiken we de z-waarde met de standaarderror. Bij populatiegemiddelde gebruiken we niet de z-distributie maar een andere vergelijkbare distributie. Deze distributie wordt de t-distributie genoemd en is ook bell-shaped, maar heeft een dikker uiteinde dan de normale z-distributie. De waarde van een t-distributie hangt af van de degrees of freedom (df), op dit moment wordt er niet verder ingegaan wat dit betekent. Deze worden vaak gegeven en vervolgens kan er in een tabel de bijbehorende kans worden opgezocht. De kans die bij t.025 gegeven wordt, wordt gebruikt voor een 95% betrouwbaarheidsinterval. De standaarderror bij populatiegemiddelde wordt berekend door de standaarddeviatie te delen door wortel n.

Formule 24 (zie bijlage)

Bepalen van de grootte van de sample size.

Hoe bepaalt men nu hoe groot de sample size van een onderzoek moet zijn? Dit hangt af van hoe precies het betrouwbaarheidsinterval moet zijn. En hoe klein of groot dus de margin of error moet zijn. Hoe kleiner de margin of error is, des te groter de sample size moet zijn.

Stel dat we een margin of error willen van maximaal 0,05. Om te berekenen hoe groot n moet zijn, zijn er twee formules. Één voor de populatieproportie en één voor het populatiegemiddelde.

Formule 25 (zie bijlage)

Wanneer Aanduiding 6 (zie bijlage) onbekend is wordt 0,50 gebruikt als geschatte waarde, omdat dit de grootste n geeft en dus het veiligste is. De z hangt af van de grootte van betrouwbaarheid, dus z =1,96 bij 95%. M staat voor de margin of error die gewenst is.

Formule 26 (zie bijlage)

De s in de formule wordt geschat. Meestal wordt de sample standaarddeviatie gebruikt.

Er wordt in deze samenvatting niet verder ingegaan op het tot stand komen van deze formules. Het belangrijkste is dat er mee gerekend kan worden.

Hoofdstuk 8 Hypothese toetsen

In het vorige hoofdstuk hebben we de eerste belangrijke methode voor statistische conclusietrekkingen over populaties besproken, namelijk het betrouwbaarheidsinterval. De komende hoofdstukken wordt de tweede belangrijke methode besproken, namelijk het uitvoeren van een significantietest. Een significantietest is een methode om bewijs op te sommen voor een bepaalde hypothese. Een hypothese is een verklaring of voorspelling over de populatie in de vorm van een numerieke waarde. Voordat een significantietest wordt uitgevoerd, wordt er eerst bepaald of een variabele categorisch of kwantitatief is. Als een variabele categorisch is gebruiken we proporties en als een variabele kwantitatief is gebruiken we het gemiddelde.

Er zijn vijf stappen voor een significantietest:

Assumpties: Dit zijn aannames die we vooraf vaststellen. Dit kan zijn dat samples random gekozen waren, wat de grootte is van de sample size of dat de populatie normaal verdeeld moet zijn.
Hypotheses: Elke test heeft twee hypotheses over een populatieparameter. Ten eerste is er de nulhypothese (H₀). Deze hypothese heeft een vaste waarde; dit betekent meestal dat er geen effect is of dat er geen verschil is. De alternatieve hypothese (H_a) geeft een alternatieve waarde aan. Deze waarde kan in een specifieke richting zijn, namelijk groter of kleiner dan de waarde van de H₀ of kan algemeen zijn zoals ≠ H_0.De H₀ wordt als waar gezien tot dat de data sterk tegenbewijs leveren, dan verwerpen we de H₀ en wordt de H_a aangenomen.
Statistische test: Er wordt berekend hoeveel standaarderror er zit tussen de geschatte waarde en de H₀. Het soort test hangt af van het soort variabele, categorisch of kwantitatief. Welke testen waarvoor ingezet worden, wordt in de volgende hoofdstukken besproken.
P-waarde: Dit is de kans op de gevonden uitkomst bij de statistische test als wordt aangenomen dat H₀ waar is. Hoe kleiner de P-waarde, hoe groter het bewijs tegen H₀ is.
Conclusie: noteren en interpreteren van de P-waarde. Bij de conclusie wordt er bepaald of de H₀ verworpen wordt of niet. Wanneer de P-waarde kleiner is dan het gekozen significantieniveau (meestal α =.05) dan wordt de H₀ verworpen. Is de P-waarde groter dan het gekozen significantieniveau dan verwerpen we H₀ niet. De conclusie wordt aan de hand van de context gegeven.

Voor de duidelijkheid: H₀niet verwerpen, betekent niet dat we H₀ accepteren!

Significantietesten voor proporties.

De vijf stappen voor een significantietest voor categorische variabelen, waarbij men dus geïnteresseerd is in de proporties zijn als volgt:

Assumpties: de variabelen zijn categorisch. Er is gebruik gemaakt van random samples. De sample size is groot genoeg om de distributie normaal te benaderden, dit is het geval wanneer de verwachte waarde van succes en geen succes minstens 15 is.
Hypothese:

Nulhypothese = H₀ : p = p₀, waarbij p₀ een waarde aanneemt van bijvoorbeeld 0,20.

Alternatieve hypothese = H_a: p ≠ p₀(dit heet tweezijdig toetsen) of H_a: p < p₀of H_a: p > p₀(dit heet eenzijdig toetsen)

Statistische test:

Formule 27 (zie bijlage)

P-waarde: In een tabel (achterin elk statistiekboek) kan worden opgezocht welke P-waarde er bij de gevonden z-waarde hoort.
Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H₀, is de P-waarde groter dan verwerpen we H₀ niet. De conclusie wordt aan de hand van de context gegeven.

Significantietesten voor gemiddelde

De vijf stappen voor een significantietest voor kwantitatieve variabele, waarbij men dus geïnteresseerd is in het gemiddelde.

Assumpties: de variabelen zijn kwantitatief. Er is gebruik gemaakt van random samples. De populatiedistributie is bij benadering normaal verdeeld.
Hypothese:

Nulhypothese = H₀ : µ= µ₀, waarbij µ₀ een waarde aanneemt van bijvoorbeeld 0.

Alternatieve hypothese = H_a: µ ≠ µ₀ of H_a: µ < µ₀of H_a: µ > µ₀.

Statistische test: Formule 28 (zie bijlage)

P-waarde: In een tabel voor t-distributies (achterin elk statistiekboek) kan worden opgezocht welke P-waarde er bij de gevonden t-waarde hoort. Gebruik hierbij de degrees of freedom (df) = n-1.
Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H₀, is de P-waarde groter dan verwerpen we H₀ niet. De conclusie wordt aan de hand van de context gegeven.

Wanneer de assumptie van normaalverdeling is geschonden, dan kan men alsnog een t-toets uitvoeren. Dit moet alleen wel altijd een tweezijdig toets worden.

Fouten bij significantietesten

Bij beslissingen aan de hand van significantietesten blijft altijd een bepaalde onzekerheid bestaan. Er blijft altijd een kans dat er een verkeerde beslissing is genomen.

Figuur 14 (zie bijlage)

Een type 1 fout komt voor wanneer de nulhypothese in werkelijkheid waar is, maar je deze toch hebt verworpen. De kans hierop is even groot als het significantieniveau van de test (α). Als er grote consequenties zijn voor een type 1 fout dan moet er een kleinere α gehandhaafd worden.

Een type 2 fout komt voor wanneer de nulhypothese in werkelijkheid niet waar is, maar niet verworpen wordt. Een type 2 fout wordt groter wanneer α kleiner wordt. De type 2 fout wordt kleiner als de sample size groter wordt.

Wanneer de nulhypothese niet waar is, wil je dat de kans op verwerpen zo hoog mogelijk is. De kans op verwerpen van de nulhypothese noemen we de power van een test. Power = 1 – P (type 2 fout). Wanneer de kans op een type 2 fout klein is, is de power dus groot. Het is ideaal voor studies als zowel de power hoog is en het significantie niveau Aanduiding 1 (zie bijlage) laag is.

Hoofdstuk 9 Groepen vergelijken

In veel onderzoeken worden twee groepen, bijvoorbeeld mannen en vrouwen, met elkaar vergeleken om te zien of er verschil is tussen beiden. Er zijn twee soorten manier voor het vergelijken van groepen. Meestal wordt er gebruikt gemaakt van independent samples; de ene sample heeft dan geen invloed op de andere sample. De andere manier is door middel van dependent samples; dit is wanneer elk subject van de ene sample gekoppeld is aan een subject van de andere sample. We zullen als eerst de independent samples analyseren. Hierbinnen kan weer onderscheid gemaakt worden tussen categorische en kwantitatieve variabelen.

Independent samples: Categorische variabelen.

Om te analyseren of 2 groepen gelijke proporties hebben kunnen we deze op drie manieren met elkaar vergelijken. De eerste manier is via het betrouwbaarheidsinterval. Om het betrouwbaarheidsinterval te berekenen worden de proporties van de twee groepen van elkaar afgetrokken. Het maakt hierbij niet uit welke groep van welke wordt afgetrokken, dit is arbitrair. Vervolgens werkt het als het normale betrouwbaarheidsinterval:

Formule 29 (zie bijlage)

Het betrouwbaarheidsinterval wordt als volgt geïnterpreteerd. Eerst wordt er gekeken of het getal 0 in het betrouwbaarheidsinterval valt. Als dit het geval is, is het waarschijnlijk dat de twee populatieproporties aan elkaar gelijk zijn. Er is dus geen verschil tussen de ene groep en de andere groep. Zit het getal 0 niet in het interval en zijn alle waarden voor (P₁ – P₂) positief, dan is P₁ > P₂. Zijn alle waarden negatief dan is P₁ < P₂. De grootte van de waarde in het betrouwbaarheidsinterval staat voor de grootte van het werkelijke verschil. Vallen de waarden vlak bij 0, dan is het werkelijke verschil waarschijnlijk klein.

Een tweede manier om de proporties van twee groepen met elkaar te vergelijken is door middel van een significantietest.

Assumpties: Categorische afhankelijke variabelen voor 2 groepen. Independent random sample. n₁ en n₂zijn groot genoeg, zodat er minstens 5 successen en 5 niet successen in elke groep zitten.
Hypothese:

H₀ : p₁ = p₂, (p₁ – p2 = 0)

H_a: p₁ ≠ p₂ of H_a: p₁ < p₂of H_a: p₁ > p₂

Statistische test: Formule 30 (zie bijlage)
P-waarde: Opzoeken welke p-waarde er bij de gevonden z-waarde hoort.
Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H₀, is de P-waarde groter dan verwerpen we H₀ niet.

Een derde, maar minder vaak gebruikte manier om te onderzoeken of twee groepsproporties aan elkaar gelijk zijn is door de ratio van proporties te berekenen = Formule 31 (zie bijlage). Wanneer de proporties aan elkaar gelijk zijn ligt de ratio rond de 1. Wanneer deze waarde ruim boven of onder de 1 ligt dan verschillen de proporties van elkaar.

Independent samples: Kwantitatieve variabelen

Wanneer we van twee groepen het gemiddelde willen vergelijken, dan kan dit op dezelfde drie manieren. Het betrouwbaarheidsinterval wordt hetzelfde geïnterpreteerd als bij proportie, de formule ziet er alleen iets anders uit.

Formule 32 (zie bijlage)

Een tweede manier om het gemiddelde van twee groepen met elkaar te vergelijken is door middel van een significantietest.

Assumpties: kwantitatieve afhankelijke variabelen voor 2 groepen. Independent random sample. Bij benadering normaal verdeeld
Hypothese:

H₀ : µ₁ = µ₂

H_a: µ₁ ≠ µ₂ of H_a: µ₁ < µ₂of H_a: µ₁ > µ₂

Statistische test: Formule 33 (zie bijlage)

P-waarde: opzoeken welke p-waarde er bij de gevonden t-waarde hoort. De df wordt door software gegeven.
Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H₀, is de P-waarde groter dan verwerpen we H₀ niet.

De derde manier is de ratio van gemiddelde = Formule 34 (zie bijlage). De interpretatie van deze ratio is hetzelfde als bij de proportie.

Dependent samples: Categorische variabelen

Wanneer proporties van dependent (afhankelijke) samples vergeleken worden, dan gebeurt dit op dezelfde manier als voor een enkele sample. De twee gekoppelde paren worden namelijk van elkaar afgetrokken, zodat er een verschilscore (p1 – p2) ontstaat. Deze score wordt net zo gebruikt als in hoofdstuk 8 bij de enkele samples van betrouwbaarheidsintervallen en statistische testen.

Dependent samples: Kwantitatieve variabelen.

Voor kwantitatieve variabelen werkt het bijna hetzelfde. De twee gekoppelde gemiddelden worden van elkaar afgetrokken, zodat er een verschilscore (Aanduiding 7, zie bijlage) ontstaat. Deze score wordt net zo gebruikt als in hoofdstuk 8 bij de enkele samples van betrouwbaarheidsintervallen en statistische testen.

Hoofdstuk 10 Associatie tussen categorische variabelen

In het vorige hoofdstuk is er gekeken of gemiddelden en proporties van twee groepen aan elkaar gelijk zijn. In dit hoofdstuk wordt een andere methode gebruikt, namelijk de methode van associatie. In hoofdstuk 3 is associatie ook genoemd, hier wordt nu verder op ingegaan. Associaties worden gebruikt wanneer beide variabelen categorisch of kwantitatief zijn en deze weer verschillende categorieën bevatten. Voorbeeld: middelbare school opleiding: Mavo-Havo-Vwo ; inkomen: laag-gemiddeld-hoog.

In dit hoofdstuk bespreken we de associatie tussen categorische variabelen en in hoofdstuk 11 de associatie tussen kwantitatieve variabelen. Het doel van associatie is om te kijken of twee variabelen onafhankelijk zijn van elkaar of juist afhankelijk (geassocieerd) van elkaar zijn.

Wanneer zijn categorische variabelen onafhankelijk?

In hoofdstuk 5 hebben we al gezien dat variabelen onafhankelijk zijn wanneer de volgende formule geldt: P (A) x P (B) = P (A en B). We kunnen ook een significantietest uitvoeren om te kijken of de categorische variabelen onafhankelijk zijn. Dit doen we door middel van de Chi-kwadraattest (X²).

Aannames: random sampling; grootte sample size; verwachte celwaarde minstens vijf.
Hypothese:

H₀ = de twee variabelen zijn onafhankelijk

H_a = de twee variabelen zijn afhankelijk

Statistische test: Formule 35 (zie bijlage)
Figuur 15 (zie bijlage)

Geobserveerde waarde is de waarde die uit het onderzoek is verkregen.

De verwachte waarde moet zelf berekend worden. Dit doet men door de verwachte uitkomst per cel te berekenen: (rij totaal x kolom totaal) delen door totale sample size. De verwachte waarde voor laag inkomen en mavo is (103 x 103) / 325 = 32,6

P waarde: wanneer de nulhypothese (van onafhankelijkheid) waar is dan heeft X² relatief een kleine waarde. Door het kwadraat is X²altijd positief. Om de P-waarde te vinden moet eerst de df worden berekend, dit doet men door (rij-1)x (kolom-1) uit te rekenen. In dit geval is dat (3-1)x(3-1) = 4.
Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H₀, is de P-waarde groter dan verwerpen we H₀ niet.

Het verschil tussen de geobserveerde data en de verwachte data in een cel noemen we het residu. Wanneer het residu positief is dan zijn er meer subjecten geobserveerd dan er in eerste instantie verwacht werd. Wanneer het residu negatief is dan zijn er minder subjecten dan verwacht werd. Maar hoe weten we wanneer een residu groot genoeg is om sterk bewijs te hebben tegen de nulhypothese van onafhankelijkheid?

Hiervoor wordt het gestandaardiseerde residu voor gebruikt. Valt de waarde drie standaarddeviaties onder of boven de absolute waarde dan is er een grote overtuiging dat er een effect is in die cel.

Formule 36 (zie bijlage)

Hoofdstuk 11 Associatie tussen kwantitatieve variabelen: de regressieanalyse

Om voor kwantitatieve variabelen de associatie te bepalen wordt de regressieanalyse gebruikt. Hiermee kan de waarde van de afhankelijke variabele voorspeld worden. Om de sterkte van de associatie te bepalen wordt de correlatie gebruikt. Beide onderwerpen zijn al eerder genoemd in hoofdstuk 3. Belangrijk bij een regressieanalyse is dat er eerst bepaald wordt welke variabele de afhankelijke (respons) variabele is en welke de onafhankelijke variabele (explanatory). De afhankelijke variabele wordt altijd op de y-as gezet en de onafhankelijke variabele op de x-as. Hier wordt vervolgens een scatterplot van gemaakt om te bepalen of er een lineair verband is tussen deze twee kwantitatieve variabelen. Ook is het handig om te bekijken of er uitschieters (outliers) zijn.

Eerder zijn alle formules van regressieanalyse al uitgelegd. Hier wordt nog even een kort overzicht gegeven van de formules die van toepassing zijn.

Formule 37 (zie bijlage)

Het verschil tussen de geobserveerde uitkomst y en de voorspelde waarde is de voorspellingsfout, ook wel residu genoemd. Elke observatie heeft een residu; sommige positief, andere negatief. Gemiddeld komen ze op een waarde van 0. In een scatterplot is een residu de verticale afstand tussen de geobserveerde data en de voorspellende regressielijn. Hoe kleiner deze afstand, hoe beter de voorspelling. We kunnen optellen hoe dicht alle punten bij de regressielijn liggen met de volgende formule voor de sum of squared residuals:

Formule 38 (zie bijlage)

De regressielijn heeft de kleine sum of squared residuals, daarom wordt het ook wel de least squares genoemd.

De sterke van een associatie

Correlatie:

De sterkte van een associatie wordt niet bepaald door de helling (b) van de regressievergelijking, maar door de correlatie (r). De correlatie beschrijft de lineaire associatie tussen twee variabelen, waarbij de r tussen de -1 en +1 valt. In tegenstelling tot de regressielijn, maakt het bij de correlatie niet uit welke variabele de onafhankelijke is en welke de afhankelijke. De correlatie van x die y voorspelt is namelijk hetzelfde als de correlatie van y die x voorspelt. De reden waarom de helling (b) hier niet voor geschikt is, is dat de helling verschillende waarden kan aannemen (kilo’s, pond, gram). De correlatie valt altijd tussen de -1 en +1. Het enige punt waarop zowel de helling als de correlatie dezelfde waarde aannemen is wanneer de spreiding (standaarddeviatie) voor elke variabele gelijk is, dan geldt namelijk S_y = S_x.

Formule 39 (zie bijlage)

Als een x-waarde een bepaald aantal standaarddeviaties van het gemiddelde af ligt dan ligt de voorspelde Aanduiding 8 (zie bijlage), r maal het aantal standaarddeviaties van het gemiddelde vandaan.

Proportionele reductiefout r²

Een andere voorspellende kracht is r². De variabele is sterker geassocieerd als je y kan voorspellen door het gebruik van een extra variabele X, dan wanneer je alleen het gemiddelde van y gebruikt en X negeert. Voorbeeld: wanneer we het IQ van mensen willen voorspellen, dan kunnen we het gemiddelde gebruiken (IQ = 100). Echter, als we een extra variabele X toevoegen (opleiding), dan kunnen we mogelijk het IQ van mensen beter voorspellen dan door alleen het gemiddelde te gebruiken.

De waarde van r² kan alleen tussen 0 en 1 vallen. Hoe dichter de waarde bij 1 ligt, hoe sterker de associatie is. Aanduiding 8 (zie bijlage) is beter als voorspeller dan Aanduiding 9 (zie bijlage) Wanneer de waarde 0 is dan is het gebruik van de extra variabele niet beter geweest. Aanduiding 8 (zie bijlage) is geen betere voorspeller dan Aanduiding 9 (zie bijlage).

Wanneer de correlatie van twee variabelen .82 is, dan is de r² 0.67. Dit betekent dat de voorspellingsfout door het gebruik van Aanduiding 8 (zie bijlage) om y te voorspellen 67% kleiner is dan de voorspellingsfout door het gebruik van Aanduiding 9 (zie bijlage) om y te voorspellen.

Voorspellingen doen over associaties:

Wanneer we een regressielijn voor het populatiegemiddelde van y voor verschillende X-waarden willen weten dan gebruiken we de volgende formule:

Formule 40 (zie bijlage)

In werkelijkheid zijn deze waardes onbekend. Daar komt bij dat het onwaarschijnlijk is dat de echte relatie tussen y en x een volledig lineaire lijn is. Dit is niet heel erg voor onze voorspelling, zolang een rechte lijn een redelijke voorspelling kan geven. Om nu te bekijken of de twee kwantitatieve variabelen statistisch onafhankelijk zijn of juist een associatie hebben, kunnen we een statistische test uitvoeren. Als y niet af blijkt te hangen van de waarde van X, dan zijn de twee variabelen onafhankelijk. Het helpt ons dan niet om X te weten. Hieronder volgt een hypothesetoets voor de populatiehelling β.

Assumptie: populatie heeft als regressielijn: µ_y = α + βx; de data is random verkregen; eenzelfde standaarddeviatie bij elke X-waarde.
Hypothese:

H₀ = β = 0 (onafhankelijkheid)

H_a = β ≠0 (afhankelijkheid)

Statistische test:

Formule 41 (zie bijlage)

P –waarde: tweezijdig toetsen en opzoeken welke p-waarde er bij de gevonden t-waarde hoort. De df is (n-2).
Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is dan het significantieniveau. Is de P-waarde kleiner dan verwerpen we de H₀, is de P-waarde groter dan verwerpen we H₀ niet.

Een kleine P-waarde geeft aan dat de nulhypothese (de helling is 0) verworpen kan worden. Om erachter te komen hoe ver de helling van 0 af ligt, construeren we een betrouwbaarheidsinterval. De 0 mag dus niet in het interval liggen als de nulhypothese is verworpen.

Formule 42 (zie bijlage)

Hoofdstuk 12 Multipele regressie

Een voorspeller bij een regressielijn als ‘x voorspelt y’ heet een bivariate regressie. Er zijn namelijk twee variabelen (x en y). Wanneer meerdere variabelen ( x₁ en x₂) y voorspellen, heet dit een multipele regressie. Er zijn hierbij meer dan twee variabelen. Je kijkt dus naar twee functies die invloed hebben op een onafhankelijke variabele.

De parameters van deze regressie zijn als volgt:

Formule 43 (zie bijlage)

De α, β₁ en β₂ worden gegeven. X₁ en X₂kunnen zelf ingevuld worden om vervolgens µ_yte berekenen. Het is ook mogelijk te controleren voor een variabele. Dit houdt in dat X₁ voor een bepaalde waarde wordt vastgezet en dat er verschillende waarde voor X₂ ingevuld kunnen worden. Vervolgens kan gekeken worden welke invloed dit heeft op Aanduiding 8 (zie bijlage).

Bij een multipele correlatie wordt de correlatie tussen de geobserveerde y en de voorspelde

Aanduiding 8 (zie bijlage) genoteerd met R. Deze R valt tussen de 0 en de 1, in tegenstelling tot de correlatie bij een bivariate correlatie waarbij r tussen de -1 en +1 valt.

Een multipele correlatie heeft ook een proportionele reductiefout, namelijk R². Deze beschrijft de verbetering door het gebruik van de voorspellers (X₁; X₂, etc) ten opzichte van het gebruik van het sample gemiddelde. Hoe beter de voorspelling van de regressievergelijking, hoe groter R². Een belangrijk punt van R² is dat het niet in waarde kan verminderen als er meerdere voorspellers bij komen. Op den duur wordt R² wel steeds minder groot.

Statistische test voor multipele regressievergelijking.

In het vorige hoofdstuk is al een t-test gedaan voor een bivariaat model: µ_y = α + βx. Hierbij was de nulhypothese β = 0, wat betekent dat x en y onafhankelijk zijn. Bij multipele modellen gaat het ongeveer op dezelfde manier. Wanneer de nulhypothese over een bepaalde helling: β₁ = 0 waar blijkt te zijn, dan is y onafhankelijk van X₁ wanneer er gecontroleerd is voor de andere voorspellers.

Dat betekent dat wanneer er andere voorspellers in het model zitten, het niet helpt om X₁ te hebben.

Assumptie: Elke onafhankelijke variabele heeft een lineaire lijn met µ_y,met dezelfde helling voor alle combinaties van waarden van andere voorspellers; random sample; normale distributie voor y met dezelfde standaarddeviatie voor elke combinatie van waarden van andere voorspellers.
Hypothese:

H₀ = β₁ = 0

H_a = β₁ ≠ 0

Statistische test:

Formule 44 (zie bijlage)

P-waarde: tweezijdig toetsen en opzoeken welke p-waarde er bij de gevonden t-waarde hoort. De df is n – het aantal parameters in de regressievergelijking. Voorbeeld: µ_y = α + β₁x₁ + β₂x_2,heeft 3 parameters, dus n-3.
Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H₀, is de P-waarde groter dan verwerpen we H₀ niet.

Het betrouwbaarheidsinterval voor b₁ is hetzelfde als voor de helling van een bivariate regressie: Geschatte helling ± t.₀₂₅ (se), waarbij de df n – het aantal parameters in de regressievergelijking is.

Er is nu bekeken of een enkele helling (b₁) een effect heeft op y, wanneer voor de andere voorspellers wordt gecontroleerd. Wanneer we echter willen weten of de onafhankelijke variabelen samen een significant effect hebben op de afhankelijke variabele y, dan voeren we een ander soort statistische test uit. Dit is de F-distributie.

De nulhypothese ziet er als volgt uit: H₀ = β₁ = β₂ = β₃= 0. Dit betekent dat y niet afhankelijk is van alle voorspellers in het model. De alternatieve hypothese is H_a = minstens één β parameter is niet gelijk aan 0.

Dit houdt in dat minstens één onafhankelijke variabele een associatie heeft met y.

Assumptie: Elke onafhankelijke variabele heeft een lineaire lijn met µ_y,met dezelfde helling voor alle combinaties van waarden van andere voorspellers; random sample; normale distributie voor y met dezelfde standaarddeviatie voor elke combinatie van waarden van andere voorspellers.
Hypothese:

H₀ = β₁ = β₂= ….. = 0

H_a = minstens een β parameter is ≠ 0

Statistische test: Formule 45 (zie bijlage)
Alle waarden kunnen alleen positief zijn. Deze gegevens hoeven momenteel nog niet berekend te kunnen worden. Ze moeten echter wel afgelezen kunnen worden uit een tabel en meegerekend kunnen worden in deze formule.
P-waarde: rechter staartkans boven de geobserveerde F- waarde, deze vervolgens opzoeken in F-distributie. Df₁ = het aantal onafhankelijke variabele. Df₂ = n – het aantal parameters in de regressievergelijking.
Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H₀, is de P-waarde groter dan verwerpen we H₀ niet.

Als blijkt dat de nulhypothese verworpen kan worden, dan is dus tenminste één β-parameter ongelijk aan 0. Welke dit is weten we op dit moment nog niet.

Tot dusver is er alleen gekeken naar multipele regressievergelijking voor kwantitatieve variabelen. Er blijkt echter ook een multipele regressie voor categorische variabelen te zijn. Hiervoor wordt met indicatoren gewerkt. Elke categorie krijgt hierbij een indicator gegeven. Voorbeeld: indicatoren voor de categorische variabele sekse: X =1 wanneer het een vrouw is en X = 0 wanneer het een man is.

Wanneer we vervolgens dit voorbeeld in een multipele regressielijn invullen krijgen we de volgende twee vergelijkingen: voorbeeld: µ_{y =}het gemiddelde aantal kinderen wat een vrouw of man wil in de toekomst

Formule 46 (zie bijlage)

Een belangrijk punt om te onthouden is dat een categorisch onafhankelijke variabele in een regressiemodel één parameter minder gebruikt dan het aantal categorieën dat er is. Dus sekse heeft twee categorieën, maar slechts één parameter in de vergelijking.

Hoofdstuk 13 ANOVA: groepen vergelijken

De methode die in dit hoofdstuk wordt besproken is de ANOVA. Een ANOVA is een test van onafhankelijkheid tussen kwantitatieve afhankelijke variabelen en een groepsfactor. De ANOVA vergelijkt de gemiddelden van de verschillende groepen (g) met elkaar om te bekijken of deze onafhankelijk zijn van de afhankelijke variabele. Voorbeeld: de kwantitatieve afhankelijke variabele is in dit geval inkomen, en inkomen hangt af van de groepsfactor opleiding. Deze groepsfactor bestaat uit drie groepen: Mbo, Hbo en Universiteit.

De statistische test voor ANOVA:

Assumptie: onafhankelijke random samples; normale populatiedistributie met gelijke standaarddeviaties.
Hypothese:

H₀ = µ₁ = µ₂= ….. = µ_g

H_a = minstens twee van de populatiegemiddelden zijn ongelijk

Statistische test: Formule 47 (zie bijlage)

Op dit moment is het nog niet van belang om de between en within groepsvariantie te kunnen berekenen. Wel is het van belang dat er mee gerekend kan worden en afgelezen kan worden in een tabel. De between groups wordt meestal genoteerd als de mean square of groups. De within groups wordt meestal genoteerd als de mean square of error.

P-waarde: rechter staartkans boven de geobserveerde F- waarde, deze vervolgens opzoeken in F-distributie. Df₁ = het aantal groepen -1 (g-1). Df₂ = totale sample grootte – het aantal groepen (n-g).
Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H₀, is de P-waarde groter dan verwerpen we H₀ niet. Interpreteer aan de hand van de context.

Waarom het doen van een ANOVA als er ook meerdere T-testen gebruikt kunnen worden om de gemiddelden met elkaar te vergelijken? Hier zijn een aantal redenen voor.

Een ANOVA heeft een betere standaarderror.
Het houdt de controle over een type 1 fout klein. Dit is de belangrijkste reden!
Het enige nadeel van het gebruik van een ANOVA is dat niet duidelijk is welke gemiddelden van elkaar verschillen en hoe erg ze verschillen. Er zijn verschillende mogelijkheden om dit wel te berekenen, zoals via een betrouwbaarheidsinterval.

Een betrouwbaarheidsinterval geeft informatie over de waarde die de gemiddelden aan kunnen nemen. We komen nog even terug op ons voorbeeld van inkomen en de groepsfactor opleiding. De groepsfactor bestond uit 3 groepen: X₁: MBO, X₂ = HBO, X₃ = Universiteit. Om te kijken welke gemiddelden van de groepen verschillen stellen we een betrouwbaarheidsinterval op. Om te kijken of het verschil zit in de gemiddelden van MBO (Aanduiding 10, zie bijlage) en HBO (Aanduiding 11, zie bijlage) is het volgende betrouwbaarheidsinterval van toepassing:

Formule 48 (zie bijlage)

Wanneer het betrouwbaarheidsinterval geen 0 bevat, dan kunnen we ervan uitgaan dat er de populatie gemiddelde van elkaar verschillen.

Elke keer een betrouwbaarheidsinterval opstellen van twee groepen heeft twee nadelen. Ten eerste; wanneer er maar drie groepen zijn om met elkaar te vergelijken dan hoeven we maar drie betrouwbaarheidsintervallen op te stellen (groep1-groep2 ; groep 2-groep3 ; groep 1-groep 3). Zodra er meer groepen zijn worden dit er veel meer. Bij 15 groepen hebben we bijvoorbeeld al 105 vergelijkingen. Dit neemt teveel tijd in beslag. Het tweede nadeel is dat de type 1 fout groter wordt. Bij drie toetsen hebben we een de kans op een fout van 0.05 bij elke vergelijking die we doen, dus 0.05+0.05+0.05 = 0.15. Dit houdt in dat 0.15 van de betrouwbaarheidsintervallen niet de werkelijke verschillen tussen de gemiddelden bevatten.

Methodes om alle mogelijke vergelijkingen van gemiddelden te maken zijn multipele vergelijkingen. Een voorbeeld is de Tukey methode. Deze methode is zo geconstrueerd dat de gehele betrouwbaarheid dichtbij 0.95 ligt. Het gaat namelijk uit van de slechtste uitkomst. Je hoeft de Tukey niet uit te kunnen rekenen.

Hierboven is het vergelijken van de gemiddelden van een enkele groepsfactor (opleiding) op een kwantitatieve afhankelijke variabele (inkomen) besproken. Dit werd berekend met een ANOVA, of beter gezegd een one-way ANOVA. Nu wordt er verder ingegaan op het vergelijken van groepen van twee of meer factoren (sekse en opleiding) op een kwantitatieve afhankelijke variabele (inkomen). Dit wordt een two-way ANOVA genoemd.

Bij een two-way ANOVA zijn de nulhypotheses dat de populatiegemiddelden hetzelfde zijn voor elke categorie van een factor, bij een vastgesteld niveau van de andere factor. In het geval van het voorbeeld zijn de nulhypotheses dat sekse geen effect heeft op inkomen en dat opleiding geen effect heeft op inkomen. Blijkt er wel een effect te zijn dan wordt dit een hoofdeffect genoemd. Beide factoren kunnen een hoofdeffect hebben, maar het kan ook zijn dat maar één van de factoren een hoofdeffect heeft. Een derde nulhypothese is dat de twee factoren geen interactie vertonen. Het is belangrijk te onthouden dat een nulhypothese altijd inhoudt dat er geen effect/invloed is.

De statistische test voor een two-way ANOVA is hetzelfde als die voor een one-way ANOVA. De conclusies zijn echter anders. Eerst wordt bepaald of er een hoofdeffect is voor één of beide factoren. Er is sprake van een hoofdeffect wanneer de nulhypothese van de betreffende factor wordt verworpen.

Vervolgens wordt er gekeken of er een interactie is tussen de twee factoren. Deze test ziet er wel iets anders uit. Maar eerst kunnen we in een grafiek bekijken of er mogelijk een interactie is. Wanneer de lijnen kruisen is er interactie, lopen ze parallel dan is er duidelijk geen interactie.

Figuur 16 (zie bijlage)

Een statistische test geeft echter uitsluitsel over de vraag of er interactie is.

Assumptie: random sample; de populatiedistributie voor elke groep is normaal; de populatiestandaarddeviaties zijn hetzelfde voor elke groep.
Hypothese:

H₀ = µ₁_a - µ₁_b = µ₂_a- µ_2b = geen interactie

H_a = µ₁_a - µ₁_b ≠ µ₂_a- µ_2b=

Statistische test: Formule 49 (zie bijlage)

Op dit moment is het nog niet van belang om de between en within groups variantie te kunnen berekenen. Wel is het van belang dat er mee gerekend kan worden en afgelezen kan worden in een tabel. De between groups wordt meestal genoteerd als de mean square of groups. De within groups wordt meestal genoteerd als de mean square of error.

P-waarde: rechter staartkans boven de geobserveerde F- waarde, deze vervolgens opzoeken in F-distributie. Df₁ = (het aantal groepen van A -1)∙ (het aantal groepen van B -1). Df₂ = totale sample grootte – het aantal groepen (n-g).
Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H₀, is de P-waarde groter dan verwerpen we H₀ niet. Interpreteer aan de hand van de context.

Hoofdstuk 14 Niet parametrische statistiek

Bij alle bovenstaande testen waren assumpties ontzettend belangrijk. In dit hoofdstuk wordt een test besproken waarbij assumpties niet zo belangrijk zijn. Deze test wordt toegepast wanneer de data niet normaal verdeeld is. Een niet-parametrische statistische test is de Wilcoxon-test. Deze test gaat niet uit van een normaalverdeling en wordt gebruikt bij kwantitatieve data. De test is niet gevoelig voor uitschieters en kan gebruikt worden wanneer er weinig data aanwezig is.

De Wilcoxon-test vergelijkt twee groepen met elkaar door de data van beide groepen te rangorden. De hoogste score krijgt het getal 1, de één na hoogste het getal 2. Zijn twee getallen hetzelfde dan krijgen ze het gemiddelde van de twee getallen. Als bijvoorbeeld plaats 3 en 4 dezelfde score hebben, dan wordt 3.5 aan beide score toegewezen.

Voorbeeld: vergelijken van sportschool (groep 1) en afslankpillen (groep 2); zit er na 2 maanden een verschil in hoeveel kilo’s er zijn verloren?

Aantal kilo’s verloren:

groep 1: 5 ; 8; 2; 0; 2 à 9;8;6;5;4;0 (hoog naar laag)

groep 2: 1; 3; 5; 7; 1 à 7;5;3;2;1;0

Bij bovenstaande data wordt nu een rangorde aangebracht.

Groep 1: 1 – 2 – 4 - 5.5 - 7 – 11.5

Groep 2: 3 – 5.5 – 8 – 9 – 10 -11.5

Vervolgens wordt voor beide groepen de rangordening opgeteld en de gemiddelden berekend. Groep 1 heeft gemiddeld een rang van 5.2, groep 2 heeft gemiddeld een rang van 7.8 Het verschil tussen deze twee groepen is gelijk aan 2.6. Of dit verschil groot genoeg is kan vervolgens met software worden bepaald.

Kort samengevat ziet de statistische test er als volgt uit:

Assumptie: onafhankelijke random sample van groepen.
Hypothese:

H₀ = identieke populatie verdeling voor beide groepen (sample rank gemiddelde is gelijk).

H_a= geen identieke populatie verdeling voor beide groepen (sample rank gemiddelde is ongelijk).

Statistische test:

Rangorde aanbrengen in data (beste is nummer 1, slechtste is laatste rangorde, op zelfde plaats delen ze nummer, dus 2 en 3 wordt beide 2.5). Voor beide groepen worden de rangordenummers opgeteld en wordt het gemiddelde genomen. Het verschil tussen deze groepen bepaalt of er een identieke populatieverdeling is of niet.

P-waarde: wordt door middel van de computer berekend.

Conclusie: Bepaal aan de hand van het significantieniveau of de gevonden P-waarde kleiner of groter is. Is de P-waarde kleiner dan het significantieniveau dan verwerpen we de H₀, is de P-waarde groter dan verwerpen we H₀ niet. Interpreteer aan de hand van de context.

Why create an account?

Your WorldSupporter account gives you access to all functionalities of the platform
Once you are logged in, you can:
- Save pages to your favorites
- Give feedback or share contributions
- participate in discussions
- share your own contributions through the 7 WorldSupporter tools