BulletPointsamenvatting van Statistical Methods for the Social Sciences van Agresti - 6e druk

Wat zijn statistische methoden? – BulletPoints 1
Welke soorten steekproeven en variabelen zijn er? – BulletPoints 2
Hoe werkt beschrijvende statistiek? – BulletPoints 3
Hoe gebruik je kansverdelingen voor statistische inferentie? – BulletPoints 4
Hoe maak je schattingen voor statistische inferentie? – BulletPoints 5
Hoe gebruik je significantietoetsen? – BulletPoints 6
Hoe vergelijk je twee groepen met elkaar in de statistiek? – BulletPoints 7
Hoe kun je het verband tussen categorische variabelen analyseren? – BulletPoints 8
Hoe werken lineaire regressie en correlatie? – BulletPoints 9
Welke vormen hebben multivariate verbanden? – BulletPoints 10
Hoe analyseer je multipele regressie? – BulletPoints 11
Hoe werkt ANOVA? – BulletPoints 12
Hoe werkt multipele regressie met zowel kwantitatieve als categorische predictoren? – BulletPoints 13
Hoe construeer je een model voor multipele regressie van extreme of sterk gecorreleerde data? – BulletPoints 14
Hoe werkt logistische regressie? – BulletPoints 15

Wat zijn statistische methoden? – BulletPoints 1

Bij statistiek wordt allereerst aan de hand van een ‘design’ een planning gemaakt van hoe data wordt verzameld. Vervolgens zijn er twee vormen van statistische analyse; beschrijvende statistiek en inferentiële statistiek. Beschrijvende statistiek vat de informatie uit een verzameling data samen, zodat de data makkelijker te begrijpen is. Inferentiële statistiek maakt voorspellingen aan de hand van data. Afhankelijk van het doel wordt bepaald van welke vorm van statistiek er sprake is: als er wordt samengevat is het beschrijvend, als er voorspellingen worden gedaan is het inferentieel.
Om de verschillen tussen vormen van statistiek beter te begrijpen, zijn een aantal basisbegrippen belangrijk. De subjecten zijn de entiteiten die worden geobserveerd bij een onderzoek, meestal mensen maar soms families, scholen, steden etc. De populatie is het geheel van subjecten die je wilt onderzoeken (bijvoorbeeld de Nederlandse bevolking). De populatie wordt hierna aangeduid in formules met de hoofdletter N. De steekproef is een beperkt aantal geselecteerde subjecten waarover je daadwerkelijk data gaat verzamelen (bijvoorbeeld 1000 Nederlanders uit verschillende provincies). De steekproef wordt met de kleine letter n aangeduid in formules. Het uiteindelijke doel is iets te leren over de populatie, maar omdat het onmogelijk is om de gehele populatie te onderzoeken, trekt men een steekproef.
Het doel van statistiek is om meer te weten te komen over de parameter. De parameter is de numerieke samenvatting van de populatie, ofwel de onbekende waarde die iets zegt over de uiteindelijke toestand van het geheel. Het gaat dus niet om de steekproef maar om de populatie. Kort gezegd is de parameter de waarde van belang. Een belangrijk onderdeel van inferentiële statistiek is daarom beoordelen hoe representatief een steekproef is.

Welke soorten steekproeven en variabelen zijn er? – BulletPoints 2

Elk meetbaar kenmerk van een subject heet een variabele. Het is een kenmerk dat kan variëren in waarde tussen verschillende subjecten in een steekproef of populatie (bijvoorbeeld geslacht, inkomen, mening). Het nut van variabelen is dat ze de spreiding weergeven, hoeveel een waarde varieert. Bijvoorbeeld het aantal biertjes dat studenten per week consumeren. De waarden die een variabele kan aannemen, vormen de meetschaal ofwel het meetniveau. Er zijn verschillende meetniveaus; verschillende manieren om variabelen in te delen.
Ten eerste zijn er kwantitatieve en categorische variabelen. Kwantitatieve variabelen hebben een meetniveau met numerieke waarden, zoals leeftijd, aantal broers en zussen, inkomen. Categorische variabelen (ook wel kwalitatieve variabelen genoemd) hebben een meetniveau met categorieën, zoals geslacht, burgerlijke staat, religie. Hier is ook te zien hoe de meetniveaus zijn verbonden aan de statistische analyses: bij kwantitatieve variabelen kun je wel een gemiddelde berekenen (bijvoorbeeld de gemiddelde leeftijd), en bij categorische variabelen kan dat niet (het gemiddelde geslacht valt bijvoorbeeld niet te berekenen).
Vervolgens zijn er vier meetniveaus: nominaal, ordinaal, interval en ratio. Categorische variabelen zijn nominaal of ordinaal.
Tot slot is er een onderscheid tussen discrete en continue variabelen. Een variabele is discreet wanneer de mogelijke waarden alleen bepaalde, afzonderlijke nummers zijn. Een variabele is continu wanneer de waarden alle mogelijke waarden kunnen aannemen. Neem bijvoorbeeld de variabelen aantal broers en zussen (een discrete variabele) en gewicht (een continue variabele). Aantal broers en zussen is een discrete variabele omdat de mogelijke waarden 0, 1, 2, 3, etc. kunnen zijn, maar geen 2,43 broer/zus. Dus niet alle waarden zijn hier mogelijk. Bij gewicht kan dit echter wel. Je kunt daar (in theorie) alle mogelijke waarden op hebben. Je kunt 70 kilo wegen, maar ook 70,1 en 70,5 en 70,52. Het is bij zo’n variabele onmogelijk om alle mogelijke waarden op te schrijven, omdat het te veel mogelijkheden zijn.
Randomisatie is het mechanisme achter het verkrijgen van een representatieve steekproef. Bij simpele random steekproeftrekking (of: aselecte steekproef) heeft ieder subject uit de populatie een even grote kans om in de steekproef terecht te komen. Je kunt het zien alsof je ieder lid van de populatie een nummer geeft, deze in een bak doet en er vervolgens willekeurig een aantal uittrekt. Deze willekeur is belangrijk, omdat je er zeker van moet zijn dat je data niet biased (vertekend) is. Dit zou de inferentiële statistiek nutteloos maken: je kunt dan niets zeggen over de populatie.
Data kan verzameld worden aan de hand van enquêtes, experimenten en observatiestudies. Bij al deze methoden kan randomisatie een rol spelen.
Ook al trek je meerdere volledig willekeurige steekproeven, dan nog zijn deze verschillend en wijken ze allebei anders af van de populatie. Het verschil heet de steekproeffout (sampling error); de mate waarin de statistiek (die voortvloeit uit een steekproef) verschilt van de parameter die de waarde in de populatie voorspelt. Met andere woorden, de steekproeffout geeft het percentage aan waarin de steekproef af kan wijken van de daadwerkelijke populatie. Bijvoorbeeld: in de populatie staat 66% achter het beleid van de regering, maar in de steekproef is dat 68%. De steekproeffout is in dat geval 2%. Verschillende steekproeven hebben verschillende steekproeffouten. In de meeste gevallen is de steekproeffout bij steekproeven van meer dan 1000 subjecten beperkt tot ongeveer 3%. Dit heet de foutmarge (margin of error), een term die vaak terugkomt in de statistiek omdat deze de kwaliteit van een onderzoek aan kan duiden.
Behalve simpele random steekproeven zijn er ook andere methoden. Het doen van een volledig aselecte steekproef is niet altijd mogelijk. Soms is het wenselijker of makkelijker om dat niet te doen. Er zijn ook andere methoden waarbij er toch nog sprake is van probability sampling (waarbij de waarschijnlijkheid van iedere steekproef bekend is) en van randomisatie (waarbij het doel een representatieve steekproef is).

Hoe werkt beschrijvende statistiek? – BulletPoints 3

Bij categorische data is het voor het overzicht het makkelijkst als de categorieën in een lijst staan met achter iedere categorie de frequentie (hoe vaak een waarde voorkomt). Om de categorieën beter met elkaar te kunnen vergelijken, worden vaak ook de relatieve frequenties weergegeven. De relatieve frequentie van een categorie geeft aan hoe vaak een subject binnen deze categorie valt, in vergelijking tot het geheel. Dit is te berekenen als percentage of als proportie. Het percentage is het totale aantal observaties binnen die categorie, gedeeld door het totale aantal observaties * 100. Er kunnen ook proporties berekend worden. Dat gaat op dezelfde manier, maar dan vermenigvuldig je niet met 100. De som van alle proporties moet uiteindelijk 1.00 zijn, en de som van alle percentages moet 100 zijn.
Naast tabellen wordt ook vaak gebruik gemaakt van meer visuele weergaven, zoals staafdiagrammen, taartdiagrammen, histogrammen en steelbladdiagrammen.
De vorm van een grafiek geeft informatie over de verdeling (of distributie) van de data. De meest voorkomende vorm is de normale verdeling (ook wel normale distributie genoemd), een soort opstaande bel-vorm (zie de afbeelding). Deze is symmetrisch. Als de x-as de waarde van een variabele aangeeft, geeft de y-as de relatieve frequentie aan dat die waarde voorkomt. Het hoogste punt ligt in het midden, de middelste waarde komt dus het vaakst voor.
Centrummaten geven een idee over waar het midden van de data ligt van een frequentiedistributie van een kwantitatieve variabele. De meest bekende is het gemiddelde: de som van de observaties gedeeld door de totale hoeveelheid observaties. Bijvoorbeeld: een variabele (y) heeft de waarden 34 (y1), 55 (y2) en 64 (y3). Het gemiddelde (ȳ) is (34 + 55 + 64)/3 = 51. Het gemiddelde spreek je uit als y-streepje.
De berekening van het gemiddelde ziet er in een formule als volgt uit: ∑ yi / n. Het symbool ∑ is de Griekse hoofdletter sigma, dit betekent de som van hetgeen wat erachter staat. De kleine letter i betekent 1 tot n (de steekproefgrootte). Dus ∑ yi betekent y1 + y2 + … + yn (dit zijn dus alle observaties bij elkaar opgeteld).
Het gemiddelde kan alleen gebruikt worden bij kwantitatieve data en is zeer gevoelig voor uitschieters (outliers, ook wel uitbijters genoemd); bijzonder hoge of bijzonder lage waarden.
Een tweede centrummaat is de mediaan. De mediaan is de middelste observatie. Als een variabele bijvoorbeeld de waarden 1, 3, 5, 8 en 10 heeft, dan is de mediaan 5. Indien er een even aantal observaties is, bijvoorbeeld 1, 3, 8 en 10, dan is de mediaan (3 + 8)/2 = 5,5.
Een derde maat is de modus: de waarde die het vaakst voorkomt. Deze is het nuttigst bij erg discrete variabelen, vooral bij categorische data, maar kan in principe voor alle typen gebruikt worden. De modus is ook nuttig bij bimodale distributies, waarbij de verdeling twee pieken heeft, bijvoorbeeld bij een opinieonderzoek waarin respondenten ofwel sterk tegen iets zijn ofwel sterk voor.
Naast het gebruik van centrummaten is het goed om ook de spreiding (ofwel variabiliteit) van de data te beschrijven. Je beschrijft dan de variabiliteit van de waardes van een variabele uit de data, bijvoorbeeld de spreiding van het inkomen van de respondenten. Er zijn verschillende manieren om de spreiding weer te geven.
Ten eerste kan het bereik (range) worden vermeld: het verschil tussen de laagste en de hoogste observatie. Bijvoorbeeld: de waarden 4, 10, 16 en 20. Het bereik is 20 – 4 = 16.
De meest gebruikte methode om de spreiding weer te geven, is echter de standaarddeviatie (s). Een deviatie in het algemeen is het verschil tussen een gemeten waarde (yi) en het gemiddelde van de steekproef (ȳ), ofwel (yi – ȳ). Elke observatie heeft zijn eigen deviatie. Deze kan zowel positief als negatief zijn. Hij is positief wanneer de observatie een hogere waarde heeft dan het gemiddelde, en negatief wanneer deze een lagere waarde heeft dan het gemiddelde. Behalve dat je dit voor iedere observatie apart kan doen, kan je ook de standaarddeviatie van een variabele berekenen, door de som te nemen van alle losse deviaties. Hierbij hoort de volgende formule:

$s = \sqrt{\frac{\sum (y_i-\bar{y})^2}{n-1}}$

De variantie is het gemiddelde van de kwadraten van de deviaties. De standaarddeviatie wordt vaker gebruikt om de spreiding aan te geven dan de variantie.
Er is een vuistregels voor het interpreteren van s, deze regel heet de empirische regel: 68% van de data ligt tussen ȳ – s en ȳ + s, 95% tussen de ȳ – 2s en ȳ + 2s, en vrijwel alle observaties vallen tussen ȳ – 3s en ȳ + 3s.
Distributies kun je uitdrukken aan de hand van allerlei posities. Een manier om een distributie in te delen, is bijvoorbeeld in percentielen. Het pde percentiel is het punt waarbij p% van de observaties onder of op dat punt vallen en de rest van de observaties, namelijk (100-p)%, erboven. Let op, met percentiel wordt specifiek dat punt op de grafiek bedoeld, niet een deel van de grafiek.
Een andere manier om een distributie in te delen, is in vieren. Het 25e percentiel heet dan het eerste kwartiel (in het Engels lower quartile) en het 75e percentiel heet het derde kwartiel (in het Engels upper quartile). De helft van de data ligt hiertussen en wordt de interkwartielafstand genoemd (afgekort IQR). De mediaan verdeelt de IQR in tweeën. Het eerste kwartiel is de mediaan van de eerste helft en het derde kwartiel is de mediaan van de tweede helft. Het voordeel van de IQR tegenover het bereik en de standaarddeviatie is dat de IQR niet gevoelig is voor uitschieters.
Om een distributie weer te geven, kam de vijf-getallensamenvatting worden gebruikt: minimum, eerste kwartiel, mediaan, derde kwartiel en maximum. Deze vijf posities kun je tonen in een boxplot, een grafiek die aan de hand van deze vijf posities de spreiding weergeeft.
Een andere positie is de z-score. Dit is het aantal standaarddeviaties dat een waarde afligt van het gemiddelde. De formule hiervoor is: z = (observatie – gemiddelde) / standaarddeviatie.
Meestal wordt het effect bestudeerd dat een verklarende variabele (ofwel onafhankelijke variabele) heeft op een responsvariabele (ofwel afhankelijke variabele). De uitkomst van de responsvariabele wordt uitgelegd door de verklarende variabele.
De invloed die een variabele heeft op een andere variabele, kan op verschillende manieren visueel worden weergegeven. Een kruistabel (contingency table) bestaat uit rijtjes met de uitkomsten van de combinatie van variabelen. Een puntgrafiek (scatterplot) is een grafiek met op de x-as de verklarende variabele en op de y-as de responsvariabele. Een puntgrafiek heeft voor elke uitkomst waarbij aan de twee variabelen wordt voldaan een puntje. De sterkte van de associatie wordt de correlatie genoemd. Met regressieanalyse kan worden voorspeld wat de waarde van y is bij een gegeven waarde x. Als er een associatie is tussen variabelen, betekent dit echter niet per se dat er ook een causaal verband is. Er kan ook sprake zijn van meerdere variabelen, dan is multivariate analyse nodig.

Hoe gebruik je kansverdelingen voor statistische inferentie? – BulletPoints 4

Bij een discrete variabele geeft de kansverdeling de kansen weer bij elke mogelijke waarde van de variabele. Elke kans is een getal tussen de 0 en de 1. De som van alle kansen staat gelijk aan 1. De kansen kunnen worden genoteerd als zijnde P(y). Hierbij is P de kans op een bepaalde waarde van y. In formule ziet dit er als volgt uit: 0 ≤ P(y) ≤ 1, en ∑alle y P(y) = 1.
Omdat een continue variabele een ontelbaar aantal mogelijke waarden heeft, kan de kansverdeling niet bij elke waarde een kans tonen. Daarom geeft deze de kans weer van intervallen van mogelijke waarden. De kans dat een waarde binnen een bepaald interval ligt, ligt tussen de 0 en de 1. De kans dat alle mogelijke waarden binnen het interval liggen, is 1. Deze kansverdelingen worden weergegeven in een curve. Stel dat in een interval 20% van de data bevindt, dan is de kans dat een waarde zich binnen dat interval bevindt 0,20.
De normale verdeling is een belangrijke kansverdeling, omdat veel variabelen er in de werkelijkheid zo uit zien en omdat er heel veel statistische voorspellingen mee gedaan kunnen worden. De normale verdeling is symmetrisch, heeft een belvorm en heeft een gemiddelde (µ) en een standaarddeviatie (σ). De empirische regel is erop van toepassing: 68% valt binnen 1 standaarddeviatie, 95% valt binnen 2 standaarddeviaties en 97% valt binnen 3 standaarddeviaties.
De z-score is het aantal standaarddeviaties dat de variabele y van het gemiddelde afligt; ofwel in hoeverre er wordt afgeweken. Bij een positieve z-score valt y boven het gemiddelde, bij een negatieve score eronder. Als onder studenten het gemiddelde cijfer voor het vak Geschiedenis van de psychologie bijvoorbeeld een 6 is, dan heeft de student die een 9 heeft een hoge z-score en de student die een 4 heeft een lage z-score.
Een normale verdeling kun je omzetten naar een standaardnormale verdeling, dit is een bepaalde distributie die vaak gebruikt wordt en die bestaat uit de z-scores. Je kunt een variabele y dus omzetten naar z door er het gemiddelde vanaf te trekken en vervolgens te delen door de standaarddeviatie. Wat overblijft, is een verdeling waarbij µ = 0 en σ = 1.
Een bivariate normale verdeling is een voorbeeld van een bivariate kansverdeling. Bij een verdeling met twee variabelen (y en x), zijn er twee gemiddelden (µy en µx) en twee standaarddeviaties (σy en σx). De covariantie is de manier waarop y en x samen variëren en heeft de volgende formule: Covariantie (x, y) = E[(x – µx)(y – µy)].
Omdat soms niet bekend is hoe de populatie eruitziet, worden steekproeven gebruikt. De statistieken uit de steekproeven zeggen iets over de verwachte parameters uit de populaties. Een steekproefverdeling geeft de kansverdeling van steekproefgrootheden (het is niet de verdeling van de uitkomsten in een steekproef). Elke statistiek heeft een steekproefverdeling (zoals een voor de mediaan, voor het gemiddelde, etc.). Het is een kansverdeling die de kansen weergeeft van de mogelijke uitkomsten van een statistiek. Het nut van een dergelijke steekproefverdeling is inschatten hoe dicht een statistiek ligt bij de voorspelde parameter.
Het gemiddelde is een veel gebruikte centrummaat. Maar wanneer het gemiddelde uit de steekproef bekend is, is nog niet bekend hoe dicht die ligt bij het gemiddelde van de populatie. Het is dus nog onbekend of ȳ = µ. Maar omdat de steekproefverdelingen al bekend zijn, kunnen er toch uitspraken over gedaan worden. Bijvoorbeeld dat er een hoge kans is dat ȳ binnen tien waarden van µ ligt. Echter, als er heel vaak een steekproef wordt getrokken, dan zal blijken dat het gemiddelde van deze steekproeven gelijk is aan het gemiddelde van de populatie. Het gemiddelde van een steekproefverdeling is dan ook gelijk aan het gemiddelde van de populatie.
De spreiding van de steekproefverdeling van ȳ wordt beschreven door de standaarddeviatie van ȳ, dit wordt de standaardfout van ȳ genoemd. Deze wordt genoteerd als σȳ. Het nut van de standaardfout is aangeven hoeveel het gemiddelde per steekproef varieert, daarmee geeft de standaardfout informatie over hoe waardevol de steekproeven zijn. De standaardfout kan worden berekend aan de hand van de volgende formule:

σȳ = Standard error, standaardfout

De steekproeffout en de standaardfout zijn twee verschillende dingen. De steekproeffout is de aanduiding dat de steekproef en de populatie van elkaar verschillen wat betreft het gemiddelde. De standaardfout is een meting die aangeeft hoeveel steekproeven van elkaar verschillen wat betreft het gemiddelde.
Ongeacht de vorm van een populatiedistributie, de vorm van de steekproefverdeling van ȳ is altijd een belvorm, een normale verdeling. Dit wordt de centrale limietstelling genoemd. Ook al is de populatiedistributie zeer scheef verdeeld of heeft deze erg discrete waarden, dan nog heeft de steekproefverdeling een belvorm. Wanneer de populatie echter zeer scheef verdeeld is, moet de steekproef wel steeds groter worden om meer deze belvorm aan te nemen. Hoe schever de populatie verdeeld is, hoe groter de steekproef moet zijn. Voor kleine steekproeven gaat de centrale limietstelling niet per se op.
Omdat steekproeven trekken essentieel is voor statistiek, is het onderscheid tussen drie verdelingen erg belangrijk: (1) De populatiedistributie beschrijft het geheel van de daadwerkelijke bevolking waaruit de steekproef wordt getrokken. De parameters µ en σ beschrijven het populatiegemiddelde en de standaarddeviatie van de populatie. (2) De steekproefdataverdeling (sample data distribution) is de verdeling van de observaties die zijn gemaakt tijdens de steekproef. Het steekproefgemiddelde ȳ en de standaarddeviatie s van de steekproef beschrijven de curve. (3) De steekproefverdeling (sampling distribution) geeft de kansen weer dat een statistiek van de steekproef, zoals het steekproefgemiddelde, bepaalde waarden heeft. Hiermee geeft het aan hoeveel steekproeven van elkaar kunnen verschillen.
Volgens de centrale limietstelling heeft de steekproefverdeling de vorm van een normale verdeling. Puur uit deze vorm kunnen gegevens worden afgeleid. De mogelijkheid om gegevens af te leiden, is de reden dat de normale verdeling zo belangrijk is binnen de statistiek.

Hoe maak je schattingen voor statistische inferentie? – BulletPoints 5

Er zijn twee typen parameterschattingen: 1) Puntschatting (een getal dat de beste schatting is), en 2) Intervalschatting (een interval rond een puntschatting, waarvan je denkt dat de populatieparameter erin valt).
Er is een verschil tussen een estimator (de schattingsmethode) en een estimate point (de schatting zelf). De estimator is het schatten op zich, het estimate (point) is het getal dat eruit komt. Zo is een steekproef een estimator voor de populatieparameter en is bijvoorbeeld 0.73 een schatting van de proportie van de populatie die gelooft in liefde op het eerste gezicht.
Een goede estimator is onpartijdig (unbiased; de steekproefdistributie is gecentreerd rond de parameter) en efficiënt (kleinste standaardfout).
Meestal gebruik je gewoon het steekproefgemiddelde als estimator voor het populatiegemiddelde, de steekproefstandaarddeviatie als estimator voor de populatiestandaarddeviatie, etc. Dit wordt aangeduid door een circumflex (dakje) op een symbool, $mu hat$ (mu-dakje) betekent een schatting van het populatiegemiddelde µ.
Een betrouwbaarheidsinterval is een intervalschatting voor een parameter. In dit interval vallen betrouwbare schattingen van de parameter. Je kijkt hiervoor naar de distributie van de steekproef, wat vaak een normale verdeling is. Voor een betrouwbaarheidsinterval met 95% zekerheid, valt de schatting van de parameter binnen twee standaardfouten van het gemiddelde. In de praktijk vermenigvuldig je eerst de standaardfout met de z-waarde. De uitkomst tel je dan bij de puntschatting op en trek je van de puntschatting af, waarmee je twee getallen krijgt, die samen het betrouwbaarheidsinterval vormen. Je kunt nu met 95% zekerheid zeggen dat een populatieparameter tussen deze twee getallen ligt. De z-waarde maal de standaardfout noem je ook wel de foutmarge (margin of error).
De onbekende proportie van een populatie wordt aangeduid met het teken: π. Dit kan bijvoorbeeld het deel van de bevolking zijn dat het eens is met de stelling dat er meer lantaarnpalen moeten komen. De steekproefproportie is de puntschatting van de populatieproportie. Hiermee schat je de populatie proportie. Je geeft de steekproefproportie aan met het teken $pi hat$ (want het is een schatting van de daadwerkelijke proportie).
Aangezien de centrale limietstelling van toepassing is op de verdeling van het steekproefgemiddelde, heeft dit de vorm van een normale verdeling (want het gaat om een steekproefgrootheid). Omdat het een normale verdeling is, valt 95% binnen twee standaarddeviaties van het gemiddelde. Dit wordt gebruikt als het betrouwbaarheidsinterval. Voor het berekenen van een betrouwbaarheidsinterval is de standaardfout nodig. Omdat de standaardfout van de populatie vaak onbekend is, wordt de standaardfout van een schatting uit de steekproef gebruikt. Dit wordt aangeduid als se. De formule voor de schatting van de standaardfout vanuit de steekproef is:

$standaardfout vanuit de steekproef$

De algemene formule voor een betrouwbaarheidsinterval is: $pi hat$ ± z(se).
De foutkans (error probability) is de kans dat de parameter niet binnen het ingeschatte betrouwbaarheidsinterval valt. Dit wordt aangegeven met α (de Griekse letter alpha), en is 1 – betrouwbaarheidsniveau. Bij een betrouwbaarheidsniveau van 0.98 is de foutkans bijvoorbeeld 0.02.
Als de steekproef te klein is, zegt het betrouwbaarheidsinterval niet zoveel omdat de foutkans te groot is. Als vuistregel moeten minstens 15 observaties binnen een categorie vallen en minstens 15 observaties buiten een categorie.
Een betrouwbaarheidsinterval berekenen voor een gemiddelde gaat op dezelfde manier als voor een proportie. Ook bij een gemiddelde is het betrouwbaarheidsinterval: puntschatting ± foutmarge. De foutmarge bestaat hier uit een t-score (in plaats van een z-score) maal de standaardfout. De t-score komt uit de t-distributie, een verdeling die betrouwbaarheidsintervallen geeft voor alle steekproefgroottes, zelfs hele kleine steekproeven. De standaardfout wordt berekend door de standaarddeviatie van de steekproef (s) te delen door de wortel van de steekproefgrootte (n). De puntschatting is in dit geval het steekproefgemiddelde ȳ.
De standaarddeviatie van de t-distributie hangt af van de vrijheidsgraden (degrees of freedom), aangeduid als df. De standaarddeviatie van de t-distributie is daarmee ietsje groter dan 1. De vrijheidsgraden worden als volgt berekend: df = n – 1.
Om de steekproefgrootte te bepalen, moeten eerst de gewenste foutmarge en het gewenste betrouwbaarheidsniveau worden bepaald. De gewenste foutmarge wordt aangeduid als M.
De formule voor het vinden van de juiste steekproefgrootte om een populatieproportie in te schatten, is:

$n voor populatieproportie$

De formule voor het vinden van de juiste steekproefgrootte om een populatiegemiddelde in te schatten, is:

$n voor populatiegemiddelde$

De gewenste steekproefgrootte hangt naast de foutmarge en het betrouwbaarheidsniveau ook af van de variabiliteit. Als de data erg verspreid ligt, is een grotere steekproefgrootte nodig.
Behalve gemiddelden en proporties, kunnen ook andere statistieken nuttig zijn voor het beschrijven van de data. Om puntschattingen te maken, ook voor andere statistieken, ontwikkelde R.A. Fisher de methode genaamd de meest aannemelijke schatter. Dit is een schattingsmethode die als schatting van een parameter die waarde kiest, waarvoor de aannemelijkheidsfunctie maximaal is. De aannemelijkheidsfunctie kan ook worden weergegeven als een curve, waarmee visueel gelijk duidelijk kan worden waar het hoogste punt van aannemelijkheid ligt. Hoe aannemelijk een parameterwaarde is, wordt gemeten aan de kans op het vinden van een steekproefuitkomst bij die waarde van de parameter.
Als de vorm van de populatiedistributie niet bekend is, kan de bootstrap methode worden gebruikt. Software behandelt dan de steekproef alsof het de populatiedistributie is en genereert er een nieuwe 'steekproef' bij, dit proces wordt vele malen herhaald. De bootstrap methode kan op deze manier bijvoorbeeld de standaardfout en het betrouwbaarheidsinterval vinden.

Hoe gebruik je significantietoetsen? – BulletPoints 6

Een hypothese is een voorspelling dat een parameter binnen de populatie een bepaalde waarde heeft of binnen een bepaald interval valt. Er valt een onderscheid te maken tussen twee soorten hypotheses. Een nulhypothese (H0) is de veronderstelling dat de parameter een bepaalde waarde aanneemt. Daar tegenover staat een alternatieve hypothese (Ha), ook wel onderzoekshypothese genoemd, de veronderstelling dat de parameter juist in een bereik buiten die waarde valt. Meestal is de nulhypothese geen effect en is de alternatieve hypothese wel effect. Bij een significantietoets (ook wel hypothesetoets of kortgezegd toets) wordt meestal onderzocht of er genoeg ondersteunend materiaal is voor de alternatieve hypothese. Een significantietoets vergelijkt puntschattingen van parameters met de verwachte waarden van de nulhypothese.
Significantietoetsen bestaan uit vijf delen: 1) Assumpties. Elke test maakt aannames over het type data (kwantitatief/categorisch), de vereiste randomisatie, de populatieverdeling (bijvoorbeeld normale verdeling) en de steekproefgrootte. 2) Hypothesen. Elke test heeft een nulhypothese en een alternatieve hypothese. 3) Toetsingsgrootheid. Deze geeft aan hoe ver de schatting af ligt van de parameterwaarde van H0. Dit wordt vaak weergegeven door het aantal standaardfouten tussen de schatting en de H0-waarde. 4) P-waarde. Deze geeft de kans dat, in de verdeling gegeven door de nulhypothese, de waarde van de toetsingsgrootheid wordt behaald of overschreden. De P-waarde geeft aan hoe sterk het bewijs is dat H0 niet klopt. Let op, hoe kleiner de P-waarde, hoe meer bewijs er is dat H0 niet klopt en Ha wel. 5) Conclusie. Deze hoort de P-waarde te interpreteren, en eventueel een uitspraak te doen over H0 (verwerpen/aannemen).
Bij tweezijdige toetsen bevindt de kritische regio zich aan beide kanten (beide staarten) van de normale verdeling. In de meeste gevallen wordt een hypothese tweezijdig getoetst. In sommige gevallen heeft een onderzoeker echter al een vermoeden over de richting van een effect, bijvoorbeeld dat een bepaalde vleessoort ervoor zorgt dat mensen aankomen, of is het natuurkundig onmogelijk dat de richting van het effect andersom zou zijn. In dit soort gevallen kan er eenzijdig getoetst worden. Op deze manier kan een specifiek vermoeden makkelijker getoetst worden. Bij een eenzijdige toets bevindt de kritische regio zich alleen in één staart van de normale verdeling. Welke staart dit is, hangt af van de alternatieve hypothese. Als er in de alternatieve hypothese staat dat gewicht na inname van een product zal toenemen, bevindt de kritische regio zich in de rechterstaart. Als de alternatieve hypothese echter beweert dat gewicht zal afnemen na het consumeren van een product, dan zal de kritische regio zich in de linkerstaart bevinden. Bij tweezijdige toetsen is Ha: µ ≠ µ0 (het populatiegemiddelde mag dus alles behalve een bepaalde waarde zijn), bij eenzijdige toetsen is Ha: µ > µ0 of Ha: µ < µ0 (het populatiegemiddelde moet dus óf groter, óf kleiner zijn dan een bepaalde waarde).
Meestal wordt de H0 verworpen als P kleiner of gelijk is aan 0.05 of aan 0.01. Deze grenswaarde heet het alfaniveau of significantieniveau, weergegeven met α. Hoe kleiner het alfaniveau, hoe voorzichtiger het onderzoek en hoe sterker het bewijs moet zijn dat de nulhypothese niet klopt.
Het uitvoeren van significantietoetsen voor proporties werkt op een soortgelijke manier als significantietoetsen voor gemiddelden. Bij een categorische variabele kan de steekproefproportie helpen om de populatieproportie te toetsen.
De P-waarde kan worden gevonden met software of worden opgezocht in een tabel. Ook apps op internet kunnen de P-waarde vinden. De P-waarde geeft aan hoe groot de kans is op de geobserveerde proportie als H0 waar zou zijn. Bij eenzijdig toetsen wordt de kans op een z-waarde direct gegeven, bij tweezijdig toetsen moet de kans op een z-waarde verdubbeld worden.
Ook conclusies trekken werkt op een soortgelijke manier voor proporties als voor gemiddelden. Hoe kleiner de P-waarde, des te sterker het bewijs tegen H0. De nulhypothese wordt verworpen als P groter is dan α bij een alfaniveau zoals 0,05. Zelfs bij sterk bewijs voor H0 wordt H0 wordt meestal niet geaccepteerd maar voorzichtig 'niet verworpen'.
Om anderen meer inzicht te geven in een significantietoets, is het beter om de P-waarde te geven dan om enkel te vermelden of de alternatieve hypothese is geaccepteerd is of niet. Deze benadering, waarbij het meer aan de lezer van een onderzoek wordt overgelaten om conclusies te trekken, is een idee van Fisher. De verzameling waarden waarbij de nulhypothese wordt verworpen heet het kritieke gebied (rejection region).
Van een type 2 fout is sprake wanneer een onderzoeker een nulhypothese niet afwijst, terwijl deze echt verkeerd is. Bij een type 1 fout wordt de nulhypothese juist onterecht verworpen. Hoe kleiner de kans op een type 1 fout, hoe groter de kans op een type 2 fout.
Het is belangrijk rekening te houden met het feit dat statistische significantie niet hetzelfde is als praktische significantie. Een significant effect vinden betekent niet dat het een belangrijke vondst is in een praktische zin. De grootte van P geeft simpelweg aan hoeveel bewijs er is tegen H0, niet hoe ver de parameter verwijderd is van H0.
Een significant effect zegt niet meteen dat een behandeling een groot effect heeft. Iets is significant of niet, maar dit zegt niets over de grootte van het effect dat gevonden is. Een significant effect is dus niet hetzelfde als een groot effect. Om meer inzicht te krijgen in de grootte van een significant effect, is het mogelijk om de effectgrootte te berekenen. Deze maat kan berekend worden door eerst het verschil tussen het steekproefgemiddelde en de waarde van het populatiegemiddelde bij de nulhypothese te vinden (M- µ0), en de uitkomst hiervan vervolgens te delen door de standaarddeviatie van de populatie. Een effectgrootte van 0,2 of minder is niet praktisch significant.
De power van een toets is de kans dat de toets de nulhypothese zal afwijzen als deze ook echt fout is. De power gaat dus om het vinden van een effect als dit effect ook daadwerkelijk bestaat. De formule voor het berekenen van de power van een bepaalde parameterwaarde is: power = 1 – P (type 2 fout). Hoe kleiner de kans op een type 2 fout, hoe groter de power.
Proporties inschatten aan de hand van hele kleine steekproeven is lastig. Van de uitkomsten van een kleine steekproef met categorische discrete variabelen, zoals het opgooien van een muntje, kan een kansverdeling worden gemaakt, dit heet de binomiale distributie.
Het uitroepteken achter een letter, n!, heet n faculteit (dit is iets anders dan een afdeling binnen een universiteit). De faculteit is het product van alle getallen tot en met n, dus 1 x 2 x 3 x... x n.

Hoe vergelijk je twee groepen met elkaar in de statistiek? – BulletPoints 7

In de sociale wetenschappen worden vaak twee groepen met elkaar vergeleken. Bij kwantitatieve variabelen worden gemiddelden vergeleken, bij categoriale variabelen proporties. Wanneer je twee groepen met elkaar vergelijkt, creëer je een binaire variabele: een variabele met twee categorieën (soms ook wel dichotoom genoemd). Stel bijvoorbeeld dat je mannen en vrouwen vergelijkt, dan creëer je een binaire variabele ‘geslacht’ met de twee categorieën mannen en vrouwen. Het vergelijken van deze groepen is een voorbeeld van een bivariate statistische methode.
Twee groepen kunnen afhankelijk en onafhankelijk van elkaar zijn. De groepen zijn afhankelijk wanneer de respondenten van nature matchen met elkaar, bijvoorbeeld wanneer je dezelfde groep gebruikt voor en na een meting. Een longitudinaal onderzoek (met dezelfde subjecten maar op verschillende momenten in de tijd) is dan ook een voorbeeld van een afhankelijke steekproef. Er is sprake van een onafhankelijke steekproef wanneer er geen matching is tussen de groepen, bijvoorbeeld wanneer je gebruik maakt van randomisatie. Een voorbeeld van een onafhankelijke steekproef is een cross-sectioneel onderzoek, waarbij er een dwarsdoorsnede van de populatie wordt gemaakt.
Het verschil tussen de proporties van twee populaties (π2 – π1) wordt geschat door het verschil tussen de steekproefproporties ( $\hat{\pi}_2 - \hat{\pi}_1$ ). Als de steekproeven echter erg groot zijn, is het verschil ertussen klein.
Voor de twee gemiddelden van de populatie (µ₂ – µ₁) kan een betrouwbaarheidsinterval worden berekend aan de hand van de steekproefverdeling (ȳ2 – ȳ1).
Bij afhankelijke steekproeven wordt gematchte paren data vergeleken. Bij een longitudinaal onderzoek (met dezelfde subjecten maar op verschillende momenten in de tijd) wordt gebruik gemaakt van herhaalde metingen. Een voorbeeld is een crossover study, waarbij een subject een bepaalde behandeling krijgt en later een andere behandeling.
Als er gematchte paren worden vergeleken, ontstaat er voor elk paar een variabele (genaamd yd): verschil = observatie in steekproef 2 – observatie in steekproef 1. Het steekproefgemiddelde is dan ȳd. Een regel bij gematchte paren is dat het verschil tussen de gemiddelden gelijkstaat aan het gemiddelde van de verschillende scores.
Als een significantietoets over verschillende observaties voor afhankelijke paren gaat, heet het de gepaarde t-toets.
Naast een gepaarde t-toets, zijn er ook andere methoden voor het vergelijken van gemiddelden. Deze methoden zijn onder andere: verondersteld identieke standaarddeviaties, gerandomiseerd blokontwerp, effectgrootte en een model.
Een manier om gemiddelden te vergelijken, is een model gebruiken. Een model is een simpele benadering van de echte verhouding tussen twee (of meer) variabelen in de populatie. We kunnen bijvoorbeeld uitgaan van een normale verdeling met een gemiddelde en een standaarddeviatie, op te schrijven als N(µ, σ). y1 is een observatie van groep 1 en y2 is een observatie van groep 2. Een model kan dan zijn: H0 : y1 heeft als verdeling N(µ, σ1) en y2 heeft als verdeling N(µ, σ2). Ha : y1 heeft als verdeling N(µ1, σ1) en y2 heeft als verdeling N(µ2, σ2) en µ1 ≠ µ2
Hierbij wordt dus onderzocht of de gemiddelden verschillen. Er wordt niet aangenomen dat de standaarddeviaties hetzelfde zijn, want dat zou de werkelijkheid misschien teveel simplificeren, waardoor grote fouten kunnen optreden.
Zelfs voor afhankelijke steekproeven of hele kleine steekproeven zijn er methoden om proporties te vergelijken. Voor afhankelijke steekproeven kunnen proporties worden vergeleken met een z-score die de proporties vergelijkt, of met McNemar's toets, of met een betrouwbaarheidsinterval. Voor kleine steekproeven is Fishers exacte toets geschikt.
Parametrische methoden gaan uit van een bepaalde vorm van de distributie, zoals de normale verdeling. Nonparametrische methoden maken geen aannames over de vorm van een distributie.
Nonparametrische methoden voor het vergelijken van groepen worden vooral gebruikt bij kleine steekproeven en erg scheve verdelingen. Voorbeelden zijn de Wilcoxon toets, Mann-Whitney toets en nonparametrische effectgrootte meting.
Een andere optie is ordinale variabelen behandelen als kwantitatieve variabelen. Hierbij krijgt elke categorie een score. Dit werkt soms makkelijker dan wanneer klassementen als ordinale variabelen worden behandeld.

Hoe kun je het verband tussen categorische variabelen analyseren? – BulletPoints 8

Een kruistabel (contingency table) bevat categorische data waarbij de uitkomsten van alle mogelijke combinaties worden weergegeven. Een 4x5 kruistabel heeft 4 rijen (van links naar rechts) en 5 kolommen (van boven naar beneden). Een kruistabel geeft vaak percentages weer, dit wordt relatieve data genoemd.
Twee categorische variabelen zijn statistisch onafhankelijk wanneer de kans op het voorkomen van de ene gebeurtenis los staat van de kans dat de andere gebeurtenis voorkomt. Anders gezegd: ze zijn statistisch onafhankelijk wanneer de kansverdeling van de mogelijke uitkomsten van de ene variabele niet wordt beïnvloed door de uitkomsten van de andere variabele. Gebeurt dat wel, dan zijn ze statistisch afhankelijk.
Een geobserveerde frequentie (fo) is het aantal keer dat een bepaalde observatie is gemaakt, het wordt weergegeven in een cel. Een verwachte frequentie (fe) is het aantal dat verwacht wordt als de nulhypothese klopt, dus als de variabelen onafhankelijk zijn. Je berekent de verwachte frequentie van een cel door het totaal van de rij en het totaal van de kolom op te tellen en vervolgens te delen door de steekproefgrootte.
Bij een significantietoets voor onafhankelijkheid wordt een aparte toetsingsgrootheid gebruikt. X² duidt aan hoe dicht de verwachte frequenties bij de geobserveerde frequenties liggen. De toets die met X²wordt uitgevoerd, heet de chi-kwadraattoets. De formule voor de toetsingsgrootheid bij de chi-kwadraattoets is:

$X^2 = \sum \frac{(f_o-f_e)^2}{f_e}$

De kansverdeling van de toetsingsgrootheid X² is een multinomiale distributie. Dit wordt de chi-kwadraat kansverdeling genoemd. Het symbool χ² van de chi-kwadraatverdeling is de overeenkomstige Griekse letter van het symbool X² van de toetsingsgrootheid.
X² wordt niet alleen gebruikt voor gemiddelden maar ook voor proporties. De uitkomsten van een onderzoek (bijvoorbeeld 'ja' of 'nee') kunnen dan worden ingedeeld in succes en geen succes. π₁ geeft dan de proportie van successen in groep 1 aan en π₂ de proportie van successen in groep 2. Als de responsvariabele onafhankelijk is van de populaties, dan is π₁= π₂. Deze nulhypothese heet een homogeniteitshypothese. De chi-kwadraattoets wordt ook wel homogeniteitstoets genoemd. De toetsingsgrootheid is als volgt:

$z = \frac{{\hat{\pi}_2 - \hat{\pi}_1}}{se_0}$ waarbij X² = z²

Als de P-waarde van een chi-kwadraattoets erg klein is, dan is er sterk bewijs dat er een verband is tussen de variabelen. Er wordt hiermee echter niks gezegd over hoe de variabelen samenhangen of hoe sterk het verband is. Daarom zijn residuen belangrijk. Een residu is het verschil tussen de geobserveerde en verwachte frequentie in een cel: f_o – f_e. Als een residu positief is, dan is de geobserveerde frequentie groter. Een gestandaardiseerd residu geeft aan wanneer bij welk getal H₀ klopt en er sprake is van onafhankelijkheid.
Bij het analyseren van een kruistabel, beoogt een onderzoek de volgende informatie te vinden: of er een verband is (gemeten door de chi-kwadraattoets), hoe de data verschilt van onafhankelijkheid (gemeten door gestandaardiseerde residuen), hoe sterk het verband is tussen variabelen.
Er zijn verschillende manieren om een verband te meten, deze methoden (measures of association) vergelijken de meest extreme vorm van een verband met de meest extreme afwezigheid daarvan, en bepalen waar de data zich daartussenin bevindt.
De chi-kwadraattoets meet enkel hoeveel bewijs er is dat er een verband is, niet hoe sterk het verband is. Bij een grote steekproef kan er bijvoorbeeld veel bewijs worden gevonden dat er een zwak verband bestaat.
Als de uitkomsten van een binaire responsvariabele worden aangeduid als succes of geen succes, dan kunnen de odds worden uitgerekend: odds of success = kans op succes – kans op falen. Als de odds bijvoorbeeld op 3 uitkomen, dan is succes drie keer zo waarschijnlijk als geen succes. De kans op een bepaalde uitkomst is odds / (odds + 1). De odds ratio van 2x2 kruistabel vergelijkt de odds van een groep met de odds van een andere groep: odds van rij 1 / odds van rij 2. De odds ratio wordt weergegeven als θ .
Bij ordinale variabelen kan zich een positief of een negatief verband voordoen. Een positief verband houdt in dat een hoge score op de x-as, ook een hoge score op de y-as betekent. Een negatief verband betekent dat een hoge score op de x-as juist een lage score heeft op de y-as, en bij een lage score op de x-as is er juist een hoge score op de y-as.
Een paar van observaties kan concordant zijn of discordant. Een paar van observaties is concordant wanneer het subject dat hoger scoort op de ene variabele ook hoger scoort op de andere variabele (dit geeft bewijs van een positief verband). Een paar observaties is disconcordant wanneer het subject dat hoger scoort op een variabele juist lager scoort op de andere (bewijs van een negatief verband).
Omdat er bij grotere steekproeven meer paren zijn en vaker grotere verschillen tussen de waarden, standaardiseren we het verschil. Dit standaardiseren geeft gamma, dit wordt genoteerd als ŷ (niet y-streepje maar y-dakje). Gamma meet het verband tussen variabelen. De formule hiervoor is: ŷ = (C – D) / (C + D) waarbij c staat voor alle concordante paren en d voor alle disconcordante paren.
De eigenschappen van gamma zijn dat de waarde tussen -1 en +1 ligt, dat gamma aangeeft of het verband positief danwel negatief is en dat gamma zegt hoe sterk een verband is (hoe groter gamma, hoe sterker het verband tussen twee variabelen). Een gamma van 0,17 duidt bijvoorbeeld op een positief maar zwak verband.

Hoe werken lineaire regressie en correlatie? – BulletPoints 9

De responsvariabele wordt weergegeven met y en de verklarende variabele met x. Een lineaire functie houdt in dat er een rechte lijn is door de datapunten in een grafiek. Deze functie heeft deze vorm: y = α + β (x). Hierbij is de Griekse letter alpha (α) de intercept, en de Griekse letter bèta (β) de hellingscoëfficiënt.
De y-intercept is de waarde van y wanneer x = 0. Want als x = 0, dan vervalt β(x) en blijft alleen y = α over. De y-intercept is het punt waarop de lijn op de y-as begint.
De hellingscoëfficiënt geeft de verandering aan in y, bij een toename van 1 punt bij x. Wanneer x er 1 punt bij krijgt, verandert y met β. De hellingscoëfficiënt geeft dus letterlijk aan hoe steil de helling is. Over het algemeen is het zo dat hoe groter β, hoe steiler de regressielijn.
Een lineaire functie is een voorbeeld van een model; een versimpelde benadering van het verband tussen variabelen in de populatie. Een model is dus niet de werkelijkheid maar een versimpelde weergave ervan. Er zijn goeie modellen en slechte modellen. Met een regressiemodel wordt meestal een complexer model bedoeld dan een lineaire functie.
De variabele y wordt geschat met ŷ (y met een dakje). De vergelijking wordt benaderd door de voorspellingsvergelijking (prediction equation): ŷ = a + b(x). Deze lijn zal de ‘beste’ lijn weergeven, in de zin dat deze het dichtste ligt bij alle datapunten. In de voorspellingsvergelijking is a = ȳ – bx̄ en:

$b = \frac{\sum (x-\bar{x})(y-\bar{y})}{\sum (x - \bar{x})^2}$

De beste voorspellingsvergelijking is die met de kleinste residuen. Om die te vinden, worden de residuen van de datapunten gekwadrateerd en opgeteld. Dit heet SSE (sum of squared errors). SSE geeft dus aan hoe goed of slecht ŷ is in het inschatten van y. De formule voor de SSE is: Σ (y – ŷ)².
De kleinste-kwadratenmethode houdt in dat a en b in de formule ŷ = a + b(x) de waarden hebben waarbij de SSE zo klein mogelijk is. De lijn die ontstaat heet de kleinste-kwadratenlijn, dit is de beste lijn van alle mogelijke lijnen. In de meeste software heet de SSE de residual sum of squares.
Bij een regressieformule y = a + b(x) hoort bij elke x-waarde eenzelfde y-waarde. Dit heet een deterministisch model. Zo werkt het in de werkelijkheid meestal niet. Bijvoorbeeld als het aantal relaties dat iemand heeft gehad (y) wordt voorspeld door leeftijd (x), dan heeft niet iedereen met dezelfde leeftijd hetzelfde aantal relaties gehad. In plaats van een deterministisch model is een probabilistisch model dan beter; een model waarin er variabiliteit is in de waarde van y. Er kan dan gebruik worden gemaakt van een conditionele distributie, een verdeling waarbij er een extra conditie geldt, namelijk dat x een bepaalde waarde heeft. Er kan bijvoorbeeld een grafiek worden weergegeven van het aantal relaties dat mensen van 22 jaar oud hebben gehad.
Het verband tussen x en y wordt gemeten met de correlatie, genoteerd als r. De correlatie is een gestandaardiseerde versie van de hellingscoëfficiënt. De r wordt ook wel de gestandaardiseerde regressiecoëfficiënt, of Pearson correlatie genoemd. De correlatie is de waarde die de hellingscoëfficiënt zou hebben als de variabelen op een gelijke manier verspreid zouden zijn. De correlatie wordt berekend als volgt:

$r = \frac{\sum (x - \bar{x})(y-\bar{y})}{\sqrt{[\sum (x - \bar{x})^2][\sum (y - \bar{y})^2]}}$

De determinatiecoëfficiënt r² is het kwadraat van r en geeft aan hoe goed x de y voorspelt. De determinatiecoëfficiënt geeft dit aan door te meten hoe goed de kleinste-kwadratenlijn ŷ = a + b(x) de y voorspelt in vergelijking tot de voorspelling van ȳ.
De TSS beschrijft de variabiliteit van de observaties van y. De SSE beschrijft de variabiliteit van de voorspellingsvergelijking. De determinatiecoëfficiënt geeft aan hoeveel procent de variantie van een conditionele distributie groter of kleiner is dan de variantie van een marginale distributie. Omdat de determinatiecoëfficiënt niet de originele meetschaal gebruikt maar een kwadraat ervan, vinden sommige onderzoekers dat de standaarddeviatie en de correlatie duidelijkere informatie geven.
Wat de chi-kwadraattoets is voor categorische variabelen, is het betrouwbaarheidsinterval van de hellingscoëfficiënt of correlatie voor kwantitatieve variabelen. Het principe is hetzelfde, namelijk kijken of de variabelen onafhankelijk zijn.
Een betrouwbaarheidsinterval zegt meer over de hellingscoëfficiënt dan een onafhankelijkheidstest. Het betrouwbaarheidsinterval van de hellingscoëfficiënt β is: b ± t(se).
Een assumptie die vaak wordt gemaakt, is dat er een lineair verband is. Het is belangrijk om altijd eerst de data weer te geven in een puntgrafiek om te kijken of het wel zinvol is om een lineair model te maken. Anders is er het gevaar een lineair verband te ontdekken in data die helemaal niet lineair is, maar bijvoorbeeld een U-vorm heeft. Dit kan ervoor zorgen dat het resultaat van een onafhankelijkheidstoets van de hellingscoëfficiënt niet klopt.
Een model blijft slechts een benadering van de werkelijkheid. Het moet niet te simpel zijn. Als het te simpel is, moet het aangepast of uitgebreid worden.

Welke vormen hebben multivariate verbanden? – BulletPoints 10

In veel wetenschappelijke studies wordt gekeken naar meer dan één of twee variabelen. Multivariate methoden worden dan gebruikt. Vooral de causale relatie tussen variabelen wordt veel bestudeerd, maar een causale relatie vaststellen is niet gemakkelijk. Het schijnbaar causale verband kan namelijk ook worden veroorzaakt door een andere variabele. Met statistische controle wordt bekeken of een verband tussen variabelen verandert of zelfs verdwijnt als de invloed van andere variabelen wordt verwijderd.
Een causaal verband bestaat uit een verklarende variabele (x) en een responsvariabele (y), waarin x de oorzaak is van y. In schema: X → Y. Dit is asymmetrisch, omdat dit niet per se hoeft te betekenen dat y ook x veroorzaakt.
Er is sprake van een causaal verband als aan drie criteria wordt voldaan: 1) Er moet een verband zijn tussen de variabelen. 2) De gebeurtenissen voltrekken zich in een logische tijdsvolgorde. 3) Andere verklaringen zijn uitgesloten.
Om causaliteit vast te stellen, moeten andere verklaringen zijn uitgesloten. Dit is vaak heel lastig. Het uitsluiten van de invloed van andere variabelen op een causale verband kan door die andere variabelen te controleren. Controleren betekent het uitschakelen of op een constante waarde houden van andere variabelen. De andere variabelen heten de controlevariabelen. Het controleren betekent zorgen dat de controlevariabelen geen invloed meer hebben op het verband tussen x en y.
Het verband tussen twee categorische variabelen wordt weergegeven in een kruistabel. Om dit verband te controleren voor een derde variabele, kan elke waarde van de derde variabele in een aparte kruistabel worden getoond. De aparte kruistabellen heten dan partial tables.
Er is sprake van onechte verbanden (spurious associations) wanneer zowel de verklarende variabele x₁ als de responsvariabele y afhankelijk zijn van een derde variabele (x₂), en wanneer het verband tussen de verklarende variabele (x₁) en de responsvariabele (y) verdwijnt wanneer x₂ wordt gecontroleerd. Er bestaat hierbij geen causale relatie tussen x₁ en y.
Bij kettingverbanden (chain relationships) veroorzaakt de verklarende variabele (x₁) een derde variabele (x₂), die op zijn beurt weer de responsvariabele (y) veroorzaakt. De derde variabele (x₂) wordt ook wel de interveniërende variabele of de mediator genoemd. Ook bij kettingverbanden verdwijnt het verband zodra x₂ gecontroleerd wordt.
Het verschil tussen een onecht verband en een kettingverband ligt in de causale volgorde. Bij een onecht verband gaat x₂ vooraf aan zowel x₁ als y. Bij een kettingverband bemiddelt x₂ tussen x₁ en y.
In de werkelijkheid hebben responsvariabelen bijna altijd meer dan één oorzaak. In dat geval heeft y meerdere oorzaken. Soms zijn deze oorzaken onafhankelijk, maar meestal houden deze oorzaken ook weer verband met elkaar. Dit betekent dat bijvoorbeeld x₁ behalve een direct effect op y ook een indirect effect op y kan hebben via x₂.
Bij een onderdrukkende variabele (suppressor variable) lijkt er geen verband te zijn tussen x₁ en y, totdat x₂ verdwijnt bij een controle. De x₂ is hier een onderdrukkende variabele. Dit kan bijvoorbeeld gebeuren wanneer x₂ positief gecorreleerd is met y, maar ook negatief gecorreleerd met x₁. Daarom is het zelfs wanneer er in eerste instantie geen verband lijkt te zijn tussen twee variabelen verstandig om alsnog voor andere variabelen te controleren.
Er is sprake van statistische interactie tussen x₁ en x₂ en hun effect op y wanneer het daadwerkelijke effect van x₁ op y verandert bij andere waarden van x₂. De verklarende variabelen, x₁ en x₂, worden ook wel predictoren genoemd.
Het is mogelijk dat twee verklarende variabelen beide een effect hebben op een responsvariabele, terwijl de twee verklarende variabelen ook met elkaar in verband staan. Dit heet een verstoring (confounding). Als een verstorende variabele over het hoofd wordt gezien, treedt er omitted variable bias op. Een grote uitdaging binnen de sociale wetenschappen is het opmerken van verstorende variabelen.
Als x₂ wordt gecontroleerd voor het x₁y verband, kan dit gevolgen hebben voor de inferentie. Er kan bijvoorbeeld een kleinere steekproefgrootte zijn bij een bepaalde waarde van x₂. Het betrouwbaarheidsinterval kan wijder zijn en de toetsingsgrootheden vallen kleiner uit. Uit een chi-kwadraattoets kan een kleinere waarde komen, die mogelijk wordt veroorzaakt door de kleinere steekroefgrootte.

Hoe analyseer je multipele regressie? – BulletPoints 11

Een bivariaat model heeft als basis E(y) = α + βx ; een model met slechts een predictor (x) en twee variabelen (x en y). Een multipele regressiemodel is een model dat meerdere verklarende variabelen en eventueel ook controlevariabelen aankan. Een multipele regressieformule heeft de vorm: E(y) = α + β₁x₁ + β₂x₂.
In multipele regressie geeft een coëfficiënt het effect aan van een verklarende variabele op een responsvariabele, terwijl gecontroleerd wordt voor andere variabelen in het model. Bij bivariate regressie geeft een coëfficiënt het effect aan van een verklarende variabele op een responsvariabele, terwijl alle andere mogelijke verklarende variabelen genegeerd worden. Bij multipele regressie worden de andere variabelen dus tijdelijk even weggepoetst, terwijl ze bij bivariate regressie compleet genegeerd worden. Dit is het basisverschil tussen multipele en bivariate regressie. De coëfficiënt (bijvoorbeeld β₁) van een predictor (bijvoorbeeld x₁) geeft aan wat de verandering is in het gemiddelde van y wanneer de predictor met een punt omhoog gaat, en gecontroleerd voor alle andere variabelen (bijvoorbeeld x₂) in het model. Deze coëfficiënten heten partiële regressiecoëfficiënten. De parameter α geeft aan wat het gemiddelde is van y, wanneer alle verklarende variabelen 0 zijn.
Bij een bivariaat model beschrijft de correlatie r de sterkte van het verband en de determinatiecoëfficiënt r² beschrijft hoe goed x de y voorspelt. In een multivariaat model worden deze aangegeven als R en R². De multipele correlatie van de steekproef, namelijk R, is de correlatie tussen de geobserveerde y-waarden en de voorspelde y-waarden. Hoe hoger de correlatie, hoe sterker het verband tussen y en de verklarende variabelen. R valt altijd tussen 0 en 1.
De multipele determinatiecoëfficiënt R² meet de proportie van de variantie in y die wordt uitgelegd door het voorspellend vermogen van alle verklarende variabelen. De multipele determinatiecoëfficiënt heeft soortgelijke elementen als de bivariate determinatiecoëfficiënt.
Wanneer er veel verklarende variabelen zijn die een sterke correlatie met elkaar hebben, dan neemt R² relatief weinig toe als het aantal verklarende variabelen toeneemt. Dit betekent niet dat die variabelen y niet goed kunnen voorspellen, maar dat ze niet veel meer toevoegen aan de predictoren. Dit heet multicollineariteit.
Multipele regressie heeft twee soorten significantietoetsen. De eerste analyseert het hele model en kijkt of het collectief aan verklarende variabelen statistisch gerelateerd is aan y. De tweede analyseert de afzonderlijke verklarende variabelen en bekijkt welke daarvan een significant effect hebben op y.
Meestal staan de verklarende variabelen van multipele regressie niet los van elkaar, er is vaak interactie. Er is sprake van statistische interactie tussen x₁ en x₂ en hun effect op y wanneer het daadwerkelijke effect van x₁ op y verandert bij andere waarden van x₂. Dit kan worden verwerkt in een model met het gebruik van kruisproducten (cross-product terms). Het model hiervan is: E(y) = α + β₁x₁ + β₂x₂ + β₃x₁x₂. Hierin is β₁ alleen het effect van x₁ als x₂ = 0, dus β₁ is meestal niet interessant om afzonderlijk te onderzoeken.
De coëfficiënten van verklarende variabelen zijn vaak niet zo heel erg nuttig, omdat ze alleen aangeven wat het effect is van die variabelen, gegeven dat de andere variabelen constant worden gehouden. Ze worden nuttiger door ze te centreren; hierbij wordt elke verklarende variabele gecentreerd rond 0 door er het gemiddelde af te trekken.
Het hoeft helemaal niet zo te zijn dat hele uitgebreide modellen beter zijn dan korte modellen. Een gereduceerd model (met slechts enkele variabelen) kan beter zijn dan een compleet model (met alle variabelen). Een compleet model is bijvoorbeeld: E(y) = α + β₁x₁ + β₂x₂ + β₃x₃ + β₄x₁x₂ + β₅x₁x₃ + β₆x₂x₃ . Een gereduceerd model hiervan is: E(y) = α + β₁x₁ + β₂x₂ + β₃x₃. De nulhypothese stelt dat de modellen identiek zijn: H₀ : β₄ = β₅ = β₆ = 0.
Een vergelijkingsmethode is om de SSE van het complete model (SSE_c) af te trekken van de SSE van het gereduceerde model (SSE_r). Omdat het gereduceerde model beknopter is, zal deze altijd een grotere SSE hebben en de werkelijkheid iets minder goed inschatten. Een andere vergelijkingsmethode trekt de R² waarden van elkaar af.
De partiële correlatie is de sterkte van het verband tussen een verklarende variabele (x₁) en een responsvariabele (y), waarbij een controlevariabele (x₂) buiten beschouwing wordt gelaten.
De gekwadrateerde partiële correlatie is de proportie van de variantie in y die wordt uitgelegd door x₁. De variantie in y bestaat uit een deel dat wordt verklaard door x₁, een deel dat wordt verklaard door x₂, en een deel dat niet wordt verklaard door deze variabelen. De combinatie van het deel dat wordt uitgelegd door x₁ en x₂ is hetzelfde als R². Dit werkt ook zo als er meer variabelen worden toegevoegd; R² is het deel van de variantie in y die wordt verklaard.
Als variabelen in verschillende meeteenheden worden uitgedrukt, worden niet de coëfficiënten vergeleken maar een gestandaardiseerde versie ervan. De gestandaardiseerde regressiecoëfficiënt (β*₁, β*₂, etc) is de verandering in het gemiddelde van y, gemeten in y standaarddeviaties, bij een toename van 1 standaarddeviatie. Hierbij worden de andere verklarende variabelen gecontroleerd. Hiermee wordt vergeleken of een toename in x₁ een groter effect heeft op y dan een toename in x₂.

Hoe werkt ANOVA? – BulletPoints 12

Een nominale categorische variabele kan behandeld worden als kwantitatieve variabele (door scores toe te kennen), maar dit is meer geschikt voor gemiddelden berekenen dan voor proporties. Om te voorkomen dat een model een bepaalde orde in de categorieën veronderstelt, kan beter gebruik worden gemaakt van dummyvariabelen. Dit betekent dat observaties worden geclassificeerd in nepvariabelen.
Multiple comparison methods controleren de kans dat alle intervallen van een hoop vergelijkingen de daadwerkelijke verschillen bevatten. Hiermee bewaken ze de betrouwbaarheidsintervallen tegen fouten. Bij 95% betrouwbaarheidsintervallen is de kans dat een van de vele vergelijkingen een fout bevat 5%. Dit heet de multiple comparison error rate. Een voorbeeld van een methode voor meerdere vergelijkingen is de Bonferroni methode. Deze methode deelt het gewenste foutenpercentage door het aantal vergelijkingen, bijvoorbeeld 5% / 4 vergelijkingen = 1,25% per vergelijking. Een andere optie is Tukey's methode. Deze methode gebruikt een kansverdeling genaamd de Studentized range en kan met software worden berekend. Het voordeel van Tukey's methode boven Bonferroni's methode is dat Tukey nauwere betrouwbaarheidsintervallen geeft.
Variantieanalyse (analysis of variance), afgekort ANOVA, is een inferentiële methode om de gemiddelden van meerdere groepen met elkaar te vergelijken. Dit is een onafhankelijkheidstest tussen een kwantitatieve responsvariabele (bijvoorbeeld lengte) en een categorische verklarende variabele (bijvoorbeeld geslacht). In ANOVA heten de categorische verklarende variabelen factoren. De test komt neer op een F-test. De assumpties zijn hetzelfde als bij een F-test: normaal verdeelde data, een gelijke standaarddeviatie σ voor alle groepen en onafhankelijke willekeurige steekproeven. Voor ANOVA is H₀ : μ₁ = μ₂ = … = μ_g (de gemiddelden van alle groepen zijn hetzelfde) en H_a : minstens twee gemiddelden verschillen.
De F-test vergelijkt de gemiddelden aan de hand van twee maten van variantie voor elke groep. De eerste, genaamd between-groups estimate, gebruikt de variabiliteit tussen elk steekproefgemiddelde ȳ_i en het algemene gemiddelde ȳ. De tweede, genaamd within-groups estimate, gebruikt de variabiliteit binnen elke groep; de variabiliteit van ȳ₁, ȳ₂, etc. Dit is een schatting van de variantie σ². Over het algemeen geldt dat hoe groter de variabiliteit tussen de steekproefgemiddelden en hoe kleiner de variabiliteit binnen de afzonderlijke groepen, des te meer bewijs dat de populatiegemiddelden niet gelijk zijn en dat H₀ niet klopt. Hiermee wordt de ANOVA F-statistiek berekend: between-groups estimate / within-groups estimate. Hoe groter de F-waarde, hoe kleiner de P-waarde.
In een ANOVA-tabel zijn de mean squares (MS) het between-groups estimate en het within-groups estimate, dit zijn schattingen van de populatievariantie σ². Het between-groups estimate is de sum of squares tussen de groepen (de regressie SS) gedeeld door df₁. Het within-groups estimate is de sum of squares binnen de groepen (de resterende SS, ofwel SSE) gedeeld door df₂. Samen vormen de SS tussen groepen en de SSE de TSS; total sum of squares.
Eenweg-ANOVA is geschikt voor een kwantitatieve afhankelijke variabele en de categorieën van een enkele verklarende variabele. Tweeweg-ANOVA is geschikt voor meerdere categorische verklarende variabelen (zoals geslacht en religie). Elke factor heeft zijn eigen nulhypothese, waarbij gecontroleerd wordt voor de andere variabele, zodat de hoofdeffecten (main effects) van een individuele factor op de responsvariabele kunnen worden gemeten. Bijvoorbeeld wanneer je wilt weten of protestanten meer verdienen dan katholieken, terwijl gecontroleerd voor hun geslacht.
Een som van kwadraten van een van de (dummy)variabelen heet partiële som van kwadraten (partial sum of squares, ofwel Type III sum of squares). Dit is de variabiliteit in y die wordt uitgelegd door de desbetreffende variabele als de andere aspecten al in het model zitten.
ANOVA met meerdere factoren heet factoriële ANOVA. Het voordeel van tweeweg-ANOVA en factoriële ANOVA tegenover eenweg-ANOVA is dat de interactie kan worden onderzocht; hoe effecten elkaar versterken of verzwakken.
Soms zijn de steekproeven binnen een onderzoek afhankelijk van elkaar, bijvoorbeeld bij herhaalde metingen op verschillende momenten van dezelfde subjecten. In dat geval kun je elk subject ook als een factor beschouwen, bijvoorbeeld als tien mensen een cijfer moeten geven aan hoe ze zich voor, tijdens en na een behandeling voelen. Dit is makkelijk toe te passen bij weinig factoren, maar ook in complexere situaties is deze methode mogelijk met software. Omdat dit resulteert in drie paren van gemiddelden, kan een methode voor meerdere vergelijkingen worden toegepast, bijvoorbeeld Bonferroni. Het gewenste foutenpercentage wordt dan verdeeld over de verschillende betrouwbaarheidsintervallen. Hiermee kan bijvoorbeeld worden berekend hoe het gemiddelde cijfer voor een behandeling verschilt van het gemiddelde cijfer tijdens de behandeling, het gemiddelde cijfer ervoor versus erna, en tijdens versus erna.
Het voordeel van herhaalde metingen met dezelfde subjecten is dat bepaalde factoren telkens aanwezig zijn en daardoor gecontroleerd worden, dit heet blokkeren (blocking).
Factoren met een beperkt aantal uitkomsten, zoals vegetariërs, veganisten en vleeseters, heten fixed effects. Daartegenover staan random effects: factoren waarvan de uitkomsten willekeurig zijn, zoals de karakteristieken van willekeurige mensen die als onderzoekssubjecten in een onderzoek terechtkomen.
Het kan voorkomen dat er bij een onderzoek met herhaalde metingen nog veel meer fixed effects betrokken zijn. De tijd (voor/tijdens/na een behandeling) is een voorbeeld van een within-subjects factor, omdat dezelfde subjecten ervoor nodig zijn. Hierbij worden subject gekruist (crossed) met de factor. Het soort behandeling is een voorbeeld van een between-subjects factor, omdat dit een vergelijking van de ervaringen van verschillende subjecten is. Hierbij worden subjecten genesteld (nested) binnen de factor.
Een methode die multivariate responsen aankan en minder assumpties maakt, is multivariate variantieanalyse (MANOVA). Het nadeel van de verzwakte assumpties is dat de power van de test kleiner is.

Hoe werkt multipele regressie met zowel kwantitatieve als categorische predictoren? – BulletPoints 13

Multipele regressie is ook mogelijk met een kwantitatieve als een categorische predictor tegelijk. Hierbij wordt gewone regressieanalyse (voor de kwantitatieve variabele) gecombineerd met variantieanalyse (voor de categorische variabele). In veel studies is het zinvol om te controleren voor een kwantitatieve variabele. Bijvoorbeeld wanneer je de scores van olympische schaatsers (mannen en vrouwen) wilt vergelijken, is het aantal reeds behaalde medailles een zinvolle controlevariabele. Zo’n kwantitatieve controlevariabele heet een covariaat en bijbehorende regressie heet covariantieanalyse (analysis of covariance, ANCOVA).
Om uiteindelijk voorspellingen te kunnen maken met een model, moet eerst getest worden of er interactie is, want dan zijn kruisproducten nodig. Een F-test vergelijkt een model met kruisproducten tegenover een model zonder kruisproducten. De F-test doet dit aan de hand van de partiële som van kwadraten; de variabiliteit in y die wordt uitgelegd door de desbetreffende variabele als de andere aspecten al in het model zitten. De nulhypothese is dat er geen interactie is (en dus dat de hellingscoëfficiënten van de kruisproducten 0 zijn), de alternatieve hypothese is dat er wel interactie is. Bij interactie lopen de regressielijnen parallel, bij geen interactie niet.
Ook kan een F-test bekijken of een compleet of gereduceerd model beter is. Om een compleet model (E(y) = α + βx + β₁z₁ + β₂z₂) te vergelijken met een gereduceerd model (E(y) = α + βx), is de nulhypothese dat de hellingscoëfficiënten β₁ en β₂ beide 0 zijn. Het complete model bestaat uit drie parallelle lijnen, het gereduceerde model heeft slechts een lijn. Als de P-waarde klein is, dan is het bewijs tegen de nulhypothese groot, en dan past het complete model (met de drie regressielijnen) significant beter bij de data dan het gereduceerde model. De multipele determinatiecoëfficiënt R² geeft aan hoe goed de verschillende mogelijke regressielijnen de y voorspellen en helpt bij een vergelijking tussen het complete en gereduceerde model.
Case studies beginnen vaak met de wens om het effect van een verklarende variabele op een responsvariabele te bestuderen. Gaandeweg worden er predictoren toegevoegd, soms verstorende (confounding) predictoren, soms mediërende predictoren.
Een aangepast gemiddelde (adjusted mean of least squares mean) is het gemiddelde van y voor een groep, waarbij gecontroleerd wordt voor de andere variabelen in het model. De overige variabelen worden dus op een gemiddelde gehouden, zodat de waarde van de adjusted mean kan worden onderzocht. Als een uitschieter een te grote invloed heeft op het gemiddelde, kan deze uitschieter worden weggelaten en kan de adjusted mean worden berekend.
Factoren met een beperkt aantal uitkomsten, zoals vegetariërs, veganisten en vleeseters, heten fixed effects. Daartegenover staan random effects: factoren waarvan de uitkomsten willekeurig zijn, zoals de karakteristieken van willekeurige mensen die als onderzoekssubjecten in een onderzoek terechtkomen. Lineaire gemengde modellen (linear mixed models) bevatten verklarende variabelen met zowel fixed effects als random effects.
De structuur duidt het karakter van de correlatie in het model. Als de correlaties tussen alle mogelijke paren observaties van verklarende variabelen gelijk zijn, is er sprake van compound symmetry. Als bij longitudinale onderzoeken de observaties bij het startpunt meer gecorreleerd zijn dan de observaties later in het onderzoek, is een autoregressieve structuur geschikt. Als assumpties over het patroon van correlatie beter vermeden kunnen worden, is het een ongestructureerd model. Een intraclass correlatie betekent dat binnen een groep, subjecten in een bepaalde mate op elkaar lijken. De random effects kunnen niet alleen subjecten zijn maar ook clusters van soortgelijke subjecten, bijvoorbeeld families.

Hoe construeer je een model voor multipele regressie van extreme of sterk gecorreleerde data? – BulletPoints 14

Er kunnen allerlei strategieen zijn om verklarende variabelen wel of niet toe te voegen aan een model. Er zijn drie basisregels voor het maken van een selectie: 1) Selecteer variabelen die tegemoet komen aan het theoretische doel van het onderzoek (de nulhypothese accepteren/verwerpen), met zinvolle controlevariabelen en medierende variabelen. 2) Voeg voldoende variabelen toe voor een goeie voorspellende power. 3) Zorg dat het model simpel blijft.
Het model blijft overzichtelijk als de verklarende variabelen een hoge correlatie hebben met de responsvariabele maar niet met elkaar. Software kan verklarende variabelen uittesten en selecteren. Mogelijke strategieen zijn backward elimination, forward selection en stepwise regression. Bij backward elimination worden eerst alle mogelijke variabelen toegevoegd aan het model, vervolgens worden ze uitgetest op hun P-waarde en blijven alleen de significante variabelen over. Bij forward selection wordt begonnen met niets en dan wordt telkens de variabele met de laagste P-waarde (of hoogste toetsingsgrootheid, of grootste toename in R²) toegevoegd. Stepwise regression is een versie van forward selection waarbij overbodig geworden variabelen worden verwijderd als nieuwe variabelen worden toegevoegd.
Inferentie van parameters van een regressiemodel heeft de volgende assumpties: het model past bij de vorm van de data (bijvoorbeeld lineair), de conditionele distributie van y is normaal, de standaarddeviatie is constant in het bereik van waarden van de verklarende variabelen (dit heet homoscedasticiteit) en het gaat om een willekeurige steekproef.
Als er niet perfect aan deze aannames wordt voldaan, heeft dat meestal geen grote gevolgen. Maar grove schendingen van deze aannames kunnen wel gevolgen hebben.
Door multicollineariteit worden de standaardfouten groter. Door een groter betrouwbaarheidsinterval wordt ook de variantie groter. Dit wordt gemeten door de variantie-inflatiefactor (variance inflation factor, VIF). Dit is de vermenigvuldigde toename in de variantie die wordt veroorzaakt door de correlatie tussen de verklarende variabelen.
Gegeneraliseerde lineaire modellen (GLM) is een brede term waaronder zowel regressiemodellen met een normale verdeling vallen, als alternatieve modellen voor continue variabelen met een niet-normale verdeling, als modellen met discrete (categorische) variabelen.
Een GLM heeft een linkfunctie; een vergelijking die het gemiddelde van de responsvariabele verbindt met de verklarende variabelen. De formule is: g(μ) = α + β₁x₁ + β₂x₂ + … + β_px_p. Als de data niet negatief kan zijn, dan kan de log link worden gebruikt voor loglineaire modellen: log(μ) = α + β₁x₁ + β₂x₂ + … + β_px_p. Een logistisch regressiemodel gebruikt de logit link: g(μ) = log[μ /(1-μ)]. Dit is nuttig als μ tussen 0 en 1 valt. De simpelste linkfunctie is de identity link: g(μ) = μ.
Als een grafiek in hoge mate niet lineair is, maar bijvoorbeeld curvilineair, dan wordt een polynomiale regressiefunctie gebruikt : E(y) = α + β₁x + β₂x² waarin de hoogste macht de graad (degree) van de functie wordt genoemd. Met een polynomiale regressiefunctie kan een kwadratisch regressiemodel worden vormgegeven, een parabool.
Een exponentiële regressiefunctie is E(y) = α β^x. Deze functie heeft alleen positieve waarde en neemt eindeloos toe of eindeloos af. Het logaritme van het gemiddelde is: log(μ) = log α + (log β)x. Bij het passend maken van de functie in software werkt een optie voor gegeneraliseerd lineair modelleren beter dan de reguliere optie voor regressie.

Hoe werkt logistische regressie? – BulletPoints 15

Een logistisch regressiemodel is een model met een binaire responsvariabele. De uitkomst kan maar twee dingen zijn ('mee eens' en 'niet mee eens'). Logistische regressiemodellen met meerdere categorieën kunnen ook ordinale en nominale responsen aan.
Het multipele logistische regressiemodel is: logit[P(y = 1)] = α + β₁x₁ + … + β_px_p. Hoe verder een β_i van 0 ligt, hoe sterker het effect van predictor x_i en hoe verder de odds ratio van 1 ligt. Desgewenst kunnen kruisproducten en dummyvariabelen worden toegevoegd. Met logistische multipele regressie kan bijvoorbeeld worden onderzocht hoeveel keer waarschijnlijker de ene groep is om een bepaald gedrag uit te oefenen in vergelijking tot een andere groep.
De nulhypothese van een logistisch regressiemodel wordt uitgetest met de aannemelijkheidsquotiënttoets (likelihood-ratio test). Dit is een inferentiële test om een compleet model en een simpeler model te vergelijken. De aannemelijkheidsfunctie (ℓ) geeft de kans dat de geobserveerde data uit de parameterwaarden resulteren. Bijvoorbeeld ℓ₀ is de maximale aannemelijkheidsfunctie als de nulhypothese klopt en ℓ₁ is de maximale aannemelijkheidsfunctie als de nulhypothese niet klopt.
Ordinale variabelen veronderstellen een bepaalde orde in de categorieën, bijvoorbeeld als subjecten vinden dat de overheid minder lantaarnpalen moet bouwen, dezelfde hoeveelheid, of meer lantaarnpalen. De cumulatieve kans is de kans dat in een bepaalde categorie j of daaronder valt: P(y ≤ j). Elke cumulatieve kans kan worden omgezet in odds, bijvoorbeeld de odds dat een respons in categorie j of daaronder valt is: P(y ≤ j) / P(y > j).
Cumulatieve logit modellen kunnen ook meerdere verklarende variabelen hebben. Een toets of de variabelen onafhankelijk zijn, is H₀ : β. Een onafhankelijkheidstoets voor logistische regressie met ordinale variabelen resulteert in een duidelijkere P-waarde dan toetsen die de orde in de data negeren zoals de chi-kwadraattoets. Er kan ook een betrouwbaarheidsinterval worden berekend.
De meeste modellen bestuderen het effect van een verklarende variabele op een responsvariabele. Loglineaire modellen zijn anders, deze modellen bestuderen de verbanden tussen (categorische) variabelen, bijvoorbeeld in een kruistabel. Deze modellen lijken meer op analyses van correlaties.
Een loglineair model veronderstelt een Poisson distributie; niet-negatieve discrete variabelen (zoals tellingen), gebaseerd op de multinomiale distributie.
Een kruistabel kan meerdere categorische responsvariabelen weergeven. Er kan een conditioneel verband tussen twee variabelen zijn als een derde variabele gecontroleerd wordt. Een andere mogelijkheid is dat twee variabelen conditioneel onafhankelijk zijn; onhankelijk voor elke categorie van de derde variabele.
Een goodness-of-fit test onderzoekt de nulhypothese dat een model echt past bij een bepaalde populatie. Er wordt gemeten of de geschatte frequenties f_e dicht bij de geobserveerde frequenties f_o liggen. Grotere toetsingsgrootheden vormen groter bewijs dat het model niet klopt en grotere verschillen tussen de geschatte en geobserveerde frequenties. Dit kan gemeten worden met de Pearson chi-kwadraattoets.
Een andere vorm van een chi-kwadraattoets is de aannemelijkheidsquotiënt chi-kwadraattoets.
Om uit te zoeken wat er dwarsligt in het model, kunnen de gestandaardiseerde residuen per cel worden berekend: (f_o – f_e) / (standaardfout van (f_o – f_e)). Als het gestandaardiseerde residu van een cel groter dan 3 is, past in die cel het model niet bij de data.

Access:

Public

Check more: click and go to more related summaries or chapters

Studiegids voor samenvattingen bij Statistical Methods for the Social Sciences van Agresti

Samenvatting van Statistical Methods for the Social Sciences van Agresti - 6e druk- Exclusive

Supersamenvatting van Statistical Methods for the Social Sciences van Agresti en Finlay - 6e druk

TentamenTests bij Statistical Methods for the Social Sciences van Agresti - 6e druk

BulletPointsamenvatting van Statistical Methods for the Social Sciences van Agresti - 6e druk

TentamenTickets bij Statistical Methods for the Social Sciences van Agresti en Finlay - 6e druk

Samenvatting van Statistical Methods for the Social Sciences van Agresti - 5e druk- Exclusive

BulletPointsamenvatting van Statistical Methods for the Social Sciences van Agresti en Finlay - 4e druk

Oefenmateriaal bij Statistical Methods for the Social Sciences van Agresti en Finlay - 4e druk

Study Guide for summaries with Statistical Methods for the Social Sciences by Agresti

Statistics: summaries and study assistance - Theme

Join: WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant and sustainable world. Through physical and online platforms, it supports personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.