Samenvatting syllabus Statistische modellen II, Pedagogiek, Rijksuniversiteit Groningen, van Huisman

Hoofdstuk 1 – Regressie: Aannames
Hoofdstuk 2 – Regressie: Categorische variabelen

Hoofdstuk 1 – Regressie: Aannames

De belangrijkste assumpties in regressieanalyse zijn:

De steekproef bestaat uit onafhankelijke waarnemingen.
Er is sprake van een lineair model, dat betekent dat er een lineair verband is tussen de afhankelijke en de onafhankelijke variabelen.
De variantie van de residuen is gelijk voor alle mogelijke waarden van de onafhankelijke variabelen (homoscedasticiteit).
De residuen zijn normaal verdeeld.

Onafhankelijke waarnemingen

De assumptie dat de steekproef moet bestaan uit onafhankelijke waarnemingen betekent dat de waarnemingen onafhankelijk van elkaar zijn getrokken en dat er geen samenhang tussen de cases is. De verwachte correlatie tussen de residuen uit de regressieanalyse moet dus gelijk zijn aan nul. Deze assumptie wordt de onafhankelijkheidsassumptie genoemd.

Als er sprake is van afhankelijkheid zullen de geschatte standaardfouten niet meer kloppen. Ze zijn dan vaak kleiner dan dat ze eigenlijk moeten zijn. Daardoor zullen de regressiecoëfficiënten minder nauwkeurig geschat worden, de betrouwbaarheidsintervallen zullen te smal zijn en bij het toetsen zal de nulhypothese te vaak verworpen worden. Hierdoor zal er te vaak geconcludeerd worden dat er een significante relatie bestaat.

Er bestaan weinig geschikte methoden om de onafhankelijkheidsassumptie te onderzoeken in een dataset. Als er sprake is van groepen of clusters in de dataset kan je gebruik maken van de intraklasse-correlatie. Deze correlatie geeft de samenhang aan tussen cases binnen de groepen. Als er meerdere niveaus of levels van clusters zijn kan je gebruik maken van de multilevelanalyse.

Lineair model

De assumptie dat er sprake moet zijn van een lineair model betekent dat het verband tussen de onafhankelijke variabelen en de afhankelijke variabele een rechte lijn geeft. Deze assumptie kan je onderzoeken door te kijken naar de residuen. (Het verwachte) gemiddelde van de residuen moet gelijk zijn aan nul. Als je systematische afwijkingen ziet van dit gemiddelde geeft het aan dat het verband tussen de onafhankelijke variabelen en de afhankelijke variabele niet lineair is.

Het onderzoeken van de residuen kan je het beste doen met een spreidingsdiagram, ook wel residual plot genoemd. Als je in dit diagram een willekeurig verspreide puntenwolk ziet, betekent het dat je er een lineair verband bestaat tussen de onafhankelijke variabelen en de afhankelijke variabele.

In het geval van multipele regressie kan je het beste gebruik maken van zogenaamde partial plots. In deze grafiek is de helling van de regressielijn gelijk aan de geschatte regressiecoëfficiënt uit het multipele model.

Als blijkt dat de relatie tussen de onafhankelijke variabelen en de afhankelijke variabele niet lineair is, zal je een ander verband moeten definiëren. Eventueel kan je dit doen door variabelen te transformeren. Het verband kan dan bijvoorbeeld kwadratisch of logistisch zijn.

Homoscedasticiteit

De assumptie dat de variantie van de residuen constant moet zijn wordt ook wel homoscedasticiteit genoemd. De variantie van de residuen is gelijk aan het kwadraat van de standaarddeviatie, ơ2.

Ook deze aanname wordt onderzocht door te kijken naar residual plots. Ook nu kijk je weer naar de puntenwolk en de spreiding van de punten moet overal even groot zijn. Als de punten rond de nullijn niet constant verspreid liggen, is de aanname van homoscedasticiteit geschonden en spreken we van heteroscedasticiteit.

Als deze assumptie geschonden wordt, leidt dit tot onjuiste schattingen van de standaardfouten van de regressiecoëfficiënten. Dit kan dan weer leiden tot verkeerde conclusies, omdat de betrouwbaarheidsintervallen en P-waarden gebaseerd zijn op deze onjuiste standaardfouten.

Dit probleem kan je oplossen door te kijken naar andere schattingsmethoden (andere dan de kleinste-kwadratenmethode), het transformeren van de afhankelijke variabele of specificatie van een complexer model. Bij het transformeren van de afhankelijke variabele moet je gebruik maken van de ‘variantie stabiliserende transformatie’. Als de variabele getransformeerd is, zal deze minder heteroscedasticiteit vertonen dan daarvoor. Complexere modellen zijn modellen waarin ook interacties tussen de onafhankelijke variabelen op zijn genomen. Deze modellen worden gebruikt in een moderator analyse.

Normaal-verdeelde residuen

De assumptie dat de residuen normaal verdeeld zijn houdt in dat de residuen normaal verdeeld zijn met gemiddelde 0 en variantie 2:

(zie bijlage)

Met deze aanname kunnen er goede betrouwbaarheidsintervallen gemaakt worden en goede toetsen uitgevoerd worden. Als de aanname geschonden wordt, bestaat de kans dat er onjuiste conclusies worden getrokken. Als je steekproef groot is en het aantal onafhankelijke variabelen klein dan zorgt de centrale limietstelling er al voor dat de betrouwbaarheidsintervallen en P-waarden goede benaderingen zijn, ook al zijn de residuen niet normaal verdeeld.

Deze assumptie kan op verschillende manieren onderzocht worden. De gemakkelijkste manier is om een histogram te maken van de residuen. Deze methode is alleen niet verstandig om te gebruiken als je steekproef klein is. Dan kan een histogram namelijk een verkeerd beeld geven. Dit geldt ook voor boxplots.

Je kunt de assumptie daarom beter onderzoeken met Q-Q plots of P-P plots. Als de punten in deze plots op een rechte lijn liggen, wordt aan de assumptie voldaan. Als de punten systematisch afwijken van een rechte lijn moet je onderzoeken welke verdeling het dan wel is. Dit kan je bijvoorbeeld weer doen met een histogram.

De normaliteitassumptie kan ook onderzocht worden met statistische maten. Deze statistische maten zijn scheefheid (skewness) en welving (kurtosis). Deze twee maten moeten overeenkomen met de scheefheid en welving van een normale verdeling en dat is voor beide maten nul.

Als uit je onderzoek blijkt dat de assumptie geschonden is, kun je verschillende dingen doen. Als eerste kun je een andere schattingsmethode gebruiken, bijvoorbeeld de non-parametrische technieken. Helaas is dit voor regressie niet erg geschikt. Als tweede kun je extra gegevens gaan verzamelen om te kijken of die dan wel normaal verdeeld zijn. Een derde mogelijkheid is het transformeren van de variabelen, zodat de residuen wel een (bij benadering) normale verdeling hebben. Je kunt zowel de afhankelijke variabele als de onafhankelijke variabelen transformeren.

Multicollineariteit

Er is sprake van multicollineariteit als de onafhankelijke variabelen (sterk) met elkaar samenhangen. Er ontstaan hierdoor een aantal problemen. Ten eerste kun je moeilijk het belang bepalen van elke onafhankelijke variabele, omdat je door de samenhang de effecten op y niet op kan splitsen. Ten tweede zal het weinig extra waarde hebben om een extra onafhankelijke variabele in je model te stoppen als ze samenhangen. Ook zullen de standaardfouten van de geschatte regressiecoëfficiënten groter zijn.

Er zijn een aantal manieren waarop multicollineariteit opgespoord kan worden. Als eerste kan je kijken naar de correlaties tussen de verschillende onafhankelijke variabelen. Het is echter beter om steeds kijken hoe goed je een onafhankelijke variabele kan schatten uit de overige onafhankelijke variabelen. Dit doe je dan voor elke onafhankelijke variabel een keer. Zo kun je voor elke onafhankelijke variabelen de R2 uitrekenen. Ook partial plots kunnen informatie geven over multicollineariteit.

Als je multicollineariteit gevonden hebt in je model kun je verschillende dingen doen. Je kunt de onafhankelijke variabelen die sterk samenhangen combineren of je kiest ervoor om alleen de meest sterke onafhankelijke variabele te gebruiken.

Uitbijters en invloedrijke punten

Uitbijters kunnen een negatieve invloed hebben op de regressieanalyse. Ze zorgen vaak voor schending van de assumpties en ze kunnen ook een grote invloed hebben op de regressiecoëfficiënten en de modelfit.

Je kunt uitbijters op verschillende manieren opsporen. Je kunt kijken naar de residuen en controleren of deze wel normaal verdeeld zijn. Als een case meer dan 3 standaarddeviaties van het gemiddelde afligt, kan het een uitbijter zijn. Ook histogrammen, boxplots of spreidingsdiagrammen kunnen goed gebruikt worden om uitbijters op te sporen.

Uitbijters in de x-richting zijn vaak moeilijker te vinden. Je moet hiervoor onderzoeken wat de invloed is van een bepaalde case op de regressieanalyse. Hiervoor moet je de analyse een keer met en een keer zonder deze case uitvoeren. Als het verschil tussen de twee analyses erg groot is, is de kans groot dat de case een uitbijter is. Een veel gebruikte maat voor invloedrijke punten is Cook’s Distance. Als Cook’s Distance groter dan 1 is, wordt de case een uitbijter genoemd.

Uitbijters kunnen ontstaan door meet- of invoerfouten. Als het om een fout gaat, kan je de uitbijter gewoon weglaten uit de analyse. Als er geen oorzaak is van de afwijkende score wordt het als een eerlijke score gezien en mag deze niet zomaar verwijderd worden. Je kunt dan bijvoorbeeld gebruik maken van technieken waarop uitbijters niet zo’n grote invloed hebben. Een andere oplossing is om de analyse gewoon twee keer te doen (een keer met en een keer zonder de uitbijter) en beide resultaten te presenteren.

Hoofdstuk 2 – Regressie: Categorische variabelen

In regressieanalyse wordt er vanuit gegaan dat zowel de afhankelijke als de onafhankelijke variabele continue variabelen zijn. Het komt echter ook vaak voor dat variabelen categorisch zijn. Ook met categorische variabelen kan je een regressieanalyse uitvoeren.

De categorische variabelen I worden ook wel dummy-variabelen of indicatorvariabelen genoemd. Dit is dan een onafhankelijke variabele die vaak een groepindeling is. Het aantal dummy-variabelen dat je gebruikt is altijd gelijk aan I-1. Bij het indelen in groepen kun je gebruik maken van coderingen. De meest gebruikte codering is de dummy-codering. Dan kan de variabele alleen de waarden 0 en 1 aannemen.

Als je dus een categorische onafhankelijke variabele hebt, kan je gewoon gebruik maken van de lineaire regressieanalyse. Dit kan echter alleen als je de categorische variabele vervangt door een dummy-variabele.

Logistische regressie

Als de afhankelijke variabele een categorische variabele is, dan moet je gebruik maken van een logistische regressieanalyse en is de lineaire regressie niet meer geschikt. Dit komt omdat er dan niet meer wordt voldaan aan de aannames van lineaire regressie. Om deze schending op te lossen kan je gebruik maken van een logit-transformatie en dan krijg je ook een logistische regressieanalyse. In logistische is de log-odds de afhankelijke variabele die via een lineair model wordt voorspeld uit een of meerdere onafhankelijke variabelen:

(zie bijlage)

Als de responsvariabele alleen de waarden 0 en 1 aan kan nemen, geldt:

P (y = 1) = β0 + β1x

De populatie-regressielijn geeft nu het verband weer tussen en onafhankelijke variabele en de kans dat de afhankelijke variabele gelijk is aan 1. Een probleem hierbij is dat de kans P tussen 0 en 1 ligt, terwijl je met het model voorspellingen kan doen die groter dan 1 of kleiner dan 0 kunnen zijn. De odds van P ligt echter tussen 0 en oneindig en de log-odds tussen minus oneindig en plus oneindig. Daarom wordt de log-odds gebruikt in het model.

Door terugtransformatie kan je alle voorspelde waarden weer terugzetten in een kans, namelijk de kans dat y gelijk is aan 1. De formule hiervoor is:

(zie bijlage)

De modelparameters β0 en β1 moeten geschat worden door de maximum likelyhood procedure en niet door het kleinste-kwadratenprincipe. Deze methode is zeer complex en kan alleen gedaan worden met software.

Een nadeel van het logistische regressiemodel is dat de fit niet zo eenvoudig kan worden bepaald als in het lineaire regressiemodel (R2). Een manier waarop dit toch kan is door te kijken naar een classificatietabel. Deze geeft aan hoeveel waarden correct voorspeld zijn met het model. Als je het percentage correcte voorspellingen wilt interpreteren moet je altijd rekening houden met de voorspelling zonder de onafhankelijke variabelen. Als hier bijna geen verschil in zit, betekent dit dat de onafhankelijke variabelen weinig toevoegen aan de voorspelling van de afhankelijke variabele.

De t-procedure als regressie

Als je de t-procedure wilt gaan gebruiken met dummy-variabelen is het gemiddelde in groep 1 gelijk aan β0 en het gemiddelde in groep 2 aan β0 + β1. Het intercept wordt dus geschat met het gemiddelde van y1. De helling wordt geschat met het gemiddelde van y2 – het gemiddelde van y1. De geschatte regressielijn wordt dan β0 + β1d. Omdat β1 normaal verdeeld is met gemiddelde β1 en standaarddeviatie SEβ1, kun je met de t-verdeling ook betrouwbaarheidsintervallen voor β1 berekenen en toetsen of β1 ongelijk is aan nul. De t-procedure heeft als voordeel dat de berekeningen eenvoudig zijn en dat je geen dummy-variabelen hoeft te definiëren. Het voordeel van regressieanalyse is dat er informatie wordt gegeven over de samenhang tussen de variabelen en dat de codering van de dummy-variabelen snel kan veranderen.

We hebben het nu alleen nog maar over de dummy-codering gehad, maar er zijn ook andere coderingen waar je gebruik van kan maken. Een andere codering is de effect-codering. Hierin krijgen de groepen de scores -1 en 1. Het populatiegemiddelde van y in groep 1 is nu gelijk aan β0 - β1. Het populatiegemiddelde van y in groep 2 is gelijk aan β0 + β1. Het intercept wordt hier dus geschat met:

½ (y1 + y2) = y

De helling wordt hier geschat met:

½ (y1 - y2) = y2 - ½ (y1 + y2) = y2- y

Deze schatters zijn dus niet gelijk aan de schatters die je krijgt bij de dummy-codering. Bij de interpretatie van je resultaten moet je hier dus rekening mee houden. Het voordeel hiervan is dat je met het kiezen van de codering precies kan weergeven wat je wilt weten, bijvoorbeeld het verschil tussen twee groepen of het verschil tussen een groep en het algemene gemiddelde.

Eenweg-ANOVA als regressie

Het kan ook voorkomen dat je niet twee, maar drie of meer verschillende groepen kunt onderscheiden. Dat kun je de verschillen tussen de gemiddelden toetsen met behulp van variantieanalyse (ANOVA: F-toets).

Net als bij de t-toets wordt er bij variantieanalyse aangenomen dat de populaties normaal verdeel zijn en dat de standaarddeviaties in alle populaties aan elkaar gelijk zijn. Voor het toetsen van de hypotheses wordt dus gebruik gemaakt van de F-toets met I-1 en N-1 vrijheidsgraden.

Ook ANOVA kan je bekijken in termen van regressie. Er is één afhankelijke variabele y, waarvan je het gemiddelde wilt onderzoeken in verschillende groepen en er is een onafhankelijke variabele die bepaalt in welke groep een individu zit. Deze variabele wordt vaak factor genoemd. Ook hier moeten weer I-1 dummy-variabelen gedefinieerd worden. De laatste groep is dan de groep die op elke variabele de score 0 krijgt. Deze groep wordt de referentiegroep genoemd.

Bij multipele lineaire regressie wordt er vanuit gegaan dat voor elke waarde van de dummy-variabelen de geobserveerde waarde van de afhankelijke variabele y normaal verdeeld is rond een gemiddelde dat afhangt van de onafhankelijke variabelen:

μ_y= β₀+ β₁d1 + β₂d2

Hieruit volgt dat de parameters in het model de waarde van het populatiegemiddelde y in elke groep bepalen:

Groep 1: μ₁= β₀+ β₁

Groep 2: μ₂= β₀+ β₂

Groep 3: μ₃= β₀

In het geval van drie groepen is de populatie-regressievergelijking gelijk aan:

y_i= β₀+ β₁d1 + β₂d2 + ε_i

De intercept wordt hier dus geschat door het gemiddelde van groep 3. De helling1 wordt geschat door het gemiddelde van groep 1 - het gemiddelde van groep 3. De helling2 wordt geschat door het gemiddelde van groep 2 – het gemiddelde van groep 3.

In de eenweg-ANOVA wordt de nulhypothese getoetst dat alle gemiddelden aan elkaar gelijk zijn. Ook in regressie komt deze toets voor, want de nulhypothese die daar getoets wordt is μ1 - μ3 = μ2 - μ3 = 0. Wanneer je dus de dummy-codering gebruikt is deze nulhypothese precies dezelfde als de nulhypothese van de ANOVA.

Je kunt ook andere coderingen gebruiken, namelijk effect-codes en contrast-codes. Bij effect-codes gebruik je dan in plaats van -1 en 1, drie waarden, namelijk -1, 0 en 1. Uit deze effect-codering kan je afleiden dat de schatters voor de regressiecoëfficiënten gelijk zijn aan:

β₀= ⅓ (y1 + y2 + y3) = y

β₁= y2 – y

β₂= y3 – y

De regressiecoëfficiënten hebben dus een andere betekenis dan bij dummy-codering. Er wordt nu alleen gekeken naar het verschil tussen groepsgemiddelden en het algemene gemiddelde.

Door zelf contrast-codes te definiëren voor de dummy-variabelen in regressieanalyse kan je iedere vergelijking tussen groepen toetsen. Deze contrast-codes liggen niet altijd voor de hand en kun je alleen afleiden door de regressievergelijkingen van de groepen uit te schrijven.

Assumpties

Het lijkt misschien dan de t-procedure, ANOVA en regresieanalyse drie verschillende technieken zijn, maar de eerste twee methoden zijn echter alleen maar speciale gevallen van regressieanalyse. Ook de aannames die gemaakt worden zijn dus voor iedere methode hetzelfde:

Onafhankelijke observaties. Dit betekent dat er geen relatie mag bestaan tussen de observaties (proefpersonen).
Normaal verdeelde scores. Voor de t-procedure en ANOVA geldt dat de variabele normaal verdeeld moet zijn met gemiddelde μy en standaarddeviatie σ. In regressieanalyse wordt aangenomen dat de residuen normaal verdeeld zijn met gemiddelde 0 en standaarddeviatie σ. Hier moet ook gelden ook dat y normaal verdeeld is met gemiddelde μy en standaarddeviatie σ.
Gelijke varianties. Voor alle procedures moet gelden dat de standaarddeviaties in alle groepen gelijk zijn.
Lineair model. Deze aanname wordt niet expliciet gemaakt voor de t-procedure. Deze aanname wordt wel gemaakt voor ANOVA en regressieanalyse.

Access:

Public

Join: WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant and sustainable world. Through physical and online platforms, it supports personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.