Hoe construeer je een model voor multipele regressie van extreme of sterk gecorreleerde data? – Chapter 14

14.1 Welke strategieen zijn er voor het selecteren van een model?

Er kunnen allerlei strategieen zijn om verklarende variabelen wel of niet toe te voegen aan een model. Er zijn drie basisregels voor het maken van een selectie:

  1. Selecteer variabelen die tegemoet komen aan het theoretische doel van het onderzoek (de nulhypothese accepteren/verwerpen), met zinvolle controlevariabelen en medierende variabelen.

  2. Voeg voldoende variabelen toe voor een goeie voorspellende power.

  3. Zorg dat het model simpel blijft.

Het model blijft overzichtelijk als de verklarende variabelen een hoge correlatie hebben met de responsvariabele maar niet met elkaar. Software kan verklarende variabelen uittesten en selecteren. Mogelijke strategieen zijn backward elimination, forward selection en stepwise regression. Bij backward elimination worden eerst alle mogelijke variabelen toegevoegd aan het model, vervolgens worden ze uitgetest op hun P-waarde en blijven alleen de significante variabelen over. Bij forward selection wordt begonnen met niets en dan wordt telkens de variabele met de laagste P-waarde (of hoogste toetsingsgrootheid, of grootste toename in R2) toegevoegd. Stepwise regression is een versie van forward selection waarbij overbodig geworden variabelen worden verwijderd als nieuwe variabelen worden toegevoegd.

Software helpt hierbij maar kan onhandige keuzes maken, er moet goed worden nagedacht over een model. Ook van invloed is de aard van het onderzoek. Verklarend (explanatory) onderzoek gaat uit van een theoretisch model dat getest moet worden, meestal zijn de variabelen dan al bekend. Verkennend (exploratory) onderzoek gaat open op zoek naar verklaringen van een fenomeen.

Verschillende criteria zijn aanwijzingen van een goed model. Om een model te kiezen met een hoge voorspellende power maar met een behapbaar aantal variabelen, wordt een aangepaste versie van de multipele determinatiecoëfficiënt gebruikt; de adjusted R2 :

De adjusted R2 neemt af als een overbodige variabele wordt toegevoegd.

Een criterium voor een model is dat de voorspelde waarden zo dicht mogelijk bij de geobserveerde waarden liggen. Dit kan worden getest met cross-validation, waarbij continu wordt nagekeken hoe passend de voorspellingen waren. Vanuit de residuen van de voorspelde waarden ontstaat dan een predicted residual sum of squares (PRESS):

Hoe kleiner de PRESS, hoe beter de voorspellingen zijn. Een som van kwadraten veronderstelt echter een normale verdeling.

Een methode dat ook niet-normale verdelingen aankan, is het Akaike information criterion (AIC). Deze methode selecteert het model waarbij ŷi zo dicht mogelijk bij E(yi) ligt. Hoe kleiner de AIC, hoe beter de voorspellingen.

14.2 Waaraan zie je dat een statistisch model niet werkt?

Inferentie van parameters van een regressiemodel heeft de volgende assumpties:

  • Het model past bij de vorm van de data (bijvoorbeeld lineair)

  • De conditionele distributie van y is normaal

  • De standaarddeviatie is constant in het bereik van waarden van de verklarende variabelen (dit heet homoscedasticiteit)

  • Het gaat om een willekeurige steekproef

Als er niet perfect aan deze aannames wordt voldaan, heeft dat meestal geen grote gevolgen. Maar grove schendingen van deze aannames kunnen wel gevolgen hebben.

Als y normaal verdeeld is, dan moeten de residuen ook normaal verdeeld zijn. Een studentized residual is een gestandaardiseerde versie van een residu; het residu gedeeld door de standaardfout. Dit geeft aan hoeveel variabiliteit in de residuen wordt verklaard door de variabiliteit van de steekproeftrekking. Een studentized residual groter dan 3 kan een uitschieter zijn.

Als het model past bij de vorm van de data, dan wordt dit ook gereflecteerd in een puntgrafiek van de residuen, vergeleken met elk van de verklarende variabelen.

De willekeurigheid van een longitudinaal onderzoek wordt in het nauw gebracht als de observaties binnen een bepaald tijdsbestek sterk correleren. Dit kan worden nagekeken met een puntgrafiek van de residuen gedurende het gehele tijdsverloop. Deze vorm van correlatie kan nare gevolgen hebben op veel statistieken. Longitudinaal onderzoek wordt meestal binnen de sociale wetenschappen uitgevoerd en betreft een relatief beperkt tijdsbestek. Hier kan een lineair gemengd model voor worden gebruikt. Als het echter gaat om tijdreeksanalyse (time series) en daarmee een langer tijdsbestek, dan zijn methoden uit de econometrie geschikter.

Er zijn veel statistieken die het effect van een uitschieter meten. De residuen meten hoe ver y valt van de trend. Hoe ver de verklarende variabelen van hun gemiddelden af liggen, wordt gemeten door het leverage, aangeduid met het symbool h. Als observaties zowel een hoog residu hebben als een hoog leverage, dan hebben ze veel invloed.

DFBETA beschrijft het effect van een observatie op de schattingen van de parameters. DFFIT en Cook's distance beschrijven het effect op de mate waarin de grafiek past bij de data als een bepaalde observatie wordt verwijderd.

14.3 Hoe detecteer je multicollineariteit en wat zijn de gevolgen ervan?

Wanneer er veel verklarende variabelen zijn die een sterke correlatie met elkaar hebben, dan neemt R² relatief weinig toe als het aantal verklarende variabelen toeneemt. Dit betekent niet dat die variabelen y niet goed kunnen voorspellen, maar dat ze niet veel meer toevoegen aan de predictoren. Dit heet multicollineariteit.

Door multicollineariteit worden de standaardfouten groter. Door een groter betrouwbaarheidsinterval wordt ook de variantie groter. Dit wordt gemeten door de variantie-inflatiefactor (variance inflation factor, VIF). Dit is de vermenigvuldigde toename in de variantie die wordt veroorzaakt door de correlatie tussen de verklarende variabelen.

De formule hiervoor is:

Ook zonder de VIF zijn er vaak indicaties van multicollineariteit te vinden in de functie. Een voorbeeld is een aanzienlijke toename in de coefficient van een variabele bij het toevoegen van een andere variabele.

Wat helpt tegen multicollineariteit, is slechts een deel van de variabelen uitkiezen, variabelen samenvoegen of variabelen centreren. Met factoranalyse worden kunstmatige nieuwe variabelen geschapen uit de bestaande variabelen, waarbij correlatie kan worden vermeden, maar meestal is factoranalyse niet nodig.

14.4 Wat zijn de kenmerken van gegeneraliseerde lineaire modellen?

Gegeneraliseerde lineaire modellen (GLM) is een brede term waaronder zowel regressiemodellen met een normale verdeling vallen, als alternatieve modellen voor continue variabelen met een niet-normale verdeling, als modellen met discrete (categorische) variabelen.

De uitkomsten van een GLM zijn vaak binair (succes/geen succes). Soms zijn het de uitkomsten van een telling (zoals het aantal katten dat iemand bezit). Als de data erg discreet is, zoals bij binaire uitkomsten en tellingen, gebruikt een GLM de gammadistributie.

Een GLM heeft een linkfunctie; een vergelijking die het gemiddelde van de responsvariabele verbindt met de verklarende variabelen. De formule is: g(μ) = α + β1x1 + β2x2 + … + βpxp. Als de data niet negatief kan zijn, dan kan de log link worden gebruikt voor loglineaire modellen: log(μ) = α + β1x1 + β2x2 + … + βpxp. Een logistisch regressiemodel gebruikt de logit link: g(μ) = log[μ /(1-μ)]. Dit is nuttig als μ tussen 0 en 1 valt. De simpelste linkfunctie is de identity link: g(μ) = μ.

Een voordeel van een GLM is dat de data niet normaal verdeeld hoeft te zijn, omdat een GLM de meest aannemelijke schatter gebruikt. De meest aannemelijke schatter gebruikt een versie van de kleinste-kwadratenmethode die de gewogen kleinste-kwadratenmethode (weighted least squares) heet. Deze methode geeft meer gewicht aan observaties met minder variabiliteit.

Een gammadistributie geeft ruimte voor verschillende groottes van de standaarddeviatie. Dit heet heteroscedasticiteit; de standaarddeviatie neemt toe als het gemiddelde toeneemt. De variantie is dan ø μ2 en de standaarddeviatie is:

Hierin is ø de schaalparameter, deze geeft de schaal aan waarmee de distributie een vorm krijgt, de mate waarin de distributie als een bel gevormd is.

14.5 Wat is polynomiale regressie?

Als een grafiek in hoge mate niet lineair is, maar bijvoorbeeld curvilineair, dan wordt een polynomiale regressiefunctie gebruikt : E(y) = α + β1x + β2x2 waarin de hoogste macht de graad (degree) van de functie wordt genoemd. Met een polynomiale regressiefunctie kan een kwadratisch regressiemodel worden vormgegeven, een parabool:

Een cubic function is een polynomiale functie met drie graden, maar meestal is een functie met twee graden voldoende. Bij een rechte lijn blijft de hellingscoëfficiënt hetzelfde, maar bij een polynomiale functie verandert deze. Wanneer de coëfficiënt van x² positief is, zal de data lopen in de vorm van een bergparabool. Als de coëfficiënt negatief is, zal de data lopen in de vorm van een dalparabool. Het hoogste of laagste punt van de parabool, waarop deze van richting verandert, is; x = – β1 / 2(β2).

Bij dit soort modellen is R² de proportionele vermindering van schattingsfouten door het gebruiken van een kwadratisch verband in plaats van een lineair verband. Door R² voor het kwadratische verband te vergelijken met r² voor het lineaire verband geeft aan hoeveel beter de kwadratische functie past.

De nulhypothese stelt dat er geen sprake van zal zijn dat het kwadratische verband iets toevoegt aan het model. De coëfficiënt van de gekwadrateerde waarde is dan 0: H0: β2 = 0.

Het is belangrijk om voorzichtig te zijn in het concluderen dat een kwadratisch regressiemodel het beste past bij de data. Soms zijn andere vormen ook mogelijk. Ook moet parsimony het doel zijn; modellen moeten niet meer parameters hebben dan nodig is om het verband goed weer te geven.

14.6 Hoe zien exponentiële regressie en logtransformaties eruit?

Een exponentiële regressiefunctie is E(y) = α βx. Deze functie heeft alleen positieve waarde en neemt eindeloos toe of eindeloos af. Het logaritme van het gemiddelde is: log(μ) = log α + (log β)x. Bij het passend maken van de functie in software werkt een optie voor gegeneraliseerd lineair modelleren beter dan de reguliere optie voor regressie.

In dit model is β de vermenigvuldigde verandering in het gemiddelde van y bij een toename van x met 1 punt. Waar in een lineair model E(y) verandert met dezelfde kwantiteit voor een toename van x met 1 punt, verandert in het exponentiële model hetzelfde percentage. Als een grafiek moet worden omgezet naar een lineair verband, dan kunnen logtransformaties worden gebruikt; de logaritmen van de x-waarden maken het verband lineair.

14.7 Wat zijn robuuste variantie en nonparametrische regressie?

Een manier om regressiemodellen aan te passen zodat ze schendingen van assumpties aan kunnen, is een robuuste variantie gebruiken. Deze methode gebruikt de kleinste-kwadratenlijn maar neemt niet aan dat de variantie in het vinden van standaardfouten constant is. De standaardfouten worden in plaats daarvan aangepast aan de variabiliteit van de steekproefdata. Dit wordt het sandwich estimate ofwel het robust standard error estimate genoemd. Als software deze standaardfouten berekent, dan kunnen ze worden vergeleken met de reguliere standaardfout. Verschillen ze veel, dan zijn er grove schendingen van de assumpties. Deze robuuste variantie kan ook worden toegepast op sterk correlerende data zoals clusters. Dan worden generalized estimating equations (GEE) gebruikt; schattingen van vergelijkingen met de meest aannemelijke schatter maar zonder de parametrische kansverdeling die meestal gepaard gaat met correlaties.

Een recent ontwikkelde nonparametrische methode (een methode die geen aannames maakt en geen normale verdeling veronderstelt) is generalized additive modeling. Dit is een veralgemenisering van het gegeneraliseerde lineaire model. Een curve erdoorheen laten trekken met software kan trends blootleggen. Methoden om een grafiek uit te lijnen, smoothers, zijn LOESS en kernel.

TentamenTickets

  • Probeer heteroscedasticiteit eens snel tien keer achter elkaar te zeggen.

  • Robuuste variantie en recente ontwikkelingen in nonparametrische regressie zijn pas recent toegevoegd aan de mogelijkheden van de statistiek. Het zal per onderzoeker verschillen of deze ontwikkelingen worden toegejuicht of met scepticisme worden bekeken.

 

Image

Access: 
Public

Image

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Institutions, jobs and organizations:
Activity abroad, study field of working area:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Follow the author: Annemarie JoHo
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
3433