Statistical Methods for the Social Sciences van Agresti, 5e druk
- 3706 reads
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Een bivariaat model heeft als basis E(y) = α + βx ; een model met slechts een predictor (x) en twee variabelen (x en y). Een multipele regressiemodel is een model dat meerdere verklarende variabelen en eventueel ook controlevariabelen aankan. Een multipele regressieformule heeft de vorm: E(y) = α + β1x1 + β2x2.
De verschillende verklarende variabelen krijgen nummers: x1, x2, etc. Als er een verklarende variabele bij komt, dan wordt β2x2 aan de formule toegevoegd. De parameters in deze formule zijn α en β1 en β2.
Als y de verticale as is en x1 de horizontale as, dan is x2 een horizontale as die loodrecht op de eerste x-as staat. Daarmee wordt het een driedimensionaal assenstelsel. De multipele regressieformule duidt een plat oppervlak aan.
Een voorbeeld is het verband tussen vandalisme (y) en veganisme (x1), hierbij hoort een bivariate formule: E(y) = -51,3 + 1,5 x1 . Dit is een positieve relatie: wanneer het veganismepercentage omhoog gaat, gaat ook het vandalismepercentage omhoog. Nu wordt urbanisatie (x2) toegevoegd aan de formule, omdat bekend is dat dit sterk gerelateerd is aan vandalisme. Er ontstaat een multipele formule: E(y) = 58,9 – 0,6 x1 + 0,7 x2 . Als de formule gecontroleerd wordt voor urbanisatie, dan blijft de waarde van urbanisatie constant, bijvoorbeeld het gemiddelde (50). De formule wordt dan E(y) = 58,9 – 0,6 x1 + 0,7(50) = 58,9 – 0,6 x1 + 35. Deze formule heet een partiële regressieformule, omdat deze formule maar naar een deel van de mogelijke observaties kijkt (namelijk alleen naar die gevallen die een urbanisatieniveau van 50 hebben). Het effect van veganisme is -0,6, wanneer gecontroleerd voor urbanisatie. Nu is het verband tussen veganisme en vandalisme negatief. Er is sprake van Simpson’s paradox: als het effect van een controlevariabele teniet wordt gedaan, verandert de richting van het verband. In dit geval heeft de bivariate formule een andere richting dan de multipele formule.
In multipele regressie geeft een coëfficiënt het effect aan van een verklarende variabele op een responsvariabele, terwijl gecontroleerd wordt voor andere variabelen in het model. Bij bivariate regressie geeft een coëfficiënt het effect aan van een verklarende variabele op een responsvariabele, terwijl alle andere mogelijke verklarende variabelen genegeerd worden. Bij multipele regressie worden de andere variabelen dus tijdelijk even weggepoetst, terwijl ze bij bivariate regressie compleet genegeerd worden. Dit is het basisverschil tussen multipele en bivariate regressie. De coëfficiënt (bijvoorbeeld β1) van een predictor (bijvoorbeeld x1) geeft aan wat de verandering is in het gemiddelde van y wanneer de predictor met een punt omhoog gaat, en gecontroleerd voor alle andere variabelen (bijvoorbeeld x2) in het model. Deze coëfficiënten heten partiële regressiecoëfficiënten. De parameter α geeft aan wat het gemiddelde is van y, wanneer alle verklarende variabelen 0 zijn.
Het multipele regressiemodel heeft beperkingen. Een verband betekent niet per se dat er een causaal verband is, er kunnen allerlei andere factoren meespelen. Sommige onderzoekers verwoorden 'statistisch controleren' voorzichtiger, bijvoorbeeld als 'aanpassen'. In het reguliere multipele regressiemodel wordt aangenomen dat er geen statistische interactie is en dat de hellingscoëfficiënt β niet afhankelijk is welke combinatie van verklarende variabelen er wordt gevormd.
Een multipele regressiemodel dat bestaat in de werkelijke populatie kan worden geschat met een voorspellingsvergelijking: ŷ = a + b1 x1 + b2 x2 + … + b p x p. Hierin is p het aantal verklarende variabelen.
Net zoals het bivariate model, gebruikt het multipele regressiemodel residuen om de voorspellingsfouten te meten. Voor iemand met een voorspelde respons ŷ en een gemeten respons y, is het residu het verschil tussen deze twee: y – ŷ. De SSE (Sum of Squared Errors/Residual Sum of Squares) werkt hetzelfde als bij bivariate formules; deze wordt berekend als SSE = Σ (y – ŷ)2. Het enige verschil is dat bij een multivariaat model de schatting ŷ wordt gevormd door meerdere verklarende variabelen. Ook bij een multivariaat model wordt de kleinste kwadratenlijn gekozen, met de kleinst mogelijke SSE. De SSE geeft aan hoe goed of slecht ŷ is in het inschatten van y en beoordeelt hoe goed de regressielijn past bij de data.
Voor een multipele regressiemodel wordt bekeken of er sprake is van lineaire verbanden via een puntgrafiekmatrix (scatterplot matrix). Dit is een mozaïek met puntgrafieken van de datapunten van verschillende paren variabelen. Een andere optie is om in een puntgrafiek de verschillende paren op verschillende manieren te markeren. Software kan een partiële regressiegrafiek maken (partial regression plot ofwel added-variable plot). Deze grafiek toont het verband tussen de responsvariabele en een verklarende variabele na het verwijderen van de effecten van de andere predictoren. Software doet dit door de residuen van verschillende combinaties te vergelijken.
Bij een bivariaat model beschrijft de correlatie r de sterkte van het verband en de determinatiecoëfficiënt r2 beschrijft hoe goed x de y voorspelt. In een multivariaat model worden deze aangegeven als R en R2. De multipele correlatie van de steekproef, namelijk R, is de correlatie tussen de geobserveerde y-waarden en de voorspelde y-waarden. Hoe hoger de correlatie, hoe sterker het verband tussen y en de verklarende variabelen. R valt altijd tussen 0 en 1.
De multipele determinatiecoëfficiënt R² meet de proportie van de variantie in y die wordt uitgelegd door het voorspellend vermogen van alle verklarende variabelen. De multipele determinatiecoëfficiënt heeft soortgelijke elementen als de bivariate determinatiecoëfficiënt.
De multipele determinatiecoëfficiënt volgt uit:
Regel 1: y wordt voorspeld ongeacht xp. De beste voorspelling is dan ȳ, het steekproefgemiddelde.
Regel 2: y wordt voorspeld met xp. De voorspellingsvergelijking ŷ = a + b1x1 + b2x2 + … + bpxp voorspelt y.
De proportionele beperking van het aantal fouten, ofwel de multipele determinatiecoëfficiënt, is R2 = (TSS – SSE) / TSS. Hierbij is TSS = Σ (y – ȳ)2 en SSE = Σ (y – ŷ)2.
Software zoals SPSS toont de output in een ANOVA-tabel. De TSS is wat er achter Total staat, onder Sum of Squares. De SSE is wat er achter Residual staat, onder Sum of Squares.
Kenmerken van R-kwadraat zijn:
R2 ligt tussen 0 en 1.
Als SSE = 0, dan R2 = 1 en dan zijn de voorspellingen perfect.
Als b1, b2, …, bp = 0 dan R2 = 0.
Hoe groter R2 is, hoe beter de verklarende variabelen y voorspellen.
R2 kan niet afnemen als er verklarende variabelen worden toegevoegd, enkel toenemen.
R2 is minstens zo groot als de r2-waarden voor de afzonderlijke bivariate modellen.
R2 overschat meestal de waarde van de populatie, daarom biedt veel software ook een adjusted R2 aan.
Wanneer er veel verklarende variabelen zijn die een sterke correlatie met elkaar hebben, dan neemt R² relatief weinig toe als het aantal verklarende variabelen toeneemt. Dit betekent niet dat die variabelen y niet goed kunnen voorspellen, maar dat ze niet veel meer toevoegen aan de predictoren. Dit heet multicollineariteit.
Problemen met multicollineariteit zijn minder groot bij grotere steekproeven.
Ideaal zou zijn als de steekproef minstens tien keer zo groot is als het aantal verklarende variabelen (bijvoorbeeld minstens 60 mensen voor zes verklarende variabelen).
Multipele regressie heeft twee soorten significantietoetsen. De eerste analyseert het hele model en kijkt of het collectief aan verklarende variabelen statistisch gerelateerd is aan y. De tweede analyseert de afzonderlijke verklarende variabelen en bekijkt welke daarvan een significant effect hebben op y.
Bij een collectieve significantietoets is H0 : β1 = β2 = … = βp = 0 en Ha : minstens één van βi ≠ 0. De i betekent 'een van de', bijvoorbeeld βi is een van de hellingscoëfficiënten. Deze toets meet of het collectief van verklarende variabelen een associatie heeft met de responsvariabele. Er wordt dus gemeten of de multipele correlatie van de populatie 0 is of iets anders dan 0. De significantietoets bij multipele regressie wordt uitgevoerd met behulp van de F-distributie en de toetsingsgrootheid F. De formule van F is:
Hierin is p het aantal predictoren (verklarende variabelen).
Kenmerken van de F-distributie zijn:
De distributie heeft alleen positieve waarden.
De distributie is rechtsscheef.
Het gemiddelde is ongeveer 1.
Hoe groter de R², hoe groter de F-statistiek.
Hoe groter de F-waarde, hoe groter het bewijs tegen H0.
De F-distributie is afhankelijk van twee soorten vrijheidsgraden: df1 = p (het aantal predictoren) en df2 = n – (p + 1). De F-waarde wordt in SPSS apart aangegeven in een ANOVA-tabel. De P-waarde wordt in SPSS aangegeven onder Sig., in R onder p-value, in Stata onder Prob > F en in SAS onder Pr > F.
Bij een significantietoets of een afzonderlijke verklarende variabele (xi) een partieel effect heeft op y, is H0 : β i = 0 en Ha : βi ≠ 0. Het betrouwbaarheidsinterval van βi is bi ± t(se) waarbij t = bi / se. De standaardfout wordt berekend met software en de t-score is te vinden in tabellen. Als multicollineariteit optreedt, kunnen de uitkomsten van de afzonderlijke P-waarden mogelijks niks aangeven, terwijl er bij een collectieve significantietoets wel een correlatie uit zou komen.
Er kan een conditionele standaarddeviatie worden berekend voor gecontroleerde verklarende variabelen. De schatting van deze standaarddeviatie is:
Ook de conditionele variantie kan worden berekend met software. Dit wordt de error mean square (MSE) of residual mean square genoemd.
F kan behalve met R² ook nog op een alternatieve manier worden berekend, namelijk met de mean squares uit de ANOVA-tabel van SPSS. In dat geval is F = regression mean square / MSE waarbij regression mean square = regression sum of squares (in SPSS) / df1.
De t-distributie en de F-distributie zijn gerelateerd. Het nadeel van F is het gebrek aan informatie over de richting van een verband. F is niet geschikt voor eenzijdige alternatieve hypothesen.
Meestal staan de verklarende variabelen van multipele regressie niet los van elkaar, er is vaak interactie. Er is sprake van statistische interactie tussen x1 en x2 en hun effect op y wanneer het daadwerkelijke effect van x1 op y verandert bij andere waarden van x2. Dit kan worden verwerkt in een model met het gebruik van kruisproducten (cross-product terms). Het model hiervan is: E(y) = α + β1x1 + β2x2 + β3x1x2. Hierin is β1 alleen het effect van x1 als x2 = 0, dus β1 is meestal niet interessant om afzonderlijk te onderzoeken.
Een significantietoets van een model met kruisproducten heeft als nulhypothese H0 : β3 = 0. De test wijst uit of er interactie is. Als er weinig interactie is, kan het kruisproduct beter worden weggelaten bij verdere testen. Als er veel interactie is, dan heeft het weinig zin meer om significantietoetsen te doen voor de andere verklarende variabelen, want die hangen toch sterk van elkaar af.
De coëfficiënten van verklarende variabelen zijn vaak niet zo heel erg nuttig, omdat ze alleen aangeven wat het effect is van die variabelen, gegeven dat de andere variabelen constant worden gehouden. Ze worden nuttiger door ze te centreren; hierbij wordt elke verklarende variabele gecentreerd rond 0 door er het gemiddelde af te trekken.
Centreren wordt aangegeven met een C in het symbool:
Nu geeft de coëfficiënt van x1 (dus β1) aan wat het effect is van x1, wanneer x2 gemiddeld is. Deze effecten zijn nu soortgelijk als in een model zonder interactie. De voordelen van centreren zijn dat de schattingen van x1 en x2 meer zeggen en dat de schattingen en standaardfouten lijken op die van een model zonder interactie.
Als er veel verklarende variabelen zijn, dan heeft het model een kruisproduct voor elk mogelijk paar. De data wordt dan weergegeven met lijnen in een grafiek of onderverdeeld in waarden van een controlevariabele (laag op x2, middelhoog op x2, hoog op x2).
Het hoeft helemaal niet zo te zijn dat hele uitgebreide modellen beter zijn dan korte modellen. Een gereduceerd model (met slechts enkele variabelen) kan beter zijn dan een compleet model (met alle variabelen). Een compleet model is bijvoorbeeld: E(y) = α + β1x1 + β2x2 + β3x3 + β4x1x2 + β5x1x3 + β6x2x3 . Een gereduceerd model hiervan is: E(y) = α + β1x1 + β2x2 + β3x3. De nulhypothese stelt dat de modellen identiek zijn: H0 : β4 = β5 = β6 = 0.
Een vergelijkingsmethode is om de SSE van het complete model (SSEc) af te trekken van de SSE van het gereduceerde model (SSEr). Omdat het gereduceerde model beknopter is, zal deze altijd een grotere SSE hebben en de werkelijkheid iets minder goed inschatten. Een andere vergelijkingsmethode trekt de R2 waarden van elkaar af.
De formules zijn:
Hierin is df1 het aantal extra predictoren in het complete model en df2 zijn de resterende vrijheidsgraden van het complete model. Een groot verschil in de SSE of een grote R2 zorgt voor een grotere F-waarde en een kleinere P-waarde, en dus meer bewijs tegen H0.
De partiële correlatie is de sterkte van het verband tussen een verklarende variabele (x1) en een responsvariabele (y), waarbij een controlevariabele (x2) buiten beschouwing wordt gelaten.
De formule van een partiële correlatie is:
Hierin is ryx1.x2 de partiële correlatie, de variabele rechts van de punt is de controlevariabele. Een eerste orde partiële correlatie heeft één controlevariabele, een tweede orde partiële correlatie heeft er twee. De kenmerken van een partiële correlatie lijken op die van een reguliere correlatie; de waarde ligt tussen -1 en 1 en hoe groter deze waarde is, hoe sterker het verband.
Net als een reguliere correlatie, heeft een partiële correlatie ook een gekwadrateerde versie. De formule hiervan is:
De gekwadrateerde partiële correlatie is de proportie van de variantie in y die wordt uitgelegd door x1. De variantie in y bestaat uit een deel dat wordt verklaard door x1, een deel dat wordt verklaard door x2, en een deel dat niet wordt verklaard door deze variabelen. De combinatie van het deel dat wordt uitgelegd door x1 en x2 is hetzelfde als R2. Dit werkt ook zo als er meer variabelen worden toegevoegd; R2 is het deel van de variantie in y die wordt verklaard.
Als variabelen in verschillende meeteenheden worden uitgedrukt, worden niet de coëfficiënten vergeleken maar een gestandaardiseerde versie ervan. De gestandaardiseerde regressiecoëfficiënt (β*1, β*2, etc) is de verandering in het gemiddelde van y, gemeten in y standaarddeviaties, bij een toename van 1 standaarddeviatie. Hierbij worden de andere verklarende variabelen gecontroleerd. Hiermee wordt vergeleken of een toename in x1 een groter effect heeft op y dan een toename in x2.
De gestandaardiseerde regressiecoëfficiënt wordt berekend door de gewone coëfficiënten te standardiseren. De schatting hiervan is:
Hierin is sy de steekproefdeviatie van y en sx1 de steekproefdeviatie van een verklarende variabele. De gestandaardiseerde regressiecoëfficiënten worden in SPSS en andere software soms BETA (beta weights) genoemd.
De gestandaardiseerde regressiecoëfficiënt geeft net als de correlatie de sterkte van een verband aan, alleen dan op een vergelijkende manier. Als de waarde hoger dan 1 is, dan is er een erg hoge correlatie tussen de verklarende variabelen.
Van de variabele y is zy de gestandaardiseerde versie: de versie die wordt uitgedrukt in het aantal standaarddeviaties. Als zy = (y – ȳ) / sy, dan is de schatting daarvan: ẑy = (ŷ – ȳ) / sy. De voorspellingsvergelijking voorspelt hoe ver een observatie van het gemiddelde valt, gemeten in standaarddeviaties:
Gestandaardiseerde regressiecoëfficiënten vergelijken is een handige manier om te bekijken welke verklarende variabele de grootste impact op de resonsvariabele heeft. Wees hier echter voorzichtig mee, want de kwaliteit van de informatie hangt af van het bereik van de waargenomen waarden van de verklarende variabele.
Een nominale categorische variabele kan behandeld worden als kwantitatieve variabele (door scores toe te kennen), maar dit is meer geschikt voor gemiddelden berekenen dan voor proporties. Om te voorkomen dat een model een bepaalde orde in de categorieën veronderstelt, kan beter gebruik worden gemaakt van dummyvariabelen. Dit betekent dat observaties worden geclassificeerd in nepvariabelen.
Een voorbeeld van dummyvariabelen is:
z1 = 1 en z2 = 0 : observaties van categorie 1 (mannen)
z1 = 0 en z2 = 1 : observaties van categorie 2 (vrouwen)
z1 = 0 en z2 = 0 : observaties van categorie 3 (overige geslachten)
Het model hierbij is: E(y) = α + β1z1 + β2z2. De gemiddelden volgen logischerwijze uit het model: μ1 = α + β1 en μ2 = α + β2 en μ3 = α. Voor drie categorieën zijn slechts twee dummyvariabelen nodig, want categorie 3 is hetgeen wat resteert.
Een significantietoets met de F-distributie test of de gemiddelden hetzelfde zijn. De nulhypothese H0 : μ1 = μ2 = μ3 = 0 betekent hetzelfde als H0 : β1 = β2 = 0. Als F erg klein is, dan is de P-waarde erg groot en dan is het bewijs tegen de nulhypothese ook erg groot.
De F-toets is robuust als de populatiedistributie niet helemaal verdeeld is en als de standaarddeviaties niet helemaal hetzelfde zijn. Maar bij erg scheef verdeelde data werkt de F-toets niet. Daarom is de willekeurigheid van de steekproeven belangrijk.
Een kleine P-waarde geeft nog niet aan welke gemiddelden er verschillen of in welke mate ze verschillen. Daar kunnen betrouwbaarheidsintervallen voor gebruikt worden. Er kan voor elk afzonderlijk gemiddelde een betrouwbaarheidsinterval gemaakt worden, maar ook voor het verschil tussen twee gemiddelden. Een betrouwbaarheidsinterval voor het schatten van het verschil tussen twee populatiegemiddelden is:
De vrijheidsgraden van de t-score zijn df = N – g, waarbij g het aantal categorieën is en N de gecombineerde steekproefgrootte (n1 + n2 + … + ng). Er is een bewezen verschil tussen de twee gemiddelden wanneer het betrouwbaarheidsinterval geen 0 bevat.
Als er heel veel groepen zijn en alle populatiegemiddelden hetzelfde zijn, dan kan het toch voorkomen dat er via het betrouwbaarheidsinterval een verschil tussen twee gemiddelden wordt gevonden. Dit komt doordat de kans op fouten toeneemt met het aantal vergelijkingen dat gemaakt moet worden.
Multiple comparison methods controleren de kans dat alle intervallen van een hoop vergelijkingen de daadwerkelijke verschillen bevatten. Hiermee bewaken ze de betrouwbaarheidsintervallen tegen fouten. Bij 95% betrouwbaarheidsintervallen is de kans dat een van de vele vergelijkingen een fout bevat 5%. Dit heet de multiple comparison error rate. Een voorbeeld van een methode voor meerdere vergelijkingen is de Bonferroni methode. Deze methode deelt het gewenste foutenpercentage door het aantal vergelijkingen, bijvoorbeeld 5% / 4 vergelijkingen = 1,25% per vergelijking. Een andere optie is Tukey's methode. Deze methode gebruikt een kansverdeling genaamd de Studentized range en kan met software worden berekend. Het voordeel van Tukey's methode boven Bonferroni's methode is dat Tukey nauwere betrouwbaarheidsintervallen geeft.
Variantieanalyse (analysis of variance), afgekort ANOVA, is een inferentiële methode om de gemiddelden van meerdere groepen met elkaar te vergelijken. Dit is een onafhankelijkheidstest tussen een kwantitatieve responsvariabele (bijvoorbeeld lengte) en een categorische verklarende variabele (bijvoorbeeld geslacht). In ANOVA heten de categorische verklarende variabelen factoren. De test komt neer op een F-test. De assumpties zijn hetzelfde als bij een F-test: normaal verdeelde data, een gelijke standaarddeviatie σ voor alle groepen en onafhankelijke willekeurige steekproeven. Voor ANOVA is H0 : μ1 = μ2 = … = μg (de gemiddelden van alle groepen zijn hetzelfde) en Ha : minstens twee gemiddelden verschillen.
De F-test vergelijkt de gemiddelden aan de hand van twee maten van variantie voor elke groep. De eerste, genaamd between-groups estimate, gebruikt de variabiliteit tussen elk steekproefgemiddelde ȳi en het algemene gemiddelde ȳ. De tweede, genaamd within-groups estimate, gebruikt de variabiliteit binnen elke groep; de variabiliteit van ȳ1, ȳ2, etc. Dit is een schatting van de variantie σ2. Over het algemeen geldt dat hoe groter de variabiliteit tussen de steekproefgemiddelden en hoe kleiner de variabiliteit binnen de afzonderlijke groepen, des te meer bewijs dat de populatiegemiddelden niet gelijk zijn en dat H0 niet klopt. Hiermee wordt de ANOVA F-statistiek berekend: between-groups estimate / within-groups estimate. Hoe groter de F-waarde, hoe kleiner de P-waarde.
In een ANOVA-tabel zijn de mean squares (MS) het between-groups estimate en het within-groups estimate, dit zijn schattingen van de populatievariantie σ2. Het between-groups estimate is de sum of squares tussen de groepen (de regressie SS) gedeeld door df1. Het within-groups estimate is de sum of squares binnen de groepen (de resterende SS, ofwel SSE) gedeeld door df2. Samen vormen de SS tussen groepen en de SSE de TSS; total sum of squares.
De vrijheidsgraden van het within-groups estimate zijn: df2 = N (totale steekproefgrootte) – g (aantal groepen). De schatting van de variantie aan de hand van de within-groups sum of squares is:
De vrijheidsgraden van het between-groups estimate zijn: df1 = g – 1. De variantie aan de hand van de between-groups sum of squares is:
Hoe groter de waarde hiervan, hoe verder het populatiegemiddelde van de nulhypothese af ligt en hoe meer verschil er is tussen de gemiddelden.
Als er maar twee groepen zijn, is een t-test in plaats van een F-test ook mogelijk. Als de verdeling erg anders is dan een normale verdeling, dan is de nonparametrische Kruskal-Wallis test een optie, deze test brengt een ranglijst aan in de data en werkt ook bij niet-normale verdelingen.
Eenweg-ANOVA is geschikt voor een kwantitatieve afhankelijke variabele en de categorieën van een enkele verklarende variabele. Tweeweg-ANOVA is geschikt voor meerdere categorische verklarende variabelen (zoals geslacht en religie). Elke factor heeft zijn eigen nulhypothese, waarbij gecontroleerd wordt voor de andere variabele, zodat de hoofdeffecten (main effects) van een individuele factor op de responsvariabele kunnen worden gemeten. Bijvoorbeeld wanneer je wilt weten of protestanten meer verdienen dan katholieken, terwijl gecontroleerd voor hun geslacht.
Het hoofdeffect van een factor is: MS / residu MS. De MS wordt berekend door een som van kwadraten te delen door de vrijheidsgraden. Omdat het handmatig uitvoeren van tweeweg-ANOVA complex is, wordt er gebruik gemaakt van software. Software geeft de MS en vrijheidsgraden weer in een ANOVA-tabel.
ANOVA kan worden uitgevoerd door dummyvariabelen aan te wijzen. Bijvoorbeeld bij een onderzoek naar hoeveel vegetariërs, veganisten en vleeseters per week aan boodschappen uitgeven, waarbij ook van invloed is hoe iemand zich identificeert:
v1 = 1 als iemand vegetarisch is, 0 als iemand dat niet is
v2 = 1 als iemand veganist is, 0 als iemand dat niet is
Als iemand noch vegetarisch noch veganistisch is, dan valt die persoon in de overige categorie (vleeseters).
k = 1 als iemand zichzelf als krent beschouwt, 0 als iemand zichzelf niet als krent beschouwt.
Het model wordt dan: E(y) = α + β1v1 + β2v2 + β3k. Vervolgens kan de voorspellingsvergelijking worden afgeleid. Tot slot geeft een betrouwbaarheidsinterval aan wat het verschil is tussen de effecten. Bijvoorbeeld het verschil tussen wat vegetariërs, veganisten en vleeseters aan boodschappen uitgeven, zowel in de categorie krenten als in de categorie van mensen die zichzelf niet als krent beschouwen.
In de praktijk moet er voor tweeweg-ANOVA eerst worden onderzocht of er een interactie-effect is, bijvoorbeeld tussen vegetarisme en krenterigheid. Dan wordt een uitgebreid model op interactie-effecten getoetst: E(y) = α + β1v1 + β2v2 + β3k.+ β4(v1 x k) + β5(v2 x k).
Een som van kwadraten van een van de (dummy)variabelen heet partiële som van kwadraten (partial sum of squares, ofwel Type III sum of squares). Dit is de variabiliteit in y die wordt uitgelegd door de desbetreffende variabele als de andere aspecten al in het model zitten.
ANOVA met meerdere factoren heet factoriële ANOVA. Het voordeel van tweeweg-ANOVA en factoriële ANOVA tegenover eenweg-ANOVA is dat de interactie kan worden onderzocht; hoe effecten elkaar versterken of verzwakken.
Soms zijn de steekproeven binnen een onderzoek afhankelijk van elkaar, bijvoorbeeld bij herhaalde metingen op verschillende momenten van dezelfde subjecten. In dat geval kun je elk subject ook als een factor beschouwen, bijvoorbeeld als tien mensen een cijfer moeten geven aan hoe ze zich voor, tijdens en na een behandeling voelen. Dit is makkelijk toe te passen bij weinig factoren, maar ook in complexere situaties is deze methode mogelijk met software. Omdat dit resulteert in drie paren van gemiddelden, kan een methode voor meerdere vergelijkingen worden toegepast, bijvoorbeeld Bonferroni. Het gewenste foutenpercentage wordt dan verdeeld over de verschillende betrouwbaarheidsintervallen. Hiermee kan bijvoorbeeld worden berekend hoe het gemiddelde cijfer voor een behandeling verschilt van het gemiddelde cijfer tijdens de behandeling, het gemiddelde cijfer ervoor versus erna, en tijdens versus erna.
Een aanname van ANOVA met herhaalde metingen is sfericiteit (sphericity). Dit houdt in dat de varianties van de verschillen tussen alle mogelijke paren van verklarende variabelen gelijk zijn. Als ze zelfs dezelfde standaarddeviatie en correlatie hebben, is er sprake van compound symmetry. Software kan testen of er sfericiteit is, bijvoorbeeld met Mauchly's test. Als er geen sfericiteit is, kan software met de Greenhouse-Geisser adjustment de vrijheidsgraden aanpassen zodat er toch een F-test mogelijk is.
Het voordeel van herhaalde metingen met dezelfde subjecten is dat bepaalde factoren telkens aanwezig zijn en daardoor gecontroleerd worden, dit heet blokkeren (blocking).
Factoren met een beperkt aantal uitkomsten, zoals vegetariërs, veganisten en vleeseters, heten fixed effects. Daartegenover staan random effects: factoren waarvan de uitkomsten willekeurig zijn, zoals de karakteristieken van willekeurige mensen die als onderzoekssubjecten in een onderzoek terechtkomen.
Het kan voorkomen dat er bij een onderzoek met herhaalde metingen nog veel meer fixed effects betrokken zijn. De tijd (voor/tijdens/na een behandeling) is een voorbeeld van een within-subjects factor, omdat dezelfde subjecten ervoor nodig zijn. Hierbij worden subject gekruist (crossed) met de factor. Het soort behandeling is een voorbeeld van een between-subjects factor, omdat dit een vergelijking van de ervaringen van verschillende subjecten is. Hierbij worden subjecten genesteld (nested) binnen de factor.
Door de twee verschillende soorten factoren, bestaat de SSE uit twee soorten fouten. Om elk verschil tussen twee categorieën te analyseren, is een betrouwbaarheidsinterval nodig. Doordat er twee soorten fouten zijn, kunnen de residuen niet worden gebruikt voor de betrouwbaarheidsintervallen. In plaats daarvan worden meerdere eenweg-ANOVA F-toetsen gebruikt, met behulp van de Bonferroni methode.
Een methode die multivariate responsen aankan en minder assumpties maakt, is multivariate variantieanalyse (MANOVA). Het nadeel van de verzwakte assumpties is dat de power van de test kleiner is.
Een algemeen nadeel van methoden met herhaalde metingen is dat er van alle subjecten op alle momenten data nodig is. Een model met zowel fixed effects als random effects heet een mixed model.
Multipele regressie is ook mogelijk met een kwantitatieve als een categorische predictor tegelijk. Hierbij wordt gewone regressieanalyse (voor de kwantitatieve variabele) gecombineerd met variantieanalyse (voor de categorische variabele). In veel studies is het zinvol om te controleren voor een kwantitatieve variabele. Bijvoorbeeld wanneer je de scores van olympische schaatsers (mannen en vrouwen) wilt vergelijken, is het aantal reeds behaalde medailles een zinvolle controlevariabele. Zo’n kwantitatieve controlevariabele heet een covariaat en bijbehorende regressie heet covariantieanalyse (analysis of covariance, ANCOVA).
Een kwantitatieve predictor kan worden aangegeven met x, een categorische predictor met z. Hierbij is z een dummyvariabele met twee categorieën. Als er meer categorieën zijn, dan zijn er meer dummyvariabelen nodig. Een grafiek is nuttig om het effect van x op y, gecontroleerd voor z, te onderzoeken. Bijvoorbeeld het effect van de materiaalkosten van schoenen (x) op de prijs van schoenen (y), gecontroleerd voor of de schoenen nieuw of tweedehands zijn (z, waarbij 1 = nieuw, 0 = tweedehands). Als er geen interactie is, lopen de best passende lijnen door de datapunten parallel aan elkaar. De prijs van schoenen is dan in dezelfde mate afhankelijk van het materiaal voor nieuwe en voor oude schoenen. De hellingscoëfficiënt is dan hetzelfde. Het kan zelfs voorkomen dat de regressielijnen exact hetzelfde zijn. Maar als de regressielijnen niet parallel lopen, dan is er interactie. Een toename in materiaalkosten leidt dan tot een andere prijs voor nieuwe schoenen dan voor oude schoenen.
Er kan sprake zijn van een kwantitatieve predictor (materiaalkosten) en een categorische controlevariabele (nieuwe/tweedehands schoenen), maar dit kan ook andersom. Software vergelijkt de gemiddelden. Een regressiemodel met drie categorieën is: E(y) = α + βx + β1z1 + β2z2, waarbij β het effect van x op y is voor alle groepen z. Voor elke toegevoegde kwantitatieve variabele wordt een βx toegevoegd. Voor elke toegevoegde categorische variabele wordt een (aantal) dummyvariabele(n) toegevoegd. Bij interactie worden kruisproducten toegevoegd.
Om uiteindelijk voorspellingen te kunnen maken met een model, moet eerst getest worden of er interactie is, want dan zijn kruisproducten nodig. Een F-test vergelijkt een model met kruisproducten tegenover een model zonder kruisproducten. De F-test doet dit aan de hand van de partiële som van kwadraten; de variabiliteit in y die wordt uitgelegd door de desbetreffende variabele als de andere aspecten al in het model zitten. De nulhypothese is dat er geen interactie is (en dus dat de hellingscoëfficiënten van de kruisproducten 0 zijn), de alternatieve hypothese is dat er wel interactie is. Bij interactie lopen de regressielijnen parallel, bij geen interactie niet.
In een grafiek ziet interactie er als volgt uit:
Ook kan een F-test bekijken of een compleet of gereduceerd model beter is. Om een compleet model (E(y) = α + βx + β1z1 + β2z2) te vergelijken met een gereduceerd model (E(y) = α + βx), is de nulhypothese dat de hellingscoëfficiënten β1 en β2 beide 0 zijn. Het complete model bestaat uit drie parallelle lijnen, het gereduceerde model heeft slechts een lijn. Als de P-waarde klein is, dan is het bewijs tegen de nulhypothese groot, en dan past het complete model (met de drie regressielijnen) significant beter bij de data dan het gereduceerde model. De multipele determinatiecoëfficiënt R2 geeft aan hoe goed de verschillende mogelijke regressielijnen de y voorspellen en helpt bij een vergelijking tussen het complete en gereduceerde model.
In een grafiek ziet deze vergelijking er als volgt uit:
Case studies beginnen vaak met de wens om het effect van een verklarende variabele op een responsvariabele te bestuderen. Gaandeweg worden er predictoren toegevoegd, soms verstorende (confounding) predictoren, soms mediërende predictoren.
Er zijn veel voorbeelden van case studies waarbij multipele regressie wordt toegepast. Bijvoorbeeld een onderzoek naar hoe de mening van leeftijdgenootjes over de populariteit van individuen het drugsgebruik van adolescenten beïnvloedt. Of een onderzoek naar de verschillen tussen alleenstaande moeders en getrouwde moeders. Als alleenstaande moeders met verloop van tijd steeds minder tijd besteden aan hun kinderen, en getrouwde moeders een gelijke hoeveelheid tijd, wat veroorzaakt dit verschil? Of een onderzoek naar de effecten van opname in een blijf-van-mijn-lijf huis op zelfvertrouwen en het cijfer dat mensen zichzelf geven.
Een aangepast gemiddelde (adjusted mean of least squares mean) is het gemiddelde van y voor een groep, waarbij gecontroleerd wordt voor de andere variabelen in het model. De overige variabelen worden dus op een gemiddelde gehouden, zodat de waarde van de adjusted mean kan worden onderzocht. Als een uitschieter een te grote invloed heeft op het gemiddelde, kan deze uitschieter worden weggelaten en kan de adjusted mean worden berekend.
De adjusted mean wordt aangegeven met een accent, dus het aangepaste steekproefgemiddelde van groep i is:
In een model met adjusted means, zijn de coëfficiënten gelijk aan de verschillen tussen de adjusted means. De adjusted mean betekent dat de regressielijn van het steekproefgemiddelde omhoog of omlaag verschuift. Met de Bonferroni methode kunnen meerdere vergelijkingen worden gemaakt van adjusted means met betrouwbaarheidsintervallen waarbij het foutenpercentage verdeeld wordt.
Het is de vraag of adjusted means kunnen worden gebruikt als de gemiddelden voor x erg verschillend zijn. Het gebruik van adjusted means kan eigenlijk alleen als het logischerwijze in te denken valt dat bepaalde groepen op een bepaalde manier verdeeld zijn en als dezelfde lineaire vorm behouden blijft.
Factoren met een beperkt aantal uitkomsten, zoals vegetariërs, veganisten en vleeseters, heten fixed effects. Daartegenover staan random effects: factoren waarvan de uitkomsten willekeurig zijn, zoals de karakteristieken van willekeurige mensen die als onderzoekssubjecten in een onderzoek terechtkomen. Lineaire gemengde modellen (linear mixed models) bevatten verklarende variabelen met zowel fixed effects als random effects.
Een regulier regressiemodel (dus geen lineair gemengd model) kan de functie per subject uitdrukken, bijvoorbeeld met de waarde xi1 van variabele x van subject i: yi = α + β1xi1 + β2xi2 + … + βpxip + ϵi. Hierin is de foutwaarde (error term) ϵ de variabiliteit in de responses van subjecten voor bepaalde waarden van de verklarende variabelen, de steekproefwaarde hiervan is het residu voor subject i. Omdat er wordt verwacht dat de foutwaarde 0 is, wordt deze verwijderd in de formule van E(yi).
Een lineair gemengd model kan meerdere, gecorreleerde observaties per subject aan. Het model wordt dan: yij = α + β1xij1 + β2xij2 + … + βpxijk + si + ϵ ij. Hierin is yij observatie j (bijvoorbeeld op een bepaald tijdstip) van subject i. Bij variabele x1 wordt observatie j van subject i dan als xij1 geschreven. Een random effect van subject i is si. Een subject met een hoge positieve si heeft relatief hoge responsen voor elke j. De fixed effects zijn de parameters (β1 enzovoorts).
De structuur duidt het karakter van de correlatie in het model. Als de correlaties tussen alle mogelijke paren observaties van verklarende variabelen gelijk zijn, is er sprake van compound symmetry. Als bij longitudinale onderzoeken de observaties bij het startpunt meer gecorreleerd zijn dan de observaties later in het onderzoek, is een autoregressieve structuur geschikt. Als assumpties over het patroon van correlatie beter vermeden kunnen worden, is het een ongestructureerd model. Een intraclass correlatie betekent dat binnen een groep, subjecten in een bepaalde mate op elkaar lijken. De random effects kunnen niet alleen subjecten zijn maar ook clusters van soortgelijke subjecten, bijvoorbeeld families.
Lineaire gemengde modellen hebben als voordelen tegenover ANOVA bij herhaalde metingen dat er minder assumpties worden gemaakt en dat ontbrekende data minder nare gevolgen heeft. Als data op een willekeurige manier ontbreekt, zonder structuur in de ontbrekende data, hoeft er geen vertekening (bias) op te treden. Lineaire gemengde modellen kunnen op allerlei manieren worden uitgebreid en aangepast, zelfs voor bijzondere vormen van correlatie.
Er kunnen allerlei strategieen zijn om verklarende variabelen wel of niet toe te voegen aan een model. Er zijn drie basisregels voor het maken van een selectie:
Selecteer variabelen die tegemoet komen aan het theoretische doel van het onderzoek (de nulhypothese accepteren/verwerpen), met zinvolle controlevariabelen en medierende variabelen.
Voeg voldoende variabelen toe voor een goeie voorspellende power.
Zorg dat het model simpel blijft.
Het model blijft overzichtelijk als de verklarende variabelen een hoge correlatie hebben met de responsvariabele maar niet met elkaar. Software kan verklarende variabelen uittesten en selecteren. Mogelijke strategieen zijn backward elimination, forward selection en stepwise regression. Bij backward elimination worden eerst alle mogelijke variabelen toegevoegd aan het model, vervolgens worden ze uitgetest op hun P-waarde en blijven alleen de significante variabelen over. Bij forward selection wordt begonnen met niets en dan wordt telkens de variabele met de laagste P-waarde (of hoogste toetsingsgrootheid, of grootste toename in R2) toegevoegd. Stepwise regression is een versie van forward selection waarbij overbodig geworden variabelen worden verwijderd als nieuwe variabelen worden toegevoegd.
Software helpt hierbij maar kan onhandige keuzes maken, er moet goed worden nagedacht over een model. Ook van invloed is de aard van het onderzoek. Verklarend (explanatory) onderzoek gaat uit van een theoretisch model dat getest moet worden, meestal zijn de variabelen dan al bekend. Verkennend (exploratory) onderzoek gaat open op zoek naar verklaringen van een fenomeen.
Verschillende criteria zijn aanwijzingen van een goed model. Om een model te kiezen met een hoge voorspellende power maar met een behapbaar aantal variabelen, wordt een aangepaste versie van de multipele determinatiecoëfficiënt gebruikt; de adjusted R2 :
De adjusted R2 neemt af als een overbodige variabele wordt toegevoegd.
Een criterium voor een model is dat de voorspelde waarden zo dicht mogelijk bij de geobserveerde waarden liggen. Dit kan worden getest met cross-validation, waarbij continu wordt nagekeken hoe passend de voorspellingen waren. Vanuit de residuen van de voorspelde waarden ontstaat dan een predicted residual sum of squares (PRESS):
Hoe kleiner de PRESS, hoe beter de voorspellingen zijn. Een som van kwadraten veronderstelt echter een normale verdeling.
Een methode dat ook niet-normale verdelingen aankan, is het Akaike information criterion (AIC). Deze methode selecteert het model waarbij ŷi zo dicht mogelijk bij E(yi) ligt. Hoe kleiner de AIC, hoe beter de voorspellingen.
Inferentie van parameters van een regressiemodel heeft de volgende assumpties:
Het model past bij de vorm van de data (bijvoorbeeld lineair)
De conditionele distributie van y is normaal
De standaarddeviatie is constant in het bereik van waarden van de verklarende variabelen (dit heet homoscedasticiteit)
Het gaat om een willekeurige steekproef
Als er niet perfect aan deze aannames wordt voldaan, heeft dat meestal geen grote gevolgen. Maar grove schendingen van deze aannames kunnen wel gevolgen hebben.
Als y normaal verdeeld is, dan moeten de residuen ook normaal verdeeld zijn. Een studentized residual is een gestandaardiseerde versie van een residu; het residu gedeeld door de standaardfout. Dit geeft aan hoeveel variabiliteit in de residuen wordt verklaard door de variabiliteit van de steekproeftrekking. Een studentized residual groter dan 3 kan een uitschieter zijn.
Als het model past bij de vorm van de data, dan wordt dit ook gereflecteerd in een puntgrafiek van de residuen, vergeleken met elk van de verklarende variabelen.
De willekeurigheid van een longitudinaal onderzoek wordt in het nauw gebracht als de observaties binnen een bepaald tijdsbestek sterk correleren. Dit kan worden nagekeken met een puntgrafiek van de residuen gedurende het gehele tijdsverloop. Deze vorm van correlatie kan nare gevolgen hebben op veel statistieken. Longitudinaal onderzoek wordt meestal binnen de sociale wetenschappen uitgevoerd en betreft een relatief beperkt tijdsbestek. Hier kan een lineair gemengd model voor worden gebruikt. Als het echter gaat om tijdreeksanalyse (time series) en daarmee een langer tijdsbestek, dan zijn methoden uit de econometrie geschikter.
Er zijn veel statistieken die het effect van een uitschieter meten. De residuen meten hoe ver y valt van de trend. Hoe ver de verklarende variabelen van hun gemiddelden af liggen, wordt gemeten door het leverage, aangeduid met het symbool h. Als observaties zowel een hoog residu hebben als een hoog leverage, dan hebben ze veel invloed.
DFBETA beschrijft het effect van een observatie op de schattingen van de parameters. DFFIT en Cook's distance beschrijven het effect op de mate waarin de grafiek past bij de data als een bepaalde observatie wordt verwijderd.
Wanneer er veel verklarende variabelen zijn die een sterke correlatie met elkaar hebben, dan neemt R² relatief weinig toe als het aantal verklarende variabelen toeneemt. Dit betekent niet dat die variabelen y niet goed kunnen voorspellen, maar dat ze niet veel meer toevoegen aan de predictoren. Dit heet multicollineariteit.
Door multicollineariteit worden de standaardfouten groter. Door een groter betrouwbaarheidsinterval wordt ook de variantie groter. Dit wordt gemeten door de variantie-inflatiefactor (variance inflation factor, VIF). Dit is de vermenigvuldigde toename in de variantie die wordt veroorzaakt door de correlatie tussen de verklarende variabelen.
De formule hiervoor is:
Ook zonder de VIF zijn er vaak indicaties van multicollineariteit te vinden in de functie. Een voorbeeld is een aanzienlijke toename in de coefficient van een variabele bij het toevoegen van een andere variabele.
Wat helpt tegen multicollineariteit, is slechts een deel van de variabelen uitkiezen, variabelen samenvoegen of variabelen centreren. Met factoranalyse worden kunstmatige nieuwe variabelen geschapen uit de bestaande variabelen, waarbij correlatie kan worden vermeden, maar meestal is factoranalyse niet nodig.
Gegeneraliseerde lineaire modellen (GLM) is een brede term waaronder zowel regressiemodellen met een normale verdeling vallen, als alternatieve modellen voor continue variabelen met een niet-normale verdeling, als modellen met discrete (categorische) variabelen.
De uitkomsten van een GLM zijn vaak binair (succes/geen succes). Soms zijn het de uitkomsten van een telling (zoals het aantal katten dat iemand bezit). Als de data erg discreet is, zoals bij binaire uitkomsten en tellingen, gebruikt een GLM de gammadistributie.
Een GLM heeft een linkfunctie; een vergelijking die het gemiddelde van de responsvariabele verbindt met de verklarende variabelen. De formule is: g(μ) = α + β1x1 + β2x2 + … + βpxp. Als de data niet negatief kan zijn, dan kan de log link worden gebruikt voor loglineaire modellen: log(μ) = α + β1x1 + β2x2 + … + βpxp. Een logistisch regressiemodel gebruikt de logit link: g(μ) = log[μ /(1-μ)]. Dit is nuttig als μ tussen 0 en 1 valt. De simpelste linkfunctie is de identity link: g(μ) = μ.
Een voordeel van een GLM is dat de data niet normaal verdeeld hoeft te zijn, omdat een GLM de meest aannemelijke schatter gebruikt. De meest aannemelijke schatter gebruikt een versie van de kleinste-kwadratenmethode die de gewogen kleinste-kwadratenmethode (weighted least squares) heet. Deze methode geeft meer gewicht aan observaties met minder variabiliteit.
Een gammadistributie geeft ruimte voor verschillende groottes van de standaarddeviatie. Dit heet heteroscedasticiteit; de standaarddeviatie neemt toe als het gemiddelde toeneemt. De variantie is dan ø μ2 en de standaarddeviatie is:
Hierin is ø de schaalparameter, deze geeft de schaal aan waarmee de distributie een vorm krijgt, de mate waarin de distributie als een bel gevormd is.
Als een grafiek in hoge mate niet lineair is, maar bijvoorbeeld curvilineair, dan wordt een polynomiale regressiefunctie gebruikt : E(y) = α + β1x + β2x2 waarin de hoogste macht de graad (degree) van de functie wordt genoemd. Met een polynomiale regressiefunctie kan een kwadratisch regressiemodel worden vormgegeven, een parabool:
Een cubic function is een polynomiale functie met drie graden, maar meestal is een functie met twee graden voldoende. Bij een rechte lijn blijft de hellingscoëfficiënt hetzelfde, maar bij een polynomiale functie verandert deze. Wanneer de coëfficiënt van x² positief is, zal de data lopen in de vorm van een bergparabool. Als de coëfficiënt negatief is, zal de data lopen in de vorm van een dalparabool. Het hoogste of laagste punt van de parabool, waarop deze van richting verandert, is; x = – β1 / 2(β2).
Bij dit soort modellen is R² de proportionele vermindering van schattingsfouten door het gebruiken van een kwadratisch verband in plaats van een lineair verband. Door R² voor het kwadratische verband te vergelijken met r² voor het lineaire verband geeft aan hoeveel beter de kwadratische functie past.
De nulhypothese stelt dat er geen sprake van zal zijn dat het kwadratische verband iets toevoegt aan het model. De coëfficiënt van de gekwadrateerde waarde is dan 0: H0: β2 = 0.
Het is belangrijk om voorzichtig te zijn in het concluderen dat een kwadratisch regressiemodel het beste past bij de data. Soms zijn andere vormen ook mogelijk. Ook moet parsimony het doel zijn; modellen moeten niet meer parameters hebben dan nodig is om het verband goed weer te geven.
Een exponentiële regressiefunctie is E(y) = α βx. Deze functie heeft alleen positieve waarde en neemt eindeloos toe of eindeloos af. Het logaritme van het gemiddelde is: log(μ) = log α + (log β)x. Bij het passend maken van de functie in software werkt een optie voor gegeneraliseerd lineair modelleren beter dan de reguliere optie voor regressie.
In dit model is β de vermenigvuldigde verandering in het gemiddelde van y bij een toename van x met 1 punt. Waar in een lineair model E(y) verandert met dezelfde kwantiteit voor een toename van x met 1 punt, verandert in het exponentiële model hetzelfde percentage. Als een grafiek moet worden omgezet naar een lineair verband, dan kunnen logtransformaties worden gebruikt; de logaritmen van de x-waarden maken het verband lineair.
Een manier om regressiemodellen aan te passen zodat ze schendingen van assumpties aan kunnen, is een robuuste variantie gebruiken. Deze methode gebruikt de kleinste-kwadratenlijn maar neemt niet aan dat de variantie in het vinden van standaardfouten constant is. De standaardfouten worden in plaats daarvan aangepast aan de variabiliteit van de steekproefdata. Dit wordt het sandwich estimate ofwel het robust standard error estimate genoemd. Als software deze standaardfouten berekent, dan kunnen ze worden vergeleken met de reguliere standaardfout. Verschillen ze veel, dan zijn er grove schendingen van de assumpties. Deze robuuste variantie kan ook worden toegepast op sterk correlerende data zoals clusters. Dan worden generalized estimating equations (GEE) gebruikt; schattingen van vergelijkingen met de meest aannemelijke schatter maar zonder de parametrische kansverdeling die meestal gepaard gaat met correlaties.
Een recent ontwikkelde nonparametrische methode (een methode die geen aannames maakt en geen normale verdeling veronderstelt) is generalized additive modeling. Dit is een veralgemenisering van het gegeneraliseerde lineaire model. Een curve erdoorheen laten trekken met software kan trends blootleggen. Methoden om een grafiek uit te lijnen, smoothers, zijn LOESS en kernel.
Een logistisch regressiemodel is een model met een binaire responsvariabele. De uitkomst kan maar twee dingen zijn ('mee eens' en 'niet mee eens'). Logistische regressiemodellen met meerdere categorieën kunnen ook ordinale en nominale responsen aan.
De mogelijke uitkomsten zijn succes en geen succes, 1 en 0. Het gemiddelde is de proportie responsen die 1 is. Het lineaire kansmodel (lineair probability model) is P(y=1) = α + βx. Dit model is vaak te simpel, een uitgebreid model is:
Dit model maakt gebruik van een logaritme (uit te rekenen met een rekenmachine of software). Hierbij is de odds: P(y=1)/[1-P(y=1)]. De log van de odds, ofwel logistische transformatie (in het kort: logit) wordt het logistische regressiemodel genoemd: logit[P(y=1)] = α + βx.
Als de hellingscoëfficiënt β groter dan 0 is, dan loopt de curve geboogd omhoog en wordt daarna een horizontale lijn. Als β kleiner dan 0 is, begint de curve als horizontale lijn, buigt daarna omlaag en wordt vervolgens weer een horizontale lijn.
Om voor een bepaalde waarde van een predictor de uitkomst te geven, wordt de volgende formule gebruikt:
Hierin is e tot een bepaalde macht de antilog van dat nummer (uit te rekenen met rekenmachines of software).
Om een logistische grafiek te analyseren, wordt een rechte lijn getekend naast de curve. De β is maximaal waar P(y=1) = ½. Bij logistische regressie wordt niet de kleinste-kwadratenmethode gebruikt maar de meest aannemelijke schatter.
Het model uitgedrukt in de odds is:
De schatting hiervan is:
Hiermee kan de odds ratio worden berekend.
Er zijn twee mogelijkheden om de data weer te geven. Bij ongegroepeerde data is er een reguliere kruistabel. Gegroepeerde data geeft een rij data weer voor elke telling in een cel, bijvoorbeeld slechts 1 rij met eerst het aantal subjecten dat het eens was en daarna het totale aantal subjecten.
Een alternatief voor de logit is de probit. Deze link veronderstelt een onderliggende, verborgen continue variabele y* die 1 is boven een bepaalde waarde T en 0 is onder die waarde. Omdat y* verborgen is, heet het een latente variabele. Er kan wel een probit model mee worden gemaakt: probit[P(y=1)] = α + βx.
Logistische regressie met herhaalde metingen en random effects kan worden geanalyseerd met een lineair gemengd model: logit[P(yij = 1)] = α + βxij + si.
Het multipele logistische regressiemodel is: logit[P(y = 1)] = α + β1x1 + … + βpxp. Hoe verder een βi van 0 ligt, hoe sterker het effect van predictor xi en hoe verder de odds ratio van 1 ligt. Desgewenst kunnen kruisproducten en dummyvariabelen worden toegevoegd. Met logistische multipele regressie kan bijvoorbeeld worden onderzocht hoeveel keer waarschijnlijker de ene groep is om een bepaald gedrag uit te oefenen in vergelijking tot een andere groep.
De uitkomsten van onderzoek worden vaker uitgedrukt in termen van de odds dan in de log odds schaal, omdat dit makkelijker te begrijpen is. De odds is de vermenigvuldiging van de antilog. Om de resultaten nog concreter te presenteren, worden ze uitgedrukt in kansen. Bijvoorbeeld de kans dat een bepaalde waarde eruit komt, waarbij de andere variabelen constant worden gehouden. De geschatte kans is:
Om de effecten van verklarende variabelen in verschillende meeteenheden te kunnen vergelijken, wordt de gestandaardiseerde schatting gebruikt:
Hierin is sxj de standaarddeviatie van de variabele xj.
Om selectiebias tegen te gaan in observatiestudies, wordt de propensity gebruikt. Dit is de kans dat een subject in een bepaalde groep terechtkomt. Door dit te managen, hebben onderzoekers meer controle over het soort mensen dat zich in een bepaalde situatie bevindt en hoe ze worden ingedeeld. Op deze manier kunnen echter alleen geobserveerde verstorende (confounding) variabelen worden tegengewerkt, niet de variabelen waarvan de onderzoekers zich niet bewust zijn.
Een logistisch regressiemodel gaat uit van de binomiale distributie en heeft de vorm: logit[P(y = 1)] = α + β1x1 + … + βpxp. De algemene nulhypothese is H0 : β1 = … = βp = 0 (geen van de verklarende variabelen heeft een effect).
De nulhypothese van een logistisch regressiemodel wordt uitgetest met de aannemelijkheidsquotiënttoets (likelihood-ratio test). Dit is een inferentiële test om een compleet model en een simpeler model te vergelijken. De aannemelijkheidsfunctie (ℓ) geeft de kans dat de geobserveerde data uit de parameterwaarden resulteren. Bijvoorbeeld ℓ0 is de maximale aannemelijkheidsfunctie als de nulhypothese klopt en ℓ1 is de maximale aannemelijkheidsfunctie als de nulhypothese niet klopt.
De toetsingsgrootheid van de aannemelijkheidsquotiënt is: -2 log (ℓ0 /ℓ1 ) = (-2 log ℓ0 ) – (-2 log ℓ1 ). De vrijheidsgraden zijn het aantal parameters in de nulhypothese.
Alternatieve toetsingsgrootheden zijn z en het kwadraat van z (genaamd Wald statistiek):
Maar voor kleinere steekproefgroottes of extreme effecten is de aannemelijkheidsquotiënttoets beter.
Ordinale variabelen veronderstellen een bepaalde orde in de categorieën, bijvoorbeeld als subjecten vinden dat de overheid minder lantaarnpalen moet bouwen, dezelfde hoeveelheid, of meer lantaarnpalen. De cumulatieve kans is de kans dat in een bepaalde categorie j of daaronder valt: P(y ≤ j). Elke cumulatieve kans kan worden omgezet in odds, bijvoorbeeld de odds dat een respons in categorie j of daaronder valt is: P(y ≤ j) / P(y > j).
Het is populair om cumulatieve logits te gebruiken, deze delen de responsen op een binaire manier in (hoog versus laag op een schaal). Het model hiervoor is: logit[P(y ≤ 1)] = αj – βx. Hierbij is j = 1, 2, …, c – 1 en c is het aantal categorieën. Let op, sommige software gebruikt een plusteken in plaats van een minteken voor de hellingscoëfficiënt.
Een proportional odds model is een cumulatief logit model waarin de hellingscoëfficiënt hetzelfde is voor elke cumulatieve kans, β varieert dus niet. De hellingscoëfficiënt geeft aan hoe steil de helling van de grafiek is. Bij een proportional odds model zijn de lijnen voor de verschillende categorieën dus precies even steil.
Cumulatieve logit modellen kunnen ook meerdere verklarende variabelen hebben. Een toets of de variabelen onafhankelijk zijn, is H0 : β. Een onafhankelijkheidstoets voor logistische regressie met ordinale variabelen resulteert in een duidelijkere P-waarde dan toetsen die de orde in de data negeren zoals de chi-kwadraattoets. Er kan ook een betrouwbaarheidsinterval worden berekend.
Een voordeel van het cumulatieve logit model is invariantie tegenover de schaal met responsen. Als een onderzoeker responsen onderverdeelt in een kleiner aantal categorieën dan een andere onderzoeker, zullen ze toch dezelfde conclusies trekken. Alleen een ordinale schaal inkrimpen tot een binaire schaal werkt niet.
Voor nominale variabelen (zonder orde) is er een model dat de kansen specificeert dat een bepaalde uitkomst eruit komt en niet een andere uitkomst. Dit model berekent deze kansen tegelijkertijd en veronderstelt onafhankelijke observaties. Dit is het baseline-category logit model:
Welke categorie onderin de breuk komt te staan, maakt niet uit, er is geen orde in de categorieën. Inferentie werkt net als bij reguliere logistische regressie, alleen worden om het effect van een verklarende variabele te testen alle parameters van de vergelijkingen erbij betrokken. Met de aannemelijkheidsquotiënttoets kan het model met en zonder een bepaalde variabele worden getest om te kijken welk model beter bij de data past.
De meeste modellen bestuderen het effect van een verklarende variabele op een responsvariabele. Loglineaire modellen zijn anders, deze modellen bestuderen de verbanden tussen (categorische) variabelen, bijvoorbeeld in een kruistabel. Deze modellen lijken meer op analyses van correlaties.
Een loglineair model veronderstelt een Poisson distributie; niet-negatieve discrete variabelen (zoals tellingen), gebaseerd op de multinomiale distributie.
Een kruistabel kan meerdere categorische responsvariabelen weergeven. Er kan een conditioneel verband tussen twee variabelen zijn als een derde variabele gecontroleerd wordt. Een andere mogelijkheid is dat twee variabelen conditioneel onafhankelijk zijn; onhankelijk voor elke categorie van de derde variabele.
Een hiërarchie van de mate van afhankelijkheid is als volgt (met bijbehorende symbolen voor de drie responsvariabelen x, y en z):
Alle drie zijn conditioneel onafhankelijk (x, y, z)
Twee paren zijn conditioneel onafhankelijk (xy, z)
Een paar is conditioneel onafhankelijk (xy, yz)
Er is geen conditionele onafhankelijkheid, maar wel een homogeen verband (het verband tussen elk mogelijk paar variabelen is hetzelfde bij elke categorie van de derde variabele) (xy, yz, xz)
Alle paren staan in verband en er is interactie, dit is een verzadigd model (xyz)
Ook loglineaire modellen kunnen geïnterpreteerd worden met de odds ratio. In een 2x2 kruistabel is de odds ratio van onafhankelijkheid 1. In een drieweg kruistabel betekent conditionele onafhankelijkheid tussen x en y dat de odds ratio's in de xy partiële tabellen allemaal 1 zijn. Bij homogene verbanden zijn de odds ratios in de xy partiële tabellen identiek bij elke categorie van z.
Een goodness-of-fit test onderzoekt de nulhypothese dat een model echt past bij een bepaalde populatie. Er wordt gemeten of de geschatte frequenties fe dicht bij de geobserveerde frequenties fo liggen. Grotere toetsingsgrootheden vormen groter bewijs dat het model niet klopt en grotere verschillen tussen de geschatte en geobserveerde frequenties. Dit kan gemeten worden met de Pearson chi-kwadraattoets:
Een andere vorm van een chi-kwadraattoets is de aannemelijkheidsquotiënt chi-kwadraattoets:
Als het model perfect aansluit bij de werkelijkheid, zijn zowel X2 als G2 0. De test met de aannemelijkheidsquotiënt is beter geschikt voor grote steekproeven. De Pearson test is beter geschikt voor frequenties tussen 1 en 10 gemiddeld. Beide toetsen werken alleen goed voor kruistabellen van categorische predictoren met relatief grote tellingen.
Om uit te zoeken wat er dwarsligt in het model, kunnen de gestandaardiseerde residuen per cel worden berekend: (fo – fe) / (standaardfout van (fo – fe)). Als het gestandaardiseerde residu van een cel groter dan 3 is, past in die cel het model niet bij de data.
Goodness-of-fit tests en gestandaardiseerde residuen zijn ook bruikbaar om de kwaliteit van loglineaire modellen te onderzoeken.
Om te kijken of een compleet of een gereduceerd model beter bij de werkelijkheid past, kan de aannemelijkheidsquotiënttoets worden gedaan met de G2 als toetsingsgrootheid. De G2 van het complete model wordt dan vergeleken met de G2 van het gereduceerde model.
Logistische regressiemodellen worden vaker gebruikt dan loglineaire modellen omdat veel toepassingen niet meerdere responsvariabelen hebben.
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
Add new contribution