Logistische regressie

Handout logistische regressie

Achtergrond en onderzoeksmodel

We zijn geïnteresseerd in de electorale participatie van burgers bij verkiezingen. Gaan ze stemmen of niet. In het verleden is reeds gevonden dat sociaal economische status (klasse, inkomen en onderwijsniveau), sociale integratie (sociaal kapitaal: lid verenigingen, lid sociale bewegingen) en politieke kenmerken (politieke interesse, zelfvertrouwen en tevredenheid van belang zijn).

In dit onderzoek willen we de invloed van een nieuwe factor (politieke kennis) onderzoeken en kijken of er verschillen bestaan op het gebied van religie en leeftijd.

Om te kijken of politieke kennis, leeftijd en religie samenhangen met wel of niet stemmen gaan we eerst een model schatten met alleen die drie variabelen

We gaan dus testen:

Logged odds (kans op stemmen) =

β0 + β1*Politieke kennis  + β2*leeftijd + β3*Religieus + ε

Laten kunnen we nog gaan controleren voor de bekende invloeden zoals in de inleiding genoemd. Voor nu willen we eerst kijken wat de samenhangen met de nieuwe variabelen is.

Dataselectie & -bewerking

We gebruiken de NKO2006. Daarvan zijn de volgende variabelen van belang:

Afhankelijke variabele

            -V220: Did (not) vote in 2003 parliamentary elections

Onafhankelijke variabelen

            -V255: Political knowledge score 0-12

            -V425: Respondent is religious

            -V421: Year of birth respondent

Deze data moeten we nu omzetten naar bruikbare variabelen.

Gaan stemmen

In een logistische regressie moet de afhankelijke variabele alleen de waarden ‘0’ en ‘1’ hebben. De onderstaande frequentie laat zien dat dit nog niet het geval is.

 

v220  Did (not) vote in 2003 parliamentary elections

 

 

Frequency

Percent

Valid Percent

Cumulative Percent

Valid

1  yes

2292

81.7

87.3

87.3

2  no

332

11.8

12.7

100.0

Total

2624

93.5

100.0

 

Missing

3  not entitled to vote

164

5.8

 

 

997  DK/NA

18

.6

 

 

Total

182

6.5

 

 

Total

2806

100.0

 

 

 

We hercoderen de variabele alsvolgt: ‘2 no’ wordt ‘0’, ‘1 yes’ wordt ‘1’. Daardoor geeft de logistische regressieanalyse de invloed van onafhankelijke variabelen op de (logged odds van de) kans dat iemand gaat stemmen. Deze noemen we Vote.

Politieke kennis

Dit is een variabele met een schaal van 1 tot 12. Die mogen we als interval gebruiken en hoeven we niet verder aan te passen voor de regressieanalyse. De variabele heet politieke_kennis.

Religieus

v425  Respondent is religious

 

 

 

 

Frequency

Percent

Valid Percent

Cumulative Percent

Valid

1  yes

1473

52.5

52.8

52.8

2  no

1319

47.0

47.2

100.0

Total

2792

99.5

100.0

 

Missing

997  DK/NA

14

.5

 

 

Total

2806

100.0

 

 

 

De frequenties voor religieus tonen dat we deze variabele ook nog moeten omzetten in een bruikbare dummie. We willen religieus zijn als referentiecategorie en niet-religieus wordt dus de dummy (let op!: dit is ongebruikelijk, vaak wordt niet-religieus als referentie genomen, om didactische redenen kiezen we nu voor deze codering). Dus we hercoderen zodat ‘1’ betekent niet-religieus en ‘0’ religieus. De afkorting niet_rel is de variabelenaam.

Leeftijd

Om leeftijd te krijgen nemen het jaar van de verkiezing (2003) en trekken daar het geboortejaar van af. Dit doen we met een compute commando. Hierdoor krijgen we een goed te interpreteren interval variabele. Oudere mensen scoren hoger. En age zal zij heten.

 

            Let op!

  • De afhankelijke variabele is bij logistische regressie dus altijd gecodeerd met alleen nullen en éénen!
  • De onafhankelijke variabelen kunnen dummies en interval variabelen zijn. En ook interacties zijn mogelijk.

 

Logistische regressie

Nu we de data klaargemaakt hebben. Gaan we in SPSS het model schatten. Hiervoor ga je naar Analyze à Regression à Binary Logistic…

 

à        Bij het vakje ‘Dependent:’ staat nu de nieuwe dichotome afhankelijke variabele,   zoals we deze eerder gecreëerd hebben.

à        Onder ‘Covariates:’ plaats je alle onafhankelijke variabelen.

à        Vervolgens klik je op ‘OK’.

 

Interpretatie

 

Gehele model

Alhoewel we vaak minder geïnteresseerd zijn in het model als geheel dan in de afzonderlijke variabelen, kijken we toch naar de belangrijkste output wat het model betreft. Deze moet je namelijk wel correct kunnen interpreteren.

 

Model Summary

 

Step

-2 Log likelihood

Cox & Snell R Square

Nagelkerke R Square

1

1629.805(a)

.075

.143

 

a  Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.

 

De model summary geeft ons de ‘Pseudo R-kwadraten’ (dit zijn Cox & Snell en Nagelkerke). Dit zijn dus geen echte R-kwadraten en kunnen we ook niet als percentage verklaarde variatie op de afhankelijke variabele interpreteren. Wel is deze later te gebruiken om te vergelijken met andere modellen met minder of meer onafhankelijke variabelen.

 

Om iets meer een idee te krijgen van de kracht van het model kunnen we ook kijken naar de Classification Tables.

 

De eerste Classification Table (Block 0 of Step 0) laat zien voor hoeveel procent van de respondenten we een goede voorspelling hadden gedaan als we onze voorspellingen alleen zouden baseren op de informatie over de verdeling op de afhankelijke variabele. Dat is in dit geval 87,7%. (Dit is gelijk aan het percentage mensen dat heeft aangegeven wel te hebben gestemd. Meer algemeen: dat is altijd gelijk aan het percentage éénen op je afhankelijke variabele.)

De eerste Classification Table (Block 1 of Step 1) laat zien voor hoeveel procent van de respondenten we een goede voorspelling hadden gedaan als we bij onze voorspelling gebruik hadden gemaakt van de gevonden regressievergelijking. In dit geval is dat 87,8%.

Ons model helpt dus 0,1% meer correct te voorspellen.

Dit is niet veel, maar hierbij moet worden aangetekend dat hoe dichter het percentage respondenten dat ‘1’ scoort bij 0% of 100% ligt, hoe minder je de voorspelling kunt verbeteren.

 

De Omnibus Test laten daarnaast zijn dat het model als geheel significant is. (Als je de instellingen van SPSS niet wijzigt en de stappen volgt zoals we ze hier beschrijven, dan zouden de ‘Sig.’ cijfers allemaal gelijk moeten zijn.)

 

Omnibus Tests of Model Coefficients

 

 

 

Chi-square

df

Sig.

Step 1

Step

190.329

3

.000

 

Block

190.329

3

.000

 

Model

190.329

3

.000

 

 

 

            Let op!

  • Hecht niet te veel waarden aan de R-kwadraten en goed voorspelde uitkomsten (classification tables) bij een logistische regressie. Het zijn vooral maten die handig zijn om modellen onderling te vergelijken.
  • De significantie van het gehele model haal je uit de tabel met Omnibus Tests. We zijn echter meer geïnteresseerd in de significantie van de afzonderlijke verbanden          met de onafhankelijke variabelen.

 

Afzonderlijke verbanden

Om de afzonderlijke verbanden te beoordelen bekijken we de ‘Variables in the Equation’ van Step 1/Block 1.

Variables in the Equation

 

 

 

 

 

B

S.E.

Wald

df

Sig.

Exp(B)

Step 1(a)

politieke_kennis

.292

.023

157.019

1

.000

1.339

niet_rel

-.338

.134

6.364

1

.012

.713

age

.006

.004

2.204

1

.138

1.006

Constant

.081

.242

.113

1

.736

1.085

a  Variable(s) entered on step 1: politieke_kennis, niet_rel, age.

 

 

Hierin zien we zowel de significantiecijfers staan onder ‘Sig.’ als de richtingscoefficienten. De laatste staan zowel onder ‘B’ als onder Exp(B). Daarover later meer.

 

De significantie is hetzelfde te interpreteren als bij een gewone OLS regressie. Kijken we naar de tabel hierboven dan zien we dus dan politieke_kennis en rel een significante relatie hebben met de kans op gaan stemmen bij een criterium van 5% en politieke_kennis ook bij 1% en 0,1%. Dat verband is dus sterk significant (ook religies is niet zwak).

De relatie tussen leeftijd en de kans om te gaan stemmen is niet statistisch significant bij welk gebruikelijk niveau dan ook.

 

Na we weten dat religie en politieke kennis van belang zijn voor de kans dat iemand gaat stemmen, willen we ook weten hoe het effect loopt en hoe groot het is.

De kolom ‘B’ geeft de wijziging in de Logged Odds aan. We zijn begonnen met het theoretische model

Logged odds (kans op stemmen) =

β0 + β1*Politieke kennis  + β2*leeftijd + β3*Religieus + ε

Als we dat nu invullen krijgen we dus:

Logged odds (kans op stemmen) =

0,081 + 0,292*politieke_kennis  + 0,006*age + -0,338*niet_rel

Dit laat zien dat de logged odds van iemand die één stap meer politieke kennis heeft (op een schaal van twaalf) toenemen met 0,292. Er is dus sprake van een positief verband.

De logged odds zijn echter 0,338 lager voor iemand die niet religieus als dan iemand die wel religieus is. Het verband met niet religieus zijn is dus negatief. Omgedraaid, religieuze mensen hebben een grotere kans om te gaan stemmen.

 

 

 

Een rekenvoorbeeld:

Men nemen een mens van een politieke kennis van 5, die 40 jaar oud en niet religieus is. De logged odds van deze persoon zijn dan:

0,081 + 0,292*5  + 0,006*40 + -0,338*1 = 0,081 + 1,460 + 0,240 – 0,338 = 1,443

Deze Logged Odds om te gaan stemmen kunnen we omrekenen naar Odds.

De logged Odds is het natuurlijk logaritme van de Odds. Door op een rekenmachine [inv] [ln] te kiezen krijg je de Odds.

Die zijn in dit geval 4,23

Uit de Odds kunnen uitrekenen wat voor iemand van 40 die niet religieus is en een politieke kennis van 5 heeft de kans is op gaan stemmen.

Dit is 4,23/(1+4,23) = 80,9%

 

Ook nemen we iemand met een politieke kennis van 5, die 40 jaar oud en wel religieus is.

De logged odds van deze persoon zijn:

0,081 + 0,292*5  + 0,006*40 + -0,338*0 = 1,781

De bijbehorende Odds zijn: 5,94.

En de kans voor deze persoon is: 85,6%

 

Het religieus zijn verhoogt dus de kans op gaan stemmen. Voor mensen van 40 met een politieke kennis van 5 is dit een verhoging met 4,7%. Voor andere mensen is deze verhoging echter anders (denk aan de S-curve). Daarom gebruiken we de logged odds, die nemen evenveel toe per stijging op x.

 

We kunnen ook kijken naar de Odds ratio’s in de tabel zelf. Die staan onder ‘Exp(B)’.

De Odds om te gaan stemmen van iemand van 0 jaar oud zonder politieke kennis die religieus zijn 1,085 (de constante).

Voor een vergelijkbaar persoon van 10 jaar oud zijn die 1,085*1,006^10. In woorden: de constante vermenigvuldigd met 1,006 tot de macht 10.

De totale formule voor de Odds op gaan stemmen is:

1,085 * 1,339^politieke_kennis * 0,713^niet_rel * 1,006^age.

Voor de niet religieuze veertiger met een politieke kennis van 5 is dit:

1,085 * 1,339^5 * 0,713^1 * 1,006^40 = 4,23.

Uiteraard is dit hetzelfde als dat we eerder hebben uitgerekend op grond van de logged odds.

 

Hierboven hebben we voornamelijk de logged odds geïnterpreteerd. Je kunt ook gebruik maken van de Odds. De interpretatie is dan wel anders (de conclusies zijn uiteraard hetzelfde).

Kijken we naar leeftijd dan zien we in de output onder ‘Exp(B)’ 1,006 staan. Dit betekent dat de Odds Ratio’s 1,006 zijn. Met andere woorden, als de leeftijd van iemand toeneemt met 1 jaar dan moeten we de Odds op stemmen vermenigvuldigen met 1,006. Er is dus een positief verband tussen leeftijd en de kans op stemmen. Dit is echter niet significant.

Dit kunnen we ook in procenten uitdrukken. (1,006-1*100%=) 0,6%. Dus als de leeftijd van iemand toeneemt met 1 jaar dan worden de Odds op stemmen 0,6% hoger.

Doen we dit voor niet-religieus zijn dan krijgen we 0,713-1*100%. Dit is -28,7%. Mensen die niet religieus zijn hebben Odds op stemmen die 28,7% lager zijn dan die van mensen die wel religieus zijn. Odds lager dan 1, geven dus een negatief verband aan.

 

Kort samengevat:

Op grond van bovenstaande tabel kunnen we dus zeggen dat we met enige zekerheid kunnen stellen dat religieuze mensen meer kans hebben op stemmen en dat naarmate mensen meer politieke kennis hebben, ze meer geneigd zijn om te gaan stemmen. Dit alles onder constanthouding/gecontroleerd voor genoemde factoren en leeftijd. Leeftijd zelf heeft na controle voor religieus zijn en politieke kennis geen statistisch significant effect heeft op de kans om te gaan stemmen.

Het effect van leeftijd is 0,292 op een x-schaal van 0 tot en met 12; het effect van religieus zijn 0,338 voor een 0,1dummy. Het is soms moeilijke om precies een relatieve kracht te geven, maar in termen van logged odds is het effect van 1,16 stapjes op de politieke kennis schaal gelijk aan het verschil tussen wel of niet religieus zijn. Je zou kunnen zeggen dat het effect van politieke kennis beduidend groter is dan dat van religie.

 

            Let op!

  • Significante interpreteren we bij logistische regressie hetzelfde als bij OLS regressie.
  • Bij de interpretatie van regressieanalysen kiezen we meestal voor één van de onder- en bovenstaande wijze van weergeven. Uiteraard moet je ze wel allemaal beheersen. Geef altijd aan of er sprake is van een positief of negatief verband en      probeer iets te zeggen over de relatieve invloed.

 

  • De logged odds (B) zijn additief: die tellen we bij elkaar op.
  • Als x met 1 stijgt, stijgen de logged odds met B.

 

  • De Odds ratio’s ((Exp(B)) zijn multplicatie: die vermenigvuldigen we met elkaar.
  • De Odds ratio’s minus 1 maal honderd procent geeft de procentuele verandering in de Odds weer als x met 1 stijgt.
  • Als de Odds ratio’s tussen 0 en 1 liggen dan is er sprake van een negatief verband.

 

  • Odds zijn de kans dat iets voorkomt gedeeld door de kans dat het niet voorkomt.       Ofwel p/(1-p)
  • Als we de Odds weten kunnen we ook de kans op voorkomen uitrekenen voor een persoon met bepaalde karakteristieken. Dit doen met met de formule:

     kans(p) = Odds/(1+Odds).

 

 

 

 

 

 

Oefeningen logistische regressie

 

Wetenschappelijke relevantie

Op basis van het voorbeeld hierboven zijn we geïnteresseerd geraakt in het effect van religie en willen dat verder onderzoeken. We hebben twee vermoedens/hypothesen. In de eerste plaats dat er niet alleen verschil zit tussen religieus zijn en niet religieus zijn, maar ook tussen verschillende religieuze groepen. Ten tweede dat religiositeit een deel van het effect van religieuze denominatie verklaart. Daarnaast willen we natuurlijk nog toetsen of de gevonden bovenstaande effecten robuust zijn. Met andere woorden of ze gelijk en significant blijven als we de bekende verklarende variabelen (zie begin document) toevoegen.

 

Databewerking

Om de eerste twee stappen te toetsen gaan we nieuwe tests uitvoeren met de dataset NKO2006 Logistic exercises.

 

Afhankelijke variabele

            - V224: Did (not) vote at referendum on EU constitution

Onafhankelijke variabelen

            -V255: Political knowledge score 0-12

            -V421: Year of birth respondent

            -V425: Respondent is religious

            -V426: Religious denomination

            -V427: Attendance of religious services

 

à (1) Controleer en hercodeer de afhankelijke variabele tot een 0,1 variabele zodat deze bruikbaar is in een logistisch regressiemodel.

 

à (2) Controleer en hercodeer de onafhankelijke variabelen.

Denk daarbij na over de vorm. Interval en interval-like variabele behandel je als een schaal. Nominale variabelen en ordinale variabele die niet interval-like zijn, daarvan maak je dummies.

Bij religieuze denominaties kun je zelf de categorieën, als je wilt, terugbrengen tot minder groepen (en daarmee minder dummies).

Bij religiositeit zul je moeten beslissen of je deze variabele als interval-like beschouwt of niet.

 

Voor stappen een gebruik je de compute en recode commando’s. Alsmede frequencies en cross tabs om te zien hoe je moet hercoderen en of alles gelukt is.

 

Analysen

à (3a) Draai een logistisch model met stemmen bij het EU referendum al afhankelijke variabele en als onafhankelijke variabelen politieke kennis, leeftijd en religieuze denominatie.

à (3b) Draai een logistisch model met stemmen bij het EU referendum al afhankelijke variabele en als onafhankelijke variabelen politieke kennis, leeftijd, religieuze denominatie en religiositeit.

Interpreteer de resultaten van model (3a): welke variabelen zijn significant en zijn de effect positief of negatief.

Vergelijk model (3a) en (3b) met elkaar en probeer iets te zeggen over het effect van religie.

 

Ga voor de volgende stappen uit van model (3b).

 

Stel de formule (regressievergelijking) op voor de logged odds op wel gaan stemmen tijdens het EU referendum.

Bereken de logged odds van:

i)    Iemand van 19 jaar, niet- religieus, met een politieke kennis van 9 en een door

      jullie zelf gekozen waarde op religiositeit.

ii)   Iemand van 19 jaar, religieus, met een politieke kennis van 9 en dezelfde        waarde op religiositeit.

iii) Iemand van 19 jaar, niet- religieus, met een politieke kennis van 9 en een door 

     jullie zelf gekozen, maar andere waarde op religiositeit.

iv) Iemand van 19 jaar, religieus, met een politieke kennis van 9 en de waarde op

            religiositeit die je bij (iii) hebt gebruikt.

Bereken voor elke van hen ook de Odds en kansen (p) op basis van gevonden cijfers.

 

Stel de formule (regressievergelijking) op voor de Odds (op basis van de (Exp(B)’s)) op wel gaan stemmen tijdens het EU referendum.

Bereken voor de vier bovenstaande personen de Odds, met behulp van deze formule.

Controleer of de cijfers gelijk zijn aan de eerder gevonden resultaten.

 

Voorlopige conclusies

à (4) Interpreteer je resultaten op grond van model (3a) en model (3b).

Formulier een conclusie met betrekking tot het effect van religie.

Wat is belangrijker denominatie of religieusiteit?

 

Robuustheid

à (5) Draai een nieuw logistische model vergelijkbaar met (3b) maar voeg nu ook andere controlevariabelen toe.

Vergeet niet te hercoderen.

 

Conclusie

à (6) Interpreteer de resultaten.

Zijn de eerder gevonden resultaten robuust?

Contributions, Comments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Summaries & Study Note of De PoliticologieSupportal
Join World Supporter
Join World Supporter
Log in or create your free account

Why create an account?

  • Your WorldSupporter account gives you access to all functionalities of the platform
  • Once you are logged in, you can:
    • Save pages to your favorites
    • Give feedback or share contributions
    • participate in discussions
    • share your own contributions through the 11 WorldSupporter tools
Content
Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
149
Promotions
wereldstage wereldroute

Tussenjaar of sta je op het punt op kamers te gaan?

Wereldroute biedt jou een leerzaam en onvergetelijk Student Prepare Program aan