Logistische regressie

Handout logistische regressie

Achtergrond en onderzoeksmodel

We zijn geïnteresseerd in de electorale participatie van burgers bij verkiezingen. Gaan ze stemmen of niet. In het verleden is reeds gevonden dat sociaal economische status (klasse, inkomen en onderwijsniveau), sociale integratie (sociaal kapitaal: lid verenigingen, lid sociale bewegingen) en politieke kenmerken (politieke interesse, zelfvertrouwen en tevredenheid van belang zijn).

In dit onderzoek willen we de invloed van een nieuwe factor (politieke kennis) onderzoeken en kijken of er verschillen bestaan op het gebied van religie en leeftijd.

Om te kijken of politieke kennis, leeftijd en religie samenhangen met wel of niet stemmen gaan we eerst een model schatten met alleen die drie variabelen

We gaan dus testen:

Logged odds (kans op stemmen) =

β₀ + β₁*Politieke kennis + β₂*leeftijd + β₃*Religieus + ε

Laten kunnen we nog gaan controleren voor de bekende invloeden zoals in de inleiding genoemd. Voor nu willen we eerst kijken wat de samenhangen met de nieuwe variabelen is.

Dataselectie & -bewerking

We gebruiken de NKO2006. Daarvan zijn de volgende variabelen van belang:

Afhankelijke variabele

-V220: Did (not) vote in 2003 parliamentary elections

Onafhankelijke variabelen

-V255: Political knowledge score 0-12

-V425: Respondent is religious

-V421: Year of birth respondent

Deze data moeten we nu omzetten naar bruikbare variabelen.

Gaan stemmen

In een logistische regressie moet de afhankelijke variabele alleen de waarden ‘0’ en ‘1’ hebben. De onderstaande frequentie laat zien dat dit nog niet het geval is.

v220 Did (not) vote in 2003 parliamentary elections

		Frequency	Percent	Valid Percent	Cumulative Percent
Valid	1 yes	2292	81.7	87.3	87.3
	2 no	332	11.8	12.7	100.0
	Total	2624	93.5	100.0
Missing	3 not entitled to vote	164	5.8
	997 DK/NA	18	.6
	Total	182	6.5
Total		2806	100.0

We hercoderen de variabele alsvolgt: ‘2 no’ wordt ‘0’, ‘1 yes’ wordt ‘1’. Daardoor geeft de logistische regressieanalyse de invloed van onafhankelijke variabelen op de (logged odds van de) kans dat iemand gaat stemmen. Deze noemen we Vote.

Politieke kennis

Dit is een variabele met een schaal van 1 tot 12. Die mogen we als interval gebruiken en hoeven we niet verder aan te passen voor de regressieanalyse. De variabele heet politieke_kennis.

Religieus

v425 Respondent is religious

		Frequency	Percent	Valid Percent	Cumulative Percent
Valid	1 yes	1473	52.5	52.8	52.8
	2 no	1319	47.0	47.2	100.0
	Total	2792	99.5	100.0
Missing	997 DK/NA	14	.5
Total		2806	100.0

De frequenties voor religieus tonen dat we deze variabele ook nog moeten omzetten in een bruikbare dummie. We willen religieus zijn als referentiecategorie en niet-religieus wordt dus de dummy (let op!: dit is ongebruikelijk, vaak wordt niet-religieus als referentie genomen, om didactische redenen kiezen we nu voor deze codering). Dus we hercoderen zodat ‘1’ betekent niet-religieus en ‘0’ religieus. De afkorting niet_rel is de variabelenaam.

Leeftijd

Om leeftijd te krijgen nemen het jaar van de verkiezing (2003) en trekken daar het geboortejaar van af. Dit doen we met een compute commando. Hierdoor krijgen we een goed te interpreteren interval variabele. Oudere mensen scoren hoger. En age zal zij heten.

Let op!

De afhankelijke variabele is bij logistische regressie dus altijd gecodeerd met alleen nullen en éénen!
De onafhankelijke variabelen kunnen dummies en interval variabelen zijn. En ook interacties zijn mogelijk.

Logistische regressie

Nu we de data klaargemaakt hebben. Gaan we in SPSS het model schatten. Hiervoor ga je naar Analyze à Regression à Binary Logistic…

à Bij het vakje ‘Dependent:’ staat nu de nieuwe dichotome afhankelijke variabele, zoals we deze eerder gecreëerd hebben.

à Onder ‘Covariates:’ plaats je alle onafhankelijke variabelen.

à Vervolgens klik je op ‘OK’.

Interpretatie

Gehele model

Alhoewel we vaak minder geïnteresseerd zijn in het model als geheel dan in de afzonderlijke variabelen, kijken we toch naar de belangrijkste output wat het model betreft. Deze moet je namelijk wel correct kunnen interpreteren.

Model Summary

Step	-2 Log likelihood	Cox & Snell R Square	Nagelkerke R Square
1	1629.805(a)	.075	.143

a Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.

De model summary geeft ons de ‘Pseudo R-kwadraten’ (dit zijn Cox & Snell en Nagelkerke). Dit zijn dus geen echte R-kwadraten en kunnen we ook niet als percentage verklaarde variatie op de afhankelijke variabele interpreteren. Wel is deze later te gebruiken om te vergelijken met andere modellen met minder of meer onafhankelijke variabelen.

Om iets meer een idee te krijgen van de kracht van het model kunnen we ook kijken naar de Classification Tables.

De eerste Classification Table (Block 0 of Step 0) laat zien voor hoeveel procent van de respondenten we een goede voorspelling hadden gedaan als we onze voorspellingen alleen zouden baseren op de informatie over de verdeling op de afhankelijke variabele. Dat is in dit geval 87,7%. (Dit is gelijk aan het percentage mensen dat heeft aangegeven wel te hebben gestemd. Meer algemeen: dat is altijd gelijk aan het percentage éénen op je afhankelijke variabele.)

De eerste Classification Table (Block 1 of Step 1) laat zien voor hoeveel procent van de respondenten we een goede voorspelling hadden gedaan als we bij onze voorspelling gebruik hadden gemaakt van de gevonden regressievergelijking. In dit geval is dat 87,8%.

Ons model helpt dus 0,1% meer correct te voorspellen.

Dit is niet veel, maar hierbij moet worden aangetekend dat hoe dichter het percentage respondenten dat ‘1’ scoort bij 0% of 100% ligt, hoe minder je de voorspelling kunt verbeteren.

De Omnibus Test laten daarnaast zijn dat het model als geheel significant is. (Als je de instellingen van SPSS niet wijzigt en de stappen volgt zoals we ze hier beschrijven, dan zouden de ‘Sig.’ cijfers allemaal gelijk moeten zijn.)

Omnibus Tests of Model Coefficients

		Chi-square	df	Sig.
Step 1	Step	190.329	3	.000
	Block	190.329	3	.000
	Model	190.329	3	.000

Let op!

Hecht niet te veel waarden aan de R-kwadraten en goed voorspelde uitkomsten (classification tables) bij een logistische regressie. Het zijn vooral maten die handig zijn om modellen onderling te vergelijken.
De significantie van het gehele model haal je uit de tabel met Omnibus Tests. We zijn echter meer geïnteresseerd in de significantie van de afzonderlijke verbanden met de onafhankelijke variabelen.

Afzonderlijke verbanden

Om de afzonderlijke verbanden te beoordelen bekijken we de ‘Variables in the Equation’ van Step 1/Block 1.

Variables in the Equation

		B	S.E.	Wald	df	Sig.	Exp(B)
Step 1(a)	politieke_kennis	.292	.023	157.019	1	.000	1.339
	niet_rel	-.338	.134	6.364	1	.012	.713
	age	.006	.004	2.204	1	.138	1.006
	Constant	.081	.242	.113	1	.736	1.085

a Variable(s) entered on step 1: politieke_kennis, niet_rel, age.

Hierin zien we zowel de significantiecijfers staan onder ‘Sig.’ als de richtingscoefficienten. De laatste staan zowel onder ‘B’ als onder Exp(B). Daarover later meer.

De significantie is hetzelfde te interpreteren als bij een gewone OLS regressie. Kijken we naar de tabel hierboven dan zien we dus dan politieke_kennis en rel een significante relatie hebben met de kans op gaan stemmen bij een criterium van 5% en politieke_kennis ook bij 1% en 0,1%. Dat verband is dus sterk significant (ook religies is niet zwak).

De relatie tussen leeftijd en de kans om te gaan stemmen is niet statistisch significant bij welk gebruikelijk niveau dan ook.

Na we weten dat religie en politieke kennis van belang zijn voor de kans dat iemand gaat stemmen, willen we ook weten hoe het effect loopt en hoe groot het is.

De kolom ‘B’ geeft de wijziging in de Logged Odds aan. We zijn begonnen met het theoretische model

Logged odds (kans op stemmen) =

β₀ + β₁*Politieke kennis + β₂*leeftijd + β₃*Religieus + ε

Als we dat nu invullen krijgen we dus:

Logged odds (kans op stemmen) =

0,081 + 0,292*politieke_kennis + 0,006*age + -0,338*niet_rel

Dit laat zien dat de logged odds van iemand die één stap meer politieke kennis heeft (op een schaal van twaalf) toenemen met 0,292. Er is dus sprake van een positief verband.

De logged odds zijn echter 0,338 lager voor iemand die niet religieus als dan iemand die wel religieus is. Het verband met niet religieus zijn is dus negatief. Omgedraaid, religieuze mensen hebben een grotere kans om te gaan stemmen.

Een rekenvoorbeeld:

Men nemen een mens van een politieke kennis van 5, die 40 jaar oud en niet religieus is. De logged odds van deze persoon zijn dan:

0,081 + 0,292*5 + 0,006*40 + -0,338*1 = 0,081 + 1,460 + 0,240 – 0,338 = 1,443

Deze Logged Odds om te gaan stemmen kunnen we omrekenen naar Odds.

De logged Odds is het natuurlijk logaritme van de Odds. Door op een rekenmachine [inv] [ln] te kiezen krijg je de Odds.

Die zijn in dit geval 4,23

Uit de Odds kunnen uitrekenen wat voor iemand van 40 die niet religieus is en een politieke kennis van 5 heeft de kans is op gaan stemmen.

Dit is 4,23/(1+4,23) = 80,9%

Ook nemen we iemand met een politieke kennis van 5, die 40 jaar oud en wel religieus is.

De logged odds van deze persoon zijn:

0,081 + 0,292*5 + 0,006*40 + -0,338*0 = 1,781

De bijbehorende Odds zijn: 5,94.

En de kans voor deze persoon is: 85,6%

Het religieus zijn verhoogt dus de kans op gaan stemmen. Voor mensen van 40 met een politieke kennis van 5 is dit een verhoging met 4,7%. Voor andere mensen is deze verhoging echter anders (denk aan de S-curve). Daarom gebruiken we de logged odds, die nemen evenveel toe per stijging op x.

We kunnen ook kijken naar de Odds ratio’s in de tabel zelf. Die staan onder ‘Exp(B)’.

De Odds om te gaan stemmen van iemand van 0 jaar oud zonder politieke kennis die religieus zijn 1,085 (de constante).

Voor een vergelijkbaar persoon van 10 jaar oud zijn die 1,085*1,006^10. In woorden: de constante vermenigvuldigd met 1,006 tot de macht 10.

De totale formule voor de Odds op gaan stemmen is:

1,085 * 1,339^politieke_kennis * 0,713^niet_rel * 1,006^age.

Voor de niet religieuze veertiger met een politieke kennis van 5 is dit:

1,085 * 1,339^5 * 0,713^1 * 1,006^40 = 4,23.

Uiteraard is dit hetzelfde als dat we eerder hebben uitgerekend op grond van de logged odds.

Hierboven hebben we voornamelijk de logged odds geïnterpreteerd. Je kunt ook gebruik maken van de Odds. De interpretatie is dan wel anders (de conclusies zijn uiteraard hetzelfde).

Kijken we naar leeftijd dan zien we in de output onder ‘Exp(B)’ 1,006 staan. Dit betekent dat de Odds Ratio’s 1,006 zijn. Met andere woorden, als de leeftijd van iemand toeneemt met 1 jaar dan moeten we de Odds op stemmen vermenigvuldigen met 1,006. Er is dus een positief verband tussen leeftijd en de kans op stemmen. Dit is echter niet significant.

Dit kunnen we ook in procenten uitdrukken. (1,006-1*100%=) 0,6%. Dus als de leeftijd van iemand toeneemt met 1 jaar dan worden de Odds op stemmen 0,6% hoger.

Doen we dit voor niet-religieus zijn dan krijgen we 0,713-1*100%. Dit is -28,7%. Mensen die niet religieus zijn hebben Odds op stemmen die 28,7% lager zijn dan die van mensen die wel religieus zijn. Odds lager dan 1, geven dus een negatief verband aan.

Kort samengevat:

Op grond van bovenstaande tabel kunnen we dus zeggen dat we met enige zekerheid kunnen stellen dat religieuze mensen meer kans hebben op stemmen en dat naarmate mensen meer politieke kennis hebben, ze meer geneigd zijn om te gaan stemmen. Dit alles onder constanthouding/gecontroleerd voor genoemde factoren en leeftijd. Leeftijd zelf heeft na controle voor religieus zijn en politieke kennis geen statistisch significant effect heeft op de kans om te gaan stemmen.

Het effect van leeftijd is 0,292 op een x-schaal van 0 tot en met 12; het effect van religieus zijn 0,338 voor een 0,1dummy. Het is soms moeilijke om precies een relatieve kracht te geven, maar in termen van logged odds is het effect van 1,16 stapjes op de politieke kennis schaal gelijk aan het verschil tussen wel of niet religieus zijn. Je zou kunnen zeggen dat het effect van politieke kennis beduidend groter is dan dat van religie.

Let op!

Significante interpreteren we bij logistische regressie hetzelfde als bij OLS regressie.
Bij de interpretatie van regressieanalysen kiezen we meestal voor één van de onder- en bovenstaande wijze van weergeven. Uiteraard moet je ze wel allemaal beheersen. Geef altijd aan of er sprake is van een positief of negatief verband en probeer iets te zeggen over de relatieve invloed.

De logged odds (B) zijn additief: die tellen we bij elkaar op.
Als x met 1 stijgt, stijgen de logged odds met B.

De Odds ratio’s ((Exp(B)) zijn multplicatie: die vermenigvuldigen we met elkaar.
De Odds ratio’s minus 1 maal honderd procent geeft de procentuele verandering in de Odds weer als x met 1 stijgt.
Als de Odds ratio’s tussen 0 en 1 liggen dan is er sprake van een negatief verband.

Odds zijn de kans dat iets voorkomt gedeeld door de kans dat het niet voorkomt. Ofwel p/(1-p)
Als we de Odds weten kunnen we ook de kans op voorkomen uitrekenen voor een persoon met bepaalde karakteristieken. Dit doen met met de formule:

kans(p) = Odds/(1+Odds).

Oefeningen logistische regressie

Wetenschappelijke relevantie

Op basis van het voorbeeld hierboven zijn we geïnteresseerd geraakt in het effect van religie en willen dat verder onderzoeken. We hebben twee vermoedens/hypothesen. In de eerste plaats dat er niet alleen verschil zit tussen religieus zijn en niet religieus zijn, maar ook tussen verschillende religieuze groepen. Ten tweede dat religiositeit een deel van het effect van religieuze denominatie verklaart. Daarnaast willen we natuurlijk nog toetsen of de gevonden bovenstaande effecten robuust zijn. Met andere woorden of ze gelijk en significant blijven als we de bekende verklarende variabelen (zie begin document) toevoegen.

Databewerking

Om de eerste twee stappen te toetsen gaan we nieuwe tests uitvoeren met de dataset NKO2006 Logistic exercises.

Afhankelijke variabele

- V224: Did (not) vote at referendum on EU constitution

Onafhankelijke variabelen

-V255: Political knowledge score 0-12

-V421: Year of birth respondent

-V425: Respondent is religious

-V426: Religious denomination

-V427: Attendance of religious services

à (1) Controleer en hercodeer de afhankelijke variabele tot een 0,1 variabele zodat deze bruikbaar is in een logistisch regressiemodel.

à (2) Controleer en hercodeer de onafhankelijke variabelen.

Denk daarbij na over de vorm. Interval en interval-like variabele behandel je als een schaal. Nominale variabelen en ordinale variabele die niet interval-like zijn, daarvan maak je dummies.

Bij religieuze denominaties kun je zelf de categorieën, als je wilt, terugbrengen tot minder groepen (en daarmee minder dummies).

Bij religiositeit zul je moeten beslissen of je deze variabele als interval-like beschouwt of niet.

Voor stappen een gebruik je de compute en recode commando’s. Alsmede frequencies en cross tabs om te zien hoe je moet hercoderen en of alles gelukt is.

Analysen

à (3a) Draai een logistisch model met stemmen bij het EU referendum al afhankelijke variabele en als onafhankelijke variabelen politieke kennis, leeftijd en religieuze denominatie.

à (3b) Draai een logistisch model met stemmen bij het EU referendum al afhankelijke variabele en als onafhankelijke variabelen politieke kennis, leeftijd, religieuze denominatie en religiositeit.

Interpreteer de resultaten van model (3a): welke variabelen zijn significant en zijn de effect positief of negatief.

Vergelijk model (3a) en (3b) met elkaar en probeer iets te zeggen over het effect van religie.

Ga voor de volgende stappen uit van model (3b).

Stel de formule (regressievergelijking) op voor de logged odds op wel gaan stemmen tijdens het EU referendum.

Bereken de logged odds van:

i) Iemand van 19 jaar, niet- religieus, met een politieke kennis van 9 en een door

jullie zelf gekozen waarde op religiositeit.

ii) Iemand van 19 jaar, religieus, met een politieke kennis van 9 en dezelfde waarde op religiositeit.

iii) Iemand van 19 jaar, niet- religieus, met een politieke kennis van 9 en een door

jullie zelf gekozen, maar andere waarde op religiositeit.

iv) Iemand van 19 jaar, religieus, met een politieke kennis van 9 en de waarde op

religiositeit die je bij (iii) hebt gebruikt.

Bereken voor elke van hen ook de Odds en kansen (p) op basis van gevonden cijfers.

Stel de formule (regressievergelijking) op voor de Odds (op basis van de (Exp(B)’s)) op wel gaan stemmen tijdens het EU referendum.

Bereken voor de vier bovenstaande personen de Odds, met behulp van deze formule.

Controleer of de cijfers gelijk zijn aan de eerder gevonden resultaten.

Voorlopige conclusies

à (4) Interpreteer je resultaten op grond van model (3a) en model (3b).

Formulier een conclusie met betrekking tot het effect van religie.

Wat is belangrijker denominatie of religieusiteit?

Robuustheid

à (5) Draai een nieuw logistische model vergelijkbaar met (3b) maar voeg nu ook andere controlevariabelen toe.

Vergeet niet te hercoderen.

Conclusie

à (6) Interpreteer de resultaten.

Zijn de eerder gevonden resultaten robuust?

Access:

Public

Verzekeren bij een faire en solidaire zorgverzekeraar?

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check more of:

Statistics and Data analysis Methods

Work for WorldSupporter?

Volunteering: WorldSupporter moderators and Summary Supporters
Volunteering: Share your summaries or study notes
Student jobs: Part-time work as study assistant in Leiden

Study with summaries

Associate with your Field of Study

Search Summaries or Notes

Start using Summaries

Add a Summary

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

Check the related and most recent topics and summaries:

Study fields and working areas:

Statistics and Data analysis Methods

Follow the author: De PoliticologieSupportal

De PoliticologieSupportal

Share this page!

Statistics

5925

Going abroad?

Favorite WorldSupporter insurances for backpackers, digital nomads, interns, students, volunteers or working abroad:

CareMed International Insurance for volunteers, interns to au pairs

Safetywing Nomad Insurance

World Nomads Travel Insurance

Special ISIS verzekeringen (NL)

About Insurances for abroad

About international expat insurances

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams
How and why use WorldSupporter.org for your summaries and study assistance?
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
Quicklinks to fields of study for summaries and study assistance

Online access to all summaries, study notes en practice exams

Check out: Register with JoHo WorldSupporter: starting page (EN)
Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)

How and why use WorldSupporter.org for your summaries and study assistance?

For free use of many of the summaries and study aids provided or collected by your fellow students.
For free use of many of the lecture and study group notes, exam questions and practice questions.
For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
For compiling your own materials and contributions with relevant study help
For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

Use the summaries home pages for your study or field of study
Use the check and search pages for summaries and study aids by field of study, subject or faculty
Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
Check or follow authors or other WorldSupporters
Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Check out: Why and how to add a WorldSupporter contributions
JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form