
- 15.1 Wat is logistische regressie?
- 15.2 Hoe ziet multipele logistische regressie eruit?
- 15.3 Hoe maak je inferenties met logistische regressiemodellen?
- 15.4 Hoe werkt logistische regressie met ordinale variabelen?
- 15.5 Hoe zien logistische modellen met nominale responsen eruit?
- 15.6 Hoe gebruik je loglineaire modellen om de verbanden tussen categorische variabelen weer te geven?
- 15.7 Hoe voer je goodness-of-fit tests uit voor kruistabellen?
- TentamenTickets
15.1 Wat is logistische regressie?
Een logistisch regressiemodel is een model met een binaire responsvariabele. De uitkomst kan maar twee dingen zijn ('mee eens' en 'niet mee eens'). Logistische regressiemodellen met meerdere categorieën kunnen ook ordinale en nominale responsen aan.
De mogelijke uitkomsten zijn succes en geen succes, 1 en 0. Het gemiddelde is de proportie responsen die 1 is. Het lineaire kansmodel (lineair probability model) is P(y=1) = α + βx. Dit model is vaak te simpel, een uitgebreid model is:
Dit model maakt gebruik van een logaritme (uit te rekenen met een rekenmachine of software). Hierbij is de odds: P(y=1)/[1-P(y=1)]. De log van de odds, ofwel logistische transformatie (in het kort: logit) wordt het logistische regressiemodel genoemd: logit[P(y=1)] = α + βx.
Als de hellingscoëfficiënt β groter dan 0 is, dan loopt de curve geboogd omhoog en wordt daarna een horizontale lijn. Als β kleiner dan 0 is, begint de curve als horizontale lijn, buigt daarna omlaag en wordt vervolgens weer een horizontale lijn.
Om voor een bepaalde waarde van een predictor de uitkomst te geven, wordt de volgende formule gebruikt:
Hierin is e tot een bepaalde macht de antilog van dat nummer (uit te rekenen met rekenmachines of software).
Om een logistische grafiek te analyseren, wordt een rechte lijn getekend naast de curve. De β is maximaal waar P(y=1) = ½. Bij logistische regressie wordt niet de kleinste-kwadratenmethode gebruikt maar de meest aannemelijke schatter.
Het model uitgedrukt in de odds is:
De schatting hiervan is:
Hiermee kan de odds ratio worden berekend.
Er zijn twee mogelijkheden om de data weer te geven. Bij ongegroepeerde data is er een reguliere kruistabel. Gegroepeerde data geeft een rij data weer voor elke telling in een cel, bijvoorbeeld slechts 1 rij met eerst het aantal subjecten dat het eens was en daarna het totale aantal subjecten.
Een alternatief voor de logit is de probit. Deze link veronderstelt een onderliggende, verborgen continue variabele y* die 1 is boven een bepaalde waarde T en 0 is onder die waarde. Omdat y* verborgen is, heet het een latente variabele. Er kan wel een probit model mee worden gemaakt: probit[P(y=1)] = α + βx.
Logistische regressie met herhaalde metingen en random effects kan worden geanalyseerd met een lineair gemengd model: logit[P(yij = 1)] = α + βxij + si.
15.2 Hoe ziet multipele logistische regressie eruit?
Het multipele logistische regressiemodel is: logit[P(y = 1)] = α + β1x1 + … + βpxp. Hoe verder een βi van 0 ligt, hoe sterker het effect van predictor xi en hoe verder de odds ratio van 1 ligt. Desgewenst kunnen kruisproducten en dummyvariabelen worden toegevoegd. Met logistische multipele regressie kan bijvoorbeeld worden onderzocht hoeveel keer waarschijnlijker de ene groep is om een bepaald gedrag uit te oefenen in vergelijking tot een andere groep.
De uitkomsten van onderzoek worden vaker uitgedrukt in termen van de odds dan in de log odds schaal, omdat dit makkelijker te begrijpen is. De odds is de vermenigvuldiging van de antilog. Om de resultaten nog concreter te presenteren, worden ze uitgedrukt in kansen. Bijvoorbeeld de kans dat een bepaalde waarde eruit komt, waarbij de andere variabelen constant worden gehouden. De geschatte kans is:
Om de effecten van verklarende variabelen in verschillende meeteenheden te kunnen vergelijken, wordt de gestandaardiseerde schatting gebruikt:
Hierin is sxj de standaarddeviatie van de variabele xj.
Om selectiebias tegen te gaan in observatiestudies, wordt de propensity gebruikt. Dit is de kans dat een subject in een bepaalde groep terechtkomt. Door dit te managen, hebben onderzoekers meer controle over het soort mensen dat zich in een bepaalde situatie bevindt en hoe ze worden ingedeeld. Op deze manier kunnen echter alleen geobserveerde verstorende (confounding) variabelen worden tegengewerkt, niet de variabelen waarvan de onderzoekers zich niet bewust zijn.
15.3 Hoe maak je inferenties met logistische regressiemodellen?
Een logistisch regressiemodel gaat uit van de binomiale distributie en heeft de vorm: logit[P(y = 1)] = α + β1x1 + … + βpxp. De algemene nulhypothese is H0 : β1 = … = βp = 0 (geen van de verklarende variabelen heeft een effect).
De nulhypothese van een logistisch regressiemodel wordt uitgetest met de aannemelijkheidsquotiënttoets (likelihood-ratio test). Dit is een inferentiële test om een compleet model en een simpeler model te vergelijken. De aannemelijkheidsfunctie (ℓ) geeft de kans dat de geobserveerde data uit de parameterwaarden resulteren. Bijvoorbeeld ℓ0 is de maximale aannemelijkheidsfunctie als de nulhypothese klopt en ℓ1 is de maximale aannemelijkheidsfunctie als de nulhypothese niet klopt.
De toetsingsgrootheid van de aannemelijkheidsquotiënt is: -2 log (ℓ0 /ℓ1 ) = (-2 log ℓ0 ) – (-2 log ℓ1 ). De vrijheidsgraden zijn het aantal parameters in de nulhypothese.
Alternatieve toetsingsgrootheden zijn z en het kwadraat van z (genaamd Wald statistiek):
Maar voor kleinere steekproefgroottes of extreme effecten is de aannemelijkheidsquotiënttoets beter.
15.4 Hoe werkt logistische regressie met ordinale variabelen?
Ordinale variabelen veronderstellen een bepaalde orde in de categorieën, bijvoorbeeld als subjecten vinden dat de overheid minder lantaarnpalen moet bouwen, dezelfde hoeveelheid, of meer lantaarnpalen. De cumulatieve kans is de kans dat in een bepaalde categorie j of daaronder valt: P(y ≤ j). Elke cumulatieve kans kan worden omgezet in odds, bijvoorbeeld de odds dat een respons in categorie j of daaronder valt is: P(y ≤ j) / P(y > j).
Het is populair om cumulatieve logits te gebruiken, deze delen de responsen op een binaire manier in (hoog versus laag op een schaal). Het model hiervoor is: logit[P(y ≤ 1)] = αj – βx. Hierbij is j = 1, 2, …, c – 1 en c is het aantal categorieën. Let op, sommige software gebruikt een plusteken in plaats van een minteken voor de hellingscoëfficiënt.
Een proportional odds model is een cumulatief logit model waarin de hellingscoëfficiënt hetzelfde is voor elke cumulatieve kans, β varieert dus niet. De hellingscoëfficiënt geeft aan hoe steil de helling van de grafiek is. Bij een proportional odds model zijn de lijnen voor de verschillende categorieën dus precies even steil.
Cumulatieve logit modellen kunnen ook meerdere verklarende variabelen hebben. Een toets of de variabelen onafhankelijk zijn, is H0 : β. Een onafhankelijkheidstoets voor logistische regressie met ordinale variabelen resulteert in een duidelijkere P-waarde dan toetsen die de orde in de data negeren zoals de chi-kwadraattoets. Er kan ook een betrouwbaarheidsinterval worden berekend.
Een voordeel van het cumulatieve logit model is invariantie tegenover de schaal met responsen. Als een onderzoeker responsen onderverdeelt in een kleiner aantal categorieën dan een andere onderzoeker, zullen ze toch dezelfde conclusies trekken. Alleen een ordinale schaal inkrimpen tot een binaire schaal werkt niet.
15.5 Hoe zien logistische modellen met nominale responsen eruit?
Voor nominale variabelen (zonder orde) is er een model dat de kansen specificeert dat een bepaalde uitkomst eruit komt en niet een andere uitkomst. Dit model berekent deze kansen tegelijkertijd en veronderstelt onafhankelijke observaties. Dit is het baseline-category logit model:
Welke categorie onderin de breuk komt te staan, maakt niet uit, er is geen orde in de categorieën. Inferentie werkt net als bij reguliere logistische regressie, alleen worden om het effect van een verklarende variabele te testen alle parameters van de vergelijkingen erbij betrokken. Met de aannemelijkheidsquotiënttoets kan het model met en zonder een bepaalde variabele worden getest om te kijken welk model beter bij de data past.
15.6 Hoe gebruik je loglineaire modellen om de verbanden tussen categorische variabelen weer te geven?
De meeste modellen bestuderen het effect van een verklarende variabele op een responsvariabele. Loglineaire modellen zijn anders, deze modellen bestuderen de verbanden tussen (categorische) variabelen, bijvoorbeeld in een kruistabel. Deze modellen lijken meer op analyses van correlaties.
Een loglineair model veronderstelt een Poisson distributie; niet-negatieve discrete variabelen (zoals tellingen), gebaseerd op de multinomiale distributie.
Een kruistabel kan meerdere categorische responsvariabelen weergeven. Er kan een conditioneel verband tussen twee variabelen zijn als een derde variabele gecontroleerd wordt. Een andere mogelijkheid is dat twee variabelen conditioneel onafhankelijk zijn; onhankelijk voor elke categorie van de derde variabele.
Een hiërarchie van de mate van afhankelijkheid is als volgt (met bijbehorende symbolen voor de drie responsvariabelen x, y en z):
Alle drie zijn conditioneel onafhankelijk (x, y, z)
Twee paren zijn conditioneel onafhankelijk (xy, z)
Een paar is conditioneel onafhankelijk (xy, yz)
Er is geen conditionele onafhankelijkheid, maar wel een homogeen verband (het verband tussen elk mogelijk paar variabelen is hetzelfde bij elke categorie van de derde variabele) (xy, yz, xz)
Alle paren staan in verband en er is interactie, dit is een verzadigd model (xyz)
Ook loglineaire modellen kunnen geïnterpreteerd worden met de odds ratio. In een 2x2 kruistabel is de odds ratio van onafhankelijkheid 1. In een drieweg kruistabel betekent conditionele onafhankelijkheid tussen x en y dat de odds ratio's in de xy partiële tabellen allemaal 1 zijn. Bij homogene verbanden zijn de odds ratios in de xy partiële tabellen identiek bij elke categorie van z.
15.7 Hoe voer je goodness-of-fit tests uit voor kruistabellen?
Een goodness-of-fit test onderzoekt de nulhypothese dat een model echt past bij een bepaalde populatie. Er wordt gemeten of de geschatte frequenties fe dicht bij de geobserveerde frequenties fo liggen. Grotere toetsingsgrootheden vormen groter bewijs dat het model niet klopt en grotere verschillen tussen de geschatte en geobserveerde frequenties. Dit kan gemeten worden met de Pearson chi-kwadraattoets:
Een andere vorm van een chi-kwadraattoets is de aannemelijkheidsquotiënt chi-kwadraattoets:
Als het model perfect aansluit bij de werkelijkheid, zijn zowel X2 als G2 0. De test met de aannemelijkheidsquotiënt is beter geschikt voor grote steekproeven. De Pearson test is beter geschikt voor frequenties tussen 1 en 10 gemiddeld. Beide toetsen werken alleen goed voor kruistabellen van categorische predictoren met relatief grote tellingen.
Om uit te zoeken wat er dwarsligt in het model, kunnen de gestandaardiseerde residuen per cel worden berekend: (fo – fe) / (standaardfout van (fo – fe)). Als het gestandaardiseerde residu van een cel groter dan 3 is, past in die cel het model niet bij de data.
Goodness-of-fit tests en gestandaardiseerde residuen zijn ook bruikbaar om de kwaliteit van loglineaire modellen te onderzoeken.
Om te kijken of een compleet of een gereduceerd model beter bij de werkelijkheid past, kan de aannemelijkheidsquotiënttoets worden gedaan met de G2 als toetsingsgrootheid. De G2 van het complete model wordt dan vergeleken met de G2 van het gereduceerde model.
Logistische regressiemodellen worden vaker gebruikt dan loglineaire modellen omdat veel toepassingen niet meerdere responsvariabelen hebben.
TentamenTickets
Als je op de middelbare school goed was in logaritmen, werkt dit in je voordeel. Als dit echter niet je favoriete onderwerp was, ook geen zorgen, de primaire taken van onderzoekers zijn passende modellen vinden en de uitkomsten uitleggen. Het rekenwerk wordt bijna altijd door software gedaan.
Als je de hiërarchie van vijf maten van afhankelijkheid ingewikkeld vindt, pak dan voor de variabelen x, y en z drie kleuren en teken rondjes om te visualiseren op welke manieren ze kunnen overlappen.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Contributions: posts
Spotlight: topics
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
1801 |
Add new contribution