Hoe werkt logistische regressie? – Chapter 15

15.1 Wat is logistische regressie?

Een logistisch regressiemodel is een model met een binaire responsvariabele. De uitkomst kan maar twee dingen zijn ('mee eens' en 'niet mee eens'). Logistische regressiemodellen met meerdere categorieën kunnen ook ordinale en nominale responsen aan.

De mogelijke uitkomsten zijn succes en geen succes, 1 en 0. Het gemiddelde is de proportie responsen die 1 is. Het lineaire kansmodel (lineair probability model) is P(y=1) = α + βx. Dit model is vaak te simpel, een uitgebreid model is:

Dit model maakt gebruik van een logaritme (uit te rekenen met een rekenmachine of software). Hierbij is de odds: P(y=1)/[1-P(y=1)]. De log van de odds, ofwel logistische transformatie (in het kort: logit) wordt het logistische regressiemodel genoemd: logit[P(y=1)] = α + βx.

Als de hellingscoëfficiënt β groter dan 0 is, dan loopt de curve geboogd omhoog en wordt daarna een horizontale lijn. Als β kleiner dan 0 is, begint de curve als horizontale lijn, buigt daarna omlaag en wordt vervolgens weer een horizontale lijn.

Om voor een bepaalde waarde van een predictor de uitkomst te geven, wordt de volgende formule gebruikt:

Hierin is e tot een bepaalde macht de antilog van dat nummer (uit te rekenen met rekenmachines of software).

Om een logistische grafiek te analyseren, wordt een rechte lijn getekend naast de curve. De β is maximaal waar P(y=1) = ½. Bij logistische regressie wordt niet de kleinste-kwadratenmethode gebruikt maar de meest aannemelijke schatter.

Het model uitgedrukt in de odds is:

De schatting hiervan is:

Hiermee kan de odds ratio worden berekend.

Er zijn twee mogelijkheden om de data weer te geven. Bij ongegroepeerde data is er een reguliere kruistabel. Gegroepeerde data geeft een rij data weer voor elke telling in een cel, bijvoorbeeld slechts 1 rij met eerst het aantal subjecten dat het eens was en daarna het totale aantal subjecten.

Een alternatief voor de logit is de probit. Deze link veronderstelt een onderliggende, verborgen continue variabele y* die 1 is boven een bepaalde waarde T en 0 is onder die waarde. Omdat y* verborgen is, heet het een latente variabele. Er kan wel een probit model mee worden gemaakt: probit[P(y=1)] = α + βx.

Logistische regressie met herhaalde metingen en random effects kan worden geanalyseerd met een lineair gemengd model: logit[P(yij = 1)] = α + βxij + si.

15.2 Hoe ziet multipele logistische regressie eruit?

Het multipele logistische regressiemodel is: logit[P(y = 1)] = α + β1x1 + … + βpxp. Hoe verder een βi van 0 ligt, hoe sterker het effect van predictor xi en hoe verder de odds ratio van 1 ligt. Desgewenst kunnen kruisproducten en dummyvariabelen worden toegevoegd. Met logistische multipele regressie kan bijvoorbeeld worden onderzocht hoeveel keer waarschijnlijker de ene groep is om een bepaald gedrag uit te oefenen in vergelijking tot een andere groep.

De uitkomsten van onderzoek worden vaker uitgedrukt in termen van de odds dan in de log odds schaal, omdat dit makkelijker te begrijpen is. De odds is de vermenigvuldiging van de antilog. Om de resultaten nog concreter te presenteren, worden ze uitgedrukt in kansen. Bijvoorbeeld de kans dat een bepaalde waarde eruit komt, waarbij de andere variabelen constant worden gehouden. De geschatte kans is:

Om de effecten van verklarende variabelen in verschillende meeteenheden te kunnen vergelijken, wordt de gestandaardiseerde schatting gebruikt:

Hierin is sxj de standaarddeviatie van de variabele xj.

Om selectiebias tegen te gaan in observatiestudies, wordt de propensity gebruikt. Dit is de kans dat een subject in een bepaalde groep terechtkomt. Door dit te managen, hebben onderzoekers meer controle over het soort mensen dat zich in een bepaalde situatie bevindt en hoe ze worden ingedeeld. Op deze manier kunnen echter alleen geobserveerde verstorende (confounding) variabelen worden tegengewerkt, niet de variabelen waarvan de onderzoekers zich niet bewust zijn.

15.3 Hoe maak je inferenties met logistische regressiemodellen?

Een logistisch regressiemodel gaat uit van de binomiale distributie en heeft de vorm: logit[P(y = 1)] = α + β1x1 + … + βpxp. De algemene nulhypothese is H0 : β1 = … = βp = 0 (geen van de verklarende variabelen heeft een effect).

De nulhypothese van een logistisch regressiemodel wordt uitgetest met de aannemelijkheidsquotiënttoets (likelihood-ratio test). Dit is een inferentiële test om een compleet model en een simpeler model te vergelijken. De aannemelijkheidsfunctie (ℓ) geeft de kans dat de geobserveerde data uit de parameterwaarden resulteren. Bijvoorbeeld ℓ0 is de maximale aannemelijkheidsfunctie als de nulhypothese klopt en ℓ1 is de maximale aannemelijkheidsfunctie als de nulhypothese niet klopt.

De toetsingsgrootheid van de aannemelijkheidsquotiënt is: -2 log (ℓ0 /ℓ1 ) = (-2 log ℓ0 ) – (-2 log ℓ1 ). De vrijheidsgraden zijn het aantal parameters in de nulhypothese.

Alternatieve toetsingsgrootheden zijn z en het kwadraat van z (genaamd Wald statistiek):

Maar voor kleinere steekproefgroottes of extreme effecten is de aannemelijkheidsquotiënttoets beter.

15.4 Hoe werkt logistische regressie met ordinale variabelen?

Ordinale variabelen veronderstellen een bepaalde orde in de categorieën, bijvoorbeeld als subjecten vinden dat de overheid minder lantaarnpalen moet bouwen, dezelfde hoeveelheid, of meer lantaarnpalen. De cumulatieve kans is de kans dat in een bepaalde categorie j of daaronder valt: P(y ≤ j). Elke cumulatieve kans kan worden omgezet in odds, bijvoorbeeld de odds dat een respons in categorie j of daaronder valt is: P(y ≤ j) / P(y > j).

Het is populair om cumulatieve logits te gebruiken, deze delen de responsen op een binaire manier in (hoog versus laag op een schaal). Het model hiervoor is: logit[P(y ≤ 1)] = αj – βx. Hierbij is j = 1, 2, …, c – 1 en c is het aantal categorieën. Let op, sommige software gebruikt een plusteken in plaats van een minteken voor de hellingscoëfficiënt.

Een proportional odds model is een cumulatief logit model waarin de hellingscoëfficiënt hetzelfde is voor elke cumulatieve kans, β varieert dus niet. De hellingscoëfficiënt geeft aan hoe steil de helling van de grafiek is. Bij een proportional odds model zijn de lijnen voor de verschillende categorieën dus precies even steil.

Cumulatieve logit modellen kunnen ook meerdere verklarende variabelen hebben. Een toets of de variabelen onafhankelijk zijn, is H0 : β. Een onafhankelijkheidstoets voor logistische regressie met ordinale variabelen resulteert in een duidelijkere P-waarde dan toetsen die de orde in de data negeren zoals de chi-kwadraattoets. Er kan ook een betrouwbaarheidsinterval worden berekend.

Een voordeel van het cumulatieve logit model is invariantie tegenover de schaal met responsen. Als een onderzoeker responsen onderverdeelt in een kleiner aantal categorieën dan een andere onderzoeker, zullen ze toch dezelfde conclusies trekken. Alleen een ordinale schaal inkrimpen tot een binaire schaal werkt niet.

15.5 Hoe zien logistische modellen met nominale responsen eruit?

Voor nominale variabelen (zonder orde) is er een model dat de kansen specificeert dat een bepaalde uitkomst eruit komt en niet een andere uitkomst. Dit model berekent deze kansen tegelijkertijd en veronderstelt onafhankelijke observaties. Dit is het baseline-category logit model:

Welke categorie onderin de breuk komt te staan, maakt niet uit, er is geen orde in de categorieën. Inferentie werkt net als bij reguliere logistische regressie, alleen worden om het effect van een verklarende variabele te testen alle parameters van de vergelijkingen erbij betrokken. Met de aannemelijkheidsquotiënttoets kan het model met en zonder een bepaalde variabele worden getest om te kijken welk model beter bij de data past.

15.6 Hoe gebruik je loglineaire modellen om de verbanden tussen categorische variabelen weer te geven?

De meeste modellen bestuderen het effect van een verklarende variabele op een responsvariabele. Loglineaire modellen zijn anders, deze modellen bestuderen de verbanden tussen (categorische) variabelen, bijvoorbeeld in een kruistabel. Deze modellen lijken meer op analyses van correlaties.

Een loglineair model veronderstelt een Poisson distributie; niet-negatieve discrete variabelen (zoals tellingen), gebaseerd op de multinomiale distributie.

Een kruistabel kan meerdere categorische responsvariabelen weergeven. Er kan een conditioneel verband tussen twee variabelen zijn als een derde variabele gecontroleerd wordt. Een andere mogelijkheid is dat twee variabelen conditioneel onafhankelijk zijn; onhankelijk voor elke categorie van de derde variabele.

Een hiërarchie van de mate van afhankelijkheid is als volgt (met bijbehorende symbolen voor de drie responsvariabelen x, y en z):

  1. Alle drie zijn conditioneel onafhankelijk (x, y, z)

  2. Twee paren zijn conditioneel onafhankelijk (xy, z)

  3. Een paar is conditioneel onafhankelijk (xy, yz)

  4. Er is geen conditionele onafhankelijkheid, maar wel een homogeen verband (het verband tussen elk mogelijk paar variabelen is hetzelfde bij elke categorie van de derde variabele) (xy, yz, xz)

  5. Alle paren staan in verband en er is interactie, dit is een verzadigd model (xyz)

Ook loglineaire modellen kunnen geïnterpreteerd worden met de odds ratio. In een 2x2 kruistabel is de odds ratio van onafhankelijkheid 1. In een drieweg kruistabel betekent conditionele onafhankelijkheid tussen x en y dat de odds ratio's in de xy partiële tabellen allemaal 1 zijn. Bij homogene verbanden zijn de odds ratios in de xy partiële tabellen identiek bij elke categorie van z.

15.7 Hoe voer je goodness-of-fit tests uit voor kruistabellen?

Een goodness-of-fit test onderzoekt de nulhypothese dat een model echt past bij een bepaalde populatie. Er wordt gemeten of de geschatte frequenties fe dicht bij de geobserveerde frequenties fo liggen. Grotere toetsingsgrootheden vormen groter bewijs dat het model niet klopt en grotere verschillen tussen de geschatte en geobserveerde frequenties. Dit kan gemeten worden met de Pearson chi-kwadraattoets:

Een andere vorm van een chi-kwadraattoets is de aannemelijkheidsquotiënt chi-kwadraattoets:

Als het model perfect aansluit bij de werkelijkheid, zijn zowel X2 als G2 0. De test met de aannemelijkheidsquotiënt is beter geschikt voor grote steekproeven. De Pearson test is beter geschikt voor frequenties tussen 1 en 10 gemiddeld. Beide toetsen werken alleen goed voor kruistabellen van categorische predictoren met relatief grote tellingen.

Om uit te zoeken wat er dwarsligt in het model, kunnen de gestandaardiseerde residuen per cel worden berekend: (fo – fe) / (standaardfout van (fo – fe)). Als het gestandaardiseerde residu van een cel groter dan 3 is, past in die cel het model niet bij de data.

Goodness-of-fit tests en gestandaardiseerde residuen zijn ook bruikbaar om de kwaliteit van loglineaire modellen te onderzoeken.

Om te kijken of een compleet of een gereduceerd model beter bij de werkelijkheid past, kan de aannemelijkheidsquotiënttoets worden gedaan met de G2 als toetsingsgrootheid. De G2 van het complete model wordt dan vergeleken met de G2 van het gereduceerde model.

Logistische regressiemodellen worden vaker gebruikt dan loglineaire modellen omdat veel toepassingen niet meerdere responsvariabelen hebben.

TentamenTickets

  • Als je op de middelbare school goed was in logaritmen, werkt dit in je voordeel. Als dit echter niet je favoriete onderwerp was, ook geen zorgen, de primaire taken van onderzoekers zijn passende modellen vinden en de uitkomsten uitleggen. Het rekenwerk wordt bijna altijd door software gedaan.

  • Als je de hiërarchie van vijf maten van afhankelijkheid ingewikkeld vindt, pak dan voor de variabelen x, y en z drie kleuren en teken rondjes om te visualiseren op welke manieren ze kunnen overlappen.

 

Image

Access: 
Public

Image

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Activities abroad, study fields and working areas:
Institutions, jobs and organizations:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Submenu: Summaries & Activities
Follow the author: Annemarie JoHo
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
1801
Search a summary, study help or student organization