Classificatie en predictieve discriminantenanalyse - de Heus - Artikel


Deze samenvatting is gebaseerd op een herziene tekst en verkorte vertaling van hoofdstuk 10 uit het boek Toegepaste data-analyse. Technieken voor niet-experimenteel onderzoek in de sociale wetenschappen (van de Heus, van der Leeden, Gazendam, 1995).

Psychometrisch onderzoek wordt uitgevoerd in de hoop om betekenisvolle uitspraken te doen over onszelf en anderen. Er zijn hierbij twee soorten oordelen die we kunnen maken. In de eerste plaats zijn er Dimensionale oordelen, waarbij gekeken wordt naar onze positie op een bepaalde dimensie. Daarnaast kunnen we ook classificeren, oftewel vaststellen tot welke categorie we behoren.

Van dimensies naar classificaties

Er zijn verschillende manieren waarop we mensen in categorieën kunnen indelen. De algemene procedure om van een dimensionaal oordeel naar classificatie begint met een onderzoeksgroep Er is een sample nodig waarbij voor elk individu scores bekend zijn op de dimensionale oordelen en de individuele classificatie. Binnen zo’n sample probeert men op basis van de dimensionale oordelen vast te stellen tot welke groep individuen behoren. Hoewel we de classificatie eigenlijk al weten, zorgt dit ervoor dat we (1) een voorspellingsregel hebben die we kunnen gebruiken voor nieuwe individuen en (2) dat we informatie hebben over hoe goed de voorspellingsregel werkt. Als we vervolgens vinden dat de voorspellingsregel goed genoeg werkt, kunnen we het gebruiken om nieuwe individuen te classificeren waarvan we nog niet weten tot welke groep ze behoren.

Complicaties

Hoewel het proces op deze manier eenvoudig klinkt, werkt het in de praktijk niet zo vanzelfsprekend. Zo twijfelen we vaak aan de betrouwbaarheid en validiteit, maar baseren we onze voorspellingsregel hier toch op. Ook zijn er verschillende criteria om vast te stellen hoe accuraat een voorspelling is, die elkaar kunnen tegenspreken. Bovendien kan het toepassen van een voorspellingsregel op een nieuwe groep tot onverwachte resultaten leiden.

Classificatie: het basisproces

De makkelijkste manier om the classificeren op basis van een dimensionaal oordeel is voor twee groepen op slechts een dimensie. We kunnen verschillende dingen doen met deze data. In de eerste plaats kunnen we een t-test uitvoeren om te zien of er een significant verschil is tussen de gemiddelden van de groepen. Maar door te laten zien dat een bepaalde interval variabele (zoals depressie) gerelateerd is aan een nominale variabele met twee categorieën (depressie status) hebben we het classificatieprobleem nog niet opgelost. We willen niet van nominaal naar interval voorspellen, maar van interval naar nominaal. Als er maar een interval voorspeller gebruikt wordt, kan er een cut-off point worden vastgesteld.

Iedereen die boven die bepaalde waarde komt krijgt een positieve diagnose en iedereen die eronder blijft een negatieve diagnose. In werkelijkheid zal de voorspellingsregel niet perfect werken, omdat er overlap is tussen de verdelingen van de twee groepen op de intervalvariabele. Dit zorgt ervoor dat we altijd twee soorten fouten kunnen maken: (1) valse positieven, waarbij iemand bijvoorbeeld geen depressie heeft maar wel zo wordt geclassificeerd en (2) valse negatieven, waarbij depressieven geclassificeerd worden als niet-depressieven.

Het bepalen van de Cut-off regel

Wat voor cut-off regel we gebruiken hangt af van de mate waarin we beide soorten fouten even slecht vinden. Als we beide soorten fouten even slecht vinden en de groepen dezelfde symmetrische distributie met dezelfde standaardafwijking hebben, zal het punt zich precies tussen de twee groepsgemiddelden bevinden. Als we valse positieven erger vinden en willen elimineren, lopen we de kans om meer valse negatieven te vinden en vice versa. Dit laat zien dat we altijd bepaalde keuzes moeten maken als we de cut-off regel willen bepaalden. De situatie wordt zelfs nog complexer als we meer dan twee groepen willen vergelijken op verschillende dimensies. In dat geval wordt er vaak een discriminantanalyse uitgevoerd.

Discriminantanalyse (DA)

Het doel van een discriminantanalyse is het zo goed mogelijk voorspellen tot welke groep een bepaald persoon behoort door een bepaald aantal interval variabelen (>2) te gebruiken. We kunnen op twee manieren naar de verschillen kijken: vanuit het groepsperspectief en het individueel perspectief. In het eerste geval proberen we de natuur van de verschillen tussen groepen te beschrijven, wat beschrijvende discriminantanalyse wordt genoemd. Daarnaast kunnen we ook het individu als uitgangspunt nemen en de scores op de intervalvariabelen gebruiken om te voorspellen tot welke groep de persoon behoort (Predictieve discriminantanalyse). In deze cursus ligt de nadruk op deze laatste variant.

Wat willen we voorspellen?

De eerste vraag die je je moet stellen is of onze voorspelling betekenisvol is. DA leidt tot een optimale (best mogelijke) voorspelling van de nominale variabele gebaseerd op de intervalvariabelen. Om te kijken of de voorspelling betekenisvol is, kun je kijken of de best mogelijke voorspelling beter is dan je zou verwachten op kansniveau, met behulp van Wilk’s Lambda. Als deze test niet significant is, kunnen we niets nuttigs zeggen over tot welke groep iemand zou behoren op basis van de intervalvariabelen, en is de voorspelling niet betekenisvol. Het is belangrijk om op te merken dat een significant resultaat geen garantie is voor een accurate voorspelling. Je vind soms meerdere Wilk’s Lambda’s in de output: in dat geval moet je de bovenste gebruiken.

Hoe verschillen de groepen?

Eigenlijk hoef je in de context van een voorspellende DA niet te weten op welke manier groepen verschillen (als individuele classificatie je doel is). Als psychologen willen we echter vaak ook weten hoe en waarom deze voorspellingen werken. Een ruwe, maar redelijk effectieve methode is het vergelijken van de gemiddelden op de intervalvariabelen.

Een belangrijke tekortkoming van deze aanpak is dat je geen rekening houdt met intercorrelaties tussen voorspellers, wat tot misleidende conclusies kan leiden. Om dit probleem op te lossen kun je beschrijvende discriminantanalyse gebruiken.

Individueel voorspellen met verschillende voorspellers

Het berekenen van het meest waarschijnlijke groepslidmaatschap voor elk mogelijk individu is een probleem dat niet een bepaalde optimale oplossing heeft die in alle situaties het beste is. Een mogelijke strategie hiervoor is het bekijken van zowel individuen en groepsgemiddelden op p variabelen in een p-dimensionale ruimte. In deze ruimte kunnen we de verschillen berekenen tussen elk individueel punt en alle groepsgemiddelen (m.b.v. de stelling van Pythagoras). Vervolgens wordt elk individu gerekend tot de groep waarnaar deze persoon de kortste afstand heeft. Deze methode kun je ook toepassen als er meer dan twee variabelen zijn, hoewel je het niet meer in ruimtelijke termen kunt voorstellen als je meer dan drie variabelen gebruikt.

Om een werkzame methode te kunnen gebruiken om te voorspellen tot welke groep een individu behoort, moeten een aantal problemen worden opgelost:

  1. Als er verschillen in standaarddeviaties (SD) zijn tussen variabelen, hebben variabelen met een hoge SD een disproportionele invloed op de berekende afstanden. De oplossing voor dit probleem is standaardisatie (Z-scores).

  1. Als variabelen met elkaar gecorreleerd zijn, heeft de variantie die variabelen delen een disproportionele invloed op de afstanden, zelfs als alle variabelen gestandaardiseerd zijn. De oplossing voor dit probleem is om te werken binnen een gestandaardiseerde component ruimte of in de ruimte van de ‘discriminant function variates’.

  1. Als er verschillen tussen groepen zijn in variabiliteit rondom het gemiddelde, zullen homogene groepen een kortere afstand tot de groep nodig hebben dan heterogene groepen. Dit kan worden opgelost door de afstanden van bepaalde groepspunten te wegen op basis van de SD’s van de groep.

  1. De grenzen tussen de groepen hoeven niet per se een lineair karakter te hebben. Met lineaire DA kan dit niet ontdekt worden en niet gebruikt worden als optimale classificatie voor individuen.

Hoe accuraat is de voorspelling?

Om te bepalen hoe accuraat de voorspelling van een DA is, wordt gebruik gemaakt van een classificatietabel. Dit is een tabel waarin de voorspelde en geobserveerde waarden tegen elkaar worden uitgezet, waarvan de cellen de frequenties van alle mogelijke combinaties bevatten. Een algemene maat voor de de kwaliteit van de voorspelling is het percentage accuraatheid in classificatie (PAC):

PAC = aantal goede voorspellingen / totaal aantal voorspellingen

In veel gevallen is een algemene maat zoals de PAC niet precies genoeg, omdat alle errors samenvoegt. Wat betreft meer specifieke maten voor de kwaliteit van de voorspelling, kan onderscheid gemaakt worden tussen de kwaliteit van het instrument (sensitiviteit en specificiteit) en de kwaliteit van de individuele diagnose (positieve en negatieve voorspellende waarde).

Kwaliteit van het instrument

Om de kwaliteit van een instrument vast te stellen is het belangrijk om na te gaan hoe groot de kans is dat een individu van een bepaalde groep ook wordt geïdentificeerd als lid van die groep, wat sensitiviteit genoemd wordt.

Sensitiviteit = aantal goede voorspellingen ziek in groep A / totaal aantal voorspellingen ziek in groep A

Een hoge mate van sensiviteit zorgt voor een toename van valse positieven en een afname van specificiteit en ware negatieven.

Specificiteit: aantal goede voorspellingen niet ziek in groep A / totaal aantal voorspellingen niet ziek in groep A

Zowel sensitiviteit als specificiteit zijn voorwaardelijke kansen. Dit verwijst de kans op gebeurtenis A als we weten dat een andere gebeurtenis (B) heeft plaatsgevonden.

Kwaliteit van individuele diagnose

Als je een diagnose wil stellen voor een bepaald individu, zijn sensitiviteit en specificiteit niet handig om de kwaliteit te beoordelen (je wil niet van echte situatie (Y) naar de voorwaardelijke kans van een specifieke diagnose (X), maar van een bepaalde diagnose (X) naar de voorwaardelijke kans van een echte situatie). In plaats daarvan kun je gebruik maken van de positieve predictieve waarde (het percentage van individuen met een positieve diagnose die ook bij de doelgroep horen) en de negatieve predictieve waarde (het percentage van individuen met een negatieve diagnose die ook niet bij de doelgroep horen). Deze concepten kunnen allemaal ook bij meerdere groepen gebruikt worden, wat bovendien de kans biedt om meerdere vragen te beantwoorden.

Gebruik in andere populaties (Bayes’ regel)

Als we een testbatterij aan een predictieve discriminantanalyse onderwerpen, is het aantrekkelijk om te werken met ongeveer even grote groepen, omdat onze voorspellingen dan een maximale precisie en statistische power hebben. In werkelijkheid zijn de groepen meestal niet gelijk in de populatie. Als je van de originele onderzoeksgroep overgaat naar de populatie veranderen de sensitiviteit en specificiteit niet, maar de positieve en negatieve predictieve waardes wel.

Als de distributie scheef is (bijv. een ziekte is heel zeldzaam) zullen er meer valse positieven zijn ten opzichte van ware positieven. Om hier rekening mee te houden kun je de stelling van Bayes gebruiken.

Bij discriminantanalyse is het dus belangrijk om rekening te houden met de relatieve serieusheid van de fouten die gemaakt kunnen worden en de relatieve frequenties van de groepen die voorspeld moeten worden in de populatie (base rate).

 

Page access
Public
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

How to use and find summaries?


Online access to all summaries, study notes en practice exams

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Starting Pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Follow authors or (study) organizations: by following individual users, authors and your study organizations you are likely to discover more relevant study materials.
  3. Search tool: quick & dirty - not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject. The search tool is available at the bottom of most pages or on the Search & Find page
  4. Tags & Taxonomy: gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study (main tags and taxonomy terms)

Field of study

Quick links to WorldSupporter content for universities in the Netherlands

Follow the author: Vintage Supporter
Comments, Compliments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.