Samenvatting: Statistiek
- 1576 reads
Deze samenvatting bij Statistics: A Tool for Social Research van Healey & Donoghue is gebaseerd op het studiejaar 2013-2014.
Wetenschappers doen onderzoek om vragen te beantwoorden, ideeën te onderzoeken en theorieën te testen. Kwantitatief onderzoek verzamelt de informatie in de vorm van getallen (data). Statistiek is de naam voor rekenkundige technieken die toegepast kunnen worden om deze data te organiseren of manipuleren, met als doel het testen van theorieën.
Er bestaat een cirkelverband tussen theorie, hypothese, observaties en empirische generalisaties. Dit betekent dat ze continue door elkaar worden beïnvloed.
Een theorie is een verklaring voor een (causale) relatie tussen verschijnselen. Deze verschijnselen worden ook wel variabelen genoemd. Een variabele is een trek die waarden kan veranderen (bv. geslacht of leeftijd), waarbij onafhankelijke variabelen als oorzakelijk worden gezien en afhankelijke variabelen als resultaat.
Theorieën zijn vaak complex en abstract, waardoor het moeilijk is te bepalen of de theorie klopt of niet. Om dit te vereenvoudigen wordt een hypothese gevormd uit de bestaande theorie. De hypothese is een specifieke en exacte stelling over de relatie tussen variabelen.
Om de hypothese te testen moet precies bepaald worden hoe de data verzamelt gaat worden, hoe elke case geselecteerd en getest wordt en hoe variabelen gemeten worden. Observaties zijn de eigenlijke metingen van de sociale realiteit. Deze bestaan vaak uit grote hoeveelheden data. Statistiek is nodig om iets over deze data te kunnen zeggen. Echter, de statistiek is alleen van waarde wanneer de voorgaande fases in het proces succesvol zijn afgerond. Het kan niet worden gebruikt om slecht ontworpen onderzoeken te redden.
De statistische analyse richt zich voornamelijk op het onderzoeken van de theorie, maar kijkt ook naar andere trends in de data. Uit de empirische patronen kunnen generalisaties ontwikkeld worden. Deze veronderstelde verklaringen kunnen op hun beurt weer leiden tot aangepaste of uitgebreide theorieën, die ook weer getest moeten worden. Zo is de cirkel weer rond.
Zoals te zien is in het cirkelvormige onderzoeksproces, stimuleert theorie verder onderzoek en vormt dit onderzoek weer nieuwe theorieën. Deze constante interactie is de basis van wetenschap en de sleutel tot het begrijpen van de sociale wereld. Het dialoog tussen theorie en onderzoek vindt op veel verschillende niveaus plaats en heeft verschillende vormen, waarbij onderzoekers de belangrijkste link zijn tussen beide gebieden. Statistiek is een van de belangrijkste middelen om de interactie in beeld te brengen.
Statistieken zijn middelen die gebruikt kunnen worden voor het beantwoorden van belangrijke vraagstukken; handig, maar niet doelen op zich. Het is van belang kennis te hebben van deze statistieken bij het lezen en begrijpen van ander onderzoek: weten wanneer ze goed toegepast zijn en wanneer niet!
Met één variabele; deze worden gebruikt bij het samenvatten of beschrijven van de verdeling van een enkele variabele. Deze statistieken zijn veelal bekend als bv. percentages en gemiddelden. Het proces waarbij een paar getallen worden gebruikt om velen samen te vatten, data reductie, is het hoofddoel van dit type statistiek.
Met twee of meerdere variabelen; deze worden gebruikt om de relatie tussen twee of meer variabelen te beschrijven. Deze statistieken, ook wel metingen van associatie genoemd, maken het mogelijk om de sterkte en richting van een relatie op waarde te schatten. Dit kan gebruikt worden bij oorzakelijke en voorspellende verbanden. Echter, deze statistieken kunnen op zichzelf niet bewijzen dat er een oorzakelijk verband is tussen variabelen, maar geven alleen belangrijke aanwijzingen hiervoor.
Wanneer onderzoek bedoeld is om data te generaliseren naar het totaal van alle gevallen waarin de onderzoeker geïnteresseerd is (de populatie). Populaties kunnen variëren in grootte, maar zijn vaak te groot om daarbinnen alle losse casussen te testen. Verklarende onderzoeken gebruiken daarom een sample (zorgvuldig gekozen deelgroep) om conclusies te kunnen trekken over de desbetreffende populatie.
Het eerste punt waarover nagedacht moet worden bij het kiezen van de best passende statistiek is of de variabele discreet of continue is:
Een variabele is discreet wanneer een meeteenheid wordt gebruikt die niet verder opgedeeld kan worden (bv. aantal mensen; dit moet altijd een rond getal zijn).
Een variabele is continue wanneer de meeteenheid oneindig (in theorie) kan worden onderverdeeld, zoals bv. tijd (minuten, seconden, milliseconden, etc.). Omdat er niet gewerkt kan worden met oneindig lange getallen moeten scores vaak geschat of afgerond worden, waardoor ze als discrete variabele gezien kunnen worden.
Een tweede en belangrijke richtlijn voor de selectie van statistieken is het meetniveau. Het hoogste niveau bestaat uit numerieke scores, die met veel verschillende statistieken geanalyseerd kunnen worden. Het laagste niveau bestaat uit ‘scores’ die eigenlijk meer ‘etiketten’ zijn i.p.v. getallen. Statistieken die met numerieke variabelen werken, zijn betekenisloos wanneer ze gebruikt worden voor niet-numerieke variabelen (bv. geslacht). Het bepalen van het meetniveau is een van de eerste stappen in elke statistische analyse. Er worden 3 niveaus onderscheiden:
Variabelen binnen het nominale niveau hebben non-numerieke ‘scores’ of categorieën (bv. geslacht, postcode, ras, etc.). Op dit laagste niveau is de enige toegestane werkwijze het vergelijken van de relatieve groottes van de categorieën. Deze kunnen niet in rangorde gezet, opgeteld of gedeeld worden. Nominale variabelen zijn ruw, maar moeten toch volgens bepaalde criteria in gedachten gemeten worden:
- de categorieën moeten wederzijds uitsluitend zijn (niet overlappen met elkaar) met eenduidigheid over welke gevallen eronder vallen en welke niet.
- de categorieën moeten uitputtend zijn; elke mogelijke uitkomst moet onder een categorie vallen.
- de categorieën moeten relatief homogeen zijn; ze moeten gevallen bevatten die daadwerkelijk met elkaar te vergelijken zijn.
Vaak worden numerieke etiketten gebruikt om de categorieën te identificeren, zodat ze makkelijk gebruikt kunnen worden in computer analyses. Echter, het blijven slechts etiketten!
Variabelen binnen het ordinale niveau kunnen in rangorde gezet worden van hoog naar laag, dus de categorieën kunnen in termen van ‘meer of minder’ met elkaar vergeleken worden (bv. sociaaleconomische status, gedrag- en meningschalen). Echter, een score staat alleen voor de positie ten opzichte van een andere score. De afstand tussen twee scores is niet exact, dus erkan niet mee gerekend worden.
Variabelen binnen het interval-ratio niveau zijn feitelijke getallen, met gelijke afstanden tussen verschillende scores, waarmee gerekend kan worden (bv. leeftijd). Ook hebben deze variabelen een onwillekeurig nulpunt, waarbij 0 staat voor afwezigheid van hetgeen gemeten wordt.
Het aantal toegestane rekenkundige analyses neemt toe van nominaal tot interval-ratio niveau. Er zijn 4 belangrijke aandachtspunten m.b.t. de meetniveaus:
Het bepalen van het meetniveau is cruciaal, want het bepaalt welke statistieken geschikt en bruikbaar zijn; niet alle statistieken passen bij alle variabelen.
Het onderscheid tussen discreet en continue is alleen van belang bij interval-ratio variabelen. Nominale- en ordinale variabelen zijn bijna altijd discreet, want er moet een best passende (niet verder onder te verdelen) categorie worden gekozen door de respondenten. Interval-ratio variabelen kunnen beide zijn. Echter, vaak worden continue variabelen afgerond en weergegeven alsof ze discreet zijn.
Het is belangrijk om altijd na te gaan op welke manier de scores daadwerkelijk zijn genoteerd. Soms wordt een interval-ratio variabele genoteerd als ordinale variabele, omdat dit handiger is voor de respondenten (bv. bij aangeven exact inkomen).
De ongelijkheid tussen de variabelen die meestal het meest interessant zijn voor de wetenschapper (bv. ras, geslacht, gedrag of mening) en degenen die de meest krachtige en interessante statistieken hebben (bv. het gemiddelde).
Onderzoekers gebruiken statistieken om hun resultaten duidelijk te maken en onderling effectief te communiceren. Beschrijvende statistieken met één variabele (univariaat), zoals percentages, hoeveelheden, tabellen en grafieken, zijn zeer bruikbaar om resultaten duidelijke en bondig te vermelden.
Percentages geven een referentiekader bij het melden van resultaten, ze geven het deel van het totaal aan (op een schaal van 1-100). Om deze reden zijn ze makkelijker te lezen en begrijpen dan frequenties, vooral bij het vergelijken van groepen met verschillende groottes. Proporties zeggen hetzelfde als percentages, alleen dan op een schaal van 0.00-1.00. De twee statistieken geven dezelfde boodschap over de data en zijn daarom verwisselbaar. Percentages worden het meest gebruikt vanwege een beter begrip voor mensen, proporties worden vooral gebruikt bij kansberekening. Een paar richtlijnen voor het gebruik van deze statistieken:
Bij een klein aantal gevallen (zeg, <20) wordt afgeraden percentages of proporties te gebruiken, want deze veranderen drastisch bij relatief kleine veranderingen in de data
Vermeld altijd het aantal observaties naast de proporties en percentages (de statistiek kan zijn waarde verliezen bij zeer klein aantal observaties)
Percentages en proporties kunnen ook bij nominale en ordinale meetniveaus worden gebruikt, want de gebruikte ‘deling’ gaat over het aantal scores in een categorie i.p.v. de daadwerkelijke scores
Deze zijn vooral geschikt voor het vergelijken van de relatieve groottes van verschillende categorieën van een variabele, waarbij de frequenties van beide groepen door elkaar worden gedeeld. Verhoudingen zeggen precies hoeveel de ene categorie groter ofwel kleiner is dan de ander.
Op deze manier worden het aantal werkelijke gevallen van een verschijnsel gedeeld door het aantal mogelijke gevallen per tijdseenheid (daarna vaak vermenigvuldigd met een tienvoud om decimalen uit te sluiten).
Dit is vooral geschikt voor het meten van sociale veranderingen. Deze statistiek geeft weer hoeveel een variabele toegenomen of afgenomen is in een bepaalde tijdspanne en maakt een vergelijking meer precies. Hierbij wordt de score op het 1e tijdspunt (f1) afgetrokken van het 2e tijdspunt (f2), waarna de verschilscore wordt gedeeld door de score op het 1e tijdspunt (waarna het vermenigvuldigd kan worden met een tienvoud om decimalen uit te sluiten of percentages te geven). In formulevorm: (f2-f1)/f1. Een negatieve score/percentage geeft een daling weer!
Deze tabellen geven het aantal gevallen in elke categorie van een variabele weer; ze organiseren de data zo dat de onderzoeker (en zijn publiek) makkelijk de verdeling van de variabelen kunnen begrijpen. Eén algemene regel bij het maken van frequentie verdelingen is dat de categorieën uitputtend en wederzijds uitsluitend moeten zijn.
Op dit meetniveau is het vanzelfsprekend om frequentieverdelingen te gebruiken. De tabel is altijd voorzien van een titel, duidelijk benoemde categorieën en het totaal aantal gevallen (N) onderaan de frequentiekolom. Soms maakt de onderzoeker keuzes over het aantal betrokken categorieën, waarbij informatie en details verloren kunnen gaan als categorieën worden samengevoegd.
De tabellen voor variabelen op dit meetniveau worden op dezelfde manier gemaakt als bij nominale variabelen. Vaak wordt er een kolom toegevoegd voor de percentages per categorie, diede tabel duidelijker maken (vooral bij grote samples).
Bij dit meetniveau is het maken van een frequentietabel complexer, vanwege een grote omvang aan scores, die ingekort of gegroepeerd moet worden. Er moet besloten worden hoeveel categorieën gebruikt worden en hoe groot de reikwijdte van elke categorie is. Hierbij wordt een compromis gesloten tussen meer detail (veel smalle categorieën) of meer compactheid (weinig brede categorieën).
Zorg altijd dat je intervalcategorieën in dezelfde mate van precisie uitgedrukt zijn als je data. Soms zijn middelpunten van de intervallen nodig voor het maken van bepaalde grafieken. Een middelpunt is het exacte midden tussen de onder- en bovengrens van een interval. Wanneer de verdeling moet worden gezien als een continue serie van aangrenzende categorieën moet het ‘gat’ tussen de intervalcategorieën weggewerkt worden. Hierbij worden de werkelijke categoriegrenzen gebruikt, waardoor de bovengrens van de ene categorie ook de ondergrens van de daaropvolgende categorie wordt.
Hierbij worden respectievelijk de frequenties en percentages opgeteld van de laagste categorie tot de hoogste categorie (waar de opgetelde frequentie gelijk is aan N en het opgetelde percentage gelijk is aan 100%). Deze kolommen zijn handig om de spreiding van de scores aan te tonen over de verschillende categorieën.
In het geval van een situatie met een paar hele hoge of lage scores, die erg afwijken van de rest van de scores, kan een ‘open-einde’ interval worden toegevoegd (bv. ‘28 en ouder’). Dit interval zorgt voor een meer compacte tabel dan wanneer alle ‘lege’ tussenliggende intervallen worden ingevoegd. Echter, de informatie over de exacte scores binnen zo’n interval valt weg.
Wanneer de verdeling van scores zich vooral groepeert rondom bepaalde categorieën en verder wat losse scores heeft die ver van deze groep afliggen, kunnen intervallen van ongelijke grootte worden gebruikt. Zo kunnen de intervallen met de meeste scores kleiner zijn (voor meer precisie) en de intervallen daar verder vanaf breder (om overmatige toevoeging van ntervallen te voorkomen). Ook al is dit soms verwarrend voor de lezer, de efficiëntie en compactheid zorgen voor een goede compromis.
Deze vorm van datapresentatie is vooral handig bij het overbrengen van een algeheel beeld van de verdeling en om een cluster binnen een bepaald bereik van scores te markeren.
Dit diagram kan gebruikt worden voor discrete variabelen binnen elk meetniveau. Hiervoor moeten eerst de percentages van alle scores binnen elke categorie berekend worden, waarna de cirkel verdeeld kan worden in evenredige stukken. Zorg dat zowel het diagram als alle ‘taartstukken’ van een duidelijk etiket voorzien zijn!
Dit diagram kan gebruikt worden voor discrete variabelen binnen elk meetniveau. De verschillende categorieën van een variabele staan verspreid over de horizontale as (x-as) en de frequenties of percentages over de verticale as (y-as). Voor elke categorie wordt een rechthoekige staaf gemaakt, die reikt tot de desbetreffende score op de y-as. Bij veel verschillende categorieën krijgt een staafdiagram de voorkeur boven een taartdiagram om chaos en onoverzichtelijkheid te voorkomen. Ook is een staafdiagram een duidelijke manier om nadruk te leggen op vergelijkingen binnen categorieën.
Dit diagram wordt voor discrete en continue interval-ratio variabelen gebruikt en onderscheidt zich van een staafdiagram door het gebruik van werkelijke grenzen (i.p.v. omschreven grenzen) en het aan elkaar laten grenzen van de scores (alsof het een continue aaneenschakeling is geworden).
Dit diagram wordt ook voor discrete en continue interval-ratio variabelen gebruikt, maar onderscheidt zich van een histogram door geen staven te gebruiken maar punten op de plek van het ‘middelpunt’ van elk interval. Met rechte lijnen worden al deze losse punten vervolgens met elkaar verbonden.
Naast het geven van frequentieverdelingen van wetenschappelijke data is het ook nodig om meer gedetailleerde informatie te vermelden. Enkele van deze statistieken geven de meting van de centrale tendens. Hierbinnen vallen de modus, de mediaan en het gemiddelde. Alle drie vatten ze de gehele verdeling van scores samen door het beschrijven van de meest gebruikte score (de modus), de middelste score (de mediaan) of de gemiddelde score (het gemiddelde). Deze statistieken hebben hetzelfde doel, namelijk het samenvatten of verminderen van de data, maar ze kunnen variëren bij verschillende meetniveaus en in hoe ze het gemiddelde definiëren.
De waarde van de score die in een verdeling de hoogste frequentie heeft, wordt de modus genoemd. Deze statistiek is eenvoudig en handig voor het meten van de meest voorkomende score bij nominale variabelen. Enkele beperkingen zijn dat verdelingen soms geen modus hebben of ze hebben er teveel waardoor de statistiek betekenisloos wordt en dat de modus bij ordinale of interval-ratio variabelen anders kan zijn dan de centraal gelegen score waardoor het een verkeerd beeld kan geven van de verdeling.
De waarde van de score die exact in het midden van de verdeling ligt, waarbij dus de ene helft van scores hoger en de andere helft van de scores lager is, heet de mediaan (md). Voordat je bij deze waarde komt, moeten alle scores van laag naar hoog (of andersom) worden gesorteerd. Bij een oneven aantal scores is de mediaan gelijk aan de middelste score, terwijl bij een even aantal scores de mediaan bepaalt wordt door het gemiddelde van de twee middelste scores te nemen. Wanneer het meetniveau nominaal is, kan er geen mediaan worden gegeven omdat de scores hiervoor gerangschikt moeten kunnen worden.
Naast de mediaan zijn er nog andere statistieken, die de positie of locatie kunnen meten:
Het percentiel bepaalt het punt waaronder een bepaald percentage van de scores ligt. Om dit punt te vinden worden de scores van laag naar hoog gerangschikt en vervolgens wordt het totaal aantal scores (N) vermenigvuldigd met de evenredige waarde van het percentiel (bv. 0.50 voor 50%, ook wel de mediaan). Bij een waarde met decimalen wordt voor de eenvoudigheid meestal afgerond naar een heel getal.
De decielen (tienden) verdelen de scores in 10 gelijke stukken, waarbij het eerste deciel het punt is waaronder 10% van de scores valt (en het 5e deciel gelijk staat aan het 50ste percentiel en dus de mediaan).
De kwartielen verdelen de scores in 4 gelijke kwarten, waarbij geldt: eerste kwartiel = 25ste percentiel, tweede kwartiel = 50ste percentiel (mediaan), derde kwartiel = 75ste percentiel. Al deze scores worden gevonden op dezelfde manier als voor de percentielen.
De gemiddelde score (Xg) wordt berekend door de totale som van alle scores van de verdeling te delen door het aantal scores (N). Vanwege de rekensom die hierbij hoort, zou dit alleen kunnen bij ratio-interval variabelen, maar het wordt voor het gemak ook vaak gebruikt bij ordinale variabelen.
Er zijn drie belangrijke kenmerken voor het gemiddelde:
Het is een balans tussen alle scores, wat betekent dat wanneer het gemiddelde van alle scores wordt afgetrokken en daarna de verschillen bij elkaar optelt, dit samen nul is.
Het minimaliseert de variatie in de scores, wat betekent dat het gemiddelde dichterbij alle scores ligt dan de andere metingen voor de centrale tendens. Het ‘minste kwadraten’ principe beweert dat wanneer de som van verschillen tussen de scores en het gemiddelde wordt gekwadrateerd dit altijd lager is dan het kwadraat van de som van verschillen tussen de scores en elk ander getal dan het gemiddelde.
Het wordt beïnvloed door alle scores in de verdeling. Dit is handig omdat alle beschikbare informatie wordt gebruikt, maar ook onhandig omdat een paar hele hoge of hele lage scores het gemiddelde sterk kunnen laten veranderen en daarmee een misleidend beeld geven van de verdeling. Onthoud dus dat het gemiddelde, vergeleken met de mediaan, altijd in de richting van de extreme scores wordt getrokken. Ze hebben beide enkel dezelfde waarde bij een symmetrische verdeling van de scores. Door deze twee statistieken met elkaar te vergelijken, is snel te zien of een verdeling scheef is en welke richting deze scheefheid heeft.
Wanneer data gepresenteerd is in tabellen zonder statistieken over de centrale tendens, kunnen deze alsnog worden berekend. Echter, deze zullen niet helemaal accuraat zijn en moeten gezien worden als benadering van de statistiek.
De hoeveelheid van de werkelijke scores is niet bekend, omdat ze in groepen zijn geplaatst. Daarom moet je er voor het berekenen van het gemiddelde vanuit gaan dat alle scores liggen op het middelpunt van elk interval. Wanneer de score van dit middelpunt vermenigvuldigd wordt met de bijbehorende frequentie van dat interval wordt de benaderde som van alle scores berekend. Deel dit getal door het aantal scores (N) voor het bepalen van het benaderde gemiddelde.
De werkelijke scores zijn niet bekend, dus kunnen niet op volgorde van laag naar hoog worden gezet. Hierom moet een extra kolom met de opgetelde frequentie worden toegevoegd aan de tabel. Nu is zichtbaar in welk interval en tussen welke twee werkelijke grenzen van het interval de middelste score ligt. Omdat de precieze verdeling niet bekend is, moet ervan uitgegaan worden dat alle scores binnen dit interval gelijkmatig verdeeld zijn. Deel de waarde van het verschil tussen het nummer van de middelste score en het nummer van de score van de ondergrens van het interval door de frequentie van het interval. Vermenigvuldig dit getal met de (werkelijke) breedte van het interval en tel het vervolgens op bij de waarde van de werkelijke ondergrens.
Ten eerste is het van belang om te weten welk meetniveau de variabele heeft, wat over het algemeen al aangeeft welke statistiek het best te gebruiken (nml. modus bij nominaal, mediaan bij ordinaal, gemiddelde bij interval-ratio) ook al zijn er soms ook andere mogelijkheden. Daarnaast moeten de definities van de statistieken overwogen en het feit dat de statistieken ander soortige informatie verschaffen, onthouden worden. Vaak zullen alle drie de statistieken genoemd worden.
Voor een complete beschrijving van de verdeling van scores moeten alle voorgaande statistieken gecombineerd worden met de mate van verspreiding. Waar de mate van centrale tendens de kenmerkende, gemiddelde of middelste score beschrijft, zegt de mate van verspreiding iets over de variatie, diversiteit of heterogeniteit van de verdeling. Bij het vergelijken van twee groepen kan het zijn dat de gemiddelden ongeveer gelijk zijn, waardoor er niet goed iets te zeggen valt over welke groep een ‘betere score’ heeft. Het is nu van belang om te kijken naar hoe de scores verdeeld zijn en of er veel/weinig variatie is in de scores. Alle statistieken die de mate van verspreiding meten zullen een lagere waarde krijgen bij een ‘piekverdeling’ (grote groep scores rondom het gemiddelde, dus minder variatie) en een hogere waarde bij een plattere verdeling (meer variatie).
Deze statistiek wordt nauwelijks gebruikt in de literatuur, maar het is de enige mate van spreiding voor nominale variabelen. De index staat voor de verhouding tussen de hoeveelheid gemeten variatie en de maximaal haalbare variatie in een verdeling en ligt tussen 0.00 (geen variatie) en 1.00 (maximale variatie; in elke groep hetzelfde percentage scores).
Deze waarde is te vinden door:
De som van de frequenties in het kwadraat per groep af te trekken van het totaal aantal scores in het kwadraat
Dit getal vermenigvuldigen met het aantal categorieën/groepen
Het totaal aantal scores in het kwadraat vermenigvuldigen met het ‘aantal groepen -1’
De waarde van stap 2 delen door de waarde van stap 3
De afstand tussen de hoogste en laagste scores in een verdeling wordt de reikwijdte (R) genoemd. Dit is makkelijk te berekenen en geeft een snel overzicht van de verspreiding. Echter, bijna elke verdeling bevat extreem hoge/lage scores waardoor R een overdreven mate van verspreiding weergeeft. Ook vertelt R niks over de variatie van de scores tussen de hoogste en laagste score.
De reikwijdte tussen het 1e en 3e kwartiel heet de interkwartiele reikwijdte (Q). Dit vermijdt het probleem van de algemene reikwijdte door alleen naar de middelste 50% van de scores te kijken. Deze reikwijdte wordt berekend door de score van het 3e kwartiel (Q3) af te trekken van de score van het 1e kwartiel (Q1); Q = Q3–Q1.
Een basisbeperking van zowel R als Q is dat er maar twee scores worden betrokken in de statistiek en dus niet alle beschikbare informatie gebruiken. Een goede statistiek voor de mate van verdeling zou daarom:
alle scores in de verdeling moeten gebruiken
de gemiddelde of kenmerkende afwijkingen weergeven van de scores t.o.v. elkaar of het midden van de verdeling
een hogere waarde krijgen bij een grotere spreiding van de scores
De afwijking meet de afstand tussen elke score en het gemiddelde. Deze waarde wordt hoger wanneer de afstand tot het gemiddelde groter wordt. Voor een statistiek zou de som van deze afwijkingen gebruikt kunnen worden, maar deze som zal altijd gelijk zijn aan nul. Daarom wordt de som van de gekwadrateerde afwijking gebruikt om ervoor te zorgen dat er altijd een positieve waarde uitkomt. Echter, deze waarde zal toenemen bij een groter aantal scores. Om dit op te lossen wordt de som van de gekwadrateerde afwijking gedeeld door N (gestandaardiseerd voor samples van verschillende grootten).
Dus: s2 = ∑(Xi – Xg)2/N
Deze wordt gebruikt voor het beschrijven van de verspreiding van een verdeling en wordt gevonden door de wortel van de variantie te nemen, dus: s = √(∑(Xi – X)2/N).
Strikt genomen worden de variantie en standaard afwijking alleen gebruikt bij hele populaties en moet N-1 (i.p.v. N) gebruikt worden bij willekeurige samples!
Ook hierbij geldt hetzelfde probleem als bij het berekenen van het gemiddelde en de mediaan; de exacte waarde van de scores is niet bekend. In plaats van de werkelijke scores te gebruiken, worden de middelpunten (m) van de intervallen van het gemiddelde (X) afgetrokken om de afwijking te berekenen. Deze worden vervolgens vermenigvuldigd met de frequentie (f) voor het berekenen van de som van alle ‘scores’. Dus: s = √(∑f(m – X)2/N). Hiermee wordt dus een benadering van de werkelijke standaard afwijking bepaald.
De betekenis van deze statistiek kan op drie manieren worden uitgedrukt:
De meest belangrijke betekenis houdt zich bezig met de normaal curve (verdere uitleg in hoofdstuk 5).
Het is een index van variabiliteit die groter wordt naarmate de verdeling meer gevarieerd is en kleiner bij minder variatie in de verdeling.
Het wordt veel gebruikt bij het vergelijken van verschillende verdelingen of groepen met elkaar. Het is snel zichtbaar of de verdeling gecentreerd is rond het gemiddelde of juist meer gespreid.
De normaal curve is in combinatie met het gemiddelde en de standaard afwijking een belangrijk concept in de statistiek en wordt gebruikt om precieze beschrijvende uitspraken te doen over proefondervindelijke verdelingen.
De normaal curve (ook wel ‘bell curve’ genoemd) is een theoretisch model, een soort lijngrafiek, dat één enkele modus (‘piek’) heeft, perfect ‘effen’ en symmetrisch is; dus het gemiddelde, de mediaan en modus hebben allemaal dezelfde waarde. Het heeft de vorm van een bel en de ‘staarten’ strekken zich in beide richtingen uit tot in de oneindigheid. Hoewel geen enkele verdeling perfect aan dit model voldoet, komen sommige variabelen genoeg in de buurt om aan te nemen dat er een ‘normaal verdeling’ is.
Een cruciaal punt over de normaal curve is dat de afstand tussen elk punt en het gemiddelde, wanneer het gemeten is in standaard afwijkingen, precies hetzelfde deel van de oppervlakte onder de curve afsnijdt. Onthoud hierbij de volgende relaties tussen afstanden tot het gemiddelde en het gebied onder de curve: ± 1 standaard afwijking = 68,26% van het gebied, ± 2 standaard afwijkingen = 95,44% van het gebied, ± 3 standaard afwijkingen = 99,72% van het gebied. Voor een normaal verdeelde verdeling zal maar een enkele score verder van het gemiddelde afliggen dan drie standaard afwijkingen.
Online zijn afbeeldingen te vinden van de normaal curve met de relaties tussen afstanden van het gemiddelde en de gebieden onder de curve
Om met waarden te werken die niet precies een veelvoud van de standaard afwijking zijn, moeten de scores in eenheden van de standaard afwijking uitgedrukt worden of veranderd worden in ‘Z-scores’.
Het omzetten van scores in Z-scores lijkt op het veranderen van de schaal waarin gemeten wordt; zowel de ‘ruwe’ scores als de Z-scores meten de afstand onder de normaal curve. Bij het berekenen van Z-scores wordt de normaal curve gestandaardiseerd tot een verdeling met een gemiddelde van 0 en een standaard afwijking van 1. Om een Z-score te berekenen wordt het gemiddelde (X) afgetrokken van een willekeurige score (Xi) en dit wordt vervolgens gedeeld door de standaard afwijking (s). Dus: z = (Xi – X)/s. Een positieve Z-score betekent dat de originele score boven (rechts van) het gemiddelde ligt en een negatieve Z-score geeft een originele score onder (links van) het gemiddelde weer.
Deze tabel wordt ook wel de Z-score tabel genoemd en geeft de precies bepaalde gebieden per Z-score georganiseerd weer (kijk voor de complete tabel in Appendix A in het boek op blz. 469). De Z-scores staan in de linker kolom, de gebieden tussen de Z-scores en het gemiddelde in de tweede kolom, de gebieden voorbij de Z-score in de derde kolom, en de gebieden tot aan de Z-score in de rechter kolom. Omdat de normaal curve perfect symmetrisch is, zal het gebied tussen de score en het gemiddelde voor een negatieve score precies gelijk zijn aan die voor een positieve score met dezelfde waarde. Onthoud dat de waarden in de drie rechter kolommen proporties zijn en dus vermenigvuldigd moeten worden met 100 om er percentages van te maken!
Het totale gebied boven en onder een score berekenen
Om een gebied ‘onder’ (links van) een positieve Z-score of ‘boven’ (rechts van) een negatieve Z-score te bepalen, moet het gebied tussen deze score en het gemiddelde (de tweede kolom in de tabel) opgeteld worden bij het gebied onder het gemiddelde. Omdat het gemiddelde gelijk is aan de mediaan is het gebied onder het gemiddelde 50%. Voor het bepalen van een gebied ‘onder’ een negatieve Z-score of ‘boven’ een positieve Z-score wordt de derde kolom in de tabel gebruikt.
Het gebied tussen twee scores berekenen
Wanneer de scores aan tegenovergestelde kanten van het gemiddelde liggen, kan het totaal gebied gevonden worden door de Z-scores te berekenen en vervolgens de gebieden tussen de scores en het gemiddelde (de middelste kolom in de tabel) bij elkaar op te tellen. Echter, bij twee scores aan dezelfde kant van het gemiddelde is een andere procedure van toepassing. Ook hier moeten de scores eerst worden omgezet in Z-scores, waarna van beide scores het gebied tussen de score en het gemiddelde kan worden gevonden (de middelste kolom in de tabel). Vervolgens wordt het kleinste gebied afgetrokken van het grootste gebied.
Een groot probleem in onderzoek binnen de sociale wetenschap is dat de te onderzoeken populatie meestal veel te groot is om ieder geval apart te testen. Wetenschappers selecteren daarom samples (steekproeven van cases) uit de populatie van interesse. Binnen de afgeleide statistieken is het doel om te leren over de karakteristieken van een populatie, ook wel parameters genoemd, gebaseerd op de kennis van de steekproef.
Een steekproef wordt vaak ‘random’ genoemd, maar is niet per toeval gevormd of onwaarschijnlijk van samenstelling. Het gaat meer om een ‘steekproef naar waarschijnlijkheid’. Bij het vormen van zo’n steekproef is het doel om het zo samen te stellen dat de groep representatief is voor de hele populatie waar het voor staat. Er is nooit de garantie dat een steekproef geheel representatief zijn, maar de kansen kunnen gemaximaliseerd worden door het fundamentele principe voor waarschijnlijke steekproeven (‘EPSEM’) te volgen. De steekproef wordt dan zo gevormd dat alle elementen in de populatie een gelijke kans hebben om geselecteerd te worden.
Er bestaan vier technieken voor het selecteren van random steekproeven:
De meest fundamentele techniek wordt gevormd door simpele random steekproeven; namelijk het compleet per toeval selecteren van cases (bv. dobbelsteen gooien of nummers uit een hoed trekken). Ieder geval uit de populatie moet een unieke identificatie krijgen om vervolgens alle gevallen te selecteren die bv. uit de hoed zijn getrokken.
De techniek van systematische random steekproeven wordt gebruikt bij grote populaties om tijd te besparen. Het eerste geval wordt wel op de simpele random manier gekozen, maar nu wordt vervolgens elk ke geval vanaf dat eerste geval geselecteerd (waarbij k afhankelijk van de grootte van de steekproef wordt bepaald).
Bij gelaagde random steekproeven wordt de gehele populatie eerst verdeeld in sub-lijsten volgens een relevant kenmerk. Vervolgens wordt van elke sub-lijst een aantal gevallen geselecteerd met dezelfde proportie als in de populatie. Het belangrijkste nadeel is dat er vaak niet genoeg informatie over een populatie beschikbaar is om te bepalen hoeveel gevallen er per sub-lijst moeten worden gekozen.
Het grootste probleem bij het vormen van een representatieve steekproef, namelijk dat er bijna nooit complete, up-to-date lijsten van populaties beschikbaar zijn om de steekproef uit te selecteren, wordt bij geclusterde random steekproeven aangepakt. Daarom worden er clusters gevallen tegelijk geselecteerd i.p.v. gevallen apart. De clusters zijn meestal geografisch en worden in stappen geselecteerd (bv. eerst een random steekproef selecteren uit de lijst van de regio’s binnen Zuid-Holland, vervolgens uit een lijst met steden binnen die regio’s, daarna uit een lijst met wijken binnen die steden en tenslotte uit een lijst met huishoudens binnen deze wijken). Deze techniek is minder accuraat dan de simpele techniek, want bij elke tussenstap is er een foutenmarge (de kans om een niet-representatieve steekproef te selecteren).
Afgeleide statistieken worden gebruikt om meer te leren over een populatie, maar informatie verkregen van de steekproef is alleen van waarde als deze groep gegeneraliseerd kan worden naar de populatie. Er zijn 3 soorten informatie nodig om naar behoren een variabele te karakteriseren: de vorm van de verdeling, de mate van de centrale tendens, en de mate van verspreiding. Via de steekproefverdeling, de theoretische en waarschijnlijke verdeling van een statistiek voor alle mogelijke steekproeven van een bepaalde grootte (N), kan informatie over een variabele uit de steekproef gelinkt worden aan de populatie.
Het maken van een steekproefverdeling is nodig, omdat het een theoretisch concept is en deze nooit in werkelijkheid verkregen kan worden door de onderzoeker. Een steekproefverdeling heeft de vorm van een normaal curve, omdat de waarschijnlijkheid dat een random ‘getrokken’ steekproef het gemiddelde van de populatie weergeeft veel groter is dan dat het een uitzonderlijk lage/hoge waarde geeft.
Er zijn twee stellingen met betrekking tot de karakteristieken van de variabele in een steekproefverdeling:
Bij herhaaldelijke steekproeven met grootte N, uit een populatie met een gemiddelde van µ en een standaard afwijking van σ, zal de steekproefverdeling van de gemiddelden normaal verdeeld zijn met een gemiddelde van µ en een standaard afwijking (ook wel ‘standaard fout van het gemiddelde’ SEM) van σ/√N
Bij een variabele waarvan de verdeling onbekend is of die niet normaal verdeeld is, vallen onder de Centrale Limiet Theorie: bij herhaaldelijke steekproeven met grootte N, uit een populatie met een gemiddelde van µ en een standaard afwijking van σ, nadert de steekproefverdeling, bij een grote N, normaliteit met een gemiddelde van µ en een standaard afwijking van σ/√N
In de volgende hoofdstukken worden verschillende verdelingen door elkaar gebruikt. Om hier onderscheid tussen te maken wordt voor elke soort verdeling een symbool gebruikt.
| Gemiddelde | Standaard afwijking | Proportie |
1. Steekproeven | Xg | s | Ps |
2. Populaties | µ | σ | Pu |
3. Steekproefvderdeling |
|
|
|
van gemiddelden | µXg | σXg |
|
van proporties | µp | σp |
|
De standaard procedure om vanuit een steekproef een schatting te maken van een waarde voor de hele populatie is door middel van een betrouwbaarheidsinterval. Dit is een wiskundige bewering die stelt dat de parameter binnen een bepaald bereik ligt. Hoewel in de media het middelpunt van zo’n interval meestal benadrukt wordt, is het belangrijk te onthouden dat parameter van de populatie op elke plek binnen het interval kan liggen.
Om een schatting te maken van de populatie worden statistieken uit de steekproef gebruikt, die volgens twee criteria worden geselecteerd: vooroordeel en efficiëntie.
Een schatter is onbevooroordeeld wanneer het steekproefgemiddelde gelijk is aan het gemiddelde van de populatie. Ook de steekproefproporties zijn onbevooroordeeld, waarbij het proportie gemiddelde gelijk is aan de proportie van de populatie. Bij een steekproef met een grote N mag je er vanuit gaan dat de steekproefverdeling normaal verdeeld is, met het steekproefgemiddelde als gemiddelde van die verdeling. Bij een normaal verdeling geldt dat 68% van de gevallen tussen ±1 Z, 95% van de gevallen tussen ±2 Z’s, en 99% van de gevallen tussen ±3 Z’s van het gemiddelde ligt. Er is dus een kleine kans (p=0.01) dat het gevonden steekproefgemiddelde meer dan 3 standaardafwijkingen van het gemiddelde ligt. Echter de kansen zijn veel groter (99%) dat dit niet het geval is.
De efficiëntie, ook wel de mate van clustering rondom het gemiddelde, is een tweede belangrijk kenmerk van een schatter. Hoe kleiner de standaardafwijking van een steekproefverdeling is, hoe groter de clustering en hoe hoger de efficiëntie is. De standaardafwijking van een steekproef staat gelijk aan de standaardafwijking van de populatie gedeeld door √N (zie ook hoofdstuk 4). Omdat de standaardafwijking een functie is van N (steekproefgrootte) kan gezegd worden dat hoe groter N is, hoe groter de clustering en hoe hoger de efficiëntie.
De eerste stap is om te bepalen hoeveel risico je wil nemen om een fout interval te kiezen (waarbinnen de populatie parameter niet ligt). Dit wordt aangegeven met alpha (α) en heeft meestal de waarde 0.05; ook wel het 95% betrouwbaarheidsinterval genoemd. Vervolgens wordt een beeld van de verdeling gemaakt waarbij de proporties over beide ‘staarten’ gelijk verdeeld worden. Nu kan de corresponderende Z-score gevonden worden bij de ingestelde α-waarde (bij α=0.05 hebben de twee uiterste stukken van de verdeling de waarde 0.025). Onder kolom c uit de tabel met Z-scores vind je bij een proportie van 0.025 een Z-score van 1.96. Dit betekent dat 95% van alle mogelijke uitkomsten tussen ±1.96 Z’s van het gemiddelde ligt. Naast het 95% betrouwbaarheidsinterval zijn er nog vier andere vaak gebruikte intervallen: 90% interval (α=0.10), 99% interval (α=0.01), 99,9% interval (α=0.001), en 99,99% interval (α=0.0001). Voor sommige intervallen staan de precieze proporties niet in de tabel; dan kies je de grootste van de 2 scores die rondom de gezochte proportie staan.
Om het betrouwbaarheidsinterval (b.i.) van steekproefgemiddelden te bereken bij grote steekproeven wordt de Z-score (Z) vermenigvuldigd met de standaardafwijking van de steekproefverdeling (σ/√N) en vervolgens zowel afgetrokken van als opgeteld bij het steekproefgemiddelde (X). Dus: b.i. = X ± Z(σ/√N). Echter, meestal is de standaardafwijking van de populatie (σ) niet bekend en wordt er gerekend met de standaardafwijking van de steekproef (s). De formule wordt dan iets anders, waarbij s bevooroordeeld is, namelijk b.i. = X ± Z(s/√N-1). Bij grote steekproeven (N>100) zal de bevooroordeeldheid van s geen verschil maken en mag de laatste formule dus gebruikt worden.
Voor het berekenen van het betrouwbaarheidsinterval van steekproefproporties bij grote steekproeven wordt zo goed als dezelfde formule gebruikt. Echter, omdat proporties andere statistieken zijn, wordt er een andere steekproefverdeling gebruikt. De verdeling van proporties is normaal verdeeld met een gemiddelde (µp) gelijk aan het populatiegemiddelde (Pu) en de standaardafwijking (σp) gelijk aan √(Pu(1-Pu)/N). Dus: b.i. = Ps ± Z√(Pu(1-Pu)/N). Hierbij heeft alleen Pu een onbekende waarde, wat kan worden opgelost door die vast te zetten op 0.5, waardoor de maximale wijdte van het interval wordt bereikt (bij elke andere waarde van Pu wordt de gehele noemer lager).
De wijdte van het betrouwbaarheidsinterval kan worden veranderd door twee termen in de formule te manipuleren. Ten eerste kan het betrouwbaarheidsinterval groter of kleiner worden gemaakt. Ten tweede kunnen steekproeven met verschillende groottes worden gebruikt. De onderzoeker zelf bepaalt hoeveel risico hij wil nemen en stelt daarop het gewenste betrouwbaarheidsinterval in: hoe wijder het interval, hoe groter het betrouwbaarheidsniveau. Echter, hoe groter de steekproefgrootte (N), hoe kleiner het interval (want meer clustering rondom het gemiddelde).
Een tweede toepassing van afgeleide statistieken wordt hypothese testen of significantie testen genoemd. Dit wordt gebruikt bij situaties waarin ‘random’ geselecteerde steekproeven worden vergeleken met de populatie. Specifiek, er wordt gekeken of de steekproeven verschillen van de populatie. Omdat het niet te doen is om alle gevallen uit een categorie van de populatie te testen, wordt d.m.v. deze statistiek bepaald of het verschil tussen steekproef en populatie significant is (in andere woorden; dat erg onwaarschijnlijk is dat het gevonden verschil wordt veroorzaakt door ‘random’ kans alleen).
Stel het gemiddelde (µ=7,2) en de standaardafwijking (σ=1,43) van de populatie, en het gevonden gemiddelde van de steekproef (X=6,8) evenals de steekproefgrootte (N=127) zijn bekend. Het steekproefgemiddelde is duidelijk lager dan het populatiegemiddelde. Er mogen er niet zomaar conclusies worden getrokken, hoewel het verleidelijk is, omdat er niet met de hele subgroep (waaruit de steekproef is getrokken) wordt gewerkt. De onderzoeker wil weten wat de oorzaak is voor het gevonden verschil. Hiervoor zijn twee verschillende verklaringen:
Het gevonden verschil is een ‘echt’ verschil, waarbij het om een statistisch significant verschil gaat. Als dit zo is, dan heeft de subgroep (waaruit de steekproef is getrokken) niet hetzelfde gemiddelde als de populatie.
De ‘nul hypothese’ (H0); deze gaat er vanuit dat er geen verschil bestaat tussen de subgroep en de populatie, dus dat ze hetzelfde gemiddelde hebben. Het gevonden verschil is dus te wijten aan ‘random’ kans.
De juiste verklaring kan niet zomaar gekozen worden, maar moet worden bepaald d.m.v. een keuzeprocedure met een lage kans op het kiezen van de verkeerde verklaring. Dit proces begint altijd met de aanname dat de nul hypothese correct is, dus dat het subgroep gemiddelde gelijk staat aan het populatiegemiddelde. H0: µ=7,2 (waarbij µ voor het subgroep gemiddelde staat). Wanneer de kans op het gevonden gemiddelde kleiner is dan p=0.05, wordt de nul hypothese verworpen.
Om deze kans te vinden, wordt een normaalverdeling gemaakt (zie hoofdstuk 6 over Centrale Limiet Stelling) met een gemiddelde van 7,2 (want µX=µ) en een standaardafwijking van 1,43/√127 (want σX=σ/√N). Bij een p=0.05 hoort een ‘staartdeel’ van de verdeling van 0.025. Via de tabel met Z-scores kan gevonden worden dat de bijbehorende Z-score Z=1,96 is. Wanneer de gevonden score nu in het uiteinde van de staart valt is de waarschijnlijkheidskans kleiner dan p=0.05, waardoor de nul hypothese verworpen wordt. De laatste stap is dan ook het omzetten van het steekproefgemiddelde in een Z-score met de formule Z=(Xi-X)/s (met ruwe data) of de formule Z=(X-µ)/(σ/√N) (met steekproefgemiddelden). In het gebruikte voorbeeld heeft het gemiddelde van 6,8 een Z-score van -3,15, wat dus een kleinere kans heeft dan p=0.05 om binnen de normaalverdeling te vallen. De nul hypothese wordt dus verworpen, oftewel de steekproef komt niet uit een subgroep met een gemiddelde van 7,2.
De steekproef moet ‘random’ zijn, de variabele moet een interval-ratio meetniveau hebben, en er moet vanuit worden gegaan dat de verdeling van de alle mogelijke steekproef-gemiddelden ‘normaal’ is.
De nul hypothese stelt dat er ‘géén verschil’ is, dus dat de steekproef uit een subgroep komt met dezelfde karakteristieken als de populatie. Hier tegenover staat de hypothese van de onderzoeker zelf (H1), die juist zegt dat de karakteristiek van de subgroep ‘niet gelijk staat aan’ (≠) die van de populatie.
Er vanuit gaande dat de nul hypothese klopt, kan er een steekproefverdeling worden gemaakt met een normaalcurve (waarbij het gemiddelde gelijk is aan het populatiegemiddelde). De kritische regio (het ‘gebied van afwijzing’) bevat de gebieden onder de curve met de waarden waarbij H0 verworpen wordt, waarvan de grootte wordt aangegeven met alpha (α). De kritische Z-score is de waarde van Z waarbij de kritische regio begint.
Om de waarschijnlijkheid van de gevonden waarde binnen de steekproefverdeling te controleren, moet deze waarde worden omgezet in een Z-score (de teststatistiek), die ook wel Z(verkregen) wordt genoemd.
Ten slotte wordt deze teststatistiek vergeleken met de kritische regio. Wanneer de Z(verkregen) binnen deze regio valt, wordt de nul hypothese verworpen. Nadat deze beslissing is genomen, moet er nog uitgelegd worden wat dit betekent.
Ondanks dat het vijf-stappen model strak is en er weinig ruimte is voor de onderzoeker om keuzes te maken, moeten er twee dingen bepaald worden. Ten eerste of er getest wordt met één staart of twee staarten en ten tweede welk alpha-niveau wordt gebruikt. De eerste keuze is gebaseerd op de verwachtingen die de onderzoeker van tevoren heeft en wordt weerspiegeld in de onderzoekshypothese (H1). Deze hypothese kan verschillende richtingen hebben. Wanneer de onderzoeker onzeker is over de richting van de uitkomst, wordt H1: µ≠7,2. Dit is een test met ‘twee staarten’, omdat er voor de onderzoeker een gelijke kans bestaat dat werkelijke subgroep-waarde groter of kleiner is dan de waarde uit de nul hypothese.
Als de onderzoeker alleen geïnteresseerd is in verschillen in een bepaalde richting, wordt een test met ‘één staart’ toegepast. Deze hypothese kan op twee manieren worden gevormd; H1: µ>7,2 (‘groter dan’) of H1: µ<7,2 (‘kleiner dan’).
De keuze voor een test met één of twee staarten bepaalt hoe de kritische regio (in stap 3) eruit komt te zien. Bij een test met twee staarten wordt deze regio gelijk verdeeld over een onderste en bovenste staart, terwijl een test met één staart de hele regio in aan een kant van de normaal curve heeft zitten. Bij H1=‘groter dan’ komt de kritische regio aan de bovenkant (rechter staart) en bij H1=’kleiner dan’ komt deze regio aan de onderkant (linker staart). Alle Z-scores liggen bij een test met één staart dichterbij het gemiddelde dan bij een test met twee staarten, wat betekent dat de kans groter is dat H0 verworpen wordt (zonder dat het alpha-niveau verandert).
Het geven van een waarde aan alpha staat voor wat de onderzoeker verstaat onder een ‘onwaarschijnlijke steekproef-waarde’. Als de kans op een bepaalde waarde lager is dan de alpha-waarde, wordt H0 verworpen. Onthoud dat het alpha-niveau de waarschijnlijkheid is dat H0 ten onrechte wordt verworpen (type I fout of alpha-fout). Door een kleine waarde voor alpha te gebruiken, wordt de kans op deze fout verkleind. Echter, er zit een complicatie aan vast. Bij het verkleinen van de alpha-waarde wordt automatisch het gebied tussen de twee kritische Z-scores groter. Nu wordt ook de kans groter dat H0 ten onrechte wordt behouden (type II fout of beta-fout). Het is dus niet mogelijk om beide typen fouten te minimaliseren in dezelfde test. Het gaat er bij onderzoek dus om dat geprobeerd wordt een balans te vinden tussen de twee typen fouten. Binnen sociaal-wetenschappelijk onderzoek wordt vooral de Type I fout vermeden, dus er wordt een zo laag mogelijke alpha-waarde gebruikt.
Werkelijke H0 | Beslissing Verwerpen Behouden | |
Waar | Type I (of α) fout | OK |
Niet waar | OK | Type II (of β) fout |
Tot nu toe zijn alleen situaties gebruikt met een gemiddelde uit één steekproef, waarbij de standaard afwijking van de populatie (σ) bekend is zodat de Z-waarde kan worden berekend. Echter, in de meeste gevallen is deze waarde niet bekend. Voor grote steekproeven (N>100; zie hoofdstuk 7) kan σ geschat worden uit ‘s’. Bij kleinere steekproeven moet een alternatieve verdeling gebruikt worden, de studenten t-verdeling, om de gebieden onder de curve en de kritische regio te bepalen. De vorm van deze t-verdeling is een functie van de steekproefgrootte. Bij kleine steekproeven is de t-verdeling veel vlakker dan de Z-verdeling, maar hoe groter de steekproeven worden hoe meer de t-verdeling op die van de Z-verdeling gaat lijken (tot ze identiek zijn aan elkaar bij N>120).
Zie boek
De t-verdeling heeft een eigen tabel met t-scores en verschilt van de Z-scores tabel op verschillende punten:
De linker-kolom uit de tabel staat voor de vrijheidsgraden (N-1), die eerst moeten worden berekend voordat het kritische gebied van alpha kan worden bepaald.
De alpha-waardes zijn geordend aan de bovenkant van de tabel in twee rijen; voor testen met één staart en voor testen met twee staarten.
De t-waardes (kritische t-scores) zijn echte scores en geven het begin van de kritische regio weer i.p.v. het gebied onder de steekproefverdeling.
Onthoud dat de kritische t-score groter is dan de bijbehorende kritische Z-score, omdat de t-verdeling platter is dan de Z-verdeling. Bij de t-verdeling liggen de kritische gebieden verder van het gemiddelde af en zal H0 moeilijker te verwerpen zijn. Bovendien, hoe kleiner de steekproef (hoe kleiner het aantal vrijheidsgraden), hoe groter de waarde voor t(verkregen) nodig is om H0 te verwerpen en bij meer vrijheidsgraden horen lagere kritische t-scores.
Wanneer er niet met interval-ratio variabelen wordt gewerkt, kan de steekproef-proportie worden gebruikt i.p.v. het steekproefgemiddelde. De algehele procedure om hypotheses te testen is hetzelfde als bij het testen van gemiddelden. Het verschil zit hem in het gebruiken van een nominale variabele (stap 1), andere symbolen (stap 2), het gebruiken van de gestandaardiseerde normaal curve om gebieden onder de curve te bepalen en dit alleen bij grote steekproeven (stap 3) en het gebruiken van een iets andere formule (stap 4), namelijk: Z(verkregen)=(Ps-Pu)/√(Pu(1-Pu)/N)
In dit hoofdstuk wordt de significantie van het verschil tussen twee steekproefparameters bekeken (i.p.v. dat één steekproefgemiddelde met het populatiegemiddelde wordt vergeleken). De hoofdvraag bij deze vorm van hypothese testen luidt: Is het verschil tussen de steekproeven groot genoeg om te kunnen concluderen dat de twee subgroepen ook echt verschillend zijn?
Er zijn drie belangrijke verschillen tussen deze twee vormen. Ten eerste moet beide steekproeven niet allen ‘random’ worden gekozen, maar ook onafhankelijk van elkaar. Het kiezen van de ene steekproef mag geen effect hebben op de kans voor het kiezen van de andere steekproef. Dit kan bereikt worden door steekproeven random te kiezen uit verschillende lijsten (van de subgroepen) of door één steekproef random te kiezen en die vervolgens op te delen in twee groepen. Ten tweede zegt de nul hypothese nu dat de twee subgroepen gelijk zijn (i.p.v. dat de karakteristiek van de subgroep gelijk is aan die van de populatie). Een derde belangrijk element is dat nu het verschil tussen steekproefstatistieken wordt gebruikt (i.p.v. het gemiddelde of de proportie van één steekproef). Wanneer er geen verschil is, zal het verschil-gemiddelde 0 zijn. Hoe groter het verschil, hoe verder dit van 0 af zal liggen.
Zolang de steekproefgrootte groot genoeg is (N>100 voor de twee steekproeven samen) zal de verdeling van de verschilscores normaal verdeeld zijn. De teststatistiek, Z(verkregen), wordt op dezelfde manier berekend: steekproef uitkomst (het verschil tussen de twee steekproefgemiddelden) min het gemiddelde van de steekproefverdeling (wat hierbij altijd 0 is, want geen verschil tussen de gemiddelden wordt verwacht, dus dit kan eigenlijk worden weggelaten) gedeeld door de standaard afwijking van de steekproefverdeling (van de verschillen in steekproefgemiddelden). De officiële formule: Z(verkregen)=(X1-X2)-(µ1-µ2)/σX1-X2, wordt dus Z(verkregen)=(X1-X2)/σX1-X2
Voor grote steekproeven kan de standaardafwijking gevonden worden door:
σX1-X2=√(σ12/N1)+(σ22/N2), wat eigenlijk staat voor: σX1-X2=√(s12/N1-1)+(s22/N2-1), dit is de gepoolde schatting omdat het informatie combineert uit beide steekproeven. De hypothese test zal laten blijken of het gevonden verschil groot genoeg is om te zeggen dat het niet per toeval is gevonden, maar dat het te wijden is aan een verschil in subgroepen.
Ook hierbij geldt weer dat bij een kleine steekproef (N<100 voor de twee steekproeven samen) de Z-verdeling niet kan worden gebruikt en daarvoor in de plaats de t-verdeling. Nu moeten de vrijheidsgraden berekend worden met de formule: df=N1+N2-2. Verder moet er een extra aanname worden gedaan, namelijk dat de populatievarianties van de twee subgroepen gelijk zijn, om er vanuit te kunnen gaan dat de verdeling normaal is en een gepoolde schatting van de standaardafwijking te maken. Deze aanname moet getest worden met een variantie analyse (ANOVA), wat in hoofdstuk 10 verder wordt uitgelegd.
Het testen van de significantie van het verschil in steekproefproporties is hetzelfde als bij steekproefgemiddelden. Een schatting van de populatieproportie wordt gemaakt met de formule: Pu=(N1Ps1+N2Ps2)/(N1+N2). Pu wordt vervolgens gebruikt om de standaardafwijking te berekenen: σp-p=√(Pu(1-Pu))√(N1+N2)/(N1N2). Ten slotte wordt deze standaardafwijking weer gebruikt om de test-statistiek uit te rekenen: Z(verkregen)=((Ps1-Ps2)-(Pu1-Pu2))/σp-p. Omdat er bij de nul hypothese vanuit wordt gegaan dat er geen verschil is in de populatieproporties (Pu1 en Pu2) staat dit gelijk aan 0 en kan het uit de formule worden gehaald, waardoor de formule om mee te werken er als volgt uitziet: Z(verkregen)=(Ps1-Ps2)/σp-p
Omdat er altijd geprobeerd wordt de nul hypothese te kunnen verwerpen, moet er gekeken worden naar de factoren die deze beslissing beïnvloeden. De kans om de nul hypothese te verwerpen is een functie van vier onafhankelijke factoren:
De grootte van het gevonden verschil
Het alpha-niveau (hoe hoger alpha, hoe groter de kans op verwerpen H0)
Het gebruiken van een test met één of twee staarten (één staart verhoogt kans op verwerpen H0)
De steekproefgrootte (hoe groter de steekproef, hoe groter de kans op verwerpen H0)
De onderste drie factoren kunnen direct beïnvloed worden door de onderzoeker zelf. Het gaat dus steeds om het vinden van significantie van een verschil, echter dit betekent niet altijd dat het gevonden verschil ook van belang is. Hoe groter de steekproef, hoe eerder een gevonden verschil in uitkomst (hoe klein ook) significant verschilt van de populatie. Een verschil dat niet significant is, is meestal ook niet van belang; maar een verschil dat wel significant is, hoeft niet altijd van belang te zijn.
De variantie analyse (afgekort als ANOVA) is een flexibele en veel gebruikte test voor significantie. De test wordt gebruikt met afhankelijke interval-ratio variabelen en is een zeer sterk instrument om de meest precieze metingen te analyseren. Het lijkt het meeste op de t-test voor de significantie van verschillen tussen twee steekproefgemiddelden, hoewel de ANOVA ook kan worden gebruikt bij onafhankelijke variabelen met meer dan twee categorieën.
De nul hypothese stelt dat de subgroepen, waaruit de steekproeven getrokken zijn, dezelfde score hebben op de afhankelijke variabele. Dit kan uitgebeeld worden als: H0:µ1=µ2=µ3=etc. In het geval dat H0 waar is, zijn alle gemiddelden van random getrokken steekproeven zo goed als gelijk. Ze zullen nooit precies gelijk zijn, want er spelen altijd foutenmarges en kans schommelingen mee. Het gaat er dus niet om of er verschillen zijn, maar of de verschillen groot genoeg zijn om H0 te verwerpen.
Wanneer de groepsgemiddelden van de categorieën dicht bij elkaar liggen met een (relatief) hoge standaardafwijking, is het aannemelijk dat de H0 waar is en dat de subgroepen gelijk zijn. Juist bij groepsgemiddelden die (relatief) veel verschillen per categorie met een lage standaardafwijking zal H0 verworpen worden en zijn de subgroepen verschillend. Hierbij zijn verschillen tussen de categorieën en homogeniteit (lage standaardafwijkingen) binnen de categorieën zichtbaar. De ANOVA vergelijkt de hoeveelheid variatie tussen de categorieën (gemeten met de gemiddelden) met de hoeveelheid variatie binnen de categorieën (gemeten met de standaardafwijkingen).
Hoewel het lijkt alsof de groepsgemiddelden met elkaar worden vergeleken binnen deze test, worden in de formules twee ontwikkelde schattingen van de variantie betrokken. De variantie is de standaardafwijking in het kwadraat (σ2). De eerste schatting is gebaseerd op de variatie binnen de categorieën en de tweede op de variatie tussen de categorieën. Voordat deze schattingen uitgelegd kunnen worden, is kennis van de totale variantie van de scores (‘totale som van kwadraten’, SST) nodig. SST=∑Xi2-(NX2); eerst alle gekwadrateerde scores bij elkaar optellen, vervolgens het kwadraat van de gemiddelde score vermenigvuldigen met de steekproefgrootte, en ten slotte dit laatste getal aftrekken van het eerste getal. De SST is opgedeeld in twee delen, de som van kwadraten tussen de categorieën (SSB) en de som van kwadraten binnen de categorieën (SSW); SST=SSB+SSW.
De SSB vergelijkt het gemiddelde per categorie (Xk) met het gemiddelde van alle categorieën samen (X) met de formule: SSB=∑Nk(Xk-X)2, waarbij Nk het aantal scores per categorie is. De SSW wordt simpelweg gevonden door de variantie tussen de groepen af te trekken van de totale variantie: SSW=SST-SSB. Dus, bij het behouden van H0 is er weinig variatie per categorie (en zijn SSW en SSB ongeveer gelijk), terwijl bij het verwerpen van H0 er grote verschillen tussen de categorieën zijn (en SSB veel groter is dan SSW).
Om de populatievariantie te schatten, worden de kwadraten-sommen gedeeld door hun respectievelijke vrijheidsgraden. Het aantal vrijheidsgraden voor de SSW (dfw) wordt berekend door het aantal categorieën (k) af te trekken van het totaal aantal scores (N), dus: dfw=N-k. Voor SSB (dfb) staat het aantal vrijheidsgraden gelijk aan het aantal categorieën (k) minus 1, dus: dfb=k-1. De uiteindelijke schattingen voor de populatievariantie, de gekwadrateerde gemiddelde schatting (MS), worden berekend door de som van de kwadraten te delen door hun respectievelijke aantal vrijheidsgraden, dus: MSw=SSW/dfw en MSb=SSB/dfb. De test statistiek die bij ANOVA hoort, F ratio, is een functie van de hoeveelheid variatie tussen categorieën vergeleken met de variatie binnen categorieën en wordt berekend met de formule: F=MSb/MSw.
Zolang de categorieën ongeveer dezelfde grootte hebben, hoeft er iets minder strikt aan alle aannames te worden voldaan. Echter, in situaties waar de steekproeven heel verschillend zijn in grootte, is het aan te raden een andere test te gebruiken. De H0 zegt altijd dat de gemiddelden van alle categorieën gelijk zijn aan elkaar (oftewel, dat alle subgroepen uit dezelfde populatie komen), terwijl H1 stelt dat minstens één subgroep verschillend is van de populatie. Onthoud dat hierbij niet gezegd wordt welke categorie er dan verschillend is, dit wordt met een andere (meer geavanceerde) test. De F-ratio’s staan in een tabel en de F(kritisch) hangt af van het aantal vrijheidsgraden. Alle F-ratio’s zijn groter dan 1.00, omdat het een test met één staart is en er alleen interesse is in meer variantie tussen categorieën dan binnen categorieën.
Zie online voor een tabel F-verdeling
Deze test is geschikt bij gemiddelden op interval-ratio niveau van afhankelijke variabelen. Het is een ‘één-richting’ variantieanalyse, omdat het kijkt naar het effect van één variabele op een andere. Wanneer naar effecten van meerdere variabelen gekeken moet worden, zijn meer geavanceerde testen te gebruiken. Een belangrijke beperking van ANOVA is dat het alleen te gebruiken is bij afhankelijke variabelen op interval-ratio niveau en grofweg evenveel scores in elke onafhankelijke categorie. De tweede beperking is dat bij (elke vorm van) significantietesten soms een score als significant verschillend benoemen, terwijl het niet perse om een belangrijk verschil gaat. Als laatste is de onderzoekshypothese (H1) niet specifiek; het zegt alleen dat er één subgroep-gemiddelde is dat verschillend is t.o.v. het populatiegemiddelde.
Wanneer er met de ANOVA een significant verschil is gevonden voor de F-ratio, is het nog niet duidelijk welke categorie dan verschillend is. Dit kan objectief worden beantwoord door een ‘post hoc’ analyse (een analyse achteraf). Deze analyse vergelijkt de gemiddelden van alle mogelijke paren van categorieën en vertelt precies welke combinatie het meeste bijdraagt aan de significante F-ratio. Ook al geeft de tabel met gemiddelden per categorie soms al weg waar vooral het grote verschil ligt, een post hoc analyse kan er precies de vinger op leggen.
De Chi Kwadraat (ᵡ2) test is de meest gebruikte om hypothesen te testen binnen de sociale wetenschappen. De test werkt met variabelen van nominaal niveau (het laagste niveau) en is niet-parametrisch (er zijn geen aannames nodig over de vorm van de populatie of steekproefverdeling). De voorwaarden zijn makkelijk aan te voldoen, waardoor de beslissing om H0 te verwerpen niet specifiek is: één bewering in het model óf H0 is fout. Hoe zekerder de onderzoeker van het model is, hoe groter het vertrouwen in een foute H0. De ᵡ2 is ook erg flexibel; het kan gebruikt worden bij variabelen met veel categorieën of scores (in tegenstelling tot de t-test) en van elk gewenst meetniveau (in tegenstelling tot de ANOVA).
De ‘Chi Kwadraat’ wordt gevormd uit bivariaten tabellen, die de scores van gevallen op twee verschillende variabelen tegelijkertijd weergeven. Ze verzekeren onder andere of er een significante relatie is tussen de variabelen. De tabel heeft twee dimensies; horizontale (rijen) en verticale (kolommen), met cellen op elke kruising van beiden. De onafhankelijke variabele (die als ‘oorzakelijk’ wordt gezien) staat boven de kolommen en de afhankelijke variabele staat boven de rijen. Aan het eind van elke rij en kolom is het subtotaal toegevoegd, ook wel de marginalen genoemd. Verder is op de kruising van deze kolom en rij met marginalen het totaal aantal scores genoteerd. Elke rij en kolom heeft een naam en de tabel heeft een beschrijvende titel die de namen van de variabelen bevat (de afhankelijke variabele als eerst). Ten slotte wordt in de cellen het aantal keer genoteerd, dat desbetreffende combinatie voorkomt. In deze tabel kunnen makkelijk meer (on)afhankelijke variabelen worden toegevoegd, door een extra rij of kolom te maken.
De toets wordt gebruikt voor de Chi Kwadraat test voor onafhankelijkheid. Onafhankelijkheid in dit geval tussen de gebruikte variabelen (in plaats van de scores, zoals bij ANOVA). Variabelen zijn onafhankelijk wanneer het plaatsen van een score in een bepaalde categorie van de ene variabele op geen enkele manier effect heeft op de waarschijnlijkheid dat dezelfde score in een bepaalde categorie van de tweede variabele komt. Er dus geen totaal geen relatie tussen de twee variabelen. Wanneer dit het geval is zou een ideale tabel in elke cel precies evenveel scores hebben, want elke combinatie heeft evenveel kans om voor te komen. De H0 voor Chi Kwadraat is dat de variabelen onafhankelijk zijn. Om te controleren of deze hypothese waar is, wordt de tabel met verwachte frequenties (fe) (die dus gelijk is aan de ‘ideale tabel’ voor onafhankelijkheid) cel voor cel vergeleken met de tabel met geobserveerde frequenties (fo). Bij een kloppende H0 zullen de verschillen tussen de twee tabellen klein zijn. Hoe groter de verschillen tussen fe en fo, hoe kleiner de waarschijnlijkheid op onafhankelijke variabelen.
Net zoals bij de andere hypothese-toetsen wordt er met de Chi Kwadraat een statistiek geproduceerd, ᵡ2 (verkregen), uit de data en deze wordt in de steekproefverdeling geplaatst. De ᵡ2 (verkregen) wordt vergeleken met de ᵡ2 (kritisch), die in de Chi Kwadraat tabel gevonden kan worden bij een bepaalde alpha-waarde en aantal vrijheidsgraden. De formule hiervoor is: ᵡ2 (verkregen) = ∑(fo-fe)2/fe. Deze formule kan verkregen worden bij het cel-voor-cel invoeren van de waardes. In de meeste gevallen is de tabel niet ‘ideaal’ en moet dus voor elke cel eerst de verwachte frequentie worden uitgerekend met de formule: fe = (rij marginaal x kolom marginaal)/N. De waardes van de cellen veranderd dus (ten opzichte van de fo) terwijl de marginalen van zowel de rijen als de kolommen onveranderd blijven. Deze regel kan gelijk ook gebruikt worden om de berekening van de fe’s te controleren. Er zou een bereken-tabel (waarin alle losse stappen uit de berekening per kolom staan ingevuld) kunnen worden gebruikt om de formule voor ᵡ2 (verkregen) makkelijker in te kunnen vullen. De gevonden Chi Kwadraat moet hierna alsnog worden getest voor significantie.
Zoals bij eerdere vormen van significantie testen wordt ook hier weer het vijf-stappen model gebruikt:
Stap 1: het model heeft onafhankelijke en random steekproeven met minimaal een nominaal meetniveau.
Stap 2: H0 = de twee variabelen zijn onafhankelijk (H1 = de twee variabelen zijn afhankelijk). Stap 3: de steekproefverdeling is niet normaal verdeeld, maar positief scheef (piek rechts van het midden) en het aantal vrijheidsgraden wordt gevonden door het aantal rijen-1 maal het aantal kolommen-1; met de formule: df=(r-1)(k-1).
Stap 4: het berekenen van de ᵡ2 (verkregen).
Stap 5: kijken waar de ᵡ2 (verkregen) ligt in de steekproefverdeling en of H0 verworpen of behouden moet worden.
Een significante ᵡ2 (verkregen) vertelt ons dat de variabelen afhankelijk zijn van elkaar en dat de verkregen cel-frequenties niet alleen per toeval zijn ontstaan. Echter, de Chi Kwadraat vertelt niet wat de relatie tussen de variabelen dan precies is. Hiervoor zijn extra berekeningen nodig, zoals de kolom percentages (zie voor deze procedure hoofdstuk 2). Met behulp van deze percentages kan gezegd worden hoe de variabelen aan elkaar zijn gerelateerd.
Naast het testen van de onafhankelijkheid tussen twee variabelen, kan de Chi Kwadraat ook gebruikt worden om de significantie van de verdeling van scores te testen voor een enkele variabele; de hoe-goed-past-het? test. Hierbij wordt een geobserveerde verdeling van scores vergeleken met een set verwachte frequenties. Wanneer beide frequenties precies gelijk zijn, ‘past het goed’ (vandaar de naam). Hoe groter het verschil tussen deze twee, hoe waarschijnlijker dat het geobserveerde patroon niet per toeval alleen is ontstaan. Wat anders is aan deze toepassing van ᵡ2 is dat de H0 wordt gebruikt om de verwachte frequenties te bepalen (in plaats van de formule die staat bij het berekenen van ᵡ2).
Ten eerste is de Chi Kwadraat moeilijk te interpreteren als de variabelen meerdere categorieën hebben. Er zijn dan zoveel cellen dat het niet meer makkelijk af te lezen of te begrijpen is. Meestal wordt aangehouden dat de variabelen maximaal 4 categorieën mogen hebben. Daarnaast is de steekproefgrootte ook soms een probleem. Namelijk bij een zeer kleine steekproef heeft een cel met een cel-percentage een verwachte frequentie van 5 of minder.
De veiligste manier is om correctie maatregelen te nemen wanneer een enkele cel een verwachte frequentie heeft van 5 of lager. De correctie-formule voor 2x2 tabellen is: ᵡc2 = ∑(|fo-fe|-0.5)2/fe, waarbij |fo-fe| de absolute waardes (die het + en – teken negeren) van het verschil tussen de geobserveerde en verwachte frequentie voor elke cel is. Bij grotere tabellen is er geen correctie mogelijk bij kleine steekproeven. Ook een hele grote steekproef heeft een potentieel probleem, zoals al eerder genoemd, maar vooral bij de Chi Kwadraat; hoe groter de steekproef, hoe groter de waarschijnlijkheid om H0 te verwerpen (dit kan dus ook zijn wanneer de relatie eigenlijk wel van belang is).
Zoals in de vorige hoofdstukken al naar voren is gekomen, is statistische significantie ontzettend belangrijk bij sociaal wetenschappelijk onderzoek. Echter, testen voor significantie zijn vaak pas de eerste stap in de analyse van onderzoeksresultaten. Vanaf dit hoofdstuk wordt de mate van associatie gebruikt. Deze meting geeft informatie over de sterkte en de richting van het gevonden verband, wat erg belangrijk is bij het bepalen van de relevantie en de sterkte en validiteit van de theorieën. Theorieën zijn bijna altijd in de vorm van oorzaak-gevolg zinnen. Hoewel deze mate van associatie een goed beeld kan geven van het verband, kan er nooit met zekerheid bewezen worden dat dit verband ook oorzakelijk is. Houd dus in gedachte dat veroorzaking en associatie twee verschillende begrippen zijn. Als er een associatie is tussen variabelen kunnen er voorspellingen worden gedaan over een variabele, ook als er geen oorzakelijk verband bestaat.
In het algemeen wordt gezegd dat twee variabelen een verband hebben wanneer de verdeling van de ene variabele verandert door de verschillende categorieën of scores van de andere variabele. Dit kan worden verduidelijkt met een bivariaat tabel, die de scores op twee verschillende variabelen weergeven (zie hoofdstuk 11). De onafhankelijke (X) variabele staat boven de kolommen en de afhankelijke (Y) variabele staat naast de rijen. Er wordt gefocust op de kolommen om te zien of er een verband is tussen de variabelen in de tabel. De effecten van de onafhankelijke op de afhankelijke variabele kunnen kolom voor kolom afgelezen worden. Per kolom heet dit de conditionele verdeling van Y. Hoewel Chi Kwadraat een significantie toets is, bevat het wel informatie om te laten zien dat er een verband is tussen de variabelen. Vaak wordt dit al berekend voordat de bivariaat tabel wordt gemaakt. Bij alle waarden anders dan 0 is er een vorm van associatie, maar onthoud dat significantie en associatie niet hetzelfde zijn!
Alle drie de eigenschappen moeten geanalyseerd worden voor een volledig onderzoek naar een associatie.
1) Bestaat er een associatie?
Een associatie kan gevonden worden door de Chi Kwadraat te gebruiken of de conditionele verdeling van Y te bekijken in een tabel. Echter, de kolom totalen zijn niet altijd gelijk, waardoor kolompercentages (hoofdstuk 11) berekend worden om het patroon duidelijker zichtbaar te maken. Deze tabellen met kolompercentages zijn makkelijker te lezen, omdat kleine veranderingen al goed zichtbaar worden. Als de variabelen niet geassocieerd zijn zal de conditionele verdeling van Y niet verschillen tussen de kolommen.
2) Hoe sterk is de associatie?
Zodra er vastgesteld is dat er een associatie is, moet gekeken worden hoe sterk deze is. Dit is een kwestie van de hoeveelheid verandering in de conditionele verdeling van Y te bepalen. Het ene uiterste is dat er helemaal géén associatie is, waarbij de verdeling van Y voor elke kolom precies gelijk is. Het andere uiterste is dat er een perfecte associatie is, waarbij elke waarde van de afhankelijke variabele geassocieerd is met enkel één waarde van de onafhankelijke variabele. Hierbij zouden dus alle scores binnen één cel vallen. Een perfecte relatie wordt als een sterk verband gezien, waarbij de onafhankelijke variabele de enige oorzaak is van de afhankelijke variabele. Ook zouden er dan voorspellingen gemaakt kunnen worden zonder fouten.
Uiteraard vallen de meeste verbanden tussen deze twee uitersten en moet er gekeken worden naar hoe dicht de relatie bij perfect komt of juist hoe ver de relatie van géén associatie af ligt. Al de statistieken die dit berekenen zijn ontworpen met een ondergrens van 0.00 en een bovengrens van ±1.00, waarbij geldt: hoe dichter de waarde bij ±1.00 ligt, hoe sterker het verband. Een ‘snelle en makkelijke’ manier om de sterkte te bepalen heet het maximale verschil, waarbij de kolompercentages per rij worden vergeleken. Het laagste percentage van de rij wordt dan afgetrokken van het hoogste percentage uit dezelfde rij. Het grootste gevonden verschil, het maximale verschil, wordt gebruikt om d.m.v een tabel de globale sterkte (zwak, gemiddeld of sterk) van de relatie te bepalen. Onthoud dat het maximale verschil vooral makkelijk te vinden is bij kleine tabellen (bij grotere tabellen wordt het omslachtig veel werk) en ook dat dit verschil alleen gebaseerd is op twee percentages, wat een misleidende impressie kan geven van de algemene sterkte van de relatie.
Tabel: De relatie tussen het maximale verschil en de sterkte van de relatie.
Maximale verschil | Sterkte |
Bij een maximaal verschil: | De sterkte van de relatie is: |
tussen 0 en 10 percentage punten | Zwak |
tussen 10 en 30 percentage punten | Gemiddeld |
meer dan 30 percentage punten | Sterk |
3) Wat is het patroon en/of de richting van de associatie?
Om een patroon te kunnen onderzoeken, moet vastgesteld worden welke waarden of categorieën van de ene variabele verbonden met welke waarden of categorieën van de andere variabele. Bij variabelen op nominaal niveau kan alleen het patroon van de relatie besproken worden, terwijl bij variabelen vanaf ordinaal niveau de relatie daarnaast ook in termen van richting beschreven kan worden. Deze richting kan positief of negatief zijn. Een positief verband houdt in dat de waarden van de twee variabelen dezelfde richting op veranderen; oftewel een hoge score op de ene variabele hangt samen met een hoge score op de andere variabele. Bij een negatief verband veranderen de waarden van de twee variabelen juist in tegenovergestelde richting; dat wil zeggen dat een hoge score op de ene variabele samenhangt met een lage score op de andere variabele. De mate van associatie kan met een plusteken (voor postitieve verbanden) of een minteken (voor negatieve verbanden) worden weergegeven.
Binnen de statistiek zijn percentages van groot belang bij het geven van belangrijke informatie over de relatie tussen twee variabelen. Deze informatie is duidelijk en accuraat, mits de bivariate tabel naar behoren is gemaakt. Fouten en misverstanden kunnen makkelijk ontstaan als er onduidelijkheid is over welke variabele de afhankelijke en onafhankelijke is, of wanneer de onderzoeker de verkeerde vragen stelt over de relatie. Wanneer kolompercentages vergeleken worden binnen een tabel wordt de vraag gesteld: “Verandert Y (de afhankelijke variabele) door X (de onafhankelijke variabele)?”
Kolompercentages geven bruikbare en gedetailleerde informatie over de bivariate associaties en horen altijd berekend en geanalyseerd te worden, hoewel ze soms moeizaam en vaag zijn bij grotere tabellen. Maten van associatie, daarentegen, geven een samenvatting van de algehele sterkte van het verband weer in één enkel getal. Dit is meer compact en makkelijker om te interpreteren en over te discussiëren.
Met de tijd zijn sociale wetenschap onderzoekers steeds meer waarde gaan hechten aan de waarde van Chi Kwadraat (ᵡ2) voor het berekenen van de mate van associatie. Bij een bekende ᵡ2 is deze mate makkelijk te berekenen. De ᵡ2 kan significant zijn (er is een verband gevonden), maar de vraag blijft wat de sterkte van dit verband dan is. Hiervoor wordt Phi (ϕ) berekend, die vaak wordt gebruikt bij 2x2 tabellen (met 2 rijen en 2 kolommen). Om de waarde van ϕ goed te kunnen interpreteren, is het handig om de algemene richtlijnen te kennen (deze lijken op de richtlijnen voor de interpretatie van het maximale verschil tussen kolompercentages) (tabel 12.12 op blz 319).
Dit is een simpele formule waarbij de wortel wordt genomen van Chi Kwadraat gedeeld door de steekproefgrootte; dus ϕ = √(ᵡ2/N). Voor een 2x2 tabel varieert ϕ tussen 0.00 (geen associatie) en 1.00 (perfecte associatie). Hoe dichter de waarde bij 1.00 ligt, hoe sterker het verband.
Bij tabellen die meer dan 2 rijen en 2 kolommen hebben, kan de waarde van ϕ hoger worden dan 1.00. Hierdoor is ϕ moeilijk te interpreteren en wordt een meer algemene statistiek Cramer’s V gebruikt. De formule is: V = √(ᵡ2/(N(min r-1, k-1))), waarin (min r-1, k-1) staat voor de laagste waarde van óf het aantal rijen min 1 óf het aantal kolommen min 1. Ook Cramer’s V heeft een hoogste waarde van 1.00 en deze waarde zal gelijk zijn aan die van ϕ bij een 2x2 tabel.
Hoewel zowel ϕ als V makkelijk te berekenen zijn en vaak worden gebruikt als maat voor associatie, is een nadeel dat er alleen algemene indicaties van de sterkte van het verband zijn (zwak, gemiddeld of sterk). Natuurlijk zijn waardes dichter bij 0.00 zwakker en dichter bij 1.00 sterker, maar de gegeven indicaties kennen geen directe of betekenisvolle interpretatie.
De logica van deze metingen is gebaseerd op twee verschillende voorspellingen over de scores van de afhankelijke variabele. In de eerste voorspelling wordt de informatie over de onafhankelijke variabele genegeerd, terwijl in de tweede voorspelling de onafhankelijke variabele juist wel wordt gebruikt. De proportionele afname in fouten (PRE) vertelt de onderzoeker hoeveel kennis van de onafhankelijke variabele de voorspellingen over de afhankelijke variabele verbetert.
Bij nominale variabelen wordt eerst voorspelt in welke categorie elke score valt in de afhankelijke variabele (Y) terwijl de onafhankelijke variabele (X) genegeerd wordt. Aangezien deze voorspelling blind wordt gemaakt, zullen er veel fouten worden gemaakt. Voor de tweede voorspelling mag de onafhankelijke variabele wel gebruikt worden. Wanneer er een verband is tussen de variabelen zal deze extra informatie het aantal fouten in de voorspelling verminderen (er worden dus minder gevallen in de verkeerde categorie voorspeld). Hoe sterker de associatie, hoe groter de afname in fouten. In het geval van een perfecte associatie zullen er helemaal geen fouten worden gemaakt bij het voorspellen van Y uit de score van X. De vraag blijft: “Hoe kan afname van fouten door het gebruik van de informatie over de onafhankelijke variabele worden vertaald in een handige statistiek?”
Om de sterkte van een gevonden associatie te meten, wordt lambda (λ) berekend (een maat voor proportionele afname in fouten). Hiervoor moeten eerst twee hoeveelheden worden gevonden: als eerste het aantal foute voorspellingen bij het negeren van de onafhankelijke variabele, en als tweede het aantal foute voorspellingen wanneer er rekening gehouden wordt met de onafhankelijke variabele. Deze twee sommen worden daarna vergeleken om een statistiek te krijgen. Het kleinste getal van het aantal foute voorspellingen (gebaseerd op de marginalen van de afhankelijke variabele) wordt gebruikt, ook wel E1 genoemd.
Vervolgens wordt het aantal foute voorspellingen gebaseerd op de waardes van de onafhankelijke variabele (X) voor elke categorie van Y bij elkaar opgeteld om tot E2 te komen. Wanneer er een verband is tussen de variabelen zullen er bij de tweede berekening minder fouten worden gemaakt, oftewel E2 zal kleiner zijn dan E1. Om de proportionele afname van fouten te vinden, wordt de volgende formule gebruikt: λ = E1-E2/E1. De waarde van λ varieert tussen 0.00 en 1.00, waarbij ook weer geldt dat bij 0.00 er totaal geen verband is (E1 en E2 zijn gelijk) en er bij 1.00 een perfect verband is (E2 is 0). Hoewel deze waarde lijkt op de waarde van ϕ en V, heeft het getal van λ een precieze betekenis: Het vertelt hoeveel X helpt bij het voorspellen van Y. Wanneer dit getal wordt vermenigvuldigd met 100 kan λ een indicatie van de sterkte geven in de vorm van een percentage van fouten afname.
Als eerste is de λ asymmetrisch, wat betekent dat de waarde van λ afhangt van welke variabele als onafhankelijk is gebruikt. Er moet dus opgelet worden bij het plaatsen van de onafhankelijke variabele in de tabel. Wanneer dit nauwkeurig en consistent wordt gedaan, is er geen probleem. Ten tweede kan λ misleidend zijn, wanneer één van de rij-totalen veel groter is dan de anderen. De waarde van λ kan 0.00 zijn, zelfs wanneer andere maten van associatie groter zijn dan 0.00. Dit komt door de manier waarop λ berekend wordt en daarom moet er met voorzichtigheid worden geïnterpreteerd bij zeer ongelijke rij-marginalen.
Er zijn twee algemene typen variabelen op ordinaal niveau. Sommige hebben veel mogelijk scores en lijken daarmee op interval-ratio variabelen; deze worden continue ordinale variabelen genoemd. Het tweede type heet de ingekorte ordinale variabele, omdat deze hooguit vijf of zes categorieën heeft en wordt gemaakt door óf data in een ingekorte vorm te verzamelen óf een continue schaal in te korten. Voor dit laatste type ordinale variabele wordt gamma (G) gebruikt maat van associatie en voor de continue ordinale variabele is Spearman’s Rho (rs) gebruikelijk.
Zoals in hoofdstuk 12 ook besproken is de PRE gebaseerd op twee getallen aan de hand van twee voorspellingen van de scores (één zonder de onafhankelijke variabele, X, te gebruiken en één waarbij hier wel rekening mee gehouden wordt). De waarde van λ geeft weer in welke mate X de fouten bij de voorspelling van Y vermindert. Gamma meet net zoals lambda de proportionele afname in voorspellingsfouten door rekening te houden met de onafhankelijke variabele. Het grote verschil zit hem in hoe de voorspellingen gemaakt zijn. Bij gamma wordt de rangorde van paren van gevallen voorspeld in plaats van een score op de afhankelijke variabele. Oftewel, er wordt voorspeld of een geval een hogere of lagere score heeft dan een ander. Eerst wordt de rangorde van een paar van gevallen op een variabele voorspeld terwijl hun rangorde op de andere variabele genegeerd wordt. Daarna wordt deze voorspelling herhaald, maar nu wordt de rangorde op de ander variabele betrokken bij de voorspelling.
Wanneer er een relatie bestaat tussen de variabelen zullen er minder fouten in de voorspelling van de rangorde worden gemaakt als de kennis over de andere variabele erbij wordt betrokken. Bovendien worden er minder fouten gemaakt naar mate de relatie sterker is. Bij een gamma van 0.00 is er geen enkele relatie en zal de kennis over de andere variabele het vermogen om de rangorde te voorspellen niet verbeteren. Aan de andere kant zal een gamma van ±1.00 een perfecte relatie weergeven en kunnen de voorspellingen foutloos worden gemaakt. Omdat ordinale variabelen scores hebben die van laag naar hoog gerangschikt kunnen worden, kan aan de relatie tussen deze variabelen niet alleen een patroon maar ook een richting worden toegekend. Variabelen hebben een positieve relatie wanneer gevallen op beide variabelen in dezelfde rangorde gescoord kunnen worden. Als de rangorde op beide variabelen juist tegenovergesteld is, heet dit een negatieve relatie.
Voor het berekenen van Gamma zijn twee sommen nodig: het aantal paren van gevallen die op beide variabelen in dezelfde rangorde zijn gescoord (Ns) en het aantal paren van gevallen die op beide variabelen in verschillende rangordes zijn gescoord (Nd). Deze sommen worden gevonden door de cel frequenties te gebruiken. Omdat er bij een 3x3 tabel 3 scores voor zowel X als Y zijn, bestaan er 9 cellen. Deze cellen kunnen staan voor combinaties tussen laag, midden of hoog op de ene variabele en laag, midden of hoog op de andere variabele.
Om het totaal aantal paren met dezelfde rangorde op beide variabelen (Ns) te vinden, wordt de frequentie in elke cel vermenigvuldigd met het totaal van alle frequenties die zich onder én rechts van deze cel bevinden. Begin hierbij in de cel linksboven, die laag scoort op beide variabelen (en dus LL heet). Herhaal deze procedure voor elke cel en tel alle resulterende producten bij elkaar op. Let op dat geen van de cellen op de onderste rij of in de rechter kolom kunnen bijdragen aan Ns, omdat deze geen cellen zowel onder als rechts van zich meer hebben.
Voor het vinden van het totaal aantal paren met een verschillende rangorde op beide variabelen (Nd) wordt de frequentie in elke cel vermenigvuldigd met het totaal van alle frequenties die zich onder én links van deze cel bevinden. Dit is dus de omgekeerde procedure als voor het vinden van Ns. Hierbij wordt bij de cel rechtsboven begonnen, die hoog scoort op X en laag op Y (en dus HL heet). In dit geval dragen de cellen in de onderste rij of in de linker kolom niet bij aan Nd, omdat deze geen cellen zowel onder als links van zich meer hebben.
Gamma kan nu berekend worden met de volgende formule: G = (Ns-Nd)/(Ns+Nd).
Voor LL’s Voor ML’s
| L | M | H |
|
| L | M | H |
L | X |
|
|
| L |
| X |
|
M |
| X | X |
| M |
|
| X |
H |
| X | X |
| H |
|
| X |
Voor LM’s Voor MM’s
| L | M | H |
|
| L | M | H |
L |
|
|
|
| L |
|
|
|
M | X |
|
|
| M |
| X |
|
H |
| X | X |
| H |
|
| X |
Voor HL’s Voor ML’s
| L | M | H |
|
| L | M | H |
L |
|
| X |
| L |
| X |
|
M | X | X |
|
| M | X |
|
|
H | X | X |
|
| H | X |
|
|
Voor HM’s Voor MM’s
| L | M | H |
|
| L | M | H |
L |
|
|
|
| L |
|
|
|
M |
|
| X |
| M |
| X |
|
H | X | X |
|
| H | X |
|
|
Een gamma van 0.57 betekent dat er 57% minder fouten zullen worden gemaakt bij het voorspellen van de rangorde van paren op de ene variabele aan de hand van de rangorde van dit paar op de andere variabele. De betekenis van de verschillende waarden voor gamma zijn met algemene richtlijnen weergegeven in een tabel. Let hierbij op dat de sterkte van de relatie onafhankelijk is van de richting; -0.35 en +0.35 zijn bijvoorbeeld allebei even sterk, maar in tegenovergestelde richting. Om gamma goed te kunnen berekenen moet de tabel gemaakt worden volgens de regel dat de kolomvariabele in waarde stijgt van rechts naar links en de rijvariabele in waarde stijgt van boven naar onder. Gamma is een symmetrische statistiek, wat betekent dat het dezelfde waarde heeft ongeacht welke variabele als onafhankelijk wordt gebruikt.
Waarde | Sterkte |
Als de waarde: | De sterkte van de relatie is: |
tussen de 0.00 en 0.30 ligt | Zwak |
tussen de 0.31 en 0.60 ligt | Gemiddeld |
groter is dan 0.60 | Sterk |
Nominale associatie maten (zoals ɸ en λ) meten alleen de sterkte van een bivariate associatie, terwijl ordinale associatie maten (zoals G) daarnaast ook informatie geven over de richting (positief of negatief) van de relatie. Deze richting lijkt makkelijk te bepalen te zijn, door te kijken naar het +/- teken, maar vaak is de richting verwarrend wanneer er met ordinale variabelen wordt gewerkt. Bij gamma zegt een positieve relatie namelijk dat wanneer scores op de ene variabele hoger (of lager) worden, de scores op de andere variabele ook hoger (of lager) worden. Bij een negatieve relatie is er juist een verband tussen een lagere score op de ene variabele en een hogere score op de andere variabele.
Let wel op een extra complicatie: de codering voor ordinale variabelen is willekeurig en een hogere score kan zowel ‘meer’ als ‘minder’ van de gemeten variabele betekenen. Zo kunnen de categorieën hoog, middel, laag gecodeerd worden als 1,2,3 of als 3,2,1. Hoewel de laatste optie meer logisch lijkt (het label hoog met de hoge waarde) zijn beide opties legitiem. Het enige verschil is de richting van de relatie; bij de eerste optie is deze negatief (want hoge categorie is gekoppeld aan lage score) en bij de tweede optie juist positief. Helaas kan deze bron van verwarring niet worden vermeden bij ordinale variabelen, daarom is extra aandacht vereist wanneer deze variabelen geïnterpreteerd worden.
In het vorige stuk zijn ordinale variabelen met een beperkt aantal categorieën besproken in tabellen, echter veel ordinale variabelen hebben een brede range en veel verschillende scores. Om makkelijker met deze variabelen te kunnen werken worden ze soms samengevoegd in een paar brede categorieën, zodat ze in een tabel kunnen worden verwerkt en geanalyseerd kunnen worden met gamma. Ook al is dit in veel gevallen wenselijk, er wordt soms belangrijke informatie mee verloren. Bij een categorie met veel scores zouden deze verdeeld kunnen worden in hoge en lage scores, maar daarbij komen twee mogelijke problemen kijken. Als eerste is er geen duidelijk of natuurlijk scheidingspunt in de verdeling die bepaalt waar ‘laag’ eindigt en ‘hoog’ begint. Ten tweede raak je de onderlinge verschillen binnen de brede categorie kwijt, die wellicht belangrijk zijn.
Spearman’s Rho (rs) is een maat voor associatie bij ordinale variabelen met een brede range en veel verschillende scores. Deze scores kunnen niet wiskundig bewerkt worden, maar alleen als ‘groter dan’ of ‘minder dan’ worden gemarkeerd. Hierom moeten eerst alle scores gerangschikt worden van hoog naar laag op alle variabelen, waarna de rangen (dus niet de scores zelf) bewerkt worden om mee te meten. Wanneer er meerdere dezelfde scores zijn, krijgen deze allemaal het gemiddelde van de rangnummers die ze hadden gekregen als ze niet gebonden waren (rang 4 en rang 5 geeft aan beide dezelfde scores rang 4,5). De formule voor Spearman’s Rho is: rs = 1- ((6∑D2)/(N(N2-1))) waarbij ∑D2 staat voor de som van de gekwadrateerde verschillen in rang van alle gevallen. Om dit te berekenen wordt voor elke geval de rangorde van Y afgetrokken van de rangorde van X (dit is D). Het is makkelijk om deze D’s in een aparte kolom te zetten. Let erop dat de som van al deze verschillen samen 0 is (zo niet dan is er ergens een rekenfout gemaakt). In een volgende kolom worden alle negatieve waarden uitgeschakeld door alles in het kwadraat te zetten, zodat de som altijd hoger wordt dan 0.
Deze index varieert tussen 0 (geen associatie) en ±1.00 (perfecte associatie) en staat voor de sterkte van de relatie tussen de variabelen. Een perfecte positieve relatie (rs=+1.00) zou bestaan als alle gevallen in precies dezelfde rangorde gesorteerd kunnen worden op beide variabelen. Een perfecte negatieve relatie (rs=-1.00) zou bestaan wanneer alle gevallen precies in tegenovergestelde rangorde gesorteerd kunnen worden voor de twee variabelen. Het blijft een index van de relatieve sterkte van de relatie en de waardes hebben geen directe interpretatie. Echter, wanneer rs gekwadrateerd wordt (rs2) kan deze gezien worden als proportionele afname van fouten in de rangorde voorspelling (de voorspelling met kennis van de rangorde op de andere variabele wordt vergeleken met de voorspelling zonder de kennis over de andere variabele).
Als er met random steekproeven wordt gewerkt, moet gekeken worden of de bevindingen uit die steekproeven ook gegeneraliseerd kunnen worden naar de populatie. Maten van associatie (zoals G en rs) kunnen ook getest worden op significantie. Vooral bij nominale variabelen kan de significantie van de relatie bepaald worden met Chi Kwadraat, hoewel deze statistiek niet direct de significantie van de associatie meet (maar de waarschijnlijkheid van het per toeval voorkomen van de gevonden cel-frequenties meet). Bij het testen van de significantie van de associatie is de H0 dat er géén associatie tussen de variabelen is, dus de populatie waarde (gamma=ɣ, rho=ρ) voor deze maat is dan 0.00. In beide gevallen gaat de procedure weer volgens het vijf-stappen model.
Bij het testen van Gamma geldt: voor steekproeven van 10 of groter wordt de Z-verdeling gebruikt (en dus de kritische Z-waarde van ±1.96).
Bij het testen van Spearman’s Rho geldt: voor steekproeven van 10 of groter wordt de t-verdeling gebruikt (met een kritische t-waarde afhankelijk van het aantal vrijheidsgraden).
In dit hoofdstuk zullen een aantal technieken besproken worden waarmee de associatie of correlatie van interval-ratio variabelen (of ‘continue’ ordinale variabelen) geanalyseerd kunnen worden. Deze statistieken zijn anders in logica en berekening, maar beantwoorden nog steeds dezelfde vragen (Is er een relatie? Hoe sterk is de relatie? Welke richting heeft de relatie?)
Zoals gebruikelijk bij het analyseren van een relatie tussen interval-ratio variabelen wordt eerst een spreidingsdiagram gemaakt en bekeken. Deze grafieken laten enkele belangrijke eigenschappen van de relatie zien.
Net als bij een bivariate tabel heeft een spreidingsdiagram twee dimensies. De scores van de onafhankelijke (X) variabele staan geordend langs de horizontale (X) as, en de scores van de afhankelijke (Y) variabele langs de verticale (Y) as. Elke stip in het spreidingsdiagram staat voor één geval uit de steekproef en diens locatie geeft de scores op beide variabelen weer. Let op dat, zoals altijd, het diagram een duidelijk titel heeft en beide assen een label hebben.
Het algemene patroon van de stippen vat het karakter van de relatie tussen de twee variabelen samen. Om het patroon duidelijker te maken, kan een rechte lijn door de groep met stippen worden getrokken op zo’n manier dat alle stippen er zo dichtbij mogelijk komen. Deze samenvattende lijn wordt de regressielijn genoemd. Het spreidingsdiagram kan voor verschillende doeleinden worden gebruikt; het geven van informatie over het bestaan, de sterkte en de richting van een relatie, het controleren van de relatie op lineariteit (rechtlijnigheid) en het voorspellen van een score op de ene variabele uit de score op de andere variabele.
De basis definitie van een relatie is dat twee variabelen geassocieerd zijn als de verdeling van Y verandert voor de verschillende condities van X (zie hoofdstuk 12). Het bestaan van een relatie kan nog meer worden benadrukt met het feit dat de regressielijn dan (uiteindelijk) een hoek maakt met de X-as. Als er geen associatie zou zijn, zou de regressielijn parallel lopen aan de horizontale as.
De sterkte van de associatie kan beoordeeld worden aan de spreiding van de stippen rondom de regressielijn. Bij een perfecte associatie liggen alle stippen op de lijn, dus: hoe meer de stippen geclusterd rondom de regressielijn liggen, hoe sterker de relatie.
De richting kan bepaald worden door te kijken naar de hoek die de regressielijn maakt. Bij een positieve relatie loopt de lijn van linksonder naar rechtsboven, bij een negatieve relatie van linksboven naar rechtsonder en bij géén relatie horizontaal (parallel aan de X-as).
Een sleutel aanname bij de statistische technieken, die later in dit hoofdstuk worden besproken, is dat twee variabelen een lineaire relatie hebben. Dit betekent dat de stippen in het diagram een patroon moeten vormen dat benaderd kan worden met een rechte lijn. Zodra de variabelen een kromlijnige relatie hebben, kunnen de technieken uit dit hoofdstuk beter niet worden gebruikt. Het controleren op lineariteit is de belangrijkste reden om het spreidingsdiagram te bestuderen voordat er statistische analyses worden gedaan.
Het laatste doel van een spreidingsdiagram is om scores de ene variabele te voorspellen uit de score op de andere variabele. Op deze manier kunnen ook Y-scores voorspeld worden uit X-scores die niet in de steekproef zitten, door de beide assen en de regressielijn te verlengen. De voorspelde Y-waarde (Y’) ligt op het punt waar de lijn recht omhoog vanaf de gewenste X-waarde de regressielijn kruist en vanaf daar horizontaal naar de Y-as loopt.
De waarde van Y’ kan veranderen, omdat de voorspellingstechniek grof is. De regressielijn is op het ook gemaakt en kan dus per keer iets verschillen. Om deze fout uit te sluiten moet de lijn gevonden worden die de meest accurate beschrijving van de relatie weergeeft. Bij elke conditionele verdeling van Y is het gemiddelde het punt waarbij de variatie van de scores minimaal is (zie hoofdstuk 3). Als de regressielijn dus zo wordt getrokken dat het door elke conditionele gemiddelde van Y gaat, dan is het de rechte lijn die zo dicht mogelijk bij alle scores komt. Dit conditionele gemiddelde wordt gevonden door alle waardes van Y (bij een bepaalde X) op te tellen en te delen door het aantal scores.
Vaak zal de regressielijn die door deze gemiddelden loopt niet rechtlijnig zijn, bijna alleen bij een perfecte relatie. Aangezien een voorwaarde is dat de lijn lineair is, moet er met een formule gezocht worden naar de best-passende rechtlijnige regressielijn die door ongeveer alle gemiddelden gaat. Deze heet de ‘minste kwadraten’ regressielijn en komt voort uit de formule: Y=a+bX, waarbij ‘a’ (het kruispunt) het punt is waar de regressielijn de Y-as snijdt en ‘b’ (de helling) de mate voor de hoeveelheid verandering in Y bij een verandering in X. Hoe sterker de associatie tussen de variabelen, hoe groter ‘b’ wordt (en andersom). Met deze formule kunnen Y’-waarden voorspeld worden met veel meer precisie dan wanneer het op het blote oog wordt gedaan. Hiervoor moeten wel eerst ‘a’ en ‘b’ berekend worden.
De waarde van de helling (b) is nodig om de Y-waarde van het kruispunt (a) te bepalen. De formule voor de helling is: b=∑(X-Xg)(Y-Yg)/∑(X-Xg)2, waarbij Xg en Yg respectievelijk het gemiddelde van X en Y zijn. De teller van de formule (het deel boven de deel-streep) wordt ook wel de covariatie van X en Y genoemd, omdat het meet hoe X en Y samen variëren. Het is het handigst om alle losse berekeningen samen in een tabel te zetten met een kolom voor elke hoeveelheid, die nodig is voor de formule. Een helling van 0.69 betekent dat voor elke stap hoger op de X-as de waarde van Y met 0.69 groter wordt.
Het Y-kruispunt (a) is na het berekenen van de helling makkelijk te vinden. De formule voor de regressielijn wordt zo omgebogen dat a berekend wordt uit Y, X en b; a=Y-bX, waarbij voor X en Y de gemiddelden kunnen worden genomen die voor de helling al berekend waren. Nu a en b bekend zijn, kan voor elke gewenste X-waarde de voorspelling van de bijbehorende Y-waarde berekend worden. Let wel op dat deze voorspellingen een ‘ontwikkelde gok’ blijven, want Y kan alleen precies voorspeld worden bij een perfecte relatie en een perfecte lineariteit. Echter, de voorspellingen worden meer accuraat naarmate de relatie tussen de variabelen sterker wordt.
De helling van de regressielijn is een mate van het effect van X op Y en wordt groter naarmate de relatie sterker wordt. Echter, omdat b niet tussen 0 en 1 varieert (maar veel groter kan worden) is deze onhandig te gebruiken als mate van associatie en gebruiken onderzoekers bijna altijd Pearson’s r (ook wel de correlatie coëfficiënt). Deze statistiek varieert, net als de ordinale maten van associatie, wel tussen 0.00 en ±1.00 en komt uit de formule: r =∑(X-Xg)(Y-Yg)/√[∑(X-Xg)2][∑(Y-Yg)2], waarbij dezelfde hoeveelheden als in de formule voor de helling worden gebruikt, alleen nu ook de opgetelde gekwadrateerde verschillen van Y met het gemiddelde. Een r-waarde van 0.50 staat voor een gemiddeld-sterke, positieve lineaire relatie tussen de variabelen.
Pearson’s r is een mate voor de sterkte van de lineaire relatie tussen twee variabelen, waarbij 0.00 aangeeft dat de relatie helemaal niet lineair is en ±1.00 dat de relatie perfect lineair is. Alle waardes die hiertussen liggen, hebben geen directe betekenis en blijven subjectief. De voorschriften zoals bij gamma kunnen gebruikt worden. Gelukkig is er een meer directe interpretatie van ‘r’, door een extra statistiek te berekenen; de coëfficiënt van vastberadenheid. Deze statistiek is het kwadraat van Pearson’s r en kan bekeken worden alsof het een waarde lijkt voor de proportionele afname van fouten (PRE).
Echter, zowel de methode van de voorspelling als het berekenen van de statistiek gaan iets anders. Bij variabelen op interval-ratio niveau staat de eerste voorspelling van Y (zonder rekening te houden met X) gelijk aan het gemiddelde van Y: ∑(Y-Yg)2 = minimale variatie. Natuurlijk worden bij deze voorspelling alsnog veel fouten gemaakt. Met de eerder genoemde formule wordt de totale variatie berekend, dus de totale voorspelde fouten. Bij de tweede voorspelling (waar X bij wordt betrokken) wordt de formule gebruikt: Y’=a+bX. Nu kan precies de vermindering in fouten berekend worden door de twee sommen met elkaar te vergelijken. De eerste som is de verklaarde variatie en bereken je door Yg (de voorspelde Y zonder X) af te trekken van Y’ (de voorspelde Y met X) en te kwadrateren voordat je ze optelt, die wordt vergeleken met de som voor de totale variatie: r2=∑(Y’-Yg)/∑(Y-Yg). Dit komt neer op dezelfde waarde als wanneer de gevonden r gekwadrateerd wordt (tot r2).
Omdat er eerder werd gesproken over de verklaarde variantie, is er blijkbaar ook nog een deel dat onverklaarde variantie (het verschil tussen de beste voorspelling van Y met X en de werkelijke scores; de spreiding van scores rondom de regressielijn) is en niet wordt beïnvloed door X. De som hiervoor is: ∑(Y-Y’)2. De proportie van de totale onverklaarde variatie kan ook gevonden worden door de waarde van r2 af te trekken van 1.00. Verklaarde en onverklaarde variantie zijn met elkaar verbonden; wordt de ene groter, dan wordt de andere kleiner en bij een sterkere lineaire relatie wordt de verklaarde variantie groter (en de onverklaarde dus kleiner). De gevonden relaties liggen tussen de twee extremen (géén en perfecte relatie) en kunnen gezien worden als de mate waarin X ons beter in staat stelt om Y te voorspellen.
In de sociale wetenschap worden vaak projecten met veel variabelen gebruikt, waardoor er bij data analyse als eerst naar de correlatie matrix wordt gekeken: een tabel waar de relaties tussen alle mogelijke variabelen-paren in staan (aan de hand van pearson’s r correlaties). Zulke tabellen geven een snelle en makkelijk-te-lezen overzicht van de relaties tussen de data. Let bij deze tabellen op dat de namen van de rijen hetzelfde zijn als de namen van de kolommen en dat bij de cellen waarin de variabele met zichzelf wordt gecorreleerd altijd een correlatie van 1.00 staat (informatie is niet bruikbaar). De cellen links en rechts van de diagonaal zijn hetzelfde, dus een van de twee kanten is overbodig en kan weggelaten worden uit de tabel. Vaak worden naast de correlaties in de cellen ook het aantal gevallen waarop de correlatie is gebaseerd en de significantie weergegeven.
De correlatie en regressie zijn sterke en bruikbare technieken, waardoor ze vaak gebruikt worden om relaties tussen ordinale variabelen te analyseren. Dit gaat vaak goed, tenzij ze voor nominale variabelen worden gebruikt (deze variabelen hebben geen wiskundige kwaliteit). Het is lastig dat variabelen die erg belangrijk zijn in het dagelijks sociale leven (zoals geslacht, ras, etniciteit, etc.) allemaal nominaal zijn en niet gebruikt kunnen worden in de regressie vergelijking of de correlatie analyse.
Wetenschappers hebben een oplossing bedacht voor het scoren van de nominale variabelen door dummy variabelen te maken. Deze variabelen kunnen elk meetniveau hebben en bestaan altijd uit precies twee categorieën; de ene gecodeerd met 0 en de ander met 1. Als ze op deze manier worden gebruikt, worden nominale variabelen vaak in regressie vergelijkingen gebruikt. Ook kan Pearson’s r gebruikt worden om de sterkte en richting van de relatie met dummy variabelen te bepalen.
Als de gevonden Pearson’s r gebaseerd is op data van een random steekproef, is het noodzakelijk om te controleren op significantie. Hetzelfde als bij het testen van Gamma en Rho zegt de H0 dat er geen lineaire associatie is tussen de variabelen in de populatie waaruit de steekproef is getrokken. De populatie parameter wordt afgebeeld met ρ (rho) en de gepaste steekproefverdeling is de t-verdeling. Een aantal aannames zijn nieuw:
Stap 1
beide variabelen moeten normaal verdeeld zijn (bivariate normale verdelingen)
de relatie tussen de variabelen moet grofweg lineair zijn
de variantie van Y is gelijk voor elke score van X; Y-scores zijn gelijk verdeeld boven en onder de regressielijn gedurende de hele lengte van de lijn (homoscedasticiteit). Dit kan globaal gecontroleerd worden door te kijken naar het spreidingsdiagram.
In dit hoofdstuk wordt gekeken hoe de gebruikte technieken, die in hoofdstukken 12 t/m 14 zijn besproken, uitgewerkt kunnen worden zodat ze ook bruikbaar zijn voor relaties tussen drie of meer variabelen. Voordat de technieken worden overwogen, is het belangrijk te bepalen wat het belang is en wat voor informatie ze kunnen geven. Ten eerste is het doel om extra informatie te verzamelen over een specifieke bivariate relatie door te kijken hoe die relatie beïnvloed wordt door een derde (of eventueel vierde of vijfde) variabele. Ten tweede kunnen multivariate statistieken extra, waardevol bewijs leveren voor de ondersteuning van oorzakelijke argumenten voor de relatie.
Voor de variabelen (X en Y) die in de tabel staan wordt gecontroleerd voor de derde variabele (Z). Dit gebeurt door de relatie tussen X en Y opnieuw te berekenen voor alle verschillende waardes van Z afzonderlijk. Als de derde variabele een effect heeft, zal de relatie tussen X en Y veranderen onder verschillende condities van Z.
Bij het vinden van een relatie tussen X en Y in een tabel kan er vanuit gegaan worden dat Y niet volledig verklaard wordt door X. Meestal spelen ander variabelen (Z’s) hier ook een rol in en deze moeten op een systematische en logische manier worden bekeken. Voor zover van de tabel kan worden afgelezen is de derde variabele ‘vrij om te variëren’ in de tabel, omdat de verdeling van de gevallen op deze variabele nog niet is meegerekend. Er kan hiervoor gecontroleerd worden door de verdeling van de variabele vast te leggen en daarna de gevallen te sorteren op hun scores op deze derde variabele. Voor de verschillende mogelijke scores wordt vervolgens een aparte deeltabel gemaakt van de relaties tussen X en Y.
Dit type multivariate analyse wordt ook wel uitbreiding genoemd, omdat de verschillende deeltabellen de originele bivariate relatie weergeven op een meer gedetailleerde en uitgebreide manier. De celfrequenties in de deeltabellen zijn gedeelten van de celfrequenties in de totale bivariate tabel. Het aantal deeltabellen komt voort uit het aantal mogelijke scores op de variabele waarvoor gecontroleerd wordt. Als er voor twee variabelen tegelijk gecontroleerd moet worden, komt er een deeltabel voor elke mogelijke combinatie van scores op beide variabelen waarop gecontroleerd wordt. De volgende stap is nu het effect van Z zien te vinden door de deeltabellen met elkaar en met de originele bivariate tabel te vergelijken.
De celfrequenties in de deel tabellen kunnen verschillende vormen hebben, maar we focussen hier op de drie basispatronen die bepaald worden door de verschillende tabellen te vergelijken met elkaar:
Directe relaties; de relatie tussen X en Y is hetzelfde in alle deeltabellen en de bivariate tabel
Twijfelachtige of ingrijpende relaties; de relatie tussen X en Y is hetzelfde in alle deeltabellen, maar veel zwakker dan in de bivariate tabel
Interactie; zowel de deeltabellen als de bivariate tabel laten allemaal verschillende relaties zien tussen X en Y
Dit patroon wordt ook vaak replicatie genoemd, omdat de deeltabellen een kopie zijn van de bivariate tabel. Deze uitkomst wijst erop dat de Z-variabele geen effect heeft op de relatie tussen X en Y (X à Y). Patronen zijn makkelijker te vinden wanneer de mate van associatie wordt berekend. De uitkomst van een directe relatie tussen X en Y (waarbij het toevoegen van variabele Z niks verandert) kan lijden tot het negeren van Z in verdere analyses.
Bij dit patroon is de relatie tussen X en Y veel zwakker in de deeltabellen dan in de bivariate tabel, maar wel hetzelfde voor alle deeltabellen. Ook de mate van associatie is veel lager voor de deeltabellen dan voor de bivariate tabel. Deze uitkomst kan uit twee verschillende oorzakelijke relaties voortkomen.
De eerste heet twijfelachtige relatie of verklaring, waarbij Z voorafgaand aan zowel X als Y zou zijn gebeurd en daardoor beide variabelen veroorzaakt (Z à X én Z à Y). De originele relatie tussen X en Y zou twijfelachtig zijn. Omdat X en Y verklaard zouden worden door Z, zal bij het controleren voor Z de relatie verdwijnen en de mate voor associatie drastisch lager worden (en neigen naar 0).
De uitkomst, waarbij de associatie maten bij de deeltabellen gelijk zijn aan elkaar maar veel lager dan de originele associatie maat, wordt interpretatie genoemd. X veroorzaakt Z, die op zijn beurt weer Y veroorzaakt (X à Z à Y). Dit patroon laat zien dat X en Y in eerste instantie door Z geassocieerd zijn. Op basis van de deeltabellen kan niet bepaald worden welke van de twee typen relaties een rol speelt. Dit kan alleen op theoretische gronden gedaan worden.
Dit patroon, ook wel specificatie genoemd, geeft een aanzienlijke verandering in de relatie tussen X en Y weer bij verschillende waarden van de controle variabele. Hierdoor verschillende de deeltabellen van elkaar en van de bivariate tabel. De interactie kan op meerdere manieren naar voren komen in de deeltabellen.
Een eerste mogelijk patroon is dat in de ene deeltabel de relatie tussen X en Y sterker wordt, terwijl in de andere deeltabel de relatie daalt tot 0 (X à Z1 à Y én X à Z2 à 0.00). Hier komt naar voren dat X op bij een bepaalde conditie van Z (Z1) wel invloed heeft op Y, maar bij een andere conditie van Z (Z2) geen invloed heeft.
Deeltabellen laten zien (vergeleken met bivariate tabel) | Patroon | Implicaties voor verdere analyse | Logische volgende stap in analyse | Theoretische implicaties |
Zelfde relatie tussen X en Y | Directe relatie (replicatie) | Negeer Z | Analyseer een andere controle variabele | Theorie X veroorzaakt Y wordt ondersteund |
Zwakkere relatie tussen X en Y | Twijfelachtige relatie | Betrek Z | Focus op de relatie tussen Z en Y | Theorie X veroorzaakt Y wordt niet ondersteund |
| Ingrijpende relatie | Betrek Z | Focus op de relaties tussen X, Y en Z | Theorie X veroorzaakt Y wordt deels ondersteund, maar Z moet betrokken worden |
Gemixt | Interactie | Betrek Z | Analyseer subgroepen (categorieën van Z) apart | Theorie X veroorzaakt Y wordt deels ondersteund, maar Z moet betrokken worden |
Een andere vorm van interactie vindt plaats wanneer de relatie tussen X en Y niet in sterkte maar in richting verandert door Z. Zo kan X voor een bepaalde conditie van Z (Z1) een positief effect hebben op Y en bij een andere conditie (Z2) juist een negatief effect (X à Z1 à >Y én X à Z2 à <Y).
In de meeste onderzoeksprojecten geeft het controleren voor een derde variabele resultaten die meer dubbelzinnig zijn en openstaan voor interpretatie. Zo zullen de maten voor associatie bij de deeltabellen meestal niet tot 0 dalen, maar wel duidelijk veel lager dan de bivariate maat. Deze tabel geeft een overzicht van richtlijnen die helpen bij het nemen van beslissingen over elk van de drie mogelijke uitkomsten bij interactie. Let wel op dat dit alleen suggesties zijn en er met eigen creativiteit en gevoeligheid naar de data moet worden blijven gekeken.
Als de resultaten bij het controleren voor een derde variabele wijzen op een directe, twijfelachtige of ingrijpende relatie, wordt er vaak nog een extra statistiek berekend die de algemene sterkte van de relatie tussen X en Y weergeeft nadat de effecten van de controle variabele Z zijn verwijderd. Deze statistiek wordt de deel Gamma (Gp) genoemd en is iets eenvoudiger te vergelijken met de bivariate gamma dan de gamma’s die voor de deeltabellen afzonderlijk berekend zijn. De formule hiervoor is: Gp=(∑Ns-∑Nd)/(∑Ns+∑Nd), waarbij Ns het aantal ‘case’-paren met dezelfde rangorde voor alle deeltabellen en Nd het aantal ‘case’-paren met verschillende rangordes voor alle deeltabellen (zie hoofdstuk 13 voor het berekenen van Ns en Nd).
In zekere zin zegt de Gp niet veel meer dan wat ook al duidelijk wordt bij zorgvuldige analyse van de verdeling van Y in percentages in de deeltabellen of de vergelijking van de verschillende associatiematen van de deeltabellen. Het voordeel van Gp is dat het in een enkel getal het precieze effect van Z op de relatie tussen X en Y weergeeft, hoewel het geen vervanging is voor de analyses van de deeltabellen. Gp kan ook berekend worden voor interactieve relaties, maar is dan moeilijker te interpreteren.
Ergens kan gezegd worden dat controle variabelen vooral voortkomen uit theorie. De meeste onderzoeken worden gebaseerd op bestaande theorie, waardoor concepten van interesse (later bewerkt tot variabelen) eerst gepeild worden op theoretisch niveau. Omdat de sociale wereld erg complex is, zal een poging tot het geven van uitleg in een simpele bivariate relatie meestal falen. Theorieën zullen dus de suggesties geven voor controle variabelen. Echter, er zullen altijd onverwachte uitkomsten kunnen komen, waardoor zorgvuldig denkwerk en constant openstaan voor nieuwe ingevingen heel belangrijk is bij wetenschappelijk onderzoek.
De belangrijkste beperking van het uitbreiden van de bivariate tabellen is dat de steekproef verdeeld moet worden in verschillende deeltabellen en daardoor per tabel de steekproefgrootte kleiner is dan het de totale grootte. Hoe groter het aantal deeltabellen, hoe minder gevallen er per tabel beschikbaar zijn. De lege of kleine cellen die hierdoor ontstaan, zijn kwetsbaar voor generalisatie en betrouwbaarheidsproblemen.
Verschillende mogelijke oplossingen voor dit probleem zijn het aantal cellen in de deeltabellen verminderen, door categorieën binnen variabelen samen te voegen. Een betere manier is omalleen met grote steekproeven te werken, zodat er voor alle cellen genoeg ‘cases’ zijn. Een derde oplossing vraagt om een (soms riskante) aanname dat de variabele van interesse op interval-ratio niveau zijn gemeten. In dat geval komen er meer multivariate technieken tot de beschikking, die in hoofdstuk 16 verder besproken zullen worden.
Zoals eerder genoemd, is sociaal wetenschappelijk onderzoek van nature multivariaat en bevat gelijktijdige analyses van scores van variabelen. De meeste krachtige en over het algemeen gebruikte technieken, die hiervoor gebruikt worden, zijn gebaseerd op Pearson’s r (zie hoofdstuk 14) en worden vooral gebruikt bij hoge kwaliteit interval-ratio variabelen. Echter, zulke data is zeldzaam in de sociale wetenschap, dus worden ze ook gebruikt bij ordinale variabelen en nominale, dummy variabelen. De technieken zijn meer flexibel (dan in hoofdstuk 15), geven meer informatie en geven meer ruimte voor het onderscheiden van onderliggende relaties tussen variabelen.
Pearson’s r wordt gebruikt om de sterkte en de richting van bivariate relaties te meten. Wanneer daaruit komt dat er een relatie is, blijft de vraag of dat voor alle typen binnen de variabele Y geldt. Dit kan onderzocht worden met de deelcorrelatie techniek, waarbij wordt gekeken hoe de relatie verandert bij het toevoegen van een derde variabele (Z-variabele of controle variabele). Deze deel correlaties worden verkregen door eerst de Pearson’s r voor de bivariate (of 0de-orde) relatie te berekenen en vervolgens de deelcorrelatie (of 1e-orde) coëfficiënt te berekenen. Wanneer de deelcorrelatie verschilt van de 0de-orde correlatie heeft de derde variabele invloed op de relatie.
Zoals in hoofdstuk 15 ook is beschreven, bestaan er drie typen relaties tussen variabelen: directe relaties, twijfelachtige of ingrijpende relaties en interactieve relaties (zie vorige hoofdstuk voor de beschrijving daarvan).
Bij deelcorrelaties moet er met meerdere bivariate relaties worden gewerkt, die worden weergegeven met onderschriften. Zo staat ryx voor de correlatie tussen Y en X; ryz voor de correlatie tussen Y en Z; en rxz voor de correlatie tussen X en Z. Dit zijn allemaal 0de-orde correlatie (omdat het over een bivariate relatie gaat). Een deelcorrelatie coëfficiënt (ook wel 1e-orde correlatie) wordt genoteerd als ryx.z waarbij de variabele rechts van de punt de controle variabele is.
De formule is: ryx.z=[ryx-(ryz)(rxz)]/[(√1-ryz2)(√1-rxz2)], let daarbij op de eerst alle 0de-orde correlaties berekend moeten worden. Deze kunnen samen in een correlatie matrix worden weergegeven. Vul vervolgens de waarden van deze correlaties in de formule in en vergelijk dan de deelcorrelatie coëfficiënt met de 0de-orde correlatie tussen X en Y. Voer deze analyse uit voor meerdere verschillende controle variabelen voor het verkrijgen van sterker bewijs voor het type relatie dat bestaat tussen X en Y.
Een extra mogelijke uitkomst na het uitvoeren van deze analyse is dat de deelcorrelatie groter is dan de 0de-orde coëfficiënt (ryx.z > ryx). Dit wijst op een oorzakelijk model waarin zowel de onafhankelijke (X) als de controle (Z) variabele ieder apart een effect hebben op de afhankelijke (Y) variabele, zonder met elkaar gecorreleerd te zijn. In dit geval moeten zowel X als Z als onafhankelijke variabele worden behandeld en kunnen meervoudige correlatie en regressie technieken worden toegepast.
In hoofdstuk 14 is de ‘minste kwadraten’ regressielijn (voor het beschrijven van een grofweg lineair verband tussen twee interval-ratio variabelen) al geïntroduceerd met de formule: Y=a+bX, waarbij a het ‘kruispunt’ met Y is en b de helling van de regressielijn. Deze formule kan aangepast worden zodat (in theorie) elk aantal onafhankelijke variabelen ingevoegd kunnen worden. Dit heet meervoudige regressie en heeft de formule: Y = a + b1X1 + b2X2, waarbij b1 staat voor de deelhelling van de relatie tussen de eerste onafhankelijke variabele (X1) en Y, en b2 voor de deelhelling van de relatie tussen de tweede (X2) en Y.
Het grote verschil tussen meervoudige en bivariate regressievergelijkingen zit hem in de hellingen (b’s). In het geval van een meervoudige regressie heten deze deelhellingen. Ze laten de hoeveelheid verandering in Y zien per eenheid van verandering in de onafhankelijke variabele, terwijl er gecontroleerd wordt voor de effecten van de andere onafhankelijke variabelen in de vergelijking. De deelhellingen zijn gelijksoortig aan de deelcorrelatie coëfficiënt en geven het directe effect van de geassocieerde onafhankelijke variabele op Y weer.
De deelhellingen worden als volgt bepaald aan de hand van de formules:
b1 = [sy/s1][(ry1-(ry2r12))/(1-r122)] en b2 = [sy/s2][(ry2-(ry1r12))/(1-r122)] waarin geldt:
b1 = de deelhelling van X1 op Y
b2 = de deelhelling van X2 op Y
sy = de standaardafwijking van Y
s1 = de standaardafwijking van de eerste onafhankelijke variabele (X1)
s2 = de standaardafwijking van de tweede onafhankelijke variabele (X2)
ry1 = de bivariate correlatie tussen Y en X1
ry2 = de bivariate correlatie tussen Y en X2
r12 = de bivariate correlatie tussen X1 en X2
Nadat de deelhellingen berekend zijn, kan aan de hand van een verdraaide formule van de regressievergelijking ook a worden berekend: a = Yg – b1Xg1 – b2Xg2. Nu hoeven er in de vergelijking alleen nog de gewenste X-waarden te worden ingevuld voor beide onafhankelijke variabelen. De waarde voor de voorspelde Y (Y’) die uit deze formule komt is een ontwikkelde schatting, die waarschijnlijk niet perfect kloppend is. Toch worden er op deze manier veel minder fouten gemaakt dan wanneer er een andere voorspellingsmethode wordt gebruikt.
De ‘minste kwadraten’ meervoudige regressievergelijking (hierboven uitgewerkt) wordt gebruikt om afzonderlijke effecten van onafhankelijke variabelen te isoleren en om scores op de afhankelijke variabele te voorspellen. Toch blijft het vaak moeilijk om deze formule te gebruiken. Bij onafhankelijke variabelen met verschillende meeteenheden vertelt de vergelijking van de deelhellingen niet perse welke variabele het sterkste effect heeft en dus het belangrijkste is (het lijkt dan op het vergelijken van appels en peren). Dit kan voorkomen worden door alle onafhankelijke variabelen van vorm te veranderen tot een gemeenschappelijke schaal. Hierdoor worden variaties in waardes van de deelhellingen, die alleen het resultaat zijn van verschillende meeteenheden, verwijderd. Dit wordt ook wel het standaardiseren tot Z-scores van variabelen genoemd.
Om de variabelen te standaardiseren, kunnen alles scores omgerekend worden tot een Z-score en daarna alle hellingen opnieuw berekend worden. Dit kost erg veel tijd en moeite, en gelukkig is er een snellere manier: de gestandaardiseerde deelhellingen (b*), ook wel beta-gewichten genoemd.
Beta-gewichten laten de hoeveelheid verschil zien in de gestandaardiseerde scores van Y voor een verandering van één eenheid in de gestandaardiseerde scores van elke onafhankelijke variabele, terwijl gecontroleerd wordt voor de effecten van alle andere onafhankelijke variabelen. Deze worden berekend met de formules:
b*1 = b1(s1/sy) en b*2 = b2(s2/sy). Met behulp van deze formules kan gezien worden welke variabele het sterkste effect heeft en ook welke richting de effecten van de variabelen afzonderlijk van elkaar hebben.
Met de beta-gewichten kan nu de gestandaardiseerde ‘minste kwadraten’ regressielijn worden berekend met de formule: Zy = az + b*1Z1 + b*2Z2, waarin Z aangeeft dat alle scores gestandaardiseerdzijn volgens de normaal curve. Deze vergelijking kan nog meer vereenvoudigd worden door het ‘kruispunt met Y’ (a) eruit weg te halen (want bij gestandaardiseerde scores zal dit gelijk zijn aan Yg, die op zijn beurt weer gelijk is aan 0). Dus de formule om mee te werken wordt: Zy = b*1Z1 + b*2Z2. Wanneer deze formule wordt ingevuld, is meteen goed zichtbaar welke onafhankelijke variabele het meest sterke en directe effect heeft op Y.
Waar met de meervoudige regressie vergelijking wordt gekeken naar de afzonderlijke, directe effecten van elke onafhankelijke variabele (X) op de afhankelijke variabele (Y), wordt met meervoudige correlatie technieken juist gekeken naar de gecombineerde effecten van alle onafhankelijke variabelen (X’s) op de afhankelijke variabele (Y). Hiervoor worden de meervoudige correlatie coëfficiënt (R) en de coëfficiënt van meervoudige vastberadenheid (R)2 berekend. Dit laatste getal staat voor de proportie verklaarde variantie van Y door alle onafhankelijke variabelen samen.
De losse 0de-orde correlaties kunnen niet simpelweg bij elkaar worden opgeteld om hun gezamenlijke effect op Y weer te geven, want de onafhankelijke variabelen zijn ook met elkaar gecorreleerd en ‘overlappen’ daarom in hun effect op Y. Deze overlap wordt verwijderd met de formule: R2 = r2y1 + r2y2.1(1-r2y1), waarin geldt dat:
R2 = de coëfficiënt van meervoudige vastberadenheid
r2y1 = de 0de-orde correlatie tussen Y en X1 in het kwadraat
r2y2.1 = de deelcorrelatie tussen Y en X2, terwijl gecontroleerd wordt voor X1, in het kwadraat
Voordat de bovengenoemde formule voor R2 kan worden ingevuld, moet eerst de deelcorrelatie tussen Y en X2 berekend worden, terwijl gecontroleerd wordt voor X1, met de formule: ry2.1 = [ry2-(ry1)(r12)]/[(√1-r2y1)(√1-r212)]. Nu kan in één oogopslag gezien worden wat het percentage verklaarde variantie is voor de onafhankelijke variabele afzonderlijk en hoeveel zij bij elkaar opgeteld aan variantie verklaren in totaal.
Zowel meervoudige regressie als correlatie zijn zeer sterke middelen om de relaties tussen drie of meer variabelen te analyseren. Met de technieken, besproken in dit hoofdstuk, kunnen scores voorspeld worden uit twee of meer variabelen, kan onderscheid gemaakt worden tussen variabelen op basis van hun belang en directe effecten op de afhankelijke variabele en om het totale effect van een groep onafhankelijke variabelen op de afhankelijke variabele vast te stellen. Deze krachtige technieken vragen wel om een aantal voorwaarden, zoals hoge kwaliteit data, interval-ratio meetniveau, en ze nemen aan dat de relatie tussen variabelen een bepaalde vorm heeft.
Ten eerste gaan ze er vanuit dat alle onafhankelijke variabelen een lineair verband hebben met de afhankelijke variabele. Daarnaast stellen ze dat er geen interactie plaatsvindt tussen de variabelen in de vergelijking, want dan zouden niet zomaar de effecten bij elkaar opgeteld kunnen worden. Als derde nemen meervoudige regressie en correlatie aan dat onafhankelijke variabelen niet gecorreleerd zijn met elkaar (dus dat de 0de-orde correlaties zeer laag zijn). Wanneer deze criteria niet gehaald worden, zullen de statistieken minder geloofwaardig en de technieken minder bruikbaar worden. In dit geval zouden de technieken uit hoofdstuk 15 gebruikt kunnen worden. Als laatste worden de berekeningen van de meervoudige regressie en correlatie steeds complexer naarmate er meer variabelen worden gebruikt. In zulke gevallen zijn computerprogramma’s zoals SPSS aan te raden.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Main summaries home pages:
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
1593 |
Add new contribution