
Deze samenvatting is gebaseerd op het studiejaar 2013-2014.
College 14: Relaties in kruistabellen en de chi-kwadraattoets
M&M 2.5 en 9.1
Deel 1
Kruistabellen worden gebruikt wanneer je de samenhang wilt bepalen tussen twee categorische variabelen. Alle combinaties worden weergegeven en je hebt een rijvariabele en een kolomvariabele. Een resultaat wordt in een cel weergegeven en is één van de mogelijke combinaties.
Er zijn verschillende verdelingen:
1. Gezamenlijke verdeling (joint distribution)
De celwaarden worden gedeeld door het hele aantal. Je krijgt proporties hoe die categorieën verdeeld zijn over alle mensen.
2. Marginale verdeling (marginal distribution)
Je kijkt naar de verdeling van één variabele in een tweeweg-tabel. Je deelt door de totale steekproefgrootte. Dit kan in proporties (bijvoorbeeld 0.52), maar ook in percentages (bijvoorbeeld 52%). De verdeling staat los van het resultaat van de andere variabele. In de collegesheets wordt een duidelijk voorbeeld behandeld van het aantal geslaagden en gezakte voor deeltoets A en deeltoets B voor OP1.
Relaties in kruistabellen
Als je de relaties tussen twee verschillende resultaten wilt weten kijk je zowel binnen de gezakte als binnen de geslaagden van deeltoets A wat voor percentage slaagt voor deeltoets B. Als binnen de groep geslaagden van deeltoets A een hoger percentage slaagt voor deeltoets B dan de groep gezakte voor deeltoets A, is er mogelijk een verband. Als je slaagt voor deeltoets A kan dit een goede indicatie zijn of je voor deeltoets B ook zal slagen.
3. Conditionele verdeling (conditional distribution)
Je deelt niet door het gehele aantal, maar door de rijvariabele. Aan de hand van gegeven A bepaal je B. Het is van belang altijd naar de onafhankelijke variabele te percenteren. Deeltoets B is logischer te voorspellen dan deeltoets A, aangezien deeltoets A eerder komt dan deeltoets B.
Simpson’s paradox
Dit heeft te maken met het derde variabele probleem die een verband kan verklaren. Stel je voor dat uit een steekproef blijkt dat medicijn B effectiever werkt dan medicijn A. Als je echter de resultaten v an mannen en vrouwen splitst blijkt medicijn A effectiever te werken. De tegenstrijdigheid kan verklaard worden doordat het medicijn bij vrouwen minder aanslaat dan bij mannen en vrouwen dit voornamelijk toegediend krijgen. De vrouwen krijgen het meest effectieve medicijn en de mannen het minst effectieve medicijn, maar bij vrouwen slaan de medicijnen überhaupt minder goed aan. Deze tegenstrijdigheid heet simpson’s paradox.
Chi-kwadraat toetsen
Als je wilt kijken of een verband ook bestaat in een populatie ga je dit statistisch toetsen. Als voorbeeld zeggen we dat de Ho stelt dat er geen relatie is tussen het slagen voor deeltoets A en het slagen voor deeltoets B. De Ha stelt dat er wel een relatie is. Om te toetsen of er een verband is vergelijk je de geobserveerde frequenties met de verwachte frequenties. De verwachte frequentie = (rijtotaal x kolomtotaal) / N. De percentages zijn gelijk.
De volgende stap is om het te toetsen. De chi-kwadraat toets toetst of er een verband is tussen het slagen van deeltoets A en het slagen van deeltoets B. Je neemt voor elke cel het verschil tussen de geobserveerde en verwachte frequentie en kwadrateert dit. Vervolgens deel je elk gekwadrateerd verschil door de verwachte frequentie. Ten slotte sommeer je over alle cellen. Deze som heeft een chi-kwadraat verdeling.
De formule:
De som wordt genomen over alle r (aantal rijen) x c (aantal kolommen) cellen in de tabel.
Kenmerken van de chi-kwadraat verdeling
- Er worden alleen positieve waarden aangenomen (het is in het kwadraat, dus kan nooit negatief zijn).
- Hoe meer rijen en/ of kolommen, hoe symmetrischer de vorm van de verdeling is.
- De vorm wordt bepaald door het aantal vrijheidsgraden. Vrijheidsgraden worden gegeven door (r-1)x(c-1).
De nulhyopthese is dat er geen relatie tussen de rij- en kolomvariabelen is. De alternatieve hypothese stelt dat er wel een relatie is. Tabel F is nodig om de chi-kwadraat waarde in op te zoeken. Een chi-kwadraat is altijd tweezijdig, dus vermenigvuldig p niet met 2!
Toetsingsschema Chi-kwadraattoets voor onafhankelijkheid
Stap 1 : formuleer een onderzoeksvraag
Stap 2 : hypothesen opstellen
Stap 3 : toetskeuze + significantieniveau : Chi-kwadraat toets voor onafhankelijkheid want we hebben hier met een kruistabel te maken. Kies α zeg α = 0.05 aantal vrijheidsgraden : (r-1)(-1)
Als P > α: verwerp H0 niet.
Als p
Stap 4 : berekening : X2 =…=4.59
Stap 5 : p-waarde : bij df 1 vrijheidsgraad is de p-waarde kleiner dan 0.05
Stap 6 : Beslis of je H0 verwerpt of juist niet.
Stap 7 : concludeer of er een verband is.
Voor een aantal rekenvoorbeelden dien je de sheets te raadplegen.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
Add new contribution