Samenvatting van Statistics for the Behavioral Sciences van Gravetter en Wallnau - 10e druk

Leeswijzer bij de 10e druk van Statistics for The Behavioral Sciences van Gravetter & Wallnau - Chapter 0
Wat is statistiek volgens Gravetter & Wallnau? - Chapter 1
Wat zijn frequenties en frequentieverdelingen? - Chapter 2
Welke centrummaten zijn er en hoe gebruik je deze? - Chapter 3
Wat is spreiding en hoe beschrijf je dit? - Chapter 4
Hoe gebruik je standaardscores? - Chapter 5
Welke kansberekeningen zijn er? - Chapter 6
Wat is er belangrijk bij kansen en steekproeven? - Chapter 7
Hoe werkt het toetsen van hypothesen? - Chapter 8
Hoe werk je met de T-Toets? - Chapter 9
Hoe werkt de T-toets voor twee onafhankelijke groepen? - Chapter 10
Hoe werkt de T-toets voor twee gerelateerde groepen? - Chapter 11
Hoe werkt de analyse van variantie? - Chapter 12
Hoe werkt ANOVA met herhaalde metingen? - Chapter 13
Hoe werkt ANOVA met twee factoren? - Chapter 14
Hoe en waarom wordt er gewerkt met correlatie? - Chapter 15
Hoe en waarom wordt er gewerkt met regressie? - Chapter 16
Welke Chi-toetsen zijn er en wanneer gebruik je deze? - Chapter 17
Hoe en wanneer wordt er gewerkt met de binomiaal test? - Chapter 18
Hoe pas je statistische analyse toe? Appendix
Statistics for The Behavioral Sciences - Gravetter & Wallnau - BulletPoints
Statistics for The Behavioral Sciences - Gravetter & Wallnau - Begrippenlijst

Leeswijzer bij de 10e druk van Statistics for The Behavioral Sciences van Gravetter & Wallnau - Chapter 0

Statistics for The Behavioral Sciences

Waarover gaat dit boek?

Statistiek wordt in Statistics for the Behavioral Sciences van Gravetter & Wallnau op een zo simpel mogelijke manier uitgelegd. Het geeft duidelijke instructies, praktijkvoorbeelden en conceptuele contexten.
Er wordt uitgelegd waarom bepaalde procedures ontwikkeld zijn en wanneer deze procedures gevolgd moeten worden. Daarnaast bevat dit boek uitleg over de basisprincipes van objectiviteit en logica, die essentieel zijn voor de wetenschap en waardevol in het dagelijkse leven.
Het boek wordt door vele studenten gebruikt en blijft bruikbaar na de studie.

Wat zijn de wijzigingen van de 10e druk ten opzichte van de 9e druk?

De behandelde onderwerpen zijn hetzelfde gebleven, dit geven de auteurs zelf ook aan in het voorwoord
Aan het begin van ieder hoofdstuk zijn leerdoelen toegevoegd en aan het einde van ieder hoofdstuk zijn oefenvragen toegevoegd, refererend aan deze leerdoelen
Hoofdstuk 19 is in de 10e druk verplaatst naar de appendix (als Statistics Organizer).
Met name de oefenvragen en voorbeelden zijn veranderd, er zijn in enkele hoofdstukken (inleidende) voorbeelden toegevoegd
Het gebruiken van de voorbeelden uit de 9e en 10e druk geeft je dus extra inzicht in de onderwerpen van de betreffende hoofdstukken
De samenvatting bij de 9e druk is daarom inhoudelijk hetzelfde als de samenvatting bij de 10e druk

Wat is statistiek volgens Gravetter & Wallnau? - Chapter 1

Welke doelen van statistiek zijn er?

Als gedragswetenschapper is het belangrijk om statistiek te begrijpen. Onderzoek wordt namelijk gedaan met empirische technieken, en statistiek is daar een essentieel onderdeel van. Wanneer je weet welke techniek in welke situatie toegepast moet worden, kun je statistiek op de juiste manier gebruiken. Door statistiek kun je informatie op een compacte manier noteren. Statistiek heeft twee doelen:

Het organiseren en opsommen van informatie zodat onderzoeksresultaten bekend gemaakt kunnen worden.
Het beantwoorden van de onderzoeksvragen die de onderzoeker ertoe hebben gezet om het onderzoek te beginnen.

Statistiek staat dan ook voor rekenkundige procedures waarmee informatie georganiseerd, opgesomd en geïnterpreteerd kan worden. Een populatie verwijst naar de gehele groep individuen waarover een onderzoeker een uitspraak wil doen. Denk bijvoorbeeld aan alle zwangere vrouwen, alle studenten of aan alle mannen in het algemeen. Omdat populaties vaak erg groot zijn, is het niet mogelijk om iedereen uit de populatie te onderzoeken. Om deze reden selecteren onderzoekers een kleinere, representatieve groep uit de populatie. Deze groep wordt een steekproef genoemd.

Wat is er belangrijk bij het kiezen van de steekproef en populatie?

De grootte van een steekproef verschilt per onderzoek. Met een steekproef probeert een onderzoeker de resultaten naar de populatie toe te generaliseren. Dit houdt in dat het resultaat dat gevonden wordt in de steekproef, ook geldt voor de gehele populatie. Een parameter staat voor een waarde of karakteristiek die de populatie beschrijft. Denk hierbij bijvoorbeeld aan een gemiddelde schoolprestatie in de populatie. Een parameter kan verkregen worden door middel van één of meerdere metingen van de populatie. Een statistiek beschrijft, in tegenstelling tot een parameter, gegevens over een steekproef. Ook een statistiek kan verkregen worden door een enkele meting of door meerdere metingen van de steekproef. Het verband tussen een steekproef en parameter wordt later nader toegelicht.

Welke soorten statistiek zijn er?

Bij het beantwoorden van een onderzoeksvraag moet allereerst informatie worden verzameld. In de wetenschap wordt informatie verzameld door observaties te doen en metingen te noteren. De meting of observatie voor elk bestudeerd individu wordt een score, ruwe score of datum genoemd. Alle scores of metingen bij elkaar worden data genoemd. Nadat de data verzameld zijn, worden er statistische methoden gebruikt om de resultaten te analyseren. Er bestaan twee soorten statistiek: (1) beschrijvende en (2) inferentiële statistiek.

Er is sprake van beschrijvende statistiek wanneer een onderzoeker statistische procedures gebruikt om data op te sommen, te organiseren of te verduidelijken. Ruwe scores worden dan op een handige manier genoteerd; ze worden bijvoorbeeld in een tabel of grafiek gezet. Een gemiddelde is ook een voorbeeld van beschrijvende statistiek.
Inferentiële statistiek staat voor technieken waarmee we (representatieve) steekproeven kunnen bestuderen. We doen dit om algemene uitspraken over populaties te kunnen doen. Ondanks het feit dat steekproeven representatief zijn, geven ze geen volledig accuraat beeld van de populatie. Er ontstaat altijd sampling error, de discrepantie tussen een steekproefstatistiek en een parameter van de populatie.

Wat is een variabele?

Een variabele is een eigenschap of conditie die veranderlijk is of verschillende waarden heeft voor verschillende individuen (bijvoorbeeld leeftijd). Variabelen kunnen ook eigenschappen van de omgeving zijn (bijvoorbeeld temperatuur). Wanneer variabelen gemeten zijn, worden de resulterende waarden vaak aangeduid door middel van letters. Een onderzoeker kan bijvoorbeeld de relatie onderzoeken tussen roken (X) en longkanker (Y). Als je een verband verwacht, veranderen de waarden van Y bij verschillende waarden van X en omgekeerd. Een variabele die niet verandert en hetzelfde is voor elk individu wordt een constante genoemd.

Wanneer is er een verband?

Veel onderzoek wordt gedaan om verbanden tussen variabelen te ontdekken. Is er bijvoorbeeld een relatie tussen een goed ontbijt en prestaties op school? Om een eventueel verband te ontdekken, moeten beide variabelen worden onderzocht. Een mogelijke manier om de relatie tussen variabelen te onderzoeken is door de twee variabelen te observeren zoals ze op natuurlijke wijze bestaan bij de deelnemers. Zo heeft onderzoek bijvoorbeeld uitgewezen dat er een relatie is tussen slaapgewoonten en prestatie op school. Prestaties veranderen bij een verschil in slaapgewoonten. Patronen in data zijn makkelijker op te merken als de data in een grafiek verwerkt wordt.

Wat houdt de correlationele methode in?

De correlationele methode houdt in dat een onderzoeker twee variabelen observeert om te zien of er een relatie tussen beide bestaat. Dit wordt ook wel een correlationele onderzoeksstrategie genoemd. Soms worden er in een onderzoek geen getallen gebruikt. Zo kan een onderzoeker benieuwd zijn naar de relatie tussen woonplaats (dorp of stad) en mening over abortus (voor en tegen). De relatie tussen dit soort variabelen wordt bestudeerd met de chi-kwadraattoets. Een tweede manier om de relatie tussen twee variabelen te onderzoeken is door scores op verschillende variabelen met elkaar te vergelijken. Kinderen die ontbeten hebben, presteren op school bijvoorbeeld beter dan kinderen die in de ochtend niet hebben ontbeten.

Waarvoor wordt de experimentele methode gebruikt?

De experimentele methode wordt gebruikt wanneer een onderzoeker geïnteresseerd is in een oorzaak-gevolg relatie tussen twee variabelen. Een verandering in de ene variabele zal in dat geval een verandering in de andere variabele tot gevolg hebben. De experimentele methode heeft twee essentiële kenmerken: (1) manipulatie en (2) controle.

Er is sprake van manipulatie als de onderzoeker waarden van een variabele (X) verandert. Waarden van de tweede variabele worden vervolgens (Y) gemeten, om te zien of variabele X invloed heeft op variabele Y.
Controle houdt in dat de onderzoeker de onderzoekssituatie constant moet houden, zodat externe variabelen de relatie tussen X en Y niet kunnen beïnvloeden. Als gevolg van deze controle kan met zekerheid gezegd worden dat Y veroorzaakt is door X en niet door een andere variabele. Hierbij moet de onderzoeker letten op (1) participant variabelen en (2) omgevingsvariabelen.

Wat zijn participantvariabelen?

Participantvariabelen zijn eigenschappen die variëren per persoon zoals, leeftijd, sekse en intelligentieniveau. Deze eigenschappen variëren per persoon. Stel je voor: je doet onderzoek naar de effectiviteit van twee rekenprogramma’s: programma A en programma B. Je onderzoekt twee groepen die de programma’s uitgeprobeerd hebben. Je ziet dat de groep die programma B heeft geprobeerd, uiteindelijk veel hoger scoort op een rekentoets. Tevens blijkt dat in die groep iedereen een ver bovengemiddeld IQ heeft. Is de hoge prestatie op de rekentoets dan echt door programma B of door het intelligentieniveau van de deelnemers uit de groep die programma B heeft geprobeerd?

War zijn omgevingsvariabelen?

Voorbeelden van omgevingskenmerken zijn belichting, het moment van de dag en het weer. De onderzoeker moet twee groepen deelnemers altijd in dezelfde omstandigheden testen, zodat verschillen in groepen veroorzaakt door daadwerkelijke verschillen en niet door omgevingsvariabelen. Mensen die meedoen aan een onderzoek worden proefpersonen (subjects) genoemd. Er zijn drie manieren om controle uit te oefenen over variabelen.

Random toewijzing: in dit geval heeft elke deelnemer evenveel kans om in een conditie terecht te komen. Dit kan bijvoorbeeld door te tossen.
Matching. Bij matching wordt bijvoorbeeld het IQ van elke deelnemer nagegaan. Vervolgens worden individuen in groepen verdeeld zodat alle groepen ongeveer hetzelfde gemiddelde IQ hebben.
Constant houden. Van constant houden is sprake wanneer een onderzoeker bijvoorbeeld alleen kinderen van tien jaar laat meedoen aan het onderzoek. Leeftijd wordt in dat geval constant gehouden.

Welke andere soorten variabelen zijn er?

Een onafhankelijke variabele is een variabele die gemanipuleerd wordt door de onderzoeker. Vaak bestaat de onafhankelijke variabele uit twee of meer condities waaraan de deelnemers worden blootgesteld. De onafhankelijke variabele wordt gemanipuleerd voordat de afhankelijke variabele gemeten wordt. De afhankelijke variabele is de variabele die geobserveerd wordt zodat gezien kan worden wat het effect van de condities van de onafhankelijke variabele is. Als je bijvoorbeeld wilt weten of verschillende temperaturen invloed hebben op het geheugen, dan kun je mensen blootstellen aan verschillende temperaturen (onafhankelijke variabele). Het aantal onthouden items op een geheugentest is de afhankelijke variabele. Bij de experimentele methode wordt alleen de afhankelijke variabele gemeten, terwijl bij de correlationele methode beide variabelen worden gemeten voor elk individu. Vaak is er een controlegroep aanwezig bij een experiment. Deze groep krijgt geen behandeling of krijgt een placebo. Een controlegroep wordt ingezet om te zien of er daadwerkelijk een verschil is in de afhankelijke variabele tussen de experimentele conditie (die een behandeling krijgt) en de controlegroep.

Welke andere methoden zijn er?

Er zijn andere onderzoeksdesigns die niet echt experimenteel zijn maar wel de relatie onderzoeken tussen variabelen door scores te vergelijken. Zij worden non-experimentele of quasi-experimentele designs genoemd. Als je bijvoorbeeld het effect van sekse op een test wil meten, kun je niet een echt experiment doen, omdat je de variabele sekse (een participant variabele) niet kunt manipuleren. Daarnaast kun je tijdsvariabelen ook niet manipuleren. In deze non-experimentele designs wordt de variabele die de groepen bepaalt (bijvoorbeeld sekse) de quasi-experimentele variabele genoemd.

Welke definities zijn belangrijk bij statistiek?

Veel variabelen die onderzocht worden zijn hypothetische constructen, zoals intelligentie en zelfvertrouwen. Deze constructen zijn niet direct waarneembaar. Om deze variabelen toch te onderzoeken moeten we er definities aan verbinden die we wel kunnen onderzoeken. Intelligentie kun je bijvoorbeeld onderzoeken door middel van een IQ-test. Een operationele definitie beschrijft hoe een construct onderzocht moet worden.

Wat zijn discrete en continuerende variabelen?

Een discrete variabele bestaat uit aparte categorieën. Tussen twee nabije categorieën van deze variabele kunnen niet nog meer kleine waarden bestaan. Een klas bestaat bijvoorbeeld uit 18 of 19 studenten. De klas kan nooit bestaan uit 18,5 leerlingen. Bij een continuerende variabele zijn er oneindig veel mogelijke waarden die vallen tussen twee geobserveerde waarden. Daarom kun je een continuerende variabele in een oneindig aantal onderdelen verdelen. Denk bijvoorbeeld aan lengte of gewicht. Iemand is niet per se precies 40 of 41 kilo. Je kunt 40.1, 40.12 of 40.128 kilo wegen. Omdat er oneindig veel mogelijkheden zijn, komt het maar weinig voor dat twee mensen dezelfde score hebben. Bij het meten van een continuerende variabele is elke metingscategorie een interval. Twee mensen die stellen dat ze beide 100 kilo wegen, hebben waarschijnlijk toch niet echt van hetzelfde gewicht. De ene kan 99,8 wegen, terwijl de ander 100,3 weegt. Een gewicht van 100 kilo is dus niet een specifiek punt, maar een interval. Om een gewicht van 100 te onderscheiden van een score van 99 en 101, moeten we grenzen stellen. Deze grenzen worden absolute grenswaarden (real limits) genoemd. Een score van 100 is een interval met als onderste absolute grenswaarde (lower real limit) 99.5 en als bovenste absolute grenswaarde (upper real limit) 100.5. Iedereen die hier tussen valt, weegt 100 kilo.

Hoe meet je?

Meten kun je door gebeurtenissen te categoriseren (kwalitatief) of getallen te gebruiken om de grootte van een gebeurtenis uit te drukken (kwantitatief). Een onderzoeker kan verschillende meetschalen gebruiken. Zo kan hij er bijvoorbeeld voor kiezen om deelnemers in te delen in klein, gemiddeld en groot. Deze algemene categorieën zeggen echter niets over hoeveel iedereen van elkaar verschilt qua lengte. Hieronder zal ingegaan worden op de vier meest bekende meetschalen.

Welke meetschalen worden er gebruikt?

Onderzoekers maken gebruik van de volgende vier meetschalen.

De simpelste meetschaal is de nominale schaal. Deze schaal bestaat uit een set van categorieën met verschillende namen. Metingen op een nominale schaal categoriseren en labelen de observaties van de onderzoeker. Er worden echter geen kwantitatieve verschillen tussen observaties waargenomen. Een voorbeeld is dat je leerlingen indeelt op basis van het vak waar ze het beste in zijn. Dit zegt echter nog niets over de grootte van het verschil tussen leerlingen. Mensen indelen op basis van sekse, ras of beroep zijn ook voorbeelden van de nominale schaal.
Een ordinale schaal bestaat uit een set van categorieën die in een duidelijke volgorde zijn georganiseerd. Observaties worden in dat geval genoteerd in termen van grootte of sterkte. Je kunt 20 kinderen uit een klas bijvoorbeeld indelen op basis van leeftijd. Het oudste kind staat dan bijvoorbeeld op nummer 1, terwijl het jongste kind op nummer 20 staat. Maaltijden indelen in klein, medium of groot is ook een voorbeeld van een ordinale schaal.
Ten derde bestaat de intervalschaal, waarbij verschillen in categorieën van exact dezelfde grootte zijn. Gelijke verschillen tussen getallen op de schaal reflecteren gelijke verschillen in sterkte. Er is geen sprake van een nulpunt bij een intervalschaal. Er is bijvoorbeeld geen afwezigheid van lengte. Iedereen heeft een lengte, hoe klein deze ook is.
Als laatst is er de ratioschaal, waarbij er wel sprake is van een nulpunt. Daardoor kunnen we gevonden observaties goed met elkaar vergelijken. We kunnen ze delen, optellen, aftrekken en vermenigvuldigen. Zo kan gezegd worden dat iemand van twee meter twee keer zo groot is als iemand van één meter. Verschillen kunnen we dus beschrijven in termen van ratio’s. Voorbeelden van ratioschalen zijn gewicht en reactietijd.

Hoe noteer je de gevonden data?

Metingen van gedrag resulteren in data die bestaat uit verschillende getallen. Er bestaat een gestandaardiseerd notatiesysteem voor statistische procedures. Als er twee variabelen gemeten worden, wordt de ene X en de ander Y genoemd. Je zou bijvoorbeeld kunnen zeggen dat een deelnemer 35 scoort op X (X=35) en 50 scoort op Y (Y=50). We gebruiken de hoofdletter N om het aantal scores in een populatie te beschrijven. De kleine letter n wordt gebruikt om het aantal scores in een sample te beschrijven. Er worden in het algemeen verschillende statistische notaties gebruikt voor populaties en samples.

Wat is belangrijk bij rekenen in de statistiek?

De Griekse letter sigma (∑) staat voor een opsomming. ∑X staat bijvoorbeeld voor het optellen van alle scores voor variabele X. Stel je voor: we gebruiken de scores 4,6,7 en 10. In dit geval is ∑X=27 en N=4. Achter een ∑ staat altijd een symbool of een rekenkundige procedure. Hierdoor weet men precies welke waarden bij elkaar opgeteld moeten worden. Een voorbeeld is: ∑(X-1). In dit geval moet eerst van alle X- en afzonderlijk 1 afgetrokken worden. Vervolgens moeten alle uitkomsten bij elkaar opgeteld worden. Het is belangrijk om uit te gaan van een bepaalde volgorde bij het rekenen.

Als eerste moet uitgevoerd worden wat er tussen de haakjes staat.
Vervolgens wordt er gekwadrateerd.
Ten derde moet vermenigvuldigd of gedeeld worden. Dit moet van links naar rechts gebeuren.
Vervolgens wordt alles opgeteld (∑).
Ten slotte wordt er opgeteld of afgetrokken als dat nog nodig is.

Wat zijn frequenties en frequentieverdelingen? - Chapter 2

Wat zijn frequentieverdelingen?

Een frequentieverdeling is een tabel waarin het aantal individuen per meetschaal genoteerd staat. Alle individuen met dezelfde score worden in dat geval samengenomen. Met behulp van een frequentieverdeling kan de onderzoeker eenvoudig zien of de meeste mensen hoog of laag hebben gescoord. Een frequentieverdeling bevat in alle gevallen de categorieën en frequenties. Een categorie is bijvoorbeeld het cijfer 8 voor een tentamen. De frequentie laat zien hoeveel mensen dit cijfer gehaald hebben. Bij de meest simpele frequentieverdeling worden de categorieën (X- en) genoteerd van hoog naar laag. Naast elke X-waarde wordt genoteerd hoe vaak deze voorgekomen is (frequentie). Soms is het noodzakelijk om ∑X uit een frequentieverdeling af te leiden (omdat je bijvoorbeeld wil weten hoeveel mensen in de steekproef of populatie zitten). Je moet dan niet vergeten om alle X-waarden (categorieën) te vermenigvuldigen met de frequenties, waarbij je niet direct alle mogelijke tentamencijfers (categorieën) optelt, maar eerst elk tentamencijfer vermenigvuldigt met de bijbehorende frequentie. Daarna kunnen deze uitkomsten bij elkaar opgeteld worden. Zo krijg je dan het aantal studenten dat aan het tentamen heeft deelgenomen.

Waarvoor worden proporties en percentages gebruikt?

Het beschrijven van proporties en percentages is ook handig in een frequentieverdeling. Een proportie bereken je door de frequentie die bij een X-waarde hoort te delen door het totale aantal mensen. Als er bijvoorbeeld binnen een klas van twintig mensen twee mensen een zes (X=6) hebben gehaald, dan is de bijbehorende proportie (bij X=6) 2/20= 0.10.

De formule is:
proportie = p=f/N (f staat voor frequentie en N voor het totale aantal mensen). Omdat proporties altijd in relatie tot het totale aantal mensen (N) worden berekend, noemen we ze relatieve frequenties.
Percentages kunnen verkregen worden door proporties met honderd te vermenigvuldigen. Daarom: percentage =p(100)=f/N(100).

Wanneer en hoe maak je een gegroepeerde frequentieverdeling?

Soms zijn er heel veel verschillende scores mogelijk, waardoor het handiger is om een gegroepeerde frequentieverdeling te maken. We maken dan groepen van scores, in plaats van dat we enkel naar individuele waarden kijken. De groepen (of intervallen) worden klasse-intervallen genoemd. In plaats van dat je bijvoorbeeld elke mogelijke lengte noteert, kun je groepen met verschillende lengte-intervallen maken. Zo kan de ene groep een interval hebben van 100 cm tot 120 cm en de volgende van 121 tot 140 cm. Achter elke groep kan de frequentie genoteerd worden. Er gelden vier belangrijke regels voor het maken van gegroepeerde frequentiedistributies.

Een frequentiedistributie moet ongeveer tien klasse-intervallen hebben. De distributie wordt onduidelijk wanneer er te veel of te weinig intervallen zijn.
Daarnaast moet de grootte van elk interval een relatief gemakkelijk getal zijn. Het is bijvoorbeeld niet raadzaam om 41 cm tussen elke groep te hebben; 50 cm is veel overzichtelijker en eenvoudiger om mee te rekenen.
Ook moeten de groepen steeds op consistente wijze van elkaar verschillen. Je kunt niet bij de ene groep 50 cm verschil hebben en bij de volgende groep 100 cm verschil.
Als laatst mag er geen overlap zijn tussen groepen. Als je de groep 100 tot 120 cm hebt, moet de volgende groep bij 121 beginnen en niet weer bij 120. Het zou anders niet duidelijk zijn in welke groep iemand thuishoort van 120 cm.

Waarom zijn grenzen belangrijk?

Eerder stond al beschreven dat een continuerende variabele oneindig veel mogelijke waarden heeft. Wanneer een continuerende variabele gemeten wordt, corresponderen de resultaten met intervallen. Een score van X=8 voor een continuerende variabele staat voor een interval met de grenzen 7.5 en 8.5. Als drie mensen X=8 hebben gehaald, dan betekent dit dus niet dat ze allemaal precies een 8.0 hebben gescoord. Een klasse-interval van 40-49 bevat scores van X=40 tot X=49. Deze waarden worden zichtbare grenzen (apparent limits) genoemd. De echte grenzen (absolute grenswaarden) zijn echter 39.5 en 49.5. Iemand die bijvoorbeeld een 39.7 scoort, wordt bij de 40 gerekend.

Hoe zijn grafieken opgebouwd?

Een grafiek is eigenlijk een afgebeelde frequentiedistributie. Alle grafieken hebben assen. De horizontale as wordt de X-as genoemd, terwijl de verticale as de Y-as wordt genoemd. De categorieën (bijvoorbeeld tentamencijfers) staan op de X-as, en de frequenties staan op de Y-as. Zowel categorieën als frequenties gaan van laag naar hoog. Het punt waar de twee assen elkaar kruisen, staat voor het cijfer nul voor zowel de X-as als de Y-as. De hoogte van de grafiek (de Y-as), moet ongeveer twee derde tot drie vierde van de X-as zijn.

Wat is een histogram?

Data op interval- of rationiveau kunnen verwerkt worden in histogrammen of polygonen. Om een histogram te maken, moeten de categorieën allereerst op de X-as gezet worden. Op de verticale as worden de mogelijke frequenties gezet. De hoogte van elke staaf correspondeert met de frequentie van die categorie. De wijdte van de staaf loopt verder dan de echte grenzen van de categorie. De staaf van het cijfer 7 (categorie op de X-as) gaat van 6.5 tot 7.5. Daarnaast staan alle staven tegen elkaar aan. Ook op basis van een gegroepeerde frequentiedistributie kan een histogram gemaakt worden. Op de X-as staan in dat geval alle klasse-intervallen. Als de categorieën op de X-as niet bij nul beginnen, maar bij een groter getal (bijvoorbeeld in het geval van lengte), kun je dat aangeven met een golfje aan het begin van de X-as. Vervolgens kun je meteen beginnen met de kleinst gemeten lengte. Tegenwoordig worden er ook aangepaste histogrammen gebruikt. In dat geval is er geen Y-as en bestaat de histogram niet uit staven maar uit opeengestapelde blokken. Als de score vijf (X-as) bijvoorbeeld drie keer voorgekomen is, teken je drie blokken die op elkaar staan bij X=5. Dit is een erg overzichtelijke en gemakkelijke manier om een scores en frequenties te beschrijven.

Hoe maak je een polygoon?

Bij het maken van een polygoon moeten de categorieën ook op de X-as gezet worden. De frequenties komen op de Y-as terecht. Een punt boven elke categorie staat voor de bijbehorende frequentie. Nadat alle punten per categorie genoteerd zijn, wordt er een lijn getrokken van het nulpunt langs alle punten. Het einde van de lijn moet weer kruisen met de X-as. Een polygoon kan ook gebruikt worden wanneer de data in klasse-intervallen beschreven staat. Elk punt moet dan boven het middelpunt van elk klasse-interval staan. Het middelpunt kan gevonden worden door het gemiddelde te nemen van de hoogste en laagste scores in het interval. Als je bijvoorbeeld een klasse-interval van 20-29 hebt, dan is het middelpunt (20+29)/2=24.5

Wanneer gebruik je een staafdiagram?

Een staafdiagram is in principe hetzelfde als een histogram, alleen staan de staven niet helemaal tegen elkaar aan. Bij een nominale schaal houdt dit in dat de schaal bestaat uit aparte categorieën. Bij een ordinale schaal worden afzonderlijke staven gebruikt omdat je er niet van uit kunt gaan dat de categorieën van dezelfde grootte zijn. De X-as hoeft dus niet te staan voor numerieke categorieën. Op de X-as kunnen bijvoorbeeld drie persoonlijkheidstypen onderscheiden worden: A, B en C. Op de Y-as vinden we weer de frequenties. De staafhoogte van elke categorie hoort ook in dit geval te corresponderen met de bijbehorende frequentie.

Wat zijn relatieve en vloeiende curves?

Grafieken bevatten vaak (1) relatieve frequenties en (2) vloeiende curves.

Al kun je de absolute frequentie van een score in de gehele populatie vaak niet weten, je kunt vaak wel relatieve frequenties berekenen. Je weet bijvoorbeeld niet hoeveel vissen er in het meer zijn, maar na jaren gevist te hebben, kun je wel weten dat een bepaalde vissoort twee keer zo veel voorkomt dan een ander soort. In een staafdiagram kun je de ene staaf dan twee keer zo lang als de ander maken, al heb je er geen precieze frequentie bij.
Uit histogrammen en polygonen komen vaak geen vloeiende curves voort. Het is beter om de staven of punten om te zetten in een vloeiende lijn. Zo kun je relatieve verschillen tussen scores laten zien. De normale curve komt vaak voor. De curve is het hoogst in het midden, terwijl de curve lager wordt naar links en rechts toe.

Hoe beschrijf je een distributie?

Bij het beschrijven van een distributie, wordt vaak gekeken naar de vorm van de grafiek, het middelpunt en de variabiliteit. De variabiliteit van een grafiek zegt iets over of de scores dicht bij elkaar liggen of dat er veel onderlinge verschillen bestaan. Distributies zijn symmetrisch of afwijkend.

In een symmetrische distributie kan er een verticale lijn getrokken worden door het midden, zodat de ene kant van de distributie een spiegelbeeld vormt van de andere kant. Beide helften lijken dus precies op elkaar.
In een scheve (skewed) distributie komen de scores met de hoogste frequentie vooral aan één kant van de distributie voor. Er zit als het ware een vorm van een glijbaan in de distributie. Het deel van de distributie waarbij de frequenties steeds lager worden, wordt de staart genoemd. Wanneer de staart aan de rechterkant van de verdeling zit, is de verdeling positief scheef of rechtsscheef. Wanneer de staart aan de linkerkant van de verdeling zit, wordt dit negatief scheef of linksscheef genoemd. Als studenten een heel moeilijk tentamen hebben gemaakt, is er waarschijnlijk sprake van een verdeling met een positieve afwijking. In dat geval scoren de meeste studenten laag, terwijl een aantal studenten hoge scores hebben. Een heel makkelijk tentamen zorgt juist voor een distributie met een negatieve afwijking.

Wat zijn percentielen?

Individuele scores worden ruwe scores genoemd. Deze geven echter niet veel informatie. Als je iemand vertelt dat je 43 punten hebt gescoord voor een tentamen, is het niet duidelijk of dit veel of weinig punten zijn. Om zo’n score te kunnen interpreteren, moet duidelijk zijn wat de gemiddelde score is. De rank of percentielrang is een getal dat aangeeft hoeveel procent van alle individuen in de distributie onder een bepaalde waarde vallen. Wanneer een score zo wordt weergegeven, wordt deze score een percentiel genoemd. Stel je voor: je hebt een score van X=43. Je ziet dat zestig procent van de klas 43 punten of lager heeft. Jouw score wordt dan het zestigste percentiel genoemd. De percentielrang staat voor een percentage terwijl een percentiel voor een score staat. Om percentielen of percentielrangen vast te stellen, moet eerst uitgezocht worden hoeveel individuen op of onder een bepaald punt in een distributie liggen. Dit kan gedaan worden door het aantal individuen op te tellen dat onder een score valt. Het resultaat wordt een cumulatieve frequentie genoemd. Achter elke X kan naast de frequentie de cumulatieve frequentie genoteerd worden. Om van de cumulatieve frequenties percentielen te maken, moeten deze frequenties omgezet worden in percentages. De resulterende waarden worden cumulatieve percentages genoemd. Deze percentages laten zien hoeveel procent van de individuen onder een bepaalde X-waarde vallen.

Wat is interpoleren?

Soms kun je waarden die niet in een frequentieverdeling staan toch schatten. Dit noemen we interpolatie. Stel je voor dat er bij het tijdstip 8:00 een temperatuur van 60 F hoort. Bij een tijd van 12:00 hoort een temperatuur van 68 F. De waarde 9:00 staat er niet bij, maar die kun je wel schatten. Daar hoort vermoedelijk een temperatuur van 62 F bij. Hoe komt dat? Tussen 08:00 en 12:00 zit vier uur. In die tijd is de temperatuur met acht graden toegenomen. 09:00 staat voor één uur; een vierde van de totale tijd. Een vierde van acht graden is twee graden. Deze twee graden tel je op bij 60. De uitkomst is dan 62 F. Interpolatie resulteert enkel in schattingen, niet in de daadwerkelijke waarden. De onderliggende aanname is in dit geval dat de temperatuur lineair stijgt, wat niet per definitie waar hoeft te zijn. Het proces van interpoleren kan als volgt samengevat worden.

Een interval wordt op twee schalen gemeten (bijvoorbeeld tijd en temperatuur). De eindpunten van het interval zijn duidelijk voor elke schaal.
Je krijgt een waarde op één van de schalen (bijvoorbeeld 09:00). Hierbij moet je een corresponderende waarde voor de andere schaal vinden (temperatuur).
Vervolgens kun je interpoleren zoals dat hiervoor voorgedaan is.

Stam-en-blad plot (stem and leaf plot)

Bij een stam-en-blad plot wordt elke score opgedeeld in twee delen. Het eerste cijfer (bijvoorbeeld de 1 van 12) wordt de stam genoemd, terwijl het laatste getal (bijvoorbeeld de 2 van de 12) het blad wordt genoemd. Als je een plot maakt moeten eerst alle stammen van de getallen genoteerd worden (het eerste cijfer van een tiental of honderdtal bijvoorbeeld).Vervolgens moet elk blad van elke score naast de stam genoteerd worden. Een stam-en-blad plot heeft één belangrijk voordeel ten opzichte van een frequentieverdeling: het biedt de mogelijkheid iedere individuele score snel terug te vinden, wat soms nodig is voor het uitvoeren van berekeningen. Dit is niet mogelijk bij een frequentiedistributie (zoals een histogram). Daarbij zie je alleen de frequentie en niet de specifieke waarden voor elk individu.

Welke centrummaten zijn er en hoe gebruik je deze? - Chapter 3

Wat zijn centrummaten?

Bij het bekijken en interpreteren van data is het belangrijk om een centraal punt te vinden, zoals het gemiddelde. Zo kan gekeken worden of scores relatief hoog of laag zijn in vergelijking tot het centrale punt. De centrummaat (central tendency) is een rekenkundig gegeven waarmee we een score vaststellen die het centrum vormt van een distributie. Het doel van een centraal punt is het vinden van een score die het meest typisch en/of meest representatief is voor de gehele groep. Er zijn verschillende waarden die als centrummaat gebruikt kunnen worden, maar er is niet één specifieke ideale manier. Dat komt omdat iedere situatie er anders uit ziet, en wat in de ene situatie representatief is, kan in een andere situatie een vertekend beeld veroorzaken. Een verdeling kan namelijk één piek hebben of meerdere; symmetrisch zijn of scheef; opgehoopt rond één score of juist wijd verspreid. Voor iedere situatie is het daarom belangrijk af te wegen wat de beste centrummaat is om te gebruiken.

Hoe bereken je het gemiddelde?

Het (arithmetisch) gemiddelde is de meest gebruikte centrummaat en wordt berekend door alle scores op te tellen en te delen door het totale aantal scores in een distributie. Het gemiddelde voor een populatie wordt aangegeven met de Griekse letter µ. Het gemiddelde voor een steekproef wordt aangegeven met de letter M of r. Zo ontstaan de volgende notaties van formules:

De formule voor het populatiegemiddelde is µ= ∑X/N.
De formule voor het gemiddelde van een steekproef is: M=∑X/n.

Griekse letters worden vooral gebruikt voor populatiegegevens, terwijl Latijnse letters worden gebruikt voor steekproefgegevens. Het gemiddelde kan als een balanspunt gezien worden. Het gemiddelde kan nooit een cijfer zijn dat hoger is dan de hoogste score of lager is dan de laagste score.

Wat is het gewogen gemiddelde?

Stel je voor dat je het gemiddelde moet berekenen van twee steekproeven. Hoe ga je dan te werk? Stel dat er twee steekproeven zijn: steekproef 1 heeft een grootte van 12 (n=12) en een gemiddelde van 6 (M=6). Als alle scores bij elkaar worden opgeteld, komt men uit op 72. De tweede steekproef heeft een grootte van 8 (n=8) en een gemiddelde van 7 (M=7). Het optellen van alle scores zorgt voor het getal 56. Het berekenen van het gewogen gemiddelde gaat in drie stappen.

Allereerst moeten de groottes van de steekproeven bij elkaar opgeteld worden (12+8 in dit voorbeeld).
Daarnaast moeten alle scores van beide steekproeven bij elkaar opgeteld worden (56+72).
Tenslotte worden de opgetelde scores gedeeld door de groepsgroottes bij elkaar opgeteld. Het algemene gemiddelde is dan M= ΣX1+ΣX2/ n1+n2. In dit geval is dat: (72+56)/(12+8)=6.4. De uitkomst noemen we het gewogen gemiddelde, omdat deze berekend is op basis van twee steekproeven.

Welke eigenschappen heeft het gemiddelde?

Het veranderen van een score uit een distributie, verandert ook meteen het gemiddelde. Dit is zo omdat elke score meetelt bij het berekenen van het gemiddelde. Het gemiddelde wordt ook veranderd door het toevoegen van een score, omdat de grootte (n) waar door gedeeld wordt, veranderd is. Zowel een score (X) als de groepsgrootte (n) is veranderd. Het toevoegen of verwijderen van een score heeft geen invloed op het gemiddelde als deze score gelijk is aan het gemiddelde. Daarnaast is het zo dat het gemiddelde systematisch (twee cijfers) lager uitvalt als je steeds een getal (bijvoorbeeld twee) van alle scores afhaalt. Bovendien geldt dat wanneer elke score met een hetzelfde getal wordt vermenigvuldigd, het gemiddelde ook op dezelfde manier zal veranderen.

Hoe bereken je de mediaan?

De mediaan is de score die de distributie precies in tweeën deelt, wanneer de scores gesorteerd zijn van laag naar hoog. Precies de helft van de scores valt onder de mediaan en precies de helft valt boven de mediaan. Om deze reden wordt de mediaan ook het vijftigste percentiel genoemd. Voor de mediaan bestaat er, in tegenstelling tot het gemiddelde, geen statistisch symbool. Daarnaast wordt de mediaan op dezelfde manier berekend voor een populatie en voor een sample. De mediaan wordt gebruikt om het precieze middelpunt van een distributie te vinden.

Wanneer het aantal scores oneven is (bijvoorbeeld vijf of zeven) is de mediaan het middelste cijfer. Denk bijvoorbeeld aan de scorelijst van 5, 3, 6, 10 en 15. De mediaan is in dit geval zes, omdat deze precies in het midden ligt. Maar wat gebeurt er bij een even aantal scores?
Een voorbeeld is een lijst met de scores 4, 3, 3, 8, 7 en 5. We gebruiken de middelste twee cijfers, namelijk de drie en de acht. Deze tellen we bij elkaar op en delen door twee. De mediaan is (3+8)/2=5.5.

Het gemiddelde en de mediaan zijn beiden getallen die het middelpunt van een distributie aangeven. De mediaan geeft echter het letterlijke midden van scores aan, terwijl het gemiddelde de scores inhoudelijk bij elkaar optelt en deelt door de grootte van de distributie.

Wat is de modus?

De modus is de score of categorie die het vaakst voorkomt in een distributie. Zoals bij de mediaan zijn er geen speciale symbolen die de modus aangeven. Ook wordt de modus op dezelfde wijze berekend voor een populatie en een steekproef. Het berekenen van de modus is handig wanneer een onderzoeker de meest karakteriserende score van een distributie wil vinden. De modus kan gebruikt worden bij data van ieder niveau, van nominaal tot rationiveau. Het gemiddelde en de mediaan kunnen daarentegen niet gebruikt worden bij data op nominale schaal. Een distributie heeft altijd één mediaan en/of gemiddelde, maar kan meer dan één modus hebben. In een grafiek is dit goed te zien aan het aantal pieken; een verdeling met twee pieken is bimodaal, een verdeling met meer dan twee pieken multimodaal. In sommige gevallen is de ene piek net wat hoger dan de andere. De grootste modus wordt de grote modus (major mode) genoemd, terwijl de andere de kleine modus (minor mode) wordt genoemd.

Wanneer gebruik je het gemiddelde?

Het kiezen van de juiste maat om het midden van een bepaalde verdeling te definiëren is afhankelijk van een aantal factoren. Het is mogelijk om voor dezelfde data alle maten uit te rekenen. Vaak lijken de modus, mediaan en het gemiddelde op elkaar, maar er zijn situaties waarin ze erg van elkaar verschillen voor één dataset. De voorkeur gaat in de meeste gevallen uit naar het gemiddelde, omdat elke score meetelt bij de berekening van deze maat. Daardoor is het gemiddelde erg representatief voor de dataset. Ook is het gemiddelde gerelateerd aan de variantie en standaarddeviatie (zie deel D). Het gemiddelde is dus een maat die goed van pas komt bij de inferentiële statistiek.

Wanneer gebruik je de mediaan?

De mediaan wordt in vier situaties geprefereerd boven het gemiddelde:

Wanneer er extreme scores in de distributie zijn en/of als de distributie afwijkt naar links of rechts. In dat geval is het niet handig om het gemiddelde uit te rekenen, omdat bij het gemiddelde elke score (en dus ook elke extreme score) evenveel meetelt. Een voordeel van de mediaan is dat deze weinig wordt beïnvloed door extreme scores. Bij het berekenen van het gemiddelde inkomen van een land is het bijvoorbeeld beter om de mediaan te gebruiken.
De voorkeur wordt ook aan de mediaan gegeven wanneer er onduidelijke waarden in de distributie zitten. Je kunt bijvoorbeeld voor vijf mensen berekenen in hoeveel minuten zij een test hebben afgemaakt. Stel je voor dat deelnemer vijf de test helemaal niet afgemaakt heeft. Het is in dit geval onmogelijk om een gemiddelde te berekenen. De mediaan kan wel berekend worden. De mediaan is de score van deelnemer drie, omdat deze precies in het midden ligt.
Een distributie heeft een open einde (open-ended) wanneer er geen grens aan één of meer van categorieën is verbonden. Zo kun je bijvoorbeeld berekenen hoeveel families vijf of meer kinderen hebben. Onder deze categorie vallen zowel families met zes kinderen als families met tien kinderen. In dit soort distributies is het handig om de mediaan te gebruiken, omdat het gemiddelde niet berekend kan worden. De mediaan kun je echter alleen uitrekenen als je de andere categorieën ook kent (bijvoorbeeld families met twee, drie en vier kinderen).
Ten slotte wordt de mediaan berekend als de data op ordinale schaal gemeten is.

Wanneer gebruik je de modus?

Dan zijn er nog drie gevallen waarin de modus het beste gebruikt kan worden.

De modus kan gebruikt worden voor data op nominaal niveau. Omdat de nominale schaal niet over kwantiteit gaat, is het onmogelijk om een gemiddelde of een mediaan voor deze schaal te berekenen.
De modus is ook handig wanneer er sprake is van discrete variabelen. Deze variabelen zijn niet op te delen in een oneindig aantal mogelijkheden. In een zandbak zitten bijvoorbeeld tien of elf kinderen. Er kunnen nooit 10,5 kinderen in de zandbak zitten.
Ten slotte wordt de modus gebruikt om een beeld van de vorm van de verdeling te krijgen. Aan de modus kan meteen gezien worden waar de piek in een verdeling zit. Ook kan gezien worden of deze in het midden zit of vooral aan de linker- of rechterkant van de verdeling.

Hoe beschrijf je het gemiddelde, de mediaan en de modus?

Volgens de APA-regels (schrijfregels voor wetenschappelijke literatuur) dient de mediaan in onderzoeksliteratuur afgekort te worden als ‘Mdn’. Er bestaat geen speciale afkorting voor de modus. De modus wordt overigens zelden genoemd in wetenschappelijke artikelen. Grafieken worden gebruikt om metingen van het middelpunt te rapporteren en met elkaar te vergelijken. In een grafiek kunnen meerdere gemiddelden of medianen beschreven worden, waardoor vergelijkingen tussen groepen of condities gemaakt kunnen worden. Waarden van de afhankelijke variabele (de scores) worden op de verticale as gezet. De gemiddelden (of medianen) worden beschreven door middel van een lijngrafiek, een histogram of een staafdiagram. Een lijngrafiek bestaat uit punten die aan de hand van een doorlopende lijn met elkaar verbonden worden. Zo’n een grafiek kan alleen gemaakt worden wanneer de data op ratio- of intervalniveau is gemeten. Een staafdiagram wordt gebruikt wanneer de data op nominaal of ordinaal niveau gemeten is. Bij een grafiek moet de verticale as ongeveer twee derde tot drie vierde van de horizontale as zijn. Als een waarde van nul niet voorkomt in de data, kan een nulpunt weggelaten worden.

Welke vorm kan een verdeling aannemen?

Voor sommige data hebben het gemiddelde, de mediaan en de modus dezelfde waarde. Voor andere data zijn er echter sterke verschillen in deze maten. In een symmetrische verdeling zijn de linker- en rechterhelft van de grafiek van exact dezelfde vorm. De modus, mediaan en het gemiddelde zijn in dat geval precies hetzelfde. Als een symmetrische verdeling echter bimodaal is, zullen het gemiddelde en de mediaan in het midden liggen, terwijl de piekpunten van beide verdelingen zijn (de modi).

Wanneer de staart aan de rechterkant van een verdeling zit, heeft deze een positieve afwijking. De modus zit in dat geval precies onder het hoogste punt van de verdeling (die zich aan de linkerkant bevindt, aangezien de staart rechts is). Iets meer naar de staart toe bevindt zich de mediaan en daar weer naast bevindt zich het gemiddelde.
Wanneer de staart aan de linkerkant van de verdeling zit, is er sprake van een negatieve afwijking. De modus bevindt zich eveneens onder het piekpunt van de verdeling (die zich aan de rechterkant bevindt). Iets naar links toe bevindt zich de mediaan. Nog meer naar de staart toe bevindt zich het gemiddelde.

Wat is spreiding en hoe beschrijf je dit? - Chapter 4

Wat is variabiliteit?

De variabiliteit van een distributie gaat over de mate waarin de scores verspreid liggen of geclusterd zijn. Variabiliteit geeft met een kwantitatieve waarde aan hoeveel verschil er is tussen scores. Een grote waarde staat voor veel spreiding. Het meten van variabiliteit dient twee doelen:

Het beschrijven van de afstand die verwacht kan worden tussen scores;
Het meten van de representativiteit van een score voor de gehele verdeling.

Er zijn twee maten voor spreiding die besproken worden: het bereik en de standaarddeviatie.

Wat is het bereik?

Het bereik (range) staat voor de afstand tussen de grootste (X_max) en kleinste score in een distributie (X_min). Om het bereik te vinden moet de kleinste score van de grootste afgetrokken worden. Er moet voor de berekening echter ook gebruik worden gemaakt van de bovenste absolute grenswaarde en de onderste absolute grenswaarde. Om een gewicht van 100 te onderscheiden van een score van 99 en 101, moeten we grenzen stellen. Deze grenzen worden absolute grenswaarden (real limits) genoemd. De formule voor de range is: URL X_max - LRL X_min. URL staat voor de hogere echte grens en de LRL staat voor de lagere echte grens. Een voorbeeld is dat we een distributie hebben met de cijfer 3, 7, 12, 5 en 4. Voor deze data is X_max12; de bijbehorende URL is 12.5. De laagste score is een 3, dus X_min is 3. De bijbehorende LRL is 2.5. De range is: 12.5-2.5=10. Een nadeel van het bereik is dat deze geen gebruik maakt van alle scores om de spreiding vast te stellen; enkel de hoogste en laagste score tellen mee bij de berekening. Een distributie met één afwijkende, hoge score zal een grote range hebben, terwijl de rest van de scores geclusterd zouden kunnen zijn. Om deze reden wordt de range weinig gebruikt als spreidingsmaat.

Wat is de standaarddeviatie?

De standaarddeviatie of standaardafwijking is de meest gebruikte en meest belangrijke maat voor spreiding. Deze maat gebruikt het gemiddelde van de verdeling als vergelijkingspunt. De standaarddeviatie maakt daarnaast gebruik van de afstand tussen individuele scores en het gemiddelde van een dataset. Met de standaarddeviatie kan nagegaan worden of de scores in het algemeen dicht of ver van het gemiddelde afliggen. De standaarddeviatie kan aan de hand van vier stappen berekend worden.

Hoe bereken je de standaarddeviatie?

Allereerst moet de deviatie (afstand of afwijking) van elke individuele score tot het gemiddelde uitgerekend worden. De deviatie is dan ook het verschil tussen elke individuele score en het gemiddelde van de dataset. De bijbehorende formule is: deviatiescore= X- µ.
De X staat voor een individuele score, terwijl µ staat voor het gemiddelde van dataset. Stel je voor: een dataset heeft een µ van 40. Als een individuele score 43 is, dan is de deviatiescore 43-40=3. Als een andere score 35 is, dan is de deviatiescore 35-40=-5. Een plus of min voor de deviatiescore zegt iets over de richting van de afwijking van het gemiddelde.
In de volgende stap moet het gemiddelde van de deviatiescores berekend worden. Dit wordt gedaan door alle deviatiescores op te tellen en te delen door het aantal deviatiescores (N). De deviatiescores zijn samen altijd nul. Om deze reden is het niet nuttig om het gemiddelde van de deviatiescores te berekenen (delen door nul geeft altijd nul). Voordat het gemiddelde kan worden berekend, wordt elke deviatiescore eerst tussen haakjes gekwadrateerd. Hierdoor verdwijnen de mintekens.
Vervolgens wordt het gemiddelde berekend van de gekwadrateerde waarden. Dit wordt de gemiddelde gekwadrateerde deviatie of de variantie genoemd. De formule voor variantie is: σ² = ∑(X-μ)². De variantie is een goed hulpmiddel bij de inferentiële statistiek, maar minder goed als beschrijvende maat van spreiding.
Ten slotte dient de wortel getrokken te worden uit de variantie. Dit resulteert in de standaarddeviatie. De uiteindelijke formule voor de standaarddeviatie is dus: σ = √ (∑(X-μ)²/N)

Wanneer gebruik je de som van gekwadrateerde deviaties?

De standaarddeviatie en variantie worden bijna op dezelfde manier vastgesteld voor een populatie en steekproef en betekenen voor zowel een populatie als steekproef precies hetzelfde. De details voor de beide berekeningen verschillen heel weinig. Later zal dieper ingegaan worden op steekproeven, nu zal er vooral ingegaan worden op berekeningen voor populaties. Door de kwadratensom (sum of squared deviations = SS) te delen door het aantal scores wordt de variantie gevonden. De SS (sum of squares) is dus de som van alle gekwadrateerde deviatiescores. Twee formules zijn nodig om SS te berekenen. Deze formules geven hetzelfde antwoord, maar ze zien er verschillend uit en worden in verschillende situaties gebruikt.

Hoe bereken je de SS?

De eerste formule is:
SS=Σ(X- µ) ².

Eerst moet elke deviatiescore gevonden worden: (X- µ).

Daarna wordt elke deviatiescore gekwadrateerd: (X- µ) ².

Vervolgens worden alle gekwadrateerde deviaties bij elkaar opgeteld. Het resultaat is de SS. Deze formule is soms niet handig om te gebruiken, vooral als het gemiddelde geen heel getal is. De uitkomsten bevatten dan ook decimalen.

De tweede formule om de SS uit te rekenen is:
SS = ΣX²- (ΣX) ²/N.

Volgens deze formule moeten eerst alle scores gekwadrateerd worden. Daarna moeten deze scores bij elkaar opgeteld worden. Het totaal moet vervolgens gekwadrateerd worden en worden gedeeld door het aantal scores. De variantie is dus de SS/N. Als de wortel uit het resultaat wordt getrokken, wordt de standaarddeviatie gevonden (standaarddeviatie= √ (∑(X-μ)²/N) = √SS / N). Zoals het gemiddelde (µ), zijn de variantie en standaarddeviatie parameters van een populatie. Daarom moeten ze genoteerd worden in de vorm van Griekse letters. De populatievariantie wordt aangeduid met σ². Dus: σ²= SS/N , maar ook: σ²= Σ(X- µ) ²/N. De populatiestandaarddeviatie wordt aangeduid met σ (de wortel getrokken uit σ²). In een grafiek kunnen we het populatiegemiddelde noteren door een verticale lijn naar boven toe te trekken en daaronder de waarde van µ te noteren. In het midden van deze verticale lijn kan een horizontale lijn naar rechts of links getrokken worden om de waarde van σ te noteren.

Hoe bereken je de SS voor een steekproef?

Het doel van inferentiële statistiek is het gebruiken van informatie uit steekproeven om algemene conclusies te trekken over populaties. Deze steekproeven moeten uiteraard representatief zijn. Het is echter zo dat samples minder spreiding kennen dan populaties. In populaties zijn dus meer verschillen tussen individuele scores waarneembaar. Daarom is een sample nooit helemaal perfect in het representeren van een populatie (dit wordt de bias genoemd). Hier dient rekening mee gehouden te worden in de berekening van spreiding in een steekproef, zodat de populatiespreiding beter geschat worden. De eerste drie stappen voor het berekenen van de variantie en standaarddeviatie zijn hetzelfde als bij de berekening voor populaties. Het gemiddelde wordt bij een steekproef echter aangeduid met een M en niet met een µ.

Allereerst moet de deviatie voor elke score gevonden worden (X-M).
Vervolgens moeten de uitkomsten gekwadrateerd worden (X-M) ².
De gekwadrateerde deviaties moeten vervolgens opgeteld worden: SS = Σ(X-M) ².
Een tweede formule om de SS uit te rekenen is: SS=ΣX²-(ΣX) ²/n.

Het invullen van beide formules zorgt voor dezelfde antwoorden binnen een dataset. Nadat de SS uitgerekend is, zijn er echter verschillen tussen de berekening van de spreiding van een populatie en een steekproef. De variantie van een steekproef wordt aangegeven met s². Omdat rekening wordt gehouden met bias in een steekproef, wordt de SS door n-1 gedeeld.

De formule voor steekproefvariantie is dan ook: s²=SS/n-1.
Een andere formule is: s²= Σ(X- M) ²/n-1. De standaarddeviatie van een steekproef wordt aangeduid met de letter s. Deze kan als volgt berekend worden: s² . Ook is het mogelijk om s te vinden met de volgende formule: √SS / n -1

De variantie van een steekproef wordt ook wel de geschatte populatievariantie genoemd. De standaarddeviatie van een steekproef wordt de geschatte populatiestandaarddeviatie genoemd. In een steekproef met n aantal scores, kunnen de eerste n-1 scores variëren, maar de laatste score staat vast. De steekproef heeft n-1 vrijheidsgraden. De afkorting voor vrijheidsgraden is df (degrees of freedom).

Wanneer is er sprake van bias?

Door de aanpassing in de formule voor de sample variantie (n-1), geeft de variantie van de sample een veel preciezer beeld van de variantie in de populatie. De samplevariantie wordt op deze manier een foutloze (unbiased) voorspeller van de populatievariantie. Dit geldt voor alle mogelijke samples. Als een gemiddelde waarde voor een samplestatistiek systematisch een populatieparameter over- of onderschat, dan is er sprake van bias.

Wat is het nut van de standaarddeviatie?

De standaarddeviatie geeft ons een beeld van de spreiding binnen een verdeling. Scores van sommige individuen zullen dichterbij de gemiddelde score liggen dan die van andere individuen. De standaarddeviatie geeft ons de mogelijkheid om individuele scores te interpreteren. Wanneer iemand een IQ heeft van 110, is dit niet heel erg hoog als er een standaarddeviatie van 15 vanaf het gemiddelde is. Tien punten boven het gemiddelde zitten is dan niet een extreme score. Als iemand een IQ van 130 heeft is dit echter wel een extreme score. Deze persoon zit dan twee standaarddeviaties boven het gemiddelde. Ongeveer 70% van de scores in een distributie liggen binnen één standaarddeviatie van het gemiddelde. Ongeveer 95% van de scores valt binnen twee standaarddeviaties van het gemiddelde.

Welke invloeden hebben veranderingen op de standaarddeviatie?

In sommige gevallen moeten scores allemaal systematisch veranderd worden. Dit is bijvoorbeeld het geval als je besluit om van de data in je onderzoek seconden te maken (terwijl je alles hebt gemeten in minuten). Het kan dan gaan om een onderzoek waarbij reactietijd wordt gemeten. Je kunt er ook voor kiezen om iedereen vijf extra punten te geven nadat is gebleken dat een tentamen slecht is gemaakt. In dit geval voeg je een constante score toe aan ieders prestatie. Hoe wordt de standaarddeviatie door dit soort veranderingen beïnvloed? De standaarddeviatie verandert in deze gevallen niet, omdat de afstand tussen de scores systematisch, en dus op gelijke wijze, veranderd is. Het is namelijk niet zo dat de ene score wel aangepast wordt en de andere niet. Wanneer elke score met een constante waarde vermenigvuldigt wordt, wordt de standaarddeviatie ook vermenigvuldigd met dezelfde constante waarde. Een voorbeeld is dat een onderzoeker van minuten seconden wil maken in een dataset. Om dit te doen wordt er vermenigvuldigd met zestig. De standaarddeviatie wordt op dezelfde wijze aangepast.

Wat is de statistische notatie?

Wanneer de resultaten van een onderzoek schriftelijk openbaar gemaakt moeten worden, geeft de onderzoeker vaak informatie over het centrale punt en de spreiding van een verdeling. Het gemiddelde en de standaarddeviatie worden vaak samen genoteerd. De afkorting SD wordt gebruikt om de standaarddeviatie mee aan te duiden. Zoals eerder beschreven staat de M voor het gemiddelde. Soms worden de groepsgrootte(s) ook genoteerd (n). Het doel van inductieve statistiek is het vaststellen van betekenisvolle patronen in onderzoeksresultaten. Zo kun je bijvoorbeeld als onderzoeker uitzoeken of een therapievorm depressie vermindert. Weinig variabiliteit in de data zorgt ervoor dat bestaande patronen gemakkelijk ontdekt kunnen worden. Veel variabiliteit maakt dit juist moeilijk.

Hoe vergelijk je spreidingsmaten?

De meest gebruikte spreidingsmaat is de standaarddeviatie (en de bijbehorende variantie). Toch zijn er situaties waarin het bereik beter is om te gebruiken. De voor- en nadelen van deze twee maten zullen besproken worden. Het is belangrijk om een goede afweging te maken bij het kiezen van een spreidingsmaat. De maat zou een stabiele en betrouwbare beschrijving van de scores moeten geven. Ook zou de maat niet beïnvloed moeten worden door details in een dataset. Daarnaast moet de maat een voorspelbaar en consistent verband moeten hebben met andere statistische metingen.

Waardoor wordt het bereik beïnvloed?

Het bereik wordt het meest beïnvloed door extreme scores.
Het bereik wordt ook duidelijk beïnvloed door de grootte van een steekproef (n). Wanneer er een nieuwe score aan de verdeling toegevoegd wordt, kan deze de hoogste of laagste score namelijk vervangen. Daarnaast is er vaak meer spreiding in een grote steekproef, waardoor de range ook hoog uitvalt. De standaarddeviatie en variantie worden relatief weinig beïnvloed door de grootte van een steekproef.
Wanneer je verschillende steekproeven neemt uit dezelfde populatie, verwacht je dat ze op elkaar zullen lijken. Ze komen ten slotte uit dezelfde populatie. Ook verwacht je dat de steekproeven bijna dezelfde variantie hebben. Wanneer de standaarddeviatie en de variantie worden gebruikt als spreidingsmaat, vloeien er vaak bijna dezelfde varianties voort uit verschillende steekproeven. Deze maten geven dus stabiliteit weer. Dit is niet het geval bij het bereik. Wanneer een verdeling geen grenzen heeft voor de laagste of hoogste score, zeggen we dat deze een open einde heeft (open-ended). Dit kan gebeuren wanneer je een oneindig aantal scoremogelijkheden hebt. Bij zo een verdeling kunnen het bereik, de standaarddeviatie en de variantie niet berekend worden.

Hoe gebruik je standaardscores? - Chapter 5

Wat is het nut van standaardscores?

In dit deel zal uitgelegd worden hoe het gemiddelde en de standaarddeviatie gebruikt kunnen worden om een individuele score om te zetten in een z-score (ook wel standaardscore genoemd). Deze procedure wordt gebruikt om de exacte ligging van elke score in een distributie vast te stellen en te beschrijven. Een onveranderde score op zichzelf – ook wel een ruwe score genoemd - geeft niet veel informatie over zijn positie in een verdeling. Om ruwe scores betekenisvol te maken, moeten ze omgezet worden in nieuwe waarden die meer informatie bevatten, zoals z-scores. Z-scores worden gebruikt om een hele distributie te standaardiseren. Op die manier kunnen verschillende verdelingen met elkaar vergeleken worden.

Hoe bereken je standaardscores?

De z-score beschrijft de exacte positie van een X-waarde op twee manieren: ten eerste via het teken en ten tweede via de waarde. Het plus- of minteken van de z-score beschrijft of de X-waarde zich boven of juist onder het gemiddelde bevindt (het gemiddelde krijgt in de standaardverdeling altijd de waarde nul). De waarde van de z-score beschrijft de afstand van de X-waarde tot het gemiddelde in termen van aantal standaarddeviaties (een z-score van 1,00 betekent dat de X-waarde 1 standaarddeviatie van het gemiddelde verwijderd is). In een distributie met µ =100 en σ =15 is een score van X = 130 een z-score van +2. 130-100 is namelijk 30. Dit getal delen door 15 geeft een standaardscore van 2. Bij alle curven staat de µ in het midden. Aan de rechterkant lopen de z-scores met een plusteken op, terwijl de negatieve standaardscores aan de linkerkant staan.

De formule voor de berekening van standaardscores is: z=(X- µ)/ σ. De deviatiescore wordt gedeeld door de standaarddeviatie. Zo kan de z-waarde omschrijven hoeveel standaarddeviaties een individuele score van het gemiddelde af ligt. Een IQ-score van 70 valt precies twee standaardscores onder het gemiddelde: (70-100)/15= -2. In deze formule staat (X- µ) voor de deviatiescore. Door het gemiddelde van een score af te trekken, kan meteen gezien worden of de score boven of onder het gemiddelde valt. Deze formule is handig bij het omzetten van ruwe scores naar z-scores, maar niet in het omzetten van z-scores naar ruwe scores.
Daarom is er een herschreven versie van de formule: X= µ+ zσ. Stel je voor: een distributie heeft µ=60 en σ=5. Welke X-waarde correspondeert dan met z-score van -2? Zσ=(-2)(5)= -10. De z-score wordt dus eerst vermenigvuldigd met de standaarddeviatie. Vervolgens: X= µ-10= 60-10=50.

Wat is er bijzonder aan de vorm, het gemiddelde en de standaarddeviatie?

De vorm van een z-score distributie is hetzelfde als de vorm van de oorspronkelijke data van ruwe scores. Als de oorspronkelijke data afwijkt naar rechts, dan zal dat ook het geval zijn bij de distributie met z-scores. Het omzetten van ruwe scores naar z-scores verandert de positie van scores in een verdeling niet. De z-score distributie heeft altijd een gemiddelde van nul (µ=0). Een waarde van nul maakt van het gemiddelde een goed vergelijkingspunt. Ook heeft de z-score distributie altijd een standaarddeviatie van 1 (σ=1). De z-score verdeling wordt ook wel de gestandaardiseerde verdeling genoemd. Een z-score distributie wordt gebruikt om ongelijke distributies vergelijkbaar te maken. Verschillende individuen of scores kunnen dan vergeleken worden, terwijl ze uit verschillende distributies kunnen komen. Een voorbeeld is het vergelijken van de scores van Piet en Jan. Piet komt uit een klas waarin voor een toets gemiddeld 48 punten zijn gehaald (µ=48). De standaarddeviatie in zijn klas is 4 (σ=4). Piet heeft zelf 56 punten gehaald. Jan komt uit een klas met een gemiddelde score van 50 (µ=50) en een standaarddeviatie van 10 (σ=10). Hij heeft zelf 60 punten gescoord. Het is nu mogelijk om te kijken wie relatief beter gescoord heeft. Piet heeft een z-score van (56-48)/4=2. Jan heeft een z-score van (60-50)/10=1. Piet heeft duidelijk een beter score, omdat zijn score twee standaarddeviaties boven het gemiddelde ligt. Op deze manier is het dus mogelijk om scores uit verschillende distributies te vergelijken.

Hoe werkt het omzetten van scores?

Al hebben z-score verdelingen verschillende voordelen, veel mensen vinden ze onhandig omdat ze min- en plustekens bevatten. Daarom wordt een distributie vaak gestandaardiseerd door z-scores om te zetten naar een distributie met een vooraf bepaalde standaarddeviatie en gemiddelde. Dit wordt vaak gedaan bij psychologische testen of testen die gericht zijn op educatie. Denk in dit geval bijvoorbeeld aan de CITO- toets. Bij intelligentietesten worden ruwe scores omgezet naar z-scores met een gemiddelde van 100 en een standaarddeviatie van 15. Om een nieuwe µ en σ vast te stellen, moet er gewerkt worden in twee stappen.

Allereerst worden de oorspronkelijke ruwe scores in z-scores omgezet.
Daarna worden de z-scores omgezet in nieuwe X-waarden zodat daar een specifieke µ en σ uit voortvloeit. Door deze stappen houdt elke score de oorspronkelijke positie in de distributie.

Hoe werken standaardscores bij een populatie en bij een steekproef?

Z-scores worden meestal in de context van een populatie gebruikt, maar dezelfde principes gelden voor steekproeven. De definitie van een z-score is hetzelfde voor een steekproef als voor een populatie. Het plus- of minteken voor de z-score zegt ook in dit geval iets over of de score boven of onder het gemiddelde valt. De waarde van de z-score laat zien wat de afstand is tussen de score en het gemiddelde van de sample. Het enige verschil is de notatie: de bijbehorende formule voor z-scores is: z= (X-M)/s. Het gemiddelde van de steekproef is net zoals bij een populatie nul, en de standaarddeviatie is één. Zoals eerder vermeld, wordt inferentiële statistiek gebruikt om op basis van samples uitspraken over de populatie te doen. De meeste onderzoeken beginnen met de vraag of een bepaalde behandeling de individuen in de populatie beïnvloedt. Omdat het onmogelijk is om de hele populatie te onderzoeken, wordt er een steekproef uit de populatie getrokken. Om het effect van de behandeling uit te zoeken, vergelijkt de onderzoeker de steekproef met de populatie. Als de individuen in de steekproef duidelijk anders scoren dan de mensen in de populatie, kan de onderzoeker concluderen dat de behandeling effect heeft gehad. Als dat niet het geval is, dan is de behandeling dus niet succesvol. Of iemand uit de steekproef anders scoort dan de populatie, kan nagegaan worden met z-scores. Iemand met een z-score van nul scoort gemiddeld, terwijl iemand met z-score +2 extreem boven het gemiddelde ligt. Zo kan dus aan de hand van z-scores nagegaan worden of een behandeling effect heeft gehad. Als de individuen uit de steekproef bijna allemaal extreme scores hebben, kan geconcludeerd worden dat de behandeling effectief is geweest.

Welke kansberekeningen zijn er? - Chapter 6

Wat is een kans?

Bij het nemen van een steekproef is het nooit exact te voorspellen welke individuen er in terecht zullen komen. Het is wel mogelijk om de kans te berekenen wanneer de samenstelling van een populatie bekend is, waarbij het voor sommige uitkomsten waarschijnlijker is om in de steekproef voor te komen dan voor anderen. In een situatie waarin verschillende uitkomsten mogelijk zijn, is de kans voor een uitkomst een deel of proportie van alle mogelijke uitkomsten. De kans van gebeurtenis A wordt dus gevonden door gebeurtenis A te delen door het totaal aantal mogelijke uitkomsten. De kans om munt te gooien is 0.5, omdat één (munt) van de twee (kop en munt) mogelijkheden voldoet. De kans op een specifieke uitkomst wordt aangeduid met de letter p. De bijbehorende gebeurtenis wordt tussen haakjes gezet. De kans op munt is daarom p(munt). De uitkomst van een kansberekening kan worden weergegeven in breuken, decimalen of percentages.

Wat is random sampling?

Bij kansberekeningen is het belangrijk om gebruik te maken van random sampling. Dit betekent dat ieder individu uit de populatie evenveel kans heeft om geselecteerd te worden.
Een tweede voorwaarde is dat kansen constant moeten blijven als meer dan één individu geselecteerd wordt. Random sampling zorgt ervoor dat er geen bias aanwezig is in het selectieproces. Random sampling wordt in relatie tot kansberekeningen vaak simpele random sampling of onafhankelijke random sampling genoemd. Voor een populatie met N aantal individuen, heeft elk individu 1/N kans om geselecteerd te worden. Er zijn daarnaast twee mogelijkheden bij het selectieproces: (1) selecteren met teruglegging en (2) selecteren zonder teruglegging. Om tegen te gaan dat kansen veranderen bij een tweede selectie, is het nodig om elke sample te vervangen voordat een nieuwe selectie gemaakt wordt. Dit wordt selecteren met teruglegging genoemd.

Wat zijn z-scores en wat is een normale distributie?

De normaalverdeling is symmetrisch; de hoogste frequentie ligt in het midden, terwijl de frequenties verminderen naarmate naar rechts of links gegaan wordt. Z-scores staan bij de normaalverdeling vermeld in termen van standaarddeviaties. Een z-score van +2 betekent dat een score twee standaarddeviaties boven het gemiddelde ligt. Het gebied van het gemiddelde tot +1 staat voor 34.13% van de scores en 13.59% van de scores valt tussen één en twee standaarddeviaties van het gemiddelde. Op deze manier is het mogelijk om een normale distributie te definiëren in termen van proporties. De gedeeltes naar de linkerkant van de normale distributie toe kennen dezelfde proporties. Van 0 tot z-score -1 is er dus ook sprake van 34.13% van de scores. Deze proporties gelden voor alle normale distributies.

Hoe ziet de tabel voor de normaalverdeling er uit?

De tabel voor de normaalverdeling (unit normal table, blz. 699) geeft aan welke proporties horen bij specifieke z-scores. Het grotere deel van een normaalverdeling wordt het lichaam (body) genoemd, terwijl het kleinere deel de staart (tail) wordt genoemd.

Kolom A van de tabel is een lijst van z-scores die hoort bij de normaalverdeling.
Kolom B laat zien welke proportie bij het lichaam (het grotere deel) hoort bij een bepaalde z-score.
Kolom C laat juist zien welke proportie bij de staart van de distributie hoort, gegeven een z-score. Een z-score van nul ligt precies in het midden van de verdeling. Zowel in kolom B als C hoort daar een proportie van 0.50 bij.
Kolom D staat voor de proportie tussen het gemiddelde en de z-score. Omdat de normale distributie symmetrisch is, zijn de proporties aan de linkerkant hetzelfde als de corresponderende proporties aan de rechterkant. Al kunnen z-scores negatief en positief zijn, de proporties zullen altijd positief zijn. Je kunt ook de z-score opzoeken wanneer je een proportie kent. Omdat kansen soortgelijk zijn aan proporties, kan de tabel ook gebruikt worden om kansen voor normale distributies op te zoeken.

Wat is het verband tussen kansen, proporties en scores?

Stel je voor: een distributie van intelligentie heeft een µ van 100 en een σ van 15. Hoe groot is de kans dan om door middel van random sampling een individu te selecteren van een IQ van onder de 130? Om deze vraag te kunnen beantwoorden, moeten IQ- scores (X-waarden) eerst omgezet worden in z-scores. Vervolgens moet de bijbehorende proportie gevonden worden. Dit komt overeen met de kans die gevonden moet worden. In dit geval is de z-score +2. Deze score wordt als volgt gevonden: (130-100)/15=2. Hier hoort volgens de tabel voor de normaalverdeling een proportie van 0.9772 bij. Dus: p(X<130)=0.9772. Er is dus 97.72% kans om iemand met een IQ van onder de 130 te selecteren. Wat moet je doen als uitgezocht moet worden wat de proportie tussen twee waarden is? Stel je voor: de gemiddelde snelheid op een weg is gemiddeld 58. De standaarddeviatie is 10. Hoeveel van de langsrijdende auto’s zal dan rijden tussen de 55 en 65 kilometer per uur? Eigenlijk ben je dus op zoek naar p(55

Waarom is het aantal categorieën belangrijk?

Wanneer een variabele wordt gemeten op een schaal met precies twee categorieën, wordt de resulterende data binomiaal genoemd. Binomiale data kunnen ook voortvloeien uit een variabele die alleen twee categorieën heeft. Mensen kunnen bijvoorbeeld alleen man of vrouw zijn en met een stuiver kan alleen munt of kop gegooid worden. Ook komt het voor dat een onderzoeker data probeert te versimpelen door deze in twee categorieën op te delen. Een psycholoog kan persoonlijkheidsscores bijvoorbeeld gebruiken om mensen als laag of hoog op agressie te categoriseren. Vaak kent de onderzoeker de kansen die horen bij de twee categorieën. Bij een stuiver is er bijvoorbeeld 50% kans op het gooien van kop en 50% op het gooien van munt. Voor een onderzoeker is het echter belangrijk om te weten hoe vaak een gebeurtenis voorkomt als er meerdere herhalingen zijn. Wat is bijvoorbeeld de kans dat iemand 15 keer kop gooit wanneer hij of zij 20 keer tost?

De binomiale verdeling

De normale distributie vormt een perfect model voor het beantwoorden van de bovenste vraag. Om kansvragen over binomiale data te beantwoorden, moet de binomiale distributie eerst onderzocht worden. Om deze distributie te beschrijven, zal eerst ingegaan worden op notatieregels.

De twee categorieën worden A en B genoemd. P=p(A) staat voor de kans op A en q=p(B) staat voor de kans op gebeurtenis B. P en q zijn samen 1, omdat A en B de enige mogelijke uitkomsten zijn.
Het aantal individuen of observaties in een sample wordt ook n genoemd bij de binomiale distributie.
De variabele X staat voor het aantal keer dat categorie A in een sample voorkomt. De binomiale distributie laat de kans zien die hoort bij elke waarde van X, van X=0 tot X=n. De binomiale distributie is bijna normaal verdeeld, vooral als n groot is.
De binomiale distributie zal bijna perfect zijn wanneer pxn en qxn beide gelijk zijn aan tien of groter zijn dan tien. Onder deze omstandigheden zal de binomiale distributie bijna een normale distributie hebben met de volgende parameters: het gemiddelde µ is pxn. De standaarddeviatie σ is √npq.
Binnen de normale distributie heeft elke waarde van X een corresponderende z-score; z= (X- µ)/ σ = X-pn/

Het is belangrijk om te onthouden dat de normale distributie alleen een goede schatting is van de ware binomiale distributie. Binomiale waarden, zoals het aantal koppen bij tien keer tossen, zijn discreet. De normale distributie is echter continuerend. Toch wordt de normale distributie wel gebruikt om de binomiale distributie te schatten en dit kan met grote precisie gedaan worden.

Welke criteria voor effectgrootte zijn er?

Eerder is gesproken over het feit dat een steekproef, na bijvoorbeeld een therapiebehandeling, anders moet zijn dan de populatie. Dan pas kan geconcludeerd worden dat de therapie effect heeft gehad. Als de steekproef na de behandeling nog steeds hetzelfde is als de populatie (die geen behandeling heeft gekregen), heeft de therapie dus geen effect gehad. Maar in hoeverre moet de steekproef na de behandeling verschillen van de populatie? Wat zijn hiervoor de criteria? Wanneer blijkt dat een individu een score heeft boven de z = +1.96 of onder de z=-1.96 is er maar vijf procent kans dat dit individu deze score niet aan de behandeling te danken heeft. Er is dus een hele grote kans (95%) dat deze score wordt veroorzaakt door de behandeling. Deze grens wordt daarom in het algemeen aangehouden.

Wat is er belangrijk bij kansen en steekproeven? - Chapter 7

Wat is een steekproeffout?

Zoals bekend is een steekproef nooit precies gelijk aan de bijbehorende populatie. Het steekproefgemiddelde kan daarom verschillen van het populatiegemiddelde – sterker nog, dit is bijna altijd het geval. Dit verschil tussen het populatie- en steekproefgemiddelde wordt de schattingsfout (sampling error) genoemd. Stel je bijvoorbeeld voor dat een onderzoeker 25 mensen selecteert (sample) van een universiteit om een uitspraak te doen over alle studenten van die universiteit (populatie). De 25 mensen die hij selecteert zullen nooit helemaal representatief zijn voor alle studenten van de universiteit. Berekeningen die voor de sample gedaan worden, zullen daarom nooit identiek zijn aan de waarden binnen de populatie. Steekproeven verschillen onderling ook nog van elkaar. Als je twee steekproeven van 25 mensen uit een populatie trekt, zullen deze nooit identiek aan elkaar zijn. Er zullen verschillende mensen in zitten en er zullen verschillende scores zijn. Ook zullen de gemiddelden verschillen. Het vermogen om eigenschappen van een steekproef te voorspellen is gebaseerd op de verdeling van steekproefgemiddelden.

Wat is de verdeling van steekproefgemiddelden?

De verdeling van steekproefgemiddelden staat voor de verzameling van steekproefgemiddelden voor alle mogelijke random samples van een bepaalde grootte (n) die uit een populatie getrokken kunnen worden. In het voorbeeld van de studenten aan de universiteit gaat het dus om alle mogelijke steekproeven van 25 studenten die getrokken kunnen worden. Tot nu toe hebben we voornamelijk gekeken naar de distributie van scores; nu kijken we naar de distributie van steekproefgemiddelden. Omdat statistieken door middel van steekproeven gevonden worden, wordt een distributie van statistieken een steekproefverdeling genoemd. Het gaat dan ook over de distributie van steekproefwaarden op basis van alle mogelijke steekproeven van een bepaalde grootte n uit de populatie. Een verdeling van steekproefgemiddelden is een voorbeeld van een steekproefverdeling.

Gemiddelden

Als je de verdeling van steekproefgemiddelden wilt weten, kun je een steekproef van grootte n uit een populatie trekken en het gemiddelde noteren. Vervolgens kun je van dezelfde grootte nog een steekproef trekken uit dezelfde populatie. Van deze steekproef noteer je ook het gemiddelde. Dit kun je herhaaldelijk doen, zodat je een distributie van steekproefgemiddelden te zien krijgt. Als het goed is zijn de meeste steekproefgemiddelden ongeveer gelijk aan het populatiegemiddelde. Van steekproeven wordt niet verwacht dat ze perfect zijn, maar wel dat ze representatief zijn voor de populatie. Daarom liggen de steekproefgemiddelden dicht bij het populatiegemiddelde. De steekproefgemiddelden van alle mogelijke steekproeven (uit een specifieke populatie) hebben een normale verdeling. Dit betekent dat de meeste steekproeven dicht bij het populatiegemiddelde liggen, terwijl het zelden voorkomt dat een steekproefgemiddelde erg afwijkt van µ. Een grote steekproef nemen is aan te raden, want bij een grote n komt het steekproefgemiddelde dicht bij het populatiegemiddelde. Je selecteert ten slotte een relatief grote groep uit de populatie. Een grote steekproef is dan ook representatiever dan een kleine. De gemiddelden van kleine steekproeven liggen meer uit elkaar dan de gemiddelden van grote steekproeven.

Wat beschrijft de centrale limiettheorie?

Bij grote populaties zal het aantal mogelijke steekproeven hoog zijn. Het is daarom niet mogelijk om het gemiddelde van elke mogelijke steekproef te achterhalen. Gelukkig is het wel mogelijk om te bepalen hoe de distributie van steekproefgemiddelden eruit zal zien. De centrale limiettheorie (central limit theorem) stelt dat een precieze beschrijving van de steekproefgemiddelden mogelijk is. Deze theorie gaat ervan uit dat voor een populatie met gemiddelde µ en standaarddeviatie σ, de distributie van steekproefgemiddelden gemiddelde µ is en de standaarddeviatie σ/√n is. De centrale limiettheorie beschrijft de distributie van steekproefgemiddelden voor elke mogelijke populatie, onafhankelijk van de vorm, het gemiddelde of standaarddeviatie. Daarnaast lijkt de distributie van steekproefgemiddelden al snel op de normaalverdeling. De verdeling van steekproefgemiddelden is bijna geheel normaal verdeeld wanneer de bijbehorende populatie normaal verdeeld is en/of het aantal scores (n) in elke steekproef tenminste 30 is. De gemiddelde waarde van alle steekproefgemiddelden is precies gelijk aan het populatiegemiddelde. Dit noemen we de verwachte waarde van M (expected value of M).De standaarddeviatie van de distributie van stekproefgemiddelden wordt de standaardfout van M genoemd. De standaardfout meet de hoeveelheid verschil tussen M en µ op basis van toevalsverschijnselen. De standaardfout wordt aangeduid met het symbool σ_M. De standaardfout is van groot belang, omdat deze laat zien hoe goed een steekproefgemiddelde het populatiegemiddelde schat. Er zal altijd een mate van fout aanwezig zijn, simpelweg omdat een steekproef niet gelijk is aan een populatie. De standaardfout wordt beïnvloed door twee zaken: (1) de grootte van de steekproef en (2) de standaarddeviatie van de populatie waar de steekproef uit getrokken is.

Wat stelt de wet van grote getallen?

Als de steekproefgrootte toeneemt, neemt de fout tussen de populatie en het steekproefgemiddelde af. De wet van grote getallen stelt dat hoe groter een steekproefgrootte (n) is, des te groter de kans is dat het steekproefgemiddelde dicht bij het populatiegemiddelde ligt. Kleine steekproeven hebben een grote fout en grote steekproeven hebben een kleine fout. De kleinste steekproef bestaat uit één individu (n=1). Met deze steekproef gaat de grootst mogelijke standaardfout gepaard. σ staat voor de standaard afstand tussen X en µ. Wanneer de steekproefgrootte 1 is, zijn de standaardfout en de standaarddeviatie dus gelijk. Als de steekproef echter groter wordt, wordt deze een steeds betere voorspeller van de populatie. De standaardfout daalt daardoor. De standaardfout wordt gevonden door de volgende formule: σ_{M =}σ/√n. De standaardfout van een steekproef met 30 mensen (uit een populatie met een standaarddeviatie van 50) is dus: 50/ √30= 9.13.

Wat is het verband tussen z-scores en steekproefgemiddelden?

Een z-score geeft precies aan waar een bepaalde steekproef zich bevindt in relatie tot alle andere mogelijke steekproeven. Een z-score van +2 impliceert bijvoorbeeld dat het steekproefgemiddelde veel groter is dan normaal gesproken verwacht zou worden. Dit gemiddelde ligt namelijk twee keer van de verwachte waarde van M af. De z-score voor elk steekproefgemiddelde kan berekend worden door de bekende z-score formule te gebruiken. Er zijn echter wel kleine aanpassingen in de formule gemaakt. We werken met steekproefgemiddelden en niet met scores, dus de formule maakt gebruik van een M in plaats van een X (een score). Daarnaast wordt de standaarddeviatie in deze distributie gemeten middels de standaardfout, dus de formule maakt gebruik van σ_M in plaats van alleen een σ. De formule wordt dus: z=(M- µ)/ σ_M. Voor elk steekproefgemiddelde kan een z-score berekend worden.

Waarvoor wordt de standaardfout gebruikt?

De standaardfout (standard error) geeft ons de mogelijkheid om steekproeffouten te meten en te beschrijven. Zoals eerder uitgelegd staat de standaardfout voor het verschil tussen waarden van een steekproef en waarden van een populatie. De waarde van de standaardfout geeft onderzoekers de mogelijkheid om te zien hoe representatief hun steekproef is. De standaardfout wordt in literatuur vaak aangeduid met SE of SEM (standard error van het steekproefgemiddelde). Deze statistiek wordt vaak in een tabel gezet bij de steekproefgemiddelden. Ook wordt de SE weleens genoteerd in grafieken. De SE wordt dan op de verticale as gezet, terwijl categorieën (bijvoorbeeld groep A en groep B) op de horizontale as worden geplaatst.

Wat is inductieve statistiek?

Zoals eerder vermeld wordt onder inductieve statistiek verstaan dat we data uit een steekproef gebruiken om algemene conclusies over de bijbehorende populatie te trekken. Daarom gebruikt een onderzoeker altijd een foutmarge wanneer hij een conclusie trekt over een populatiegemiddelde. Vaak moet een onderzoeker op basis van één steekproef iets zeggen over de populatie. Veel onderzoekers vragen zich daarom af of ze andere resultaten zouden rapporteren wanneer ze een andere steekproef genomen zouden hebben. Als er veel consistentie is tussen steekproeven, kan de onderzoeker ervan uitgaan dat de steekproef die hij onderzoekt een goede weerspiegeling is van de populatie. Als er echter weinig consistentie is tussen steekproeven, mag hij deze conclusie niet trekken. In deze context kan de standaardfout gezien worden als een betrouwbaarheidsmeting van het steekproefgemiddelde. De term betrouwbaarheid gaat over de mate waarin er consistentie is tussen verschillende metingen van hetzelfde fenomeen. Een metingsprocedure is betrouwbaar wanneer twee verschillende metingen dezelfde resultaten opleveren. Als je op een weegschaal gaat staan en dit na twee seconden weer doet, is de weegschaal betrouwbaar als hij beide keren hetzelfde gewicht aangeeft.

Hoe werkt het toetsen van hypothesen? - Chapter 8

Uit welke stappen bestaat een hypothesetest?

Het testen van hypothesen is een methode om op basis van een steekproef conclusies te trekken over de bijbehorende populatie. Bij het testen van hypothesen komen allerlei statistische procedures aan de orde. Een hypothesetest bestaat uit vier stappen:

Het opstellen van de hypothese over de parameter;
Voorspellen hoe de uitkomst van een steekproef zal zijn, rekening houdend met de steekproeffout;
Het trekken van de steekproef en gegevens verzamelen;
Vergelijken van de verkregen steekproefgegevens met de hypothese en een conclusie trekken.

Vaak wordt een parameter van een bekende populatie gebruikt om gegevens over een onbekende populatie te voorspellen. Bekend is bijvoorbeeld de populatie vóór de behandeling die wordt onderzocht, terwijl de populatie ná behandeling onbekend is. De hypothese gaat over de populatie met onbekende parameter, en is gebaseerd op de populatie met bekende parameter. Om de hypothese te testen, wordt een steekproef uit de bekende populatie vergeleken met een steekproef uit de onbekende populatie. De stappen zien er als volgt uit:

Stap 1: het formuleren van een hypothese

Allereerst wordt de hypothese opgesteld. Er zijn altijd twee hypothesen: de nulhypothese en de alternatieve hypothese. De nulhypothese houdt in dat een behandeling geen effect heeft. Deze hypothese stelt dus eigenlijk dat er geen verschil of verandering is ten opzichte van de onbehandelde populatie. De nulhypothese geven we aan met het symbool H₀. De H staat voor hypothese en de nul staat voor het nuleffect. Dan is er nog de alternatieve hypothese (H₁). Deze stelt dat er wel een verschil of verandering is. In de context van een experiment stelt de alternatieve hypothese dat de onafhankelijke variabele (bijvoorbeeld een behandelingsmethode voor depressie) een effect heeft op de afhankelijke variabele (mate van depressie). De H₁ kan één richting of twee richtingen opgaan. Als de nulhypothese bijvoorbeeld is dat de gemiddelde depressiescore 30 is in de populatie depressieve mensen, kan de alternatieve hypothese zijn dat het gemiddelde niet gelijk is aan 30 (µ ≠ 30). In sommige gevallen wordt de richting van het verschil ook gespecificeerd. Als verwacht wordt dat de behandelde populatie een hoger gemiddelde heeft geldt H₁ : μ₁ < μ₂ en als verwacht wordt dat de behandelde populatie een lager gemiddelde heeft, geldt H₁: μ₁ > μ₂. Het is bijvoorbeeld mogelijk om in H₁ te stellen dat het gemiddelde lager is dan 30 (µ<30) of groter dan 30 (µ>30). De laatste mogelijkheid is in dit voorbeeld eigenlijk overbodig, omdat het bijna ondenkbaar is dat een behandelingsmethode de mate van depressiviteit laat stijgen. Hypothesen gaan altijd over populaties, al worden steekproeven gebruikt om hypothesen te testen.

Stap 2: criteria voor een besluit

Om een gegrond besluit te nemen over de (on)juistheid van de nulhypothese, moeten we bepaalde criteria gebruiken. We gebruiken het significantieniveau of het alfaniveau (α) als criterium. Het alfaniveau is een grens in de normaalverdeling die onderscheid maakt tussen scores met een grote kans en scores met een kleine kans van voorkomen in de steekproef als de hypothese juist is. Een alfa van 5% (α=0.05) zegt dat er maar 5% kans is dat een resultaat door toeval wordt gevonden. Het alfaniveau is een kanswaarde die gebruikt wordt om erg onwaarschijnlijke steekproefresultaten vast te stellen als de nulhypothese waar zou zijn. Het gebied dat afgebakend wordt door het significantieniveau in de staart van de verdeling is het kritieke gebied. Het kritieke gebied bestaat uit extreme steekproefwaarden die heel onwaarschijnlijk zijn als de nulhypothese waar zou zijn. Wanneer de waarden in het kritieke gebied vallen, verschillen ze significant van het verwachte gemiddelde en wordt de nulhypothese verworpen. Bij een alfa van 5% bevindt de 5% van de scores zich in de staarten van de normale distributie; voor z=-1.96 en na z=+1.96. Deze waarde zijn de grenzen voor de kritische regio bij α=0.05.

Stap 3: data verzamelen en rekenen

Data worden altijd verzameld nadat hypothesen geformuleerd zijn. Zo kunnen de data getoetst worden aan de hypothesen; de onderzoeker kan op objectieve wijze de data evalueren. Nadat de ruwe data verzameld is, worden er steekproefwaarden (statistieken) uitgerekend. De onderzoeker berekent bijvoorbeeld het steekproefgemiddelde. Zo kan hij het steekproefgemiddelde vergelijken met de nulhypothese. Om dit te doen berekent hij een z-score die beschrijft waar het steekproefgemiddelde zich bevindt in relatie tot het gemiddelde van de nulhypothese. De z-score voor het steekproefgemiddelde is: z=(M- µ)/ σ_M. Deze formule stelt dat de z-score berekend wordt door het populatiegemiddelde uit de nulhypothese (µ) af te trekken van het steekproefgemiddelde (M). Dit getal wordt vervolgens gedeeld door de standaardfout tussen M en µ. De z-score bij het hypothese testen is een voorbeeld van een teststatistiek. Dit betekent dat steekproefdata worden omgezet in een specifieke statistiek (bijvoorbeeld z-scores) om hypothesen te testen. In volgende delen van het boek zal ingegaan worden op andere soorten teststatistieken.

Stap 4: een besluit nemen

De onderzoeker gebruikt de berekende z-score uit de vorige stap om een besluit te nemen over de nulhypothese. De eerste mogelijkheid is dat de onderzoeker de nulhypothese verwerpt. Hiervan is sprake wanneer de steekproefdata in de kritische regio valt. Dit betekent dat er een groot verschil is tussen de steekproef en de nulhypothese. De steekproefwaarden bevinden zich namelijk in de staart van de normaalverdeling. In het voorbeeld met de depressiebehandeling, betekent dit dat de onderzoeker heeft aangetoond dat de behandeling wel degelijk effect heeft. Het is ook mogelijk dat de data ervoor zorgt dat de nulhypothese niet afgewezen kan worden. Dit betekent dat een behandeling geeft effect heeft gehad. Dit gebeurt wanneer de steekproefdata niet in de kritische regio vallen.

Wat is een type I fout?

Het testen van hypothesen is een inductief proces. Dit betekent dat een beperkte hoeveelheid informatie (namelijk een steekproef) wordt gebruikt om een algemene conclusie te trekken. Daarom bestaat de kans dat er verkeerde conclusies worden getrokken. Er wordt onderscheid gemaakt tussen Type I en Type II-fouten. Een Type I-fout betekent dat de nulhypothese verworpen wordt, terwijl die eigenlijk aangenomen had moet worden. Met andere woorden, er wordt een significant effect gerapporteerd terwijl er in werkelijkheid geen effect is. Dit kan voorkomen als er een steekproef wordt getrokken met voornamelijk extreme scores, waardoor het steekproefgemiddelde extreem is en in het kritieke gebied valt. Deze kans is gelijk aan het alfaniveau. Een steekproef die in het kritieke gebied valt, kan dus aangeven dat er daadwerkelijk een effect is, maar het kan ook betekenen dat er door toeval een niet-representatieve steekproef met extreme waarden is verkregen.

Wat is een type II fout?

Van een Type II-fout is sprake wanneer een onderzoeker een nulhypothese niet verwerpt, terwijl deze echt verkeerd is. De hypothesetest heeft dus een behandelingseffect (dat er in werkelijkheid is) niet gevonden. Een type II-fout komt voor wanneer een steekproefgemiddelde zich niet in de kritische regio bevindt, terwijl de behandeling wel een effect heeft gehad op de steekproef. De gevolgen van een type II-fout zijn vaak minder ernstig dan de gevolgen van een type I-fout. Bij een type II-fout hebben de onderzoeksdata niet kunnen laten zien waar de onderzoeker op had gehoopt. Er is geen precieze waarde uit te rekenen voor een type II-fout. Dit in tegenstelling tot de type I-fout, waarbij het alfaniveau de kans aangeeft op een type I-fout (dus als het alfaniveau .05 is, is de kans op een type I-fout dat ook). De kans op een type II-fout hangt af van vele factoren. De kans op een type II-fout wordt aangeduid met de Griekse letter β. Uit de twee typen fouten volgt dat er een goede afweging gemaakt moet worden bij het selecteren van een significantieniveau. Aan de ene kant moet het risico op een type I-fout, het foutief rapporteren van een effect, geminimaliseerd worden. Het kritieke gebied zou hiertoe zo klein mogelijk moeten zijn. Aan de andere kant moet het niet onmogelijk gemaakt worden om een significant effect te vinden, dus is het ook niet handig om het niveau te laag vast te stellen. In de psychologie wordt over het algemeen een grens van .05 gehanteerd.

Welke factoren zijn van invloed op significantie?

Er is relatief veel kans op een statistisch significant effect in de volgende gevallen:

Het verschil tussen het steekproefgemiddelde en de oorspronkelijke populatie is groot. Dit verschil zal invloed hebben op de noemer van de z-score. Hoe groter het verschil in gemiddelden, hoe groter de kans dat het effect significant wordt bevonden.
Daarnaast speelt de spreiding van de scores (gemeten door de standaarddeviatie) een rol. De variabiliteit beïnvloedt de grootte van de standaardfout in de teller van de z-score. Veel spreiding maakt het moeilijker om een effect te vinden. Veel variabiliteit zorgt namelijk voor een grotere standaardfout en een kleine z-score, en hierdoor is er een kleinere kans op een significant effect.
Ten slotte beïnvloedt het aantal scores (n) de standaardfout in de teller van de z-score. Een groot aantal scores (dus een grote steekproef) zal zorgen voor een kleine standaardfout en een grote z-score. De kans om een significant effect te vinden is groter bij een grotere steekproef.

Aan welke aannames moet voldaan worden voor hypothesetesten?

De berekeningen die volgen uit een hypothesetest zijn gebaseerd op een aantal aannames. Als aan deze voorwaarden wordt voldaan, kan ervan uitgegaan worden dat er uit de test (en de bijbehorende berekeningen) een juiste conclusie voortvloeit. Er zijn vier aannames waaraan voldaan moet worden voor hypothesetesten met z-scores:

Allereerst moeten de data de uitkomst zijn van random sampling. Als we de resultaten uit een steekproef naar de populatie toe willen generaliseren, moet de sample natuurlijk wel representatief zijn. Random sampling helpt hierbij. Individuen hebben in dat geval allemaal evenveel kans om geselecteerd te worden voor de steekproef.
Daarnaast moeten de observaties onafhankelijk zijn. Twee observaties zijn onafhankelijk wanneer de uitkomst van de ene de uitkomst van de ander niet beïnvloedt. Aan deze aanname wordt over het algemeen voldaan wanneer er gebruik wordt gemaakt van random sampling.
Ten derde moet de waarde van σ (standaarddeviatie van de populatie) onveranderd blijven door de behandeling. We kennen deze populatiewaarde echter niet, omdat we alleen steekproeven kunnen gebruiken om iets over populaties te kunnen zeggen. Om de standaardfout te berekenen hebben we n en σ nodig, maar σ kennen we dus nog niet. Om dit dilemma op te lossen moeten we ervan uitgaan dat de standaarddeviatie van de onbekende populatie (na de behandeling) hetzelfde is als de standaarddeviatie van de populatie voor de behandeling. Theoretisch gezien is deze aanname ideaal, maar in de praktijk niet altijd.
Ten slotte moet de distributie van steekproefgemiddelden normaal verdeeld zijn als we de tabel voor z-scores willen gebruiken om een kritische regio vast te stellen.

Wat zijn eenzijdige hypothesetesten?

Bij tweezijdige hypothesetesten bevindt het kritiek gebied zich aan beide kanten (beide staarten) van de normaalverdeling. In de meeste gevallen wordt een hypothese tweezijdig getoetst. In sommige gevallen heeft een onderzoeker echter al een vermoeden over de richting van een effect. Hij kan bijvoorbeeld vermoeden dat een specifiek voedingswaar ervoor zorgt dat mensen aankomen. In dit soort gevallen is het beter om eenzijdig te toetsen. Op deze manier kan een specifiek vermoeden makkelijker getoetst worden. Bij een eenzijdige toets bevindt het kritieke gebied zich slechts in één staart van de normaalverdeling. Welke staart dit is, hangt af van de alternatieve hypothese. Als er in de alternatieve hypothese staat dat gewicht na inname van een product zal toenemen, bevindt het kritieke gebied zich in de rechterstaart. Als de alternatieve hypothese echter beweert dat gewicht zal afnemen van het consumeren van een product, dan zal het kritieke gebied zich in de linkerstaart bevinden (omdat de min- en pluswaarden van z-scores van links naar rechts oplopen).

Wat is het verschil tussen eenzijdig en tweezijdig toetsen?

Alle onderzoekers zijn het erover eens dat een- en tweezijdige toetsen verschillende dingen zijn. Sommige onderzoekers vinden dat een tweezijdige hypothesetest altijd overtuigender is dan een eenzijdige toets, omdat er bij een tweezijdige toets meer bewijs nodig is om de nulhypothese af te wijzen. Andere onderzoekers prefereren juist eenzijdige toetsen, omdat deze toetsen de uitkomsten zijn van een hele specifieke hypothese. Een eenzijdige toets is volgens hun gevoeliger. Een klein behandelingseffect kan significant zijn bij een eenzijdige toets terwijl hetzelfde effect niet significant is bij een tweezijdige toets. In het algemeen kan gesteld worden dat tweezijdige toetsen gebruikt zouden moeten worden in onderzoekssituaties waarin er geen vermoeden is over de richting van een effect.

Wat is de effectgrootte?

Sommige onderzoekers hebben kritiek op het proces van hypothesen testen. De grootste kritiek gaat over de interpretatie van een significant resultaat. Er wordt bij het testen van een hypothese namelijk vooral aandacht besteed aan de data en niet aan de hypothesen zelf. Als de nulhypothese wordt afgewezen, maken we een statement over de steekproefdata en niet over de nulhypothese. Op basis van steekproefdata wordt de nulhypothese dus afgewezen of behouden. Of de nulhypothese werkelijk (on)waar is, weten we niet. Een ander kritiekpunt is dat een significant effect niet meteen zegt dat een behandeling een groot effect heeft. Iets is significant of niet, maar dit zegt niets over de grootte van het effect dat gevonden is. Een significant effect is dus niet hetzelfde als een groot effect. Om meer inzicht te krijgen in de grootte van een significant effect, heeft Cohen (1988) de zogenaamde effectgrootte voorgesteld. Zijn maat voor effectgrootte noemen we Cohen’s d. Deze maat kan berekend worden door eerst het verschil tussen het steekproefgemiddelde en het oorspronkelijke populatiegemiddelde te vinden (M- µ). Vervolgens wordt deze uitkomst gedeeld door de standaarddeviatie van de populatie. De uitkomst van Cohen’s d is 0.2 bij een klein effect, 0.5 bij een gemiddeld effect en 0.8 bij een groot effect.

Wat is statistische power?

Naast het meten van de effectgrootte is het ook mogelijk om de power van een statistische test te meten. De power van een test is de kans dat de test de nulhypothese zal afwijzen als deze ook echt fout is. De power gaat dus om het vinden van een effect als deze ook daadwerkelijk bestaat. Effectgrootte en de power van een test hebben echter wel een relatie. Als de effectgrootte stijgt, dan stijgt ook de kans om de nulhypothese af te wijzen. Dit betekent dat de power van een test op dat moment stijgt. Metingen van effectgrootte (zoals Cohen’s d) en metingen van power geven beiden een indicatie van de grootte van een effect. De power van een test wordt beïnvloed door drie belangrijke factoren:

Allereerst speelt de grootte van een steekproef (n) een rol. Hoe groter een steekproef is, hoe groter de kans is om de nulhypothese af te wijzen als deze ook echt fout is. Dit betekent dat de power van een test groter wordt als de grootte van de steekproef stijgt.
Daarnaast wordt de power van een test verlaagd als het alfaniveau verkleind wordt. Als de alfa bijvoorbeeld verlaagd wordt van 5% naar 1% is de kans kleiner dat een effect (dat er in werkelijkheid wel is) gevonden wordt.
Ten derde stijgt de power van een test wanneer van een tweezijdige toets een eenzijdige toets wordt gemaakt.

n selecteert (sample) van een universiteit om een uitspraak te doen over alle studenten van die universiteit (populatie). De 25 mensen die hij selecteert zullen nooit helemaal representatief zijn voor alle studenten van de universiteit. Berekeningen die voor de sample gedaan worden, zullen daarom nooit identiek zijn aan de waarden binnen de populatie. Steekproeven verschillen onderling ook nog van elkaar. Als je twee steekproeven van 25 mensen uit een populatie trekt, zullen deze nooit identiek aan elkaar zijn. Er zullen verschillende mensen in zitten en er zullen verschillende scores zijn. Ook zullen de gemiddelden verschillen. Het vermogen om eigenschappen van een steekproef te voorspellen is gebaseerd op de verdeling van steekproefgemiddelden.

Hoe werk je met de T-Toets? - Chapter 9

Eerder zijn een aantal statistische procedures uiteengezet die gebaseerd zijn op een aantal concepten. Zo werd ervan uitgegaan dat het steekproefgemiddelde (M) bijna hetzelfde is als het populatiegemiddelde (µ). De standaardfout laat zien hoe dichtbij een steekproefgemiddelde bij het populatiegemiddelde ligt. Deze maat laat zien hoe groot het verschil tussen M en µ is. Om het steekproefgemiddelde te vergelijken met µ, kunnen we een z-score berekenen; z=(M- µ)/ σ_M. Het doel van een hypothesetest is nagaan of het gevonden resultaat significant groter is dan verwacht zou worden op basis van toeval. Als z-scores een normaalverdeling vormen, kan de z-tabel (blz. 699) voor de normaalverdeling gebruikt worden om een kritiek gebied te bepalen. Het probleem met z-scores is echter dat de z-score formule vaak meer informatie nodig heeft dan beschikbaar is. We kennen de standaarddeviatie van de populatie namelijk vaak niet. Deze is volgens de formule wel nodig om de standaardfout te berekenen. In dit hoofdstuk zal daarom dieper ingegaan worden op de t-statistiek. Deze kan gebruikt worden wanneer de standaarddeviatie van de populatie onbekend is (wat heel vaak het geval is).

Wat is de paradox van t-statistiek?

We gebruiken steekproeven om meer over de populatie te weten te komen, maar we moeten bij de z-formule wel gebruik maken van de (vaak onbekende) standaarddeviatie van de populatie. Dit zorgt dus voor een paradox.

De variantie van een steekproef is s²=SS/n-1. Dit is hetzelfde als SS:df.
De standaarddeviatie van een steekproef is s=√SS / n – 1 = √SS / df.
Met steekproefwaarden kunnen we de standaardfout schatten. De standaardfout is σ_M=σ/√n.

Nu gaan we de spreiding van een steekproef gebruiken om de onbekende populatiewaarde te schatten.

Schatten

De geschatte standaardfout = s_M=s/√n. De geschatte standaardfout s_M wordt gebruikt als een schatting van de echte standaardfout (σ_M) als de waarde van σ onbekend is.
De steekproefvariantie (of standaarddeviatie) wordt hiervoor gebruikt en geeft een schatting van de afstand tussen M en µ. De t-statistiek rekenen we uit door middel van de volgende formule: t=(M- µ)/ s_M.

De t-statistiek wordt gebruikt om hypothesen te toetsen over een onbekende populatiegemiddelde µ wanneer de waarde van σ onbekend is. De formule voor de t-statistiek heeft dezelfde structuur als de formule voor z-scores, alleen maakt de t-statistiek gebruik van de geschatte standaardfout.

Wat zijn vrijheidsgraden?

De vrijheidsgraden worden gevonden door van het aantal scores één af te trekken (n-1). Een steekproef heeft altijd n-1 vrijheidsgraden (df). Hoe groter de waarde van df voor een steekproef, hoe beter s (standaarddeviatie van een steekproef) σ (standaarddeviatie van een populatie) representeert. Ook gaat de t-statistiek dan steeds meer op de z-score lijken. Elke steekproef uit de populatie kan gebruikt worden om een z-score of t-statistiek mee te berekenen. Als alle mogelijke steekproeven van een bepaalde grootte (n) geselecteerd zouden worden, zouden de z-scores een normale verdeling hebben. Hetzelfde geldt voor t-scores. Het selecteren van alle mogelijke steekproeven zorgt voor een t-verdeling. Deze lijkt erg op een z-verdeling en is ook normaal verdeeld. Hoe dichtbij een t-distributie bij een normale distributie komt hangt echter af van de vrijheidsgraden. Hoe groter de steekproefgrootte (n) is, hoe groter de df (n-1) en hoe meer de t-distributie op een normaalverdeling begint te lijken.

Welke vorm heeft de t-distributie?

De exacte vorm van een t-distributie varieert dus op basis van het aantal vrijheidsgraden. Statistici spreken in dit verband van een familie van t-distributies. Er is een andere steekproevenverdeling voor t voor elke mogelijke vrijheidsgraad. De t-distributies volgen de vorm van een curve. Deze curve is symmetrisch en kent een gemiddelde van nul. De t-distributies hebben echter wel meer spreiding dan de z-distributie, vooral als de df erg klein zijn. De t-distributie is daarnaast platter en meer uitgespreid dan de z-distributie. De t-tabel (blz. 703) maakt gebruik van vrijheidsgraden. Als je bijvoorbeeld op zoek bent naar vrijheidsgraad 53, moet je er wel rekening mee houden dat deze waarschijnlijk niet in de tabel staat. De waarde 40 en de waarde 60 staat wel in de tabel. Het is het beste om in dit geval de grootste t-waarde (namelijk de t-waarde die bij df=60 hoort) te gebruiken. Als de t-statistiek (die je van tevoren hebt uitgerekend) groter is dan dit getal, kun je ervan uitgaan dat de data zich in het kritieke gebied bevindt. In dat geval kun je de nulhypothese afwijzen.

Welke stappen zijn er bij het toetsen van hypothesen met de t-statistiek?

Net zoals bij de z-distributie zijn er verschillende stappen om een hypothese te toetsen door middel van de t-toets.

Allereerst moet de nulhypothese geformuleerd worden. De nulhypothese stelt dat er geen effect is en dat het gemiddelde van de populatie onveranderd is gebleven na een behandeling. Ook moet er een alternatieve hypothese geformuleerd worden. Deze stelt dat er wel een effect is. Hypothesen worden altijd in termen van parameters (populatiegegevens) genoteerd. Er wordt bijvoorbeeld gesproken over µ en niet over M. Ook moet er een alfaniveau vastgesteld worden.
Vervolgens moet het kritieke gebied bepaald worden. De exacte vorm van de t-distributie (en dus ook de kritische t-waarden) zijn verschillend voor verschillende vrijheidsgraden.
Daarna moet de data van de steekproef verzameld worden en moet er een teststatistiek berekend worden. Als de standaarddeviatie en de variantie van een populatie onbekend zijn, is deze teststatistiek de t-statistiek. De t-statistiek wordt als volgt gevonden: t = (het steekproefgemiddelde – het populatiegemiddelde)/ geschatte standaardfout. De standaardfout wordt geschat op basis van de steekproef.
Ten slotte moet er op de nulhypothese gereflecteerd worden. Als de gevonden t-statistiek binnen de kritische regio valt, wordt de nulhypothese afgewezen. Dit betekent dat we ervan uit kunnen gaan dat er een effect is. Als de t-statistiek buiten het kritiek gebied valt, mag de nulhypothese niet afgewezen worden. We moeten er in dat geval dus van uitgaan dat er geen effect is.

Welke aannames zijn er voor de t-toets?

Er zijn twee aannames voor het uitvoeren van een t-toets.

Allereerst moeten de scores uit de steekproef bestaan uit onafhankelijke observaties. Dit betekent dat de ene score geen invloed mag hebben op de andere score. De kans op een bepaalde uitkomst bij een score wordt dus niet beïnvloed door een andere score.
Daarnaast moet de populatie, waar een steekproef uit getrokken wordt, normaal verdeeld zijn. In de praktijk heeft het schenden van deze aanname echter weinig invloed op de t-statistiek, vooral als de steekproef groot is. Met hele kleine steekproeven is het echter wel belangrijk dat de populatie normaal verdeeld is. Als je er dus niet zeker van bent dat de verdeling van een populatie normaal is, kun je het beste een grote steekproef selecteren.

Wat is het verband tussen effectgrootte en de t-statistiek?

In het vorige hoofdstuk is besproken dat de grootte van een effect niet duidelijk wordt gemaakt door middel van een hypothesetest. Er wordt door middel van een hypothesetest alleen nagegaan of er überhaupt een effect is. Dit wordt gedaan door te kijken naar hoe groot de kans is dat een resultaat het gevolg is van een toevallig verschijnsel. De grootte van het effect kan berekend worden door Cohen’s d. In dat geval moet het verschil tussen het steekproef- en populatiegemiddelde gedeeld worden door de standaarddeviatie van de populatie. In de meeste gevallen is de standaarddeviatie van de populatie echter niet bekend om de effectgrootte mee te berekenen. Daarom is de geschatte d bedacht. In dat geval wordt het verschil tussen het gemiddelde van een steekproef en de populatie gedeeld door de standaarddeviatie van de steekproef.

Wat is proportie verklaarde variantie?

Een andere manier om effectgrootte te bepalen is door te kijken hoeveel van de spreiding tussen de scores wordt verklaard door een effect. Een effect kan er namelijk voor zorgen dat scores stijgen (of dalen). De proportie verklaarde variantie kan gevonden worden door de t-statistiek te kwadrateren en te delen door hetzelfde getal plus de vrijheidsgraden. In formulevorm is dat dus: r² = t²/ t²+df. De vrijheidsgraden worden gevonden door het aantal scores te verminderen met één. Een proportie verklaarde van 0.01 staat voor een klein effect. Een waarde van 0.09 staat voor een gemiddeld effect. Een grote proportie verklaarde variantie wordt gekenmerkt door een r² van 0.25. De r² wordt in onderzoeksliteratuur vaak vermeld in de vorm van procenten.

Wat is een betrouwbaarheidsinterval?

Een alternatieve techniek voor het beschrijven van effectgrootte is het gebruik van een betrouwbaarheidsinterval. Dit is een interval tussen waarden dat rond een steekproefstatistiek ligt. De bedoeling is dat hiermee het populatiegemiddelde geschat wordt op basis van de steekproefgegevens. Als het steekproefgemiddelde bekend is, wordt daaromheen een interval van een bepaalde grootte bepaald en de schatting is dat het populatiegemiddelde binnen dat interval ligt. Het opstellen van een betrouwbaarheidsinterval is gebaseerd op de formule van de t-statistiek:

t = M-μ / s_M

Het is echter zo dat het populatiegemiddelde, nodig voor deze formule, niet bekend is. Daarom wordt een geschatte t-waarde gebruikt en kan de rest van de formule ingevuld worden om de waarde van μ te berekenen. De geschatte t-waarde is de waarde die te vinden is in de tabel voor de t-statistiek bij het aantal vrijheidsgraden van de steekproef. Je krijgt een handige formule voor het schatten van μ door de formule te herschrijven:

μ = M ± t· s_M

Het resultaat bestaat uit twee waarden, waartussen het populatiegemiddelde zal liggen.

Wat is wenselijk voor de grootte en variantie van een steekproef?

Zoals eerder gezegd wordt de t-statistiek gevonden door het verschil tussen gemiddelden (van de sample en populatie) te berekenen. Vervolgens wordt deze gedeeld door de geschatte standaard error. In formule vorm is dit: t=(M- µ)/ s_M. De geschatte standaardfout kan gevonden worden door de wortel (√) te trekken uit de variantie gedeeld door de grootte van de steekproef (s² /n). Een grote waarde van s_Mzorgt voor een kleine waarde voor de t-statistiek. Daardoor is de kans kleiner om de nulhypothese te verwerpen. De geschatte standaardfout is op directe wijze gerelateerd aan de variantie van een sample. Een grote variantie zorgt daarom voor een grote geschatte standaardfout. Dit zorgt er weer voor dat er minder kans is om een significant effect te vinden op basis van onderzoeksdata. In het algemeen is grote spreiding niet wenselijk voor onderzoekers. Dit betekent namelijk dat het lastig is om een consistent patroon te vinden in de data. De geschatte standaardfout is echter ook gerelateerd aan de grootte van een steekproef. Een grote steekproef zorgt voor een kleine standaardfout. Grote steekproeven zorgen voor t-statistieken met een grotere waarde.

Hoe werkt de T-toets voor twee onafhankelijke groepen? - Chapter 10

Op welke manier kun je twee steekproeven vergelijken?

Veel onderzoeken zijn gebaseerd op het idee dat twee steekproeven met elkaar vergeleken moeten worden. Dit kan op twee manieren worden gedaan:

Een onderzoeker kan geïnteresseerd zijn in verschillen tussen twee steekproeven. In dit geval wordt gesproken van een independent measures research design of een between subjects design.
Een onderzoeker kan ook twee datasets verkrijgen uit dezelfde steekproef. In dit geval wordt gesproken van een repeated measures research design of een within subjects design. Er wordt namelijk naar verschillen binnen een groep gekeken door deze groep herhaaldelijk te meten.

Hoe werkt de t-toets voor twee onafhankelijke metingen?

Omdat er sprake is van twee onafhankelijke groepen, moet hier rekening mee worden gehouden in de statistische notatie. Het gemiddelde van een eerste groep is bijvoorbeeld M₁ en het gemiddelde van de tweede groep is M_2.De som van afwijkingen (SS) is voor de eerste groep SS₁en voor de tweede groep SS_2.Het doel van zo’n meting is nagaan of er een verschil tussen twee groepen waarneembaar is.

De nulhypothese stelt dat dit niet het geval is. De nulhypothese is dan ook: µ_1-µ₂= 0. De alternatieve hypothese stelt dat er een verschil tussen beide groepen bestaat. Dit kan genoteerd worden als µ₁-µ₂ ≠ 0.
De bijbehorende hypothesetest wordt gebaseerd op een andere t-statistiek. De eerder gegeven formule uit deel I geldt voor één steekproef (single-sample t-statistic). De formule die nu volgt wordt de t-toets voor onafhankelijke groepen (independent-measures t-test) genoemd. Deze formule verschilt van de eerste, omdat deze data bevat uit twee aparte steekproeven en uitgaat van hypothesen over twee populaties. De basis van beide formules is echter hetzelfde.
Een verwachte populatieparameter wordt van een steekproefstatistiek afgetrokken. Daarna wordt dit getal gedeeld door de geschatte standaard error. In formulevorm is dit (steekproefstatistiek- populatieparameter) / geschatte standaard error. De t-formule voor één steekproef is: t=(M- µ)/ s_M.De t-formule voor twee onafhankelijke steekproeven is: (M₁ - M₂) – (µ₁-µ₂) / s_(M1-M2).In deze formule komt M₁ - M₂ uit de data van de steekproeven. De waarden van µ₁-µ₂komen uit de nulhypothese.

Wat is de gepoolde variantie?

De bovenstaande formule is alleen te gebruiken als beide steekproeven van dezelfde grootte zijn (n₁₌ n₂). In zo’n geval ligt de variantie van de twee steekproeven precies in het midden van de twee aparte varianties. In situaties waarin de twee steekproeven niet van dezelfde grootte zijn, is deze formule niet toereikend genoeg. Dit wordt veroorzaakt doordat de twee steekproeven even zwaar meewegen in de formule, terwijl een kleinere steekproef minder mee zou moeten wegen dat een grotere. Er ontstaat een bias naar de kleinere steekproef. Om hiervoor te corrigeren wordt een formule gebruikt die de varianties combineert, de gepoolde variantie. Deze wordt gevonden door het gewogen gemiddelde te nemen van de twee varianties. De kwadratensommen van beide steekproeven worden gedeeld door het aantal vrijheidsgraden. Het aantal vrijheidsgraden van een kleinere steekproef is lager, waardoor deze minder mee zal wegen. Eerder is gezegd dat de variantie van een steekproef (s²) gevonden kan worden door SS te delen door df. Om de gepoolde variantie uit te rekenen (s²_p) wordt een andere formule gebruikt: (SS₁ + SS₂)/ df₁ + df₂. De geschatte standaard error van M₁ - M₂ wordt gevonden door de wortel (√ ) te trekken uit de uitkomst van (s²_p/ n₁+ s²_p/ n₂).

Wat is de effectgrootte voor twee onafhankelijke metingen?

Zoals eerder gezegd wordt Cohen’s d berekend door het verschil tussen twee gemiddelden te nemen en dit te delen door de standaarddeviatie van de populatie. Bij twee onafhankelijke steekproeven wordt het verschil tussen de twee steekproeven (M₁ - M₂) gebruikt om het verschil in gemiddelden te schatten. De gepoolde standaarddeviatie (√s²_p) wordt gebruikt om de standaarddeviatie van de populatie te schatten. De formule om Cohen’s d te schatten wordt dus: geschatte d = (M₁ - M₂)/ √s²_p.

Wanneer gebruik je betrouwbaarheidsintervallen?

Het gebruiken van een betrouwbaarheidsinterval is een alternatieve methode om effectgrootte te meten en beschrijven. Bij de t-toets voor onafhankelijke metingen wordt het verschil tussen de steekproefgemiddelden gebruikt om een schatting te maken van het verschil tussen de populatiegemiddelden. De formule hiervoor is:

μ1-μ2 = M1 – M2 ± t· s_(M1-M2)

De t-waarde is in de eerste instantie onbekend, maar wordt geschat door de waarde bij het bijbehorende aantal vrijheidsgraden in de tabel van de t-statistiek op te zoeken. Naast deze geschatte t-waarde worden de bekende waarden, M1, M2 en s_(M1-M2), gebruikt om het betrouwbaarheidsinterval te berekenen. Het betrouwbaarheidsinterval wordt beïnvloed door het gekozen percentage en de grootte van de steekproeven, en is daarom geen perfecte maat voor effectgrootte. Naast het meten van effectgrootte heeft het betrouwbaarheidsinterval een extra functie: het meten van de significantie van een effect. Als de waarde van het verschil tussen de gemiddelden van de twee groepen binnen het betrouwbaarheidsinterval valt, is het effect significant. De nulhypothese wordt dan verworpen.

Welke factoren beïnvloeden de t-toets?

Er zijn twee factoren die de uitkomst van een hypothese van een t-toets voor onafhankelijke metingen beïnvloeden: steekproefvariantie en steekproefgrootte. Hoe meer variantie, hoe groter de steekproeffout. Hoe groter de steekproef, hoe kleiner de steekproeffout. De steekproefvariantie is het enige dat invloed heeft op de effectgrootte. Hoe meer variantie, hoe kleiner de effectgrootte. Een oplossing bij veel variantie is het gebruik van een alternatieve toets: de Mann-Whitney test. Deze maakt gebruik van rangscores, waarbij numerieke waarden in ordinale data worden omgezet.

Welke aannames moeten er gedaan worden?

De observaties in elke steekproef moeten onafhankelijk zijn.
De populaties waar de steekproeven uit genomen zijn, moeten normaal verdeeld zijn. Als je als onderzoeker vermoedt dat de populaties niet normaal verdeeld zijn, is het een goed idee om grote steekproeven te gebruiken.
De twee populaties moeten gelijke varianties hebben. Dit noemen we de homogeniteit van varianties. Het poolen van steekproefvarianties is namelijk alleen zinvol als beide populaties dezelfde variantie hebben. Deze aanname is erg belangrijk, omdat een juiste interpretatie van onderzoeksresultaten ervan afhangt. Zonder deze aanname, kan de gevonden t-statistiek niet goed geïnterpreteerd worden. Dit zorgt ervoor dat het testen van hypothesen betekenisloos wordt.

Hoe werkt het checken van varianties?

Hoe weet je of voldaan is aan de voorwaarde van homogeniteit van varianties? Als twee populatievarianties gelijk zijn, dan zouden de varianties van de twee steekproeven ook op elkaar moeten lijken. Als dat inderdaad het geval is, kun je ervan uitgaan dat de populaties dezelfde variantie hebben. Als de variantie van de ene steekproef echter drie tot vier keer groter is dan de variantie van de andere, moet je je als onderzoeker zorgen maken. Er zijn verschillende manieren om de homogeniteit van varianties uit te rekenen. De makkelijkste is de Hartley’s F-max test. Het voordeel van deze test is dat hij ook gebruikt kan worden om de homogeniteit van meer dan twee samples uit te zoeken. Hartley’s F-max test kan gemakkelijk berekend worden via drie stappen:

Allereerst moet de steekproefvariantie (s² = SS/df) berekend worden voor elke sample.
Vervolgens moet de grootste en kleinste van deze steekproefvarianties geselecteerd worden.
F-max kan berekend worden door de grote s² te delen door de kleine s².

Een relatief grote waarde voor F-max staat voor een groot verschil tussen de varianties van de steekproeven. In dat geval kan op basis van de data geconcludeerd worden dat de varianties van de populaties verschillend zijn. Er is dan niet voldaan aan de voorwaarde van homogene varianties. Een kleine F-max waarde (ongeveer 1.00) staat voor soortgelijke varianties. In dat geval is wel aan de voorwaarde van homogeniteit van varianties voldaan.

Hoe werkt de T-toets voor twee gerelateerde groepen? - Chapter 11

In het vorige deel is het independent-measures research design uitgelegd als een manier om twee populaties met elkaar te vergelijken. Hierbij worden twee aparte steekproeven gebruikt waar twee datasets uit voortvloeien. In dit deel zal dieper ingegaan worden op het bestuderen van één steekproef die twee keer onderzocht wordt. In dit verband wordt ook wel van herhaalde metingen (repeated-measures) gesproken. Een groep kan bijvoorbeeld voor en na een therapievorm onderzocht worden. Het grote voordeel van herhaalde metingen is dat precies dezelfde individuen gebruikt worden. Er is dus niet de mogelijkheid dat deelnemers in één steekproef systematisch verschillend zijn dat deelnemers in een andere steekproef.

Waarvoor worden gematchte subjecten gebruikt?

In sommige gevallen proberen onderzoekers de voordelen van het onderzoeksdesign met herhaalde metingen na te bootsen door gebruik te maken van gematchte subjecten. In dit geval is er sprake van twee verschillende steekproeven, maar elk individu uit de ene steekproef wordt gematcht met een individu uit de andere steekproef. Individuen worden gematcht op basis van variabelen die belangrijk worden gevonden voor het desbetreffende onderzoek. Een onderzoeker die geïnteresseerd is in geheugenprocessen kan individuen bijvoorbeeld matchen op IQ-score. Natuurlijk zullen de individuen nooit helemaal hetzelfde zijn, maar toch wordt er op deze manier goed rekening gehouden met verschillen tussen individuen. Een onderzoeker kan er ook voor kiezen om mensen te matchen op meerdere variabelen. Denk in dit geval bijvoorbeeld aan sekse, leeftijd, etnische achtergrond en IQ. Op deze manier probeert de onderzoeker deze variabelen onder controle te houden. Als een onderzoeker deelnemers op veel variabelen wil matchen, kan dat wel moeilijk worden omdat hij specifiek op zoek moet gaan naar mensen die op veel fronten op elkaar lijken. Bij herhaalde metingen of gematchte subjecten bestaat de onderzoeksdata uit twee scoresets. De scores uit de ene set zijn echter wel direct gerelateerd aan de scores uit de andere set. Dit komt omdat de individuen hetzelfde zijn (herhaalde metingen) of op elkaar lijken (gematchte subjecten).

Wat is het verschil tussen t-statistiek voor gerelateerde samples en andere t-statistieken?

De t-statistiek voor gerelateerde samples is qua structuur hetzelfde als de andere t-statistieken. Het enige grote verschil is dat de t-statistiek bij gerelateerde steekproeven gebaseerd is op verschilscores in plaats van ruwe scores (X-waarden). Omdat deelnemers voor en na een behandeling onderzocht worden, heeft elke deelnemer een verschilscore. De verschilscore wordt als volgt gevonden:

D (van difference) = X₂- X₁.

In deze formule staat X₂voor de tweede keer dat een steekproef onderzocht wordt (dus na de behandeling). Als er een negatief getal uit de formule komt, betekent dit dat de mate van een verschijnsel afgenomen is na de behandeling. Een onderzoeker probeert aan de hand van verschilscores uit te vinden of er een verschil is tussen twee condities in de populatie. Hij wil weten wat er zou gebeuren wanneer elk individu in de populatie twee keer gemeten zou worden (voor en na een behandeling). De onderzoeker wil weten wat het gemiddelde van verschilscores (µ_D) in de populatie is.

Hoe is de t-toets opgebouwd?

De nulhypothese is dat het gemiddelde van de verschilscores nul is (µ_D=0). Volgens deze hypothese is het wel mogelijk dat sommige individuen in de populatie positieve verschilscores hebben. Ook is het volgens deze formule mogelijk dat andere individuen negatieve verschilscores hebben. Het gaat er echter om dat de nulhypothese stelt dat het gemiddelde van alle verschilscores nul is. De alternatieve hypothese H₁ stelt dat het gemiddelde van de verschilscores geen nul is (µ_D≠ 0).
De t-statistiek voor verschilscores wordt als volgt berekend: t= (M_D-µ_D)/s_MD.In deze formule staat M_D voor het gemiddelde van verschilscores en µ_D staat voor het gemiddelde van verschilscores uit de hypothese. Ten slotte staat s_MD voor de geschatte standaard error van de verschilscores. Om deze te berekenen moet eerst de variantie (of standaarddeviatie) van de sample van verschilscores gevonden worden (s² = SS/df). De vrijheidsgraden worden gevonden door alle scores met één te verminderen. De standaarddeviatie is: s= √SS / df.
De geschatte standaard error van de verschilscores wordt vervolgens als volgt gevonden: s_MD=s/.√n Een grote t-statistiek (zowel positief als negatief) zegt eigenlijk dat het gevonden verschil groter is dan op basis van toeval verwacht zou worden.

Hoe werkt het testen van hypothesen?

Bij het toetsen van hypothesen over verschilscores wordt in principe op dezelfde manier te werk gegaan.

Allereerst worden de nulhypothese en de alternatieve hypothese geformuleerd. De alternatieve hypothese kan, ook in dit geval, eenzijdig of tweezijdig zijn. Als de onderzoeker een vermoeden heeft over de richting van het effect, kan hij beter eenzijdig toetsen. Ook wordt er meteen een alfaniveau vastgesteld.
Vervolgens wordt het kritische gebied vastgesteld.
Daarna moet de t-statistiek berekend worden. Het is slim om eerst de variantie uit te rekenen. Met die informatie kan namelijk de geschatte standaard error van de verschilscores uitgerekend worden.
Vervolgens kan de t-formule ingevuld worden: t= (M_D-µ_D)/s_MD.
Ten slotte moet besloten worden of de gevonden t-waarde in het kritieke gebied valt (volgens de t-tabel op blz. 703). Zo ja, dan kan de nulhypothese verworden worden.

Wat is de effectgrootte?

De twee meest gebruikte metingen van effectgrootte zijn Cohen’s d en r² (proportie verklaarde variantie). Omdat Cohen’s d uitgaat van onder andere populatiewaarden (d = μ_D / σ_D) , is het handiger om d te schatten. De geschatte d kan berekend worden door het gemiddelde van de verschilscores te delen door de standaarddeviatie (d = M_D/s). Een waarde van boven de 0.8 wordt gezien als een groot effect. De proportie verklaarde variantie kan berekend worden middels de volgende formule: r² = t²/ t²+df. De spreiding in een sample beschrijft de consistentie van een effect. Met weinig spreiding is er sneller een consistent patroon in de data te zien. Als er echter veel spreiding is, wordt het moeilijker om een significant effect te vinden. Dus: hoe meer spreiding in de sample aanwezig is, des te kleiner de kans is om een significant effect te vinden.

Waarvoor worden betrouwbaarheidsintervallen gebruikt?

Net als bij andere t-toetsen, kan bij de t-toets voor herhaalde metingen het betrouwbaarheidsinterval gebruikt worden als alternatieve methode om effectgrootte en significantie te meten. Het betrouwbaarheidsinterval is een schatting van het effect door het verschil tussen populatiegemiddelden van de metingen te schatten. De formule voor de schatting is:

μ_D= M_D ± t· s_MD

De waarden van M en s worden verkregen uit de steekproefgegevens, en de t-waarde wordt verkregen uit de tabel voor t-statistiek.

Hoe wordt de t-toets gebruikt voor gerelateerde samples?

In sommige gevallen maken onderzoekers gebruik van herhaalde metingen (een sample wordt twee keer onderzocht). In andere gevallen gebruiken onderzoekers twee onafhankelijke steekproeven voor hun onderzoek. Deze steekproeven worden beide toegewezen aan verschillende condities. In het algemeen wordt de voorkeur gegeven aan het herhaald meten van één steekproef, om verschillende redenen:

Er zijn minder deelnemers nodig voor een onderzoek waarbij deelnemers herhaaldelijk onderzocht worden. Deelnemers worden dus als het ware efficiënter gebruikt door ze twee keer te bestuderen. Dit kan erg belangrijk zijn als een onderzoeker een zeldzaam fenomeen bestudeert.
Het is handig wanneer veranderingen en ontwikkelingsprocessen bestudeerd worden. Door iemand twee keer te meten, kan een onderzoeker mogelijke veranderingen vinden.
Het grootste voordeel van herhaald meten is dat problemen (veroorzaakt door individuele verschillen) geëlimineerd worden. Omdat elke persoon twee keer gemeten wordt, is elke persoon eigenlijk perfect te vergelijken met zichzelf. Elke deelnemer is een perfect match voor zichzelf. Bij herhaalde metingen is het niet mogelijk dat de deelnemers in een conditie systematisch anders zijn dan de deelnemers in een andere conditie. Dit omdat alle deelnemers in dezelfde conditie zitten. Herhaalde metingen zorgen voor het verminderen van variantie (veroorzaakt door individuele verschillen), waardoor er een grotere kans is een significant effect te vinden.

Wat zijn nadelen van de t-toets voor gerelateerde steekproeven?

Het grootste nadeel van herhaald meten is dat het design van een onderzoek ervoor kan zorgen dat de score van een deelnemer tussentijds verandert. Deze verandering komt dan niet door de behandeling zelf. Hierdoor wordt dus niet duidelijk of verschillen veroorzaakt worden door de behandeling zelf of door andere zaken. Bij een herhaalde meting wordt elke individu in twee verschillende condities op verschillende momenten bestudeerd. Factoren die door de tijd heen veranderen kunnen dus de scores van deelnemers beïnvloeden. Daarnaast kan het zijn dat het gedrag van de deelnemers tijdens de tweede meting beïnvloed wordt door de eerste meting. Veranderingen in scores die veroorzaakt worden door een eerdere meting worden volgorde-effecten genoemd.

Het voorkomen van volgorde-effecten

Een manier om volgorde-effecten tegen te gaan is counterbalancing. In dit geval worden deelnemers random verdeeld in twee groepen. De eerste groep krijgt behandeling één en daarna behandeling twee. De andere groep krijgt echter eerst behandeling twee en daarna behandeling één. Op deze manier worden externe factoren als het ware gelijk verdeeld over de twee behandelingen. Als er reden is om aan te nemen dat er sterke tijd-gerelateerde effecten of sterke volgorde-effecten zullen bestaan bij een onderzoek, dan is het een goed idee om niet herhaald te meten. Het is in dat geval beter om twee aparte steekproeven te gebruiken of deelnemers te matchen.

Welke aannames moeten gedaan worden?

De scores binnen elke conditie moeten onafhankelijk zijn om een t-toets voor gerelateerde steekproeven te kunnen doen.
Daarnaast moeten de verschilscores (D) normaal verdeeld zijn. Niet voldoen aan de deze voorwaarde is in principe niet erg, zolang de steekproef groot is. Bij een kleine sample moet wel aan deze voorwaarde voldaan worden. Onder een grote steekproef wordt een steekproef verstaan van meer dan dertig deelnemers.

Wanneer aan één of meer van de assumpties voor de t-toets voor herhaalde metingen niet wordt voldaan, kan er een alternatieve test gebruikt worden. Dit is de Wilcoxon-test, waarbij gebruik gemaakt wordt van rangscores alvorens de verschilscores te vergelijken.

Hoe werkt de analyse van variantie? - Chapter 12

Analyse van variantie (ANOVA) is een manier om hypothesen te testen. Door middel van ANOVA wordt er gekeken naar het verschil in gemiddelden tussen twee of meer groepen. ANOVA maakt gebruik van steekproefdata om algemene conclusies te trekken over de populatie. ANOVA heeft een groot voordeel boven de traditionele t-test. T-testen kunnen namelijk alleen gedaan worden als er twee behandelingen vergeleken moeten worden. Met ANOVA kunnen er meer dan twee behandelingen met elkaar vergeleken worden. Als er bijvoorbeeld drie steekproeven zijn (met drie verschillende behandelingen), kan door middel van ANOVA uitgezocht worden of er een significant verschil tussen de steekproeven bestaat. De variabele die een onderzoeker in een experiment manipuleert wordt een onafhankelijke variabele genoemd. Als een onderzoeker een variabele gebruikt die niet gemanipuleerd kan worden (bijvoorbeeld sekse), dan wordt er gesproken van een quasi-onafhankelijke variabele. Bij ANOVA wordt een onafhankelijke variabele of een quasi-onafhankelijke variabele een factor genoemd. De individuele groepen of behandelingscondities die deel uitmaken van een factor worden niveaus (levels) van de factor genoemd. Een onderzoek dat prestatie onderzoekt onder drie verschillende temperatuurcondities heeft drie temperatuurniveaus. Zoals met de verschillende soorten t-toetsen, kan ANOVA gebruikt worden in een onderzoeksdesign met twee onafhankelijke steekproeven of in een design met herhaalde metingen. Daarnaast kan ANOVA gebruikt worden als er meer dan één factor in het onderzoek gebruikt wordt.

Voorbeeld

Een onderzoeker kan er voor kiezen om twee verschillende therapievormen te onderzoeken. De onderzoeker wil bijvoorbeeld weten wat het onmiddellijke effect van de therapievormen is en wat het effect op lange termijn is. In een dergelijk onderzoek worden er twee factoren gebruikt: (1) therapievorm en (2) tijd. De eerste factor maakt gebruik van onafhankelijke samples (individuen worden verdeeld over de therapievormen), terwijl er bij de tweede factor sprake is van herhaald meten (bij iedereen wordt het korte termijn effect en het lange termijn effect gemeten). Verschillende factoren en onderzoeksdesigns kunnen door middel van ANOVA gecombineerd worden. In dit deel zal alleen ingegaan worden op onderzoeksdesigns met één factor (single-factor designs). Er is dus maar één (quasi)onafhankelijke variabele. Ook zal er alleen ingegaan worden op onderzoekdesigns met onafhankelijke groepen. Elke conditie heeft dus één steekproef. Geen enkele deelnemer is onderdeel van meerdere condities.

Hoe zijn de hypothesen bij ANOVA opgebouwd?

Stel je voor dat je drie condities onderzoekt, dan is de nulhypothese µ₁=µ₂= µ_3.Dit betekent dus dat het gemiddelde van alle condities hetzelfde is. De alternatieve hypothese is dat ten minste twee populatiegemiddelde van elkaar verschillen. De alternatieve hypothese zegt dus dat er ergens een effect waarneembaar is. Deze hypothese is behoorlijk algemeen, omdat er veel mogelijkheden zijn. De alternatieve hypothese kun je ook specifieker maken: µ₁≠µ₂ ≠ µ_3. Dit betekent dat alle gemiddelden van elkaar verschillen. Een andere mogelijke alternatieve hypothese is: µ₂= µ₃, maar µ₁ verschilt van de rest. De t-statistiek voor ANOVA lijkt erg op de eerste uitgelegde t-statistieken. In voorgaande delen is besproken dat t staat voor het gevonden verschil tussen steekproefgemiddelden/ geschatte standaardfout. Bij ANOVA wordt de t-statistiek een F-ratio genoemd; F= variantie tussen steekproefgemiddelden/ variantie verwacht op basis van toevalsverschijnselen (dus wanneer de behandeling geen effect heeft). De F-ratio wordt dus berekend middels gegevens over variantie en niet op basis van verschillen in steekproefgemiddelden. Zowel bij de F-toets als bij eerder genoemde t-testen staat een grote waarde voor bewijs dat er een significant effect (of verschil) is.

Welke type I-fouten zijn er?

Het voordeel van ANOVA boven t-toetsen is dat de kans op een type I-fout gelijk blijft bij het gebruik van meerdere hypothesen. Normaal gesproken is er voor iedere individuele vergelijking een risico op een type I-fout zo groot als het geselecteerde alfaniveau (meestal 5%). Bij meerdere condities zijn er verschillende hypothesetoetsen nodig om ze allemaal te vergelijken, en voor elke hypothesetoets is er de kans op een type I-fout. Deze stapelen op tot een groter risico voor het totale experiment dan het alfaniveau van een enkele hypothesetoets. Deze totale kans op een type I-fout wordt het experimentsgewijze alfaniveau (experimentwise alpha level) genoemd. Een testgewijs alfaniveau (testwise alpha level) is de kans op een type I-fout voor een enkele hypothesetoets. Dat is dus het geselecteerde alfaniveau. Het voordeel van ANOVA is dat alle vergelijkingen die nodig zijn om de verschillende hypothesen van één experiment te toetsen, in één keer uitgevoerd worden. Hierdoor wordt het probleem van het toenemende experimentsgewijze alfaniveau voorkomen; het alfaniveau blijft op de geselecteerde waarde.

Op welk manier zijn de formules voor ANOVA logisch?

De formules die nodig zijn bij ANOVA zijn ingewikkeld, maar er zit wel een duidelijke logica in. Stel je voor: je hebt drie steekproeven van vijf mensen die allen onder verschillende temperaturen (10, 20 en 40 graden) een leertest uitvoeren. Als onderzoeker vraag je je af of temperatuur invloed heeft op de snelheid van leren. Uit alle drie de steekproeven vloeit een ander gemiddelde voort. Er is dus verschil (variantie) aanwezig. De eerste stap is om de totale spreiding in de gehele dataset (dus van alle drie de steekproeven) te bepalen. Dit kan gedaan worden door alle scores van de steekproeven te combineren. Vervolgens moet de totale spreiding opgedeeld worden in delen. De totale variabiliteit kan opgedeeld worden in (1) tussengroepsvariantie en (2) binnengroepsvariantie. Van tussengroepsvariantie is sprake als een groep duidelijk systematisch hoger of lager scoort dan de andere groep(en). Het kan bijvoorbeeld zijn dat iedereen in de steekproef met 20 graden systematisch hoger scoort in vergelijking tot de andere twee steekproeven. Binnen-groepsvariantie houdt in dat er spreiding is binnen elke groep. Niet iedereen in een steekproef scoort hetzelfde. Het analyseren van deze twee soorten variantie is eigenlijk het belangrijkste onderdeel van ANOVA.

Wat is tussengroepsvariantie en groepsvariantie?

Variantie gaat over de mate waarin er verschillen bestaan tussen scores. De tussengroepsvariantie gaat dan ook over de verschillen tussen condities (groepen). Het doel van ANOVA is uitvinden of verschillen tussen condities wel of geen toevalsverschijnselen zijn. Als er sprake is van een toevalsverschijnsel is er geen effect. In dat geval verschillen de scores alleen omdat elke sample bestaat uit verschillende individuen. Als er wel een effect is zijn de verschillen tussen de groepen groter dan wat er verwacht zou worden op basis van toeval. Kortom: er zijn altijd twee mogelijke verklaringen voor de variantie tussen condities: (1) effect en (2) toeval. Er zijn twee oorzaken van verschillen op basis van toeval, (1) individuele verschillen en (2) experimentele fout. Er zijn altijd individuele verschillen omdat er in elke conditie andere deelnemers zitten. Het is daarom logisch om verschillen te verwachten, al kunnen deze verschillen nooit voorspeld worden. Experimentele fout houdt in dat er bij een meting altijd een mate van fout aanwezig is. Al meet je hetzelfde individu meerdere malen in dezelfde omstandigheden, het is mogelijk om twee verschillende resultaten te vinden. Omdat deze verschillen niet verklaard of voorspeld kunnen worden, noemen we ze uitingen van toeval. Binnen elke conditie zijn er individuen die precies dezelfde behandeling krijgen (ze worden bijvoorbeeld allemaal getest onder 20 graden). Toch hebben deze individuen verschillende scores. Hoe kan dat? Het antwoord is dat verschillen binnen een conditie het gevolg zijn van toeval. De binnengroepsvariantie meet dus hoeveel verschil normaal is op basis van alleen toeval. De vraag is dus hoe groot verschillen tussen individuen zijn (maar wel binnen condities) als er geen sprake is van een effect. Kortom: hoe groot kunnen individuele verschillen zijn wanneer de nulhypothese klopt?

Hoe worden tussen- en binnengroepsvariantie vergeleken?

Nadat de totale variabiliteit is opgedeeld in twee onderdelen (tussen- en binnengroepsvariantie) moeten deze onderdelen met elkaar vergeleken worden. Dit wordt gedaan door middel van de F-ratio.

Voor een ANOVA met onafhankelijke steekproeven wordt de F-ratio als volgt gevonden: variantie tussen condities/variantie binnen condities. Eigenlijk staat dat dus gelijk aan: verschillen veroorzaakt door effect/ verschillen veroorzaakt door toeval.
We kunnen elk component ook in termen van oorzaken noteren: F= (effect + verschillen door toeval)/ verschillen door toeval.

Wanneer er geen effect is, zijn de verschillen tussen de behandelingen alleen het gevolg van toeval. In dat geval is de F-ratio 1. Als er geen effect is, dan vinden we het volgende: F= (0+verschillen door toeval)/verschillen door toeval. Met een F-ratio rond de 1 kunnen we concluderen dat er geen effect is. Wanneer een behandeling wel effect heeft, zal de noemer uit de formule (verschillen door effect) groter moeten zijn dan de teller (verschillen door toeval). Een grote F-ratio zegt dan ook dat verschillen tussen condities groter zijn dan verwacht zou worden door toeval alleen. Bij ANOVA wordt de teller van de F-ratio de error term genoemd. De error term geeft een beeld van de variantie als gevolg van toeval. Wanneer er geen effect is (de nulhypothese is waar), meet de error term dezelfde bronnen van variantie (namelijk toeval) als de noemer van de F-ratio. De waarde van de F-ratio is in dat geval 1.

Welke formules worden er gebruikt bij ANOVA?

De letter k geeft het aantal condities (het aantal niveaus van de factor) weer. In ons onderzoek heeft de factor temperatuur drie condities (k=3).
Het aantal scores in elke conditie wordt aangeduid met de letter n. In ons geval zijn er vijf deelnemers per conditie (n=5). Als het aantal deelnemers per conditie verschilt, kunnen ze allemaal apart aangeduid worden. Het totale aantal scores in het gehele onderzoek wordt aangeduid met hoofdletter N. Wanneer alle samples van dezelfde grootte zijn, is N hetzelfde als k x n.
Het totaal (ΣX) voor elke conditie wordt aangeduid met de letter T. Het totaal voor een specifieke conditie kan vermeld worden met een klein cijfertje onder de T. Het totaal voor conditie twee wordt bijvoorbeeld aangeduid met T_2.
Alle scores (uit alle condities) bij elkaar opgeteld wordt door middel van de hoofdletter G vermeld. G kan gevonden worden door alle N- scores bij elkaar op te tellen; G=ΣT.
Voor elke steekproef kan SS en M berekend worden. Zoals gezegd wordt de F-ratio gevonden door de variantie tussen condities te delen door de variantie binnen de condities. De variantie voor elke steekproef wordt gevonden door SS te delen door de vrijheidsgraden: s²= SS/df. We moeten de SS en df eerst berekenen voor de variantie tussen de condities (de noemer van de F-ratio). Ook moeten we de SS en df berekenen voor de variantie binnen de condities (de teller van de F-ratio). Deze waarden worden gevonden door eerst de SS voor het gehele onderzoek te berekenen. Deze wordt vervolgens opgedeeld in tussen- en binnengroepsvariantie. Daarna worden de vrijheidsgraden voor het totale onderzoek berekend. Ook wordt deze opgedeeld in twee componenten. In ons geval zijn er dus negen berekeningen: drie keer een SS- berekening (voor alle drie de condities), drie keer een vrijheidsgraadberekening, twee varianties (tussen en binnen de groepen) en een uiteindelijke F-ratio.

Som van afwijkingen (SS)

Eerst wordt de totale som van afwijkingen (SS_total) berekend. De bijbehorende formule is: SS=ΣX²- (ΣX)²/N. Om deze formule beter te laten integreren in de notatie voor ANOVA, maken we er SS=ΣX²- G²/N van.
Vervolgens kijken we naar de binnengroepsvariantie en de bijbehorende SS (SS_{within treatments}). Dit doen we door de SS voor alle condities bij elkaar op te tellen.
Vervolgens moet de tussen- groepen variantie gevonden worden (SS_{between treatments}).Deze wordt gevonden door van SS_totalde SS binnen de groepen af te trekken; SS_between= SS_total- SS_within.
De SS tussen de groepen kan ook op een directe manier gevonden worden: SS_between= n(SS_means). Een kleine n staat zoals gezegd voor het aantal deelnemers per conditie. Om SS_means te vinden moeten de gemiddelden van alle condities opgeteld worden.
Een andere bruikbare formule (om de som van afwijkingen tussen de groepen te vinden) is: Σ (T²/n)- (G²/N). Voor een voorbeeld van de uitwerkingen van deze formules zie blz. 405.

Vrijheidsgraden bij ANOVA

Elke vrijheidsgraad is gerelateerd aan een specifieke SS-waarde.

Het aantal vrijheidsgraden voor het totaal (df_total) wordt gevonden door het aantal scores (van alle condities samen) bij elkaar op te delen en daar één van af te trekken (df_total=N-1). In ons onderzoek waren er vijf deelnemers per conditie, dus df_total is 15-1=14.
Vervolgens moeten de vrijheidsgraden voor de binnengroepsvariantie gevonden worden (df_within). Deze kan als volgt gevonden worden: (df_within)=Σ(n-1) = Σdf_{in each treatment}. Elke conditie heeft in ons onderzoek vijf deelnemers. Er zijn dus 5-1=4 vrijheidsgraden voor elke conditie. Omdat er drie condities zijn geeft dat 4x3=12 vrijheidsgraden voor de binnengroepsvariantie. Daarnaast kan df_within ook verkregen worden door N-k. Er zijn in totaal vijftien scores (vijf per conditie) en drie condities. Dat geeft dus 15-3=12. Beide formules geven dus dezelfde uitkomst.
Tot slot zijn er de vrijheidsgraden die horen bij de tussengroepsvariantie (df_between). Om deze te vinden moet van het aantal condities één afgetrokken worden; (df_between=k-1). In ons geval is dat 3-2=1. Als de vrijheidsgraden van de tussengroepsvariantie (14) en de vrijheidsgraden van de binnengroepsvariantie (2) worden opgeteld kom je precies uit op de vrijheidsgraden voor het totaal (14). Voor een voorbeeld van de uitwerkingen van deze formules zie blz. 405.

MS

Vervolgens moet de variantie tussen en binnen de condities berekend worden om de F-ratio te vinden. Bij ANOVA wordt liever de term mean square (MS) gebruikt in plaats van variantie. De bijbehorende formule is hetzelfde als voor de variantie: MS = s²= SS/df.

Om de MS voor tussen de groepen te vinden wordt de volgende formule gebruikt: MS_between= s²_between= SS_between/df_between.
Voor de MS binnen de groepen is de formule: MS_within= SS_within/df_within.
Vervolgens wordt de F-ratio gevonden door deze waarden door elkaar te delen: F= MS_between/ MS_within.Door middel van deze waarde kan gekeken worden of de nulhypothese (namelijk dat alle drie de groepen hetzelfde scoren en dat er dus geen effect is) behouden of verworpen moet worden.

De F-distributie

Zoals gezegd klopt de nulhypothese als de uitkomst van de F-ratio 1 (or rond de 1) is. Wanneer ligt een waarde echter nog dicht bij de 1? Om deze vraag te beantwoorden moet er gekeken worden naar de distributie van F-ratio’s. Omdat F-ratio’s berekend worden door middel van twee varianties, zijn F- waarden altijd positief. Wanneer de nulhypothese waar is, meten de noemer en teller van de F-ratio dezelfde variantie. In dit geval zijn de twee steekproefvarianties ongeveer van dezelfde grootte, zodat de F-ratio ongeveer 1 is. In een grafiek begint de curve bij nul (omdat er geen negatieve F- waarden zijn) en wordt de piek bereikt bij 1. Daarna zwakt de grafiek langzaamaan af, waardoor de staart van de F- grafiek zich aan de rechterkant bevindt. Gevonden F- waarden kunnen opgezocht worden in de F- tabel (blz. 731). Deze is zo opgesteld dat eerst de vrijheidsgraden van de noemer en daarna de vrijheidsgraden van de teller opgezocht moeten worden in de tabel. In ons voorbeeld is dat F(2,12). Daarna moet in dat deel van de tabel de gevonden F-waarde opgezocht worden. Deze ligt tussen twee genoemde waarden uit de tabel. De kans op deze waarden staat ook in de tabel. Als er bijvoorbeeld één procent kans is op de gevonden F-waarde, kan de nulhypothese verworpen worden bij een alfa van 5%. Als er echter meer dan vijf procent kans is op het gevonden resultaat, dan moet de nulhypothese behouden worden. Als de nulhypothese verworpen wordt in ons onderzoek, kunnen we dus stellen dat temperatuur wel degelijk invloed heeft op leren.

Voorbeeld van hypothesetoets met ANOVA

Om een analyse van variantie uit te voeren, worden er vier stappen uitgevoerd.

Stel de nulhypothese en alternatieve hypothese op en stel een alfaniveau vast. Een voorbeeld van de hypotheses kan zijn:

H₀: µ₁ = µ₂ = µ₃

H₁: ten minste één van de gemiddelden is anders

Een alfaniveau is bijvoorbeeld α = .05

Stel de vrijheidsgraden van de tussengroepsvariantie en binnengroepsvariantie vast om de kritische regio voor de F-ratio te vinden in de tabel, df = df_between, df_within, waarbij geldt dat df_within = ∑df en df_between = k – 1.
De volgende berekeningen moeten worden uitgevoerd om de F-ratio te vinden:
Bereken de MS_between en MS_withinals volgt: MS_between= SS_between/df_betweenen MS_within = SS_within/df_within. Omdat er bij SS_within gekeken wordt naar alle SS-waarden binnen alle condities, is SS_withinis hetzelfde als ∑SS en df_withinis hetzelfde als ∑df.
Om de F-ratio te bereken, geldt F = MS_between/MS_within. (voor alternatieve berekeningen en een voorbeeld, zie blz. 415).
Tenslotte komen we tot een beslissing, waarbij we kijken of de gevonden F-ratio in de kritische regio valt. Net als bij de t-toets geldt dat de nulhypothese verworpen moet worden als de gevonden F-ratio in de kritische regio valt.

Belangrijk om te onthouden is dat de grootte van de steekproef de resultaten van ANOVA kan beïnvloeden. Hoe groter de steekproef, hoe groter de kans om bewijs te vinden om de nulhypothese te verwerpen. Op de waarde van η² heeft de steekproefgrootte nauwelijks invloed. Daarnaast kan veel variantie binnen de groepen problemen veroorzaken. Zo’n probleem kan vermeden worden door middel van een alternatieve statistische analyse: de Kruskal-Wallistoets. Hierbij worden de data omgezet naar ordinaal niveau, en worden rangscores gebruikt. De Kruskal-Wallistoets kan tevens gebruikt worden als er aan andere aannames van ANOVA niet voldaan wordt.

Wat is er belangrijk aan de effectgrootte, MS en gepoolde variantie?

Zoals eerder gezegd is er sprake van een significant effect wanneer er maar een heel kleine kans is dat specifieke scores komen door toevalsverschijnselen. Om de grootte van een effect te vinden, kan bij ANOVA de proportieverklaarde variantie (r²) berekend worden. Dat wil zeggen: de proportieverklaarde variantie meet hoeveel van de gevonden verschillen tussen de scores is veroorzaakt door de verschillen tussen de behandelingen (of condities).

Deze wordt als volgt gevonden: r²= SS_between/ SS_total. Vaak wordt in onderzoeksliteratuur over ANOVA gesproken van η² (eta-squared) in plaats van r² . De variantie van een steekproef draagt op directe wijze bij aan de waarde van MS_within. Bij de F-ratio worden (net zoals bij de t-toets) de varianties van aparte samples gepoold om een gemiddelde waarde te creëren voor de steekproefvariantie.
De gepoolde variantie voor de t-t est met onafhankelijke steekproeven was s²_p = (SS₁+ SS₂)/ df₁+ df_2. Bij ANOVA worden twee of meer steekproeven gecombineerd om MS_within te vinden: MS_{within =}SS_within/ df_within.Dit is hetzelfde als ΣSS/Σdf. Het aantal te berekenen is bij ANOVA dus vaak meer dan twee in verband met het aantal condities.
MS_between is dus de noemer van de F-ratio. Deze meet hoe groot het verschil is tussen de gemiddelden van de condities. Hoe groter dit verschil is, des te groter de F-ratio is.
De teller van de F-ratio (MS_within) meet de variantie van de scores binnen elke conditie. Grote spreiding binnen condities maken het moeilijk om een verschil in gemiddelden te ontdekken. Bij ANOVA wordt de MS- waarde in de teller van de F-ratio de error term genoemd. Deze meet de mate van error variabiliteit die onverklaard blijft. Deze onverklaarde verschillen in scores zijn het gevolg van toevalsverschijnselen. De error term wordt gebruikt als maatstaf om te bepalen of de MS_between (de verschillen tussen de condities) groter zijn dan verwacht zou worden op basis van toeval.

Wat zijn post-hoc testen?

Zoals eerder gezegd is het grootste voordeel van ANOVA (in vergelijking tot t-toetsen) dat verschillen tussen meer dan twee condities onderzocht kunnen worden. Als de nulhypothese verworpen wordt middels de F-ratio, betekent dat dus dat er een significant verschil bestaat. Maar waar zit dat significante verschil dan? Als je bijvoorbeeld drie condities hebt en een significante F-ratio, dan weet je niet welke condities nou significant van elkaar verschillen. Verschillen ze allen van elkaar, of verschilt één conditie van de andere twee? Het is met de F-ratio dus niet meteen duidelijk welke gemiddelden nou van elkaar verschillen. Met post-hoc testen (of posttesten) kan nagegaan worden waar de significante verschillen zitten. Post-hoc testen worden, zoals de naam al zegt, altijd na ANOVA gedaan. De nulhypothese moet eerst verworpen worden en er moeten drie of meer condities zijn om een post-hoc test te doen. Dit omdat bij twee condities gezegd kan worden dat ze van elkaar verschillen. Waar het verschil zit is dan meteen duidelijk. Bij drie of meer condities is dit een ander verhaal.

Post-hoc testen en Type 1 fouten

Middels post-hoc testen worden steeds twee condities met elkaar vergeleken, er worden dus paren van vergelijkingen gemaakt. Bij drie condities kunnen bijvoorbeeld µ₁metµ₂, µ₂met µ₃ enµ₁met µ₃vergeleken worden. Bij deze verschillende paren van vergelijkingen horen ook verschillende hypothesetesten om uit te vinden welke condities nou significant van elkaar verschillen. Het nadeel is echter wel dat de kans op een type-I fout met zoveel testen toeneemt. Dit wordt ook wel experimenteel alfaniveau (experimentwise alpha level) genoemd. Als je bijvoorbeeld voor elke test een alfa van 5% gebruikt, heb je bij drie testen al ongeveer drie keer zo veel kans op een type 1 fout.

Wat is het verschil tussen geplanden en ongeplande vergelijkingen?

Statistici maken vaak onderscheid tussen geplande en ongeplande vergelijkingen.

Een geplande vergelijking ontstaat wanneer een onderzoeker vergelijkingen maakt die specifiek van belang zijn voor de hypothesen van het onderzoek. Stel je voor dat je als onderzoeker bijvoorbeeld denkt dat mensen beter leren onder een temperatuur van 20 graden. Je stelt drie leercondities op: 10, 20 en 40 graden. De onderzoeker zal in dit geval gebruik maken van geplande vergelijkingen, omdat hij vermoedt dat mensen beter leren onder 20 graden. Hij zal de tweede conditie (20 graden) dan vergelijken met de rest. Hij zal dus conditie 2 met conditie 1 en conditie 2 met conditie 3 vergelijken. Hij kan zich beschermen tegen de oplopende kans van een type-I fout door alfa te delen door het aantal geplande vergelijkingen. Als de onderzoeker gebruik maakt van een alfa van 5%, moet hij deze in ons geval dus door twee delen (omdat hij twee geplande vergelijkingen maakt). Uiteindelijk moet hij dus gebruik maken van een alfa van 2,5%.
Van een ongeplande vergelijking is sprake wanneer een onderzoeker geen vermoeden heeft over een effect en allerlei post-hoc testen uitvoert in de hoop een significant effect te kunnen vinden. Ook in dit geval moet de kans op een type-I fout beperkt worden. Dit kan middels de Tukey’s HSD test en de Scheffé test.

Waarvoor worden Tukey’s HSD test en de Scheffé test gebruikt?

Tukey’s HSD test wordt vaak gebruikt in psychologisch onderzoek. Door deze test kan een minimaal verschil tussen condities vastgesteld worden dat nodig is om een significant effect te vinden. Deze waarde wordt de honestly significant difference (HSD) genoemd. Deze waarde wordt vervolgens gebruikt om twee condities met elkaar te vergelijken. Als het gemiddelde verschil tussen deze condities groter is dan de vastgestelde HSD, dan kan geconcludeerd worden dat er een significant verschil tussen de condities bestaat. Deze waarde kan als volgt gevonden worden: HSD = q * √MSwithin / n. De waarde van q kan gevonden worden in de bijbehorende tabel. Om q te vinden moet een onderzoeker het aantal condities kennen (k) en de vrijheidsgraden die horen bij MS_within. De kleine letter n staat voor het aantal scores in elke conditie. Bij deze test moeten het aantal scores per conditie gelijk zijn. De Scheffé test is erg voorzichtig bij het verkleinen van het risico op een type 1 fout. Daarom wordt deze test als de veiligste van alle mogelijke post-hoc testen gezien. De Scheffé test gebruikt een F-ratio om een significant verschil tussen twee condities te testen. De noemer van de F-ratio is een MS_between die berekend wordt door alleen de twee condities te gebruiken die je wilt vergelijken. De teller van de F-ratio is dezelfde MS_within die gebruikt is voor de gehele ANOVA. Al vergelijk je twee condities, de Scheffé test gebruikt de waarde van k (het aantal condities) uit het oorspronkelijke onderzoek om de vrijheidsgraden (df) te berekenen tussen de condities. Dus de vrijheidsgraden voor de noemer van de F-ratio is k-1. De kritische waarde voor de Scheffé test is hetzelfde als de kritische waarde die gebruikt wordt voor de F-ratio van de gehele ANOVA.

Wat is het verschil in resultaten van ANOVA en t-testen?

Een gevonden F-waarde is hetzelfde als het kwadraat van een gevonden t (F=t²). Als een onderzoeker bijvoorbeeld een t-test met twee onafhankelijke steekproeven uitvoert, kan daar een verschil van gemiddelden uitvloeien. Hij vindt bijvoorbeeld een t-waarde van 2.00. Als de onderzoeker gebruik had gemaakt van ANOVA, zou de F-waarde 4.00 zijn. De vrijheidsgraden voor de t-statistiek en de vrijheidsgraden voor de teller van de F-ratio zijn hetzelfde. Als je bijvoorbeeld twee steekproeven hebt (elk met zes scores), zullen de vrijheidsgraden voor de t-test met twee onafhankelijke metingen 10 zijn. In de F- tabel wordt dit opgezocht als F(1,10). In beide gevallen worden de vrijheidsgraden van de eerste steekproef (n-1) en de vrijheidsgraden van de tweede steekproef (n-1) opgeteld. De t-distributie en de F- distributie matchen perfect als je ervan uitgaat dat F het kwadraat van t is.

Hoe werkt ANOVA met herhaalde metingen? - Chapter 13

In dit deel zal ingegaan worden op ANOVA met herhaalde metingen. De technieken die uitgelegd zullen worden zijn ook toepasbaar op onderzoeksdesigns met gematchte deelnemers (matched-subjects design). In de praktijk wordt dit laatstgenoemde design echter weinig gebruikt. In het vorige deel is ingegaan op ANOVA voor onafhankelijke steekproeven. In dit geval worden deelnemers toegewezen aan verschillende condities. In dit deel gaat het over deelnemers die allen aan dezelfde conditie(s) worden toegewezen. In de praktijk kan het bijvoorbeeld gaan om depressieve mensen die allemaal gebruik maken van therapievorm A, therapievorm B en therapievorm C. De deelnemers worden bij herhaalde metingen dus niet verdeeld over de condities.

Wat zijn de hypothesen voor ANOVA met herhaalde metingen?

De hypothesen voor de ANOVA met herhaalde metingen zijn niet verschillend. Weer gaan we ervan uit dat er geen verschil bestaat tussen de condities. De nulhypothese is dan ook: µ₁=µ₂= µ₃= … Volgens de nulhypothese hebben dus alle behandelingen hetzelfde effect. Verschillen tussen gemiddelden zijn volgens de nulhypothese het gevolg van toeval en niet het gevolg van een echt effect. De alternatieve hypothese stelt dat tenminste één gemiddelde verschilt van de rest. Ook in dit geval wordt de F-ratio gebruikt om uit te zoeken of er een significant verschil bestaat. De F-ratio onderzoekt de verschillen tussen de behandelingen en de verschillen die verwacht zouden worden door toeval. Een grote F-waarde zegt dat er een significant effect bestaat. De structuur van de F-ratio is dus hetzelfde voor onafhankelijke metingen en voor herhaalde metingen. Er is echter wel een fundamenteel verschil tussen beide designs. Een eigenschap van het design met herhaalde metingen is dat deze de variantie wegneemt die veroorzaakt wordt door individuele verschillen doordat iedere persoon meerdere malen gemeten wordt. Dit is niet het geval bij onafhankelijke samples. Onder individuele verschillen worden variabelen zoals leeftijd, sekse, persoonlijkheid en IQ verstaan. Het is bij een onderzoek met onafhankelijke steekproeven bijvoorbeeld mogelijk dat mensen met een hoog IQ systematisch aan één conditie worden toegewezen, terwijl mensen met een gemiddeld IQ allemaal in de andere conditie zitten. Verschillen tussen deze groepen komen dan door IQ-verschillen en niet door een echt effect. Bij een design met herhaalde metingen bestaat dit probleem gelukkig niet. Gevonden verschillen kunnen in dit geval niet komen door individuele verschillen. Verschillen tussen gemiddelden kunnen daarom alleen het gevolg zijn van:

Een echt effect. Van een echt effect is sprake als iedereen door bijvoorbeeld therapievorm B minder depressief is geworden.
Error of toeval. Er is sprake van error wanneer je iemand bijvoorbeeld twee keer een IQ- test laat maken in een maand. Hoogstwaarschijnlijk komt er niet precies dezelfde score uit. Er is altijd een mate van error. Omdat deze verschillen onsystematisch en onvoorspelbaar zijn, worden ze toegeschreven aan toeval of experimentele error. Daarom is F bij ANOVA met herhaalde metingen: verschillen tussen behandelingen/verschillen door toeval of error. Omdat er dus geen sprake is van individuele verschillen, is hier ook geen verwijzing naar in de formule. Als er geen effect van behandelingen bestaat, meten de noemer en teller van de F-ratio precies dezelfde variantie. In dit geval is de waarde van F ongeveer 1. Als er wel een effect bestaat, is de F-waarde groot. De nulhypothese moet dan verworpen worden.

Uit welke stappen bestaat ANOVA?

ANOVA kan gezien worden als een proces met twee stappen.

Allereerst wordt de totale variantie opgedeeld in twee componenten: tussengroepsvariantie en binnengroepsvariantie. Dit gaat op dezelfde manier als bij ANOVA met onafhankelijke steekproeven.
De tweede stap is het verwijderen van individuele verschillen uit de teller van de F-ratio. Om dat te doen meten we eerst de variantie binnen de condities. Daar halen we de tussengroepsvariantie van af. De tussengroepsvariantie meet de grootte van de individuele verschillen. De overgebleven variantie wordt de residuele variantie of error variantie genoemd. Deze variantie geeft een idee van de variantie die verwacht wordt op basis van alleen toeval (nadat de individuele verschillen verwijderd zijn). Deze tweede stap maakt dus het onderscheid tussen ANOVA met herhaalde metingen en ANOVA met onafhankelijke steekproeven.

Stap 1

Allereerst worden, net zoals bij de ANOVA voor onafhankelijke steekproeven, de SS en df voor de totale dataset uitgerekend. De formules zijn ook hetzelfde: SS_total=ΣX²- G²/N.
De vrijheidsgraden voor de totale set worden ook op dezelfde manier gevonden: df_total= N-1. N staat voor het totaal aantal scores uit de hele dataset.
Deze waarden worden vervolgens opgedeeld in binnengroepsvariantie tussengroepsvariantie. SS_{within treatments} wordt gevonden door de SS van elke conditie op te tellen (ΣSS).
De df_{within treatments} wordt gevonden door de vrijheidsgraden voor elke conditie op te tellen (Σdf).
De SS van de tussengroepsvariantie wordt als volgt gevonden: SS_{between treatments}=Σ (T²/n)- (G²/N).
De bijbehorende vrijheidsgraden worden gevonden door van het aantal condities één af te trekken (df_{between treatments}= k-1).

Stap 2

Vervolgens worden de individuele verschillen uit de teller van de F-ratio verwijderd. Omdat dezelfde individuen gebruikt worden bij elke conditie, is het mogelijk om de grootte van individuele verschillen te meten.

Allereerst wordt de SS tussen de deelnemers gemeten (dit is dus wat anders dan wat we hiervoor gedaan hebben!). SS_{between subjects}= Σ(P²/k)- (G²/N). In deze formule staat P voor het totaal van alle opgetelde scores per deelnemer en k staat voor het aantal behandelingen (of condities).
De bijbehorende vrijheidsgraden worden gevonden door n-1 uit te rekenen (df_{between subjects} = n-1). De waarde van SS_{between subjects} geeft een goed beeld van de grootte van verschillen tussen deelnemers.
Vervolgens willen we de individuele verschillen verwijderen uit de teller van de F-ratio. Dat doen we door een errorwaarde uit te rekenen: SS_error = SS_{within -}SS_between.Bij deze error horen ook vrijheidsgraden: df_error = df_{within treatments} - df_{between subjects.}

Hoe bereken je de MS en effectgrootte?

Om de F-ratio uit te kunnen rekenen zijn nog de waarden van MS (mean square) nodig.

De MS tussen de behandelingen wordt als volgt berekend: MS_{between treatments}= SS_{between treatments}/df_{between treatments.}
De MS_error is SS_error/df_error. Met deze informatie kan de F-toets uitgevoerd worden: F= MS_{between treatments}/ MS_error.
Bij ANOVA met herhaalde metingen is F eigenlijk: effect + toeval/error (zonder individuele verschillen)/ toeval/error (zonder individuele verschillen).
De meest makkelijke manier om effectgrootte te meten is middels de proportie verklaarde variantie (r²). In de context van ANOVA wordt effectgrootte η² (eta-squared) genoemd in plaats van r² . Deze kan als volgt gevonden worden bij ANOVA met onafhankelijke samples: η² = SS_{between treatments}/ (SS_{between treatments}+ SS_{within treatments}). Dit is hetzelfde als: SS_{between treatments}/ SS_total. Bij ANOVA met herhaalde metingen wordt η² gevonden door: SS_{between treatments}/ (SS_total- SS_{between subjects}). Deze formule wordt in het algemeen de formule van de partiële eta squared genoemd, omdat deze niet gebaseerd is op de totale variabiliteit (SS_{between subjects} wordt namelijk weggehaald). De volledige formule voor de eta squared voor ANOVA met herhaalde metingen is: SS_{between treatments}/ (SS_{between treatments}+ SS_error). Voor een rekenvoorbeeld van ANOVA met herhaalde metingen zie blz. 452.

Welke aannames moeten er gedaan worden?

Er zijn drie aannames voor de ANOVA met herhaalde metingen.

De scores in elke conditie moeten onafhankelijk zijn.
Daarnaast moet de populatiedistributie van elke behandeling normaal verdeeld zijn (deze aanname is vooral van belang als een onderzoeker gebruik maakt van een kleine steekproef).
Tot slot moeten de varianties van de populatiedistributies (behorend bij elke conditie) ongeveer gelijk zijn.

Hoe werkt ANOVA met twee factoren? - Chapter 14

Het doel van veel onderzoeken is uitvinden wat de relatie tussen twee variabelen is. Een onderzoeker probeert daarom controle uit te oefenen over deze twee variabelen om de invloed van externe factoren te beperken. Hij kan bijvoorbeeld geïnteresseerd zijn in één onafhankelijke variabele (waarvan verwacht wordt dat deze gedrag beïnvloedt) en in één afhankelijke variabele (die het effect van de onafhankelijke variabele laat zien). In de praktijk wordt gedrag echter beïnvloed door verschillende factoren die interactie vertonen. Om deze complexe effecten uit te zoeken, ontwerpen onderzoekers vaak onderzoeken met meer dan één onafhankelijke variabele. Kortom: onderzoekers manipuleren twee of meer variabelen om het effect op gedrag te observeren. In de voorgaande delen is vooral gericht op ANOVA met één factor. In dit deel zal ingegaan worden op ANOVA met twee factoren. Een design met meer dan één factor wordt een factorieel design genoemd. De ANOVA met twee factoren combineert meerdere hypothesen. Er moeten daarom ook meerdere hypothesetesten gedaan worden. Weer wordt er gewerkt met de F-ratio: verschillen tussen de steekproefgemiddelden/verschillen verwacht door toeval of de steekproeffout.

Voorbeeld

Je kunt geïnteresseerd zijn in de mate waarin licht en temperatuur invloed hebben op de snelheid van leren. Je kunt voor licht twee condities creëren: geen licht en normaal licht. Voor temperatuur kun je drie soorten temperaturen gebruiken: 10, 20 en 30 graden. Deze condities van de twee factoren moeten vervolgens gecombineerd worden. In totaal zijn er dan zes condities. Dit worden ook wel cellen genoemd, omdat de gecombineerde factoren in een matrix worden weergegeven. Iedere cel staat voor één van de combinaties van de twee factoren. Er is bijvoorbeeld een conditie van 20 graden en geen licht, maar ook van 30 graden en normaal licht. De onderzoeker is geïnteresseerd in drie dingen:

De verschillen in gemiddelden tussen de lichtniveaus.
De verschillen in gemiddelden tussen de temperatuurniveaus.
Verschillen in gemiddelden die ontstaan door een unieke combinatie van een specifieke temperatuur en een specifiek lichtniveau. Een voorbeeld is dat leren heel erg bevorderd wordt wanneer mensen onder normaal licht en in een ruimte met 20 graden moeten leren.

Welke hoofdeffecten zijn er?

Factoren krijgen een letter - de factor licht krijgt bijvoorbeeld de letter A en de factor temperatuur krijgt de letter B. Het doel van een experiment is nagaan of deze factoren onafhankelijk of samen zorgen voor verschillen in gemiddelden. Om na te gaan wat voor invloed licht heeft op leerprestatie, moeten de gemiddelde scores vergeleken worden van alle deelnemers in de conditie met normaal licht en de deelnemers in de conditie met geen licht.

Het gemiddelde van de conditie ‘normaal licht’ wordt gevonden door alle gemiddelde scores op te tellen van de drie temperatuurniveaus die gecombineerd zijn met de conditie ‘normaal licht’. Er zijn dus in totaal drie rijgemiddelden waar het gemiddelde van berekend moet worden. Het gemiddelde van de conditie ‘geen licht’ wordt gevonden door alle gemiddelde scores op te tellen van de drie temperatuurniveaus die gecombineerd zijn met de conditie ‘geen licht’. Er zijn ook in dit geval drie rijgemiddelden waarmee gerekend moet worden. Het verschil tussen deze twee gemiddelden wordt het hoofdeffect voor factor A genoemd.
Daarnaast zijn er drie kolomgemiddelden (van de drie temperatuurniveaus). Het gemiddelde voor de conditie ’10 graden’ wordt gevonden door de het gemiddelde te nemen van de combinatie van ’10 graden met ‘geen licht’ en ‘normaal ‘licht. Dit wordt vervolgens ook gedaan voor de andere twee temperatuurniveaus. De verschillen in gemiddelden tussen deze drie temperatuurniveaus vormen het hoofdeffect van factor B.

Welke hypothesen zijn belangrijk?

Het bestaan van verschillen in gemiddelden (bijvoorbeeld bij drie temperatuurniveaus) betekent niet meteen dat deze verschillen ook daadwerkelijk statistisch significant zijn. Bij ANOVA met twee factoren moet getoetst worden of de hoofdeffecten A en B significant zijn. Hier zijn dus twee hypothesen aan verbonden.

Voor de factor A is de nulhypothese: µ_A1= µ_A2.Deze hypothese stelt dat er geen significant verschil bestaat tussen de conditie ‘geen licht’ en ‘normaal licht’. De alternatieve hypothese stelt dat er wel een significant verschil bestaat: µ_A1≠ µ_A2. Om deze hypothesen te toetsen wordt een F-ratio berekend die een vergelijking maakt tussen de echte verschillen tussen de lichtniveaus en de verschillen die verwacht zouden worden op basis van alleen toeval. Kortom: F= verschillen tussen de gemiddelden voor factor A/ verschillen die verwacht zouden worden op basis van toeval/error. Dit is hetzelfde als: F= verschillen tussen de rijgemiddelden/ verschillen die verwacht zouden worden op basis van toeval/error.
Voor factor B is er een vergelijking tussen drie temperatuurniveaus. De nulhypothese stelt: µ_B1= µ_B2= µ_B3. De alternatieve hypothese stelt dat ten minste één gemiddelde verschilt van de rest. De bijbehorende F-ratio is: verschillen tussen de gemiddelden voor factor B/verschillen die verwacht zouden worden op basis van toeval/error. Een alternatief is: verschillen tussen de gemiddelden voor de kolomgemiddelden/verschillen die verwacht zouden worden op basis van toeval/error.

Hoe onstaat een interactie tussen twee factoren?

Met ANOVA voor twee factoren is het ook mogelijk om het unieke effect van combinaties van factorniveaus te bekijken. Een interactie tussen twee factoren ontstaat wanneer de verschillen in gemiddelden tussen individuele niveaus (of cellen) anders zijn dan wat verwacht zou worden op basis van alleen de hoofdeffecten van de factoren. Een voorbeeld is dat mensen heel goed leren onder normaal licht én een temperatuur van 10 graden, terwijl dit effect niet bestaat wanneer er onder normaal licht of een temperatuur van 10 graden wordt geleerd. Ook voor het interactie-effect is er een hypothese bedacht.

De nulhypothese stelt dat er geen interactie is tussen factor A en B. Alle verschillen in gemiddelden tussen condities worden volgens de nulhypothese verklaard door de hoofdeffecten van de twee factoren.
De alternatieve hypothese stelt dat er een interactie tussen de twee factoren bestaat. De verschillen in gemiddelden tussen condities zijn volgens deze hypothese niet (alleen) het gevolg van de hoofdeffecten van de twee factoren.
De bijbehorende F-ratio is: verschillen in gemiddelden die niet verklaard worden door de hoofdeffecten/ verschillen die verwacht worden op basis van toeval of error.

Hoe zien de grafieken er uit?

Als twee factoren onafhankelijk zijn, beïnvloedt de ene factor niet het effect van de andere factor. In dat geval is er dus geen interactie. Als twee factoren niet onafhankelijk zijn, is het ene effect afhankelijk van het andere. Dan is er dus wel sprake van interactie. In een grafiek kan een interactie-effect ook gezien worden. Op de X-as staan bijvoorbeeld drie temperatuurniveaus (10,20 en 30 graden). Op de Y-as staan de gemiddelde scores voor de afhankelijke variabele. Er ontstaan twee lijnen in de grafiek: één voor de temperatuurgemiddelden in combinatie met geen licht en één voor de temperatuurgemiddelden in combinatie met normaal licht. Als er geen interactie is, lopen de lijnen ongeveer op dezelfde manier. Ze kruisen elkaar niet en volgen ongeveer dezelfde stijging of daling. Er is in dat geval dus parallelliteit aanwezig. Als de lijnen niet parallel zijn is er juist sprake van interactie. Je ziet bijvoorbeeld een plotselinge kruising bij een bepaald temperatuurniveau in combinatie met de af- of aanwezigheid van licht.

Hoe werkt de toetsing?

ANOVA met twee factoren bevat dus drie verschillende hypothesetesten. Allereerst wordt gekeken naar het hoofdeffect van A. Ook wordt gekeken naar het hoofdeffect van factor B. Ten slotte wordt onderzocht of er een interactie-effect bestaat tussen factor A en factor B. Factor A staat voor de rijen in een matrix. Er wordt dus getoetst of er significante verschillen tussen de rijen bestaan. Factor B staat voor de kolommen in de matrix. In dit geval wordt gekeken of de gemiddelde waarden van de kolommen significant van elkaar afwijken.

Allereerst wordt de totale variantie opgedeeld in tussengroepsvariantie en binnengroepsvariantie.
Vervolgens wordt de tussengroepsvariantie opgedeeld in variantie van factor A, variantie van factor B en de variantie van de interactie.

Binnen elke conditie worden alle deelnemers hetzelfde behandeld. Verschillen binnen condities kunnen dus niet veroorzaakt worden door effecten van de conditie. De binnengroepsvariantie kan daarom alleen veroorzaakt worden door toeval of error. We hebben daarom drie soorten tussengroepsvariantie nodig (voor factor A, B en de interactie tussen beide) en we hebben een binnen- groepen variantie nodig. Elke van deze varianties wordt bepaald door een SS- waarde en een df- waarde. MS (mean square) = SS/df.

Welke formules zijn belangrijk?

Allereerst moet de totale variabiliteit berekend worden: SS_total=ΣX²- G²/N. Dan worden de bijbehorende vrijheidsgraden berekend: df_total= N-1. Daarna wordt de SS_{between treatments}berekend: Σ(T²/n - G²/N). De bijbehorende vrijheidsgraden (df_{between treatments})worden gevonden door één van het aantal cellen af te trekken.
Voor de tussengroepsvariantie geldt SS_{between treatments}= ∑T²/n – G²/N.
Vervolgens moet gekeken worden naar de binnengroepsvariantie: SS_{within treatments} = ΣSS_{each treatment}. Hetzelfde geldt voor de bijbehorende vrijheidsgraden: df_{within treatments} = Σdf_{each treatment}. Ook tellen SS_{between treatments}en SS_{within treatments}op tot SS_total. Df _{between treatments} en df_{within treatments}tellen ook op tot df_total.
Vervolgens moeten de noemers voor de drie F-ratio´s berekend worden. Het hoofdeffect voor factor A kijkt naar de verschillen in gemiddelden tussen de niveaus van factor A. Factor A gaat altijd over de rijen, dus we kijken naar de verschillen in gemiddelden tussen de rijen. SS_Awordt als volgt berekend: Σ(T²_ROW/n_ROW) - G²/N. Df_A= het aantal rijen -1. Ook moet dezelfde informatie berekend worden voor factor B. In dit geval kijken we echter naar de kolommen: SS_B= Σ(T²_COL/n_COL) - G²/N. Df_B= het aantal kolommen -1_{within treatments}.
Vervolgens gaan we aan de gang met de interactie tussen factor A en B: SS_AXB= SS_A- SS_B. De bijbehorende vrijheidsgraden zijn: df_AXB= df _{between treatments}- df_A– df_B.
Om de drie hypothesen te kunnen toetsen (factor A, factor B en de interactie van A en B) moeten nog drie MS- waarden gevonden worden. MS_A= SS_A/ df_A. Voor factor B is dit: MS_B= SS_B/ df_B. De MS voor de interactie vinden we als volgt: MS_AxB= SS_AXB/ df_AXB. De drie F-ratio´s zijn: F_A= MS_A/ MS_{within treatments}. F_B= MS_B/ MS_{within treatments}. Tot slot de F-ratio voor de interactie: F_AXB= MS_AXB/ MS_{within treatments}. Om de significantie van elke F-ratio te onderzoeken, moet de F- tabel (blz. 731) gebruikt worden.

Hoe bereken je de proportie verklaarde variantie?

Voor ANOVA gebruiken we de η² (eta-squared) om de proportie verklaarde variantie te berekenen.

Voor factor A is dat: η² = SS_A/( SS_total - SS_B- SS_AXB). Dit is hetzelfde als: SS_A/ (SS_A+ SS_{within treatments}).
Voor factor B kan de proportie verklaarde variantie ook gevonden worden: η² = SS_B/( SS_total – SS_A- SS_AXB). Dit is ook hetzelfde als SS_B/ (SS_B+ SS_{within treatments}).
Tot slot kan nog de proportie verklaarde variantie voor het interactie-effect berekend worden: η² = SS_AxB/(SS_total – SS_A- SS_B). Natuurlijk is de volgende formule ook goed: SS_AXB/ (SS_AXB+ SS_{within treatments}).

Welke aannames moeten gedaan worden?

Er zijn drie aannames voor ANOVA met twee factoren:

De scores in elke steekproef moeten onafhankelijk zijn.
De populaties, waar de steekproeven uit getrokken zijn, moeten normaal verdeeld zijn. Het is overigens niet heel erg als de populaties niet normaal verdeeld zijn, mits de onderzoeker gebruik maakt van grote steekproeven.
De populaties (waar de steekproeven uit getrokken zijn) moeten dezelfde varianties hebben. We noemen dit ook wel homogeniteit van varianties.

Het is mogelijk om meer dan twee factoren te gebruiken voor een onderzoek. Een onderzoeker kan bijvoorbeeld geïnteresseerd zijn in twee schoolprogramma´s (factor A), voor jongens en voor meisjes (factor B) en voor de eerste en tweede klas van de middelbare school (factor C). In dit geval is er een hoofdeffect voor A, B en C en een interactie-effect dat AxBxC wordt genoemd. Als er meer dan drie factoren worden gebruikt worden de resultaten echter onbegrijpelijk en zijn ze lastig te interpreteren. Het is daarom het beste om maximaal drie factoren te gebruiken.

Hoe en waarom wordt er gewerkt met correlatie? - Chapter 15

Welke soorten correlatie zijn er?

Correlatie is een statistische techniek die gebruikt wordt om een relatie tussen twee variabelen te meten en te beschrijven. Vaak wordt gekeken naar hoe deze variabelen in de natuurlijke toestand voorkomen. Variabelen worden dus niet gemanipuleerd. Denk bijvoorbeeld aan de relatie tussen roken en longkanker. Deze variabelen zijn niet te manipuleren. Als een onderzoeker kijkt naar de samenhang tussen twee variabelen, heeft elke deelnemer dus twee scores (namelijk voor variabele X en voor variabele Y). Een correlatie meet drie eigenschappen van de relatie tussen X en Y:

De richting van een relatie. Een positieve correlatie (+) ontstaat wanneer twee variabelen zich bewegen in dezelfde richting. Als de waarde van X stijgt (de lengte van een persoon), stijgt de waarde van Y ook (het gewicht van een persoon). Van een negatieve correlatie (-) is sprake wanneer de twee variabelen zich in verschillende richtingen bewegen. Als X stijgt, daalt Y (of omgekeerd). Een voorbeeld is dat bij een stijging van depressie een vermindering van zelfvertrouwen duidelijk wordt.
De vorm van een relatie. Deze vorm kan lineair zijn, maar dat hoeft niet. Van een lineaire relatie is bijvoorbeeld sprake wanneer de relatie tussen het kopen van ijsjes en temperatuur wordt gemeten. Een voorbeeld van een niet-lineair verband is de relatie tussen reactietijd en leeftijd. De snelheid van je reactietijd wordt steeds beter totdat je ongeveer twintig jaar bent. Vanaf dan wordt je reactietijd steeds minder goed.
De mate van een relatie. Een perfecte correlatie heeft een waarde van 1 of -1. Een correlatie van 0 stelt dat er helemaal geen verband tussen twee variabelen bestaat. Een correlatie van 0.8 is daarom sterker dan een correlatie van bijvoorbeeld 0.5. Als er een puntenwolk gemaakt wordt van de data (met twee variabelen) kan hier een grove cirkel omheen getrokken worden. Dit wordt een envelop genoemd. Als de cirkel helemaal rond is, is er sprake van een correlatie van nul. De punten liggen namelijk helemaal verspreid en er is geen patroon uit de puntenwolk te halen. Als de omlijsting linksonder begint en rechtsboven afloopt, is er sprake van een positieve correlatie. Een negatieve correlatie wordt gekenmerkt door een omlijsting die linksboven begint en rechtsonder afloopt.

Waarvoor worden correlaties gebruikt?

Correlaties worden voor verschillende doeleinden gebruikt. Hieronder volgen vier van de belangrijkste doelen.

Voorspelling: als twee variabelen een relatie hebben, dan is het mogelijk om een waarde van de ene variabele te gebruiken om te voorspellen wat de score op de andere variabele zal zijn. Op basis van een score op een IQ- test proberen we bijvoorbeeld te voorspellen welk onderwijsniveau haalbaar is voor iemand.
Validiteit: stel je voor dat een psycholoog een nieuwe test ontwikkelt om IQ te meten. Hoe kan hij dan weten of deze test ook daadwerkelijk IQ meet? Om validiteit aan te tonen, wordt vaak gebruik gemaakt van correlatie. Als een test werkelijk IQ meet, dan zouden scores op deze test gerelateerd moeten zijn aan andere metingen van IQ (andere IQ-testen, prestatietesten, leertesten enz.). Dit kan nagegaan worden door naar de correlaties te kijken.
Betrouwbaarheid: correlaties worden ook gebruikt om betrouwbaarheid vast te stellen. Een test is betrouwbaar als deze stabiele en consistente resultaten geeft. Een weegschaal is bijvoorbeeld betrouwbaar wanneer deze hetzelfde resultaat geeft als je er twee keer achter elkaar op gaat staan. Je verwacht ook dat iemand twee keer hetzelfde scoort als je IQ wordt gemeten. Als de betrouwbaarheid hoog is, dan is de correlatie tussen twee metingen sterk en positief.
Het verifiëren van een theorie: veel theorieën maken specifieke voorspellingen over de relatie tussen twee variabelen. Een theorie kan bijvoorbeeld voorspellen dat er een relatie bestaat tussen hersengrootte en leervermogen. Een voorspelling kan getoetst worden door de correlatie tussen twee variabelen te bestuderen.

Wat is de Pearson-correlatie?

De meest bekende maat voor correlatie is de Pearson-correlatie. Deze correlatie meet de mate en de richting van een lineaire relatie tussen twee variabelen. De Pearson-correlatie wordt aangegeven met de letter r. Deze wordt als volgt berekend: Pearson r = de mate waarin X en Y samen variëren/ de mate waarin X en Y apart van elkaar variëren. Dit is hetzelfde als: de covariantie van X en Y/ de variabiliteit van X en Y apart. Als er sprake is van een perfecte correlatie, dan is de covariantie tussen X en Y hetzelfde als de variabiliteit van X en Y apart. Uit de formule komt dan een waarde van -1 of 1. Als twee variabelen helemaal niet samenhangen is er een correlatie van nul. Er is dan ook geen sprake van covariantie. Om de Pearson r te kunnen berekenen is het nodig om een nieuw concept te introduceren, namelijk de som van producten van afwijkingen (SP). In eerdere delen hebben we de som van afwijkingen (SS) gebruikt om de variabiliteit van één variabele te meten. Nu zullen we SP gebruiken om de mate van covariantie tussen twee variabelen te berekenen. Er zijn twee formules die gebruikt kunnen worden om SP uit te rekenen. Bij de ene formule moeten echter van te voren de gemiddelde waarden van X en Y berekend worden.

De formule waarbij eerst gemiddelden berekend moeten worden is: SP = Σ(X-M_X)( Y-M_Y).
Een andere formule (waarbij de gemiddelden niet eerst berekend hoeven te worden) is: SP = ΣXY – (ΣXΣY)/n.
Ook kan de formule r= (SP/ √SSxSSy) gebruikt worden als de som van afwijkingen berekend moeten worden.
Tot slot kan de Pearson-correlatie ook berekend worden voor z-scores. In dat geval wordt het: r=Σ(z_Xz_y)/n.

Interpretatie van de Pearson-correlatie

Bij het interpreteren van r moet rekening gehouden worden met vier dingen:

Een correlatie beschrijft alleen een relatie tussen twee variabelen. Het is dus niet duidelijk hoe en waarom de twee variabelen gerelateerd zijn. Uit een correlatie kan geen oorzaak-gevolg relatie afgeleid worden. Je mag dus niet stellen dat roken longkanker veroorzaakt als er een correlatie tussen beide gevonden wordt.
De waarde van een correlatie kan erg beïnvloed worden door specifieke scores uit de data.
Scores die ver boven of onder de rest liggen (uitschieters) hebben een groot effect op de waarde van een correlatie.
Bij het bepalen van hoe ‘goed’ een relatie is, denken veel mensen dat het mogelijk is om te zeggen dat een correlatie van 0.5 precies tussen een correlatie van 0 en 1 ligt en daarom redelijk is. Een correlatie moet echter niet gezien worden als een proportie. Een correlatie van 1 betekent wel dat er een 100% voorspelbare relatie bestaat tussen X en Y, maar een correlatie van 0.5 zegt niet dat voorspellingen gedaan kunnen worden met 50% zekerheid.

Wat is de bepalingscoëfficiënt?

De waarde r² wordt de bepalingscoëfficiënt (coëfficiënt of determination) genoemd. Deze waarde meet de proportie van spreiding in één variabele, die verklaard kan worden door de relatie die deze variabele heeft met de andere variabele. Een correlatie van 0.80 (r=0.80) betekent bijvoorbeeld dat 0.64 (r²), oftewel 64%, van de spreiding in Y-scores verklaard kan worden door variabele X. In eerdere delen is al gesproken over de proportie verklaarde variantie, alleen was het toen in de context van hoeveel procent van de afhankelijke variabele verklaard kon worden door een onafhankelijke variabele. Bij correlaties maakt dat onderscheid niet uit, omdat er geen sprake is van een veroorzakende en een beïnvloedde variabele. Een r² van 0.01 staat voor een kleine correlatie en een r² van 0.09 staat voor een gemiddelde correlatie. Een grote correlatie wordt gekenmerkt door een r² van 0.25 of hoger.

Hoe test je hypothesen met de Pearson-correlatie?

De Pearson-correlatie wordt vaak berekend aan de hand van de data van een steekproef. De vraag is natuurlijk of deze correlatie representatief is voor de populatie. De vraag voor een hypothesetest is of er een correlatie bestaat in de populatie. De nulhypothese stelt dat er geen correlatie tussen X en Y bestaat in de populatie (ρ = 0). De alternatieve hypothese zegt dat er wel een verband tussen X en Y bestaat (ρ≠ 0). De correlatie (r) uit de data van de steekproef wordt gebruikt om deze hypothesen te toetsen. Een sample is nooit helemaal representatief voor de populatie. Er is dan ook altijd een steekproeffout. Het is goed mogelijk dat er geen verband tussen X en Y bestaat in de populatie, maar dat dit verband wel gevonden wordt in de sample. Het doel van een hypothesetest is bepalen welke van de volgende twee uitspraken waar is:

De correlatie uit de steekproef is het gevolg van toeval. Er is geen correlatie tussen X en Y in de populatie. Deze situatie wordt geschetst in de nulhypothese.
De correlatie uit de steekproef representeert een bestaande correlatie uit de populatie. Deze situatie wordt geschetst in de alternatieve hypothese.

De hypothesetest maakt gebruik van n-2 vrijheidsgraden (df). Het is mogelijk om de test te doen met een t-of F-toets, maar er bestaat ook een tabel speciaal voor Pearson r (blz. 735). In deze tabel staan steekproefcorrelaties die waarschijnlijk gevonden worden als de correlatie in de populatie nul is. Er kan zowel eenzijdig als tweezijdig getoetst worden. Eenzijdig wordt getoetst als de onderzoeker in de alternatieve hypothese stelt dat er een positieve of negatieve correlatie tussen X en Y bestaat in de populatie. In de alternatieve hypothese moet dan dus een richting van het verband aangegeven worden.

Wat is de Spearman-correlatie?

De Pearson-correlatie meet wat de lineaire relatie tussen twee variabelen is. Deze maat voor correlatie wordt vooral gebruikt wanneer de data van interval- of rationiveau zijn. Andere correlatiematen zijn ontwikkeld voor niet-lineaire relaties en voor andere meetschalen.

De Spearman-correlatie meet de relatie tussen variabelen die gemeten zijn op ordinaal niveau.
Ook kan de Spearman-correlatie gebruikt worden wanneer data op interval- of rationiveau gemeten is en er geen lineaire relatie tussen X en Y bestaat.

De Spearman-correlatie gaat op zoek naar een consistente relatie tussen X en Y, welke vorm deze ook heeft. De oorspronkelijke scores moeten in dat geval wel eerst op volgorde (van klein naar groot) gezet worden. De Spearman-correlatie wordt berekend door de Pearson-correlatie formule voor de volgorde van X en Y te gebruiken. Wanneer je de Pearson-correlatie formule gebruikt voor ordinale data, is het resultaat de Spearman-correlatie. Als er consistent sprake is van een relatie tussen X en Y die maar één richting opgaat, noemen we dit monotonisch. De Spearman-correlatie kan gebruikt worden om monotonische relaties tussen variabelen te meten. De Spearman-correlatie kan berekend worden op de volgende manier: r_s= 1- 6ΣD²/ n(n²-1). In deze formule staat n voor het aantal scores en D staat voor difference: het verschil tussen elke volgorde voor een X- en Y-waarde. Met je X-waarde kun je bijvoorbeeld op de tweede plaats staan, terwijl je met de Y-waarde op de negende plaats staat.

Hypothesen testen met de Spearman-correlatie

Het toetsen van hypothesen met de Spearman-correlatie lijkt op het toetsen van hypothesen met Pearson r. Voor Pearson r werd ρ gebruikt als populatieparameter voor de nul- en alternatieve hypothese. Bij de Spearman-correlatie maken we hier ρ_svan. De nulhypothese stelt dat er geen correlatie tussen X en Y in de populatie bestaat: ρ_s= 0. De alternatieve hypothese stelt dat er wel een verband bestaat: ρ_s≠ 0. Om te bepalen of de Spearman-correlatie significant is, moet een speciale tabel (blz. 736) gebruikt worden die lijkt op de tabel voor Pearson r. Bij deze tabel wordt echter niet uitgegaan van vrijheidsgraden, maar van de grootte van de steekproef (n).

Wat is de punt-biseriële correlatie?

Een speciale variant van de Pearson-correlatie wordt de punt-biseriële correlatie genoemd. Deze correlatie wordt gebruikt als de ene variabele getallen bevat, maar de andere variabele alleen maar twee waarden heeft. Een variabele met slechts twee waarden wordt een dichotome variabele genoemd. Een voorbeeld is sekse. Om de punt-biseriële correlatie uit te rekenen, moet de dichotome variabele eerst omgezet worden naar een variabele met numerieke waarden. De ene waarde (bijvoorbeeld vrouw) krijgt een nul en de andere waarde (bijvoorbeeld man) krijgt een één. Vervolgens wordt de bekende formule voor Pearson r gebruikt. De punt-biseriële correlatie kan ook omschreven worden als: r= SP/ √(SSx)(SSy). Het kwadrateren van de punt-biseriële correlatie leidt tot de proportieverklaarde variantie. Dit is een maat voor effectgrootte. Er is een relatie tussen de proportieverklaarde variantie en een t-test voor onafhankelijke steekproeven: r² = t²/(t²+df). Ook kan het volgende gezegd worden: t²= r²/(1/ r²)/df.

De correlatie zegt iets over de effectgrootte. Een hoge correlatie (rond 1.00 of -1.00) indiceert een consistent, voorspelbare relatie. Een t-test kijkt naar de significantie: of de relatie op toevalsbasis het geval kan zijn.

Wat meet de phi- coëfficiënt?

De phi-coëfficiënt (Φ) meet de relatie tussen twee variabelen die beide dichotoom zijn. Om dit te doen moet eerst aan de dichotome waarden van beide variabelen een 0 en 1 toegekend worden. Stel je voor dat je bijvoorbeeld onderzoek doet naar sekse en het wel of niet hebben van een rijbewijs. Je kunt vrouwen dan een 0 geven en mannen een 1. Ook kun je het hebben van een rijbewijs een 0 geven en het niet hebben van een rijbewijs een 1. Vervolgens moet de Pearson r formule toegepast worden.

Hoe en waarom wordt er gewerkt met regressie? - Chapter 16

Als gekeken wordt naar de relatie tussen X en Y kunnen we een grove lijn trekken door de punten uit een puntenwolk.

Deze lijn laat gemakkelijk zien wat voor een relatie er tussen X en Y bestaat. Is er sprake van een positieve of negatieve correlatie?
De lijn laat ook het middelpunt van de relatie tussen X en Y zien, net zoals het gemiddelde het middelpunt beschrijft van een set van scores. De lijn geeft dus een simpele beschrijving van de relatie tussen X en Y.
Tot slot kan de lijn gebruikt worden om voorspellingen mee te doen. Als je weet dat met een bepaalde X-waarde (bijvoorbeeld 20) een Y-waarde (30) gepaard gaat, kun je ongeveer voorspellen welke Y-waarde gepaard gaat met een X- score van 19.

Wanneer is er sprake van een lineaire relatie?

Het is belangrijk om te kijken hoe een lijn het beste bij de data past. Een formule hiervoor vinden is dan ook belangrijk. Een rechte lijn kan erg nuttig zijn bij het beschrijven van de relatie tussen X en Y. Daarom is er een statistische techniek bedacht om de best passende rechte lijn te bepalen voor een dataset. Deze techniek wordt regressie genoemd. De resulterende lijn wordt een regressielijn genoemd. Een lineaire relatie tussen X en Y kan uitgedrukt worden door middel van de volgende formule:

Y=bX+a. Hierbij zijn a en b vaste constanten. Een voorbeeld is dat je bij een tennisclub vijf euro per uur moet betalen bovenop een startprijs van 30 euro. In dit geval ziet de formule er zo uit: Y=5X+30.
b wordt de regressiecoëfficiënt (slope) genoemd. Deze laat zien hoe Y verandert als X toeneemt met één punt. Bij de tennisclub is 5 euro de regressiecoëfficiënt, want de totale kosten nemen steeds met 5 euro per uur toe. De waarde van a wordt het Y-intercept genoemd, omdat deze laat zien wat de waarde van Y is als X nul is. In ons voorbeeld is 30 het intercept, omdat je altijd 30 euro moet betalen, onafhankelijk van hoeveel je wilt tennissen.

Wat zijn voorspelde waarden?

Om te bepalen hoe goed een lijn bij de data past, moet eerst de afstand tussen de lijn en elk datapunt berekend worden. Voor elke X-waarde bepaalt de lineaire regressielijn een waarde voor de Y-variabele. Deze waarde wordt de voorspelde waarde genoemd (Ŷ). De afstand tussen deze voorspelde waarde en de werkelijke Y-waarde wordt bepaald met de volgende stappen:

Afstand = Y- Ŷ. Deze afstand meet de error tussen de lijn en de werkelijke data.
Omdat sommige afstanden negatief en anderen weer positief zullen zijn, is de volgende stap het kwadrateren van elke afstand, zodat er alleen maar positieve waarden overblijven.
Tot slot moet de totale afstand tussen de lijn en data uitgerekend worden. De gekwadrateerde waarden uit stap twee tellen we allemaal bij elkaar op: Σ(Y- Ŷ)². Dit noemen we de totale gekwadrateerde fout.

Hoe vind je de best passende lijn?

Nu kunnen we de best passende lijn vinden. Deze wordt namelijk bepaald door de kleinste totaal gekwadrateerde error. Daarom wordt deze lijn ook wel de minst gekwadrateerde foutoplossing (least squared error solution) genoemd. Deze lijn heeft de vorm van: Ŷ = bX+a. Dit wordt ook wel de regressieformule genoemd. Voor elke waarde van X stelt deze formule een punt op de lijn (Ŷ) vast die de beste voorspelling van Y is. Deze voorspelling is nooit perfect (behalve als er een correlatie van -1 of 1 is tussen X en Y). De gevonden Ŷ-waarden zijn dus altijd (een beetje) anders dan de echte Y-waarden. De regressieformule moet niet gebruikt worden voor X-waarden die buiten de originele data liggen. Als je data hebt waarbij de X-waarden tot 20 gaan, moet je de regressieformule niet gebruiken om een Y-waarde voor X=100 te vinden. Je weet namelijk niet hoe de relatie tussen X en Y is bij X-waarden die niet in de data voorkomen. Er moeten specifieke waarden voor a en b gevonden worden die ervoor zorgen dat de lijn het beste bij de data past. Deze waarden worden als volgt gevonden:

b= SP/SS_X. SP staat voor de som van producten en SS_X staat voor de som van afwijkingen van de X-scores.
Een vaak gebruikte alternatieve formule is: b=r (S_y/S_X). S_ystaat voor de standaarddeviatie van de Y-scores, terwijl S_Xvoor de standaarddeviatie van de X-scores staat. De kleine letter r staat voor de correlatie tussen X en Y.
Dan moet ook nog de waarde van a gevonden worden. De formule om a te vinden is: a= M_y - bM_X.Eerst moeten dus wel de gemiddelde waarden van X en Y uitgerekend worden om deze formule in te kunnen vullen.

Wat is de gestandaardiseerde vorm van de regressieformule?

Eerder hebben we gekeken naar de regressieformule voor ruwe scores. In sommige gevallen standaardiseren onderzoekers de gevonden X- en Y-scores. Z-scores hebben altijd een gemiddelde van 0 en een standaarddeviatie van 1. Daarom is de gestandaardiseerde vorm van de regressieformule:

ž_y = (beta)Z_X. Beta is hetzelfde als b uit de regressieformule voor ruwe scores. Dit betekent dat het vermenigvuldigen van z- scores met beta de voorspelde z- waarde geeft.
Een andere bruikbare formule is: ž_y=rz_X.Om deze formule te gebruiken moet dus wel eerst de correlatie tussen X en Y berekend worden.

Wat is de standaard error van schatting?

Het is dus mogelijk om een best passende lijn te vinden voor alle soorten data door de genoemde formules in te vullen. De gevonden regressielijn wordt vervolgens gebruikt om Y-waarden te voorspellen voor waarden van X. De accuraatheid van deze voorspelling hangt echter wel af van hoe goed de punten op de lijn corresponderen met de werkelijke datapunten. Een regressieformule geeft je de mogelijkheid om voorspellingen te doen, maar de formule geeft geen informatie over de accuraatheid van deze voorspellingen. Om de precisie van de regressie te meten is het nodig om een standaard schattingsfout (standard error of estimate) te berekenen. Dit is een maat om te bepalen wat de standaard afstand is tussen een regressielijn en de werkelijke data. De standaard error van schatting lijkt erg op de standaarddeviatie omdat ze allebei een beeld geven van de gemiddelde afstand. Ook lijken de berekeningen op elkaar.

Om de standaard schattingsfout te vinden, moet eerst een som van afwijkingen (SS) gevonden worden. Elke afwijking meet de afstand tussen de echte Y-waarde en de voorspelde Y-waarde. De SS wordt in dit geval vaak SS_residualgenoemd. De bijbehorende formule is: SS_residual= Σ(Y-Ŷ)².
De gevonden waarde wordt vervolgens gedeeld door de bijbehorende vrijheidsgraden om een maat voor de variantie te krijgen. Variantie = SS/df. De vrijheidsgraden voor de standaard schattingsfout zijn n-2.

Wat is het verband tussen de correlatie en de standaard error van schatting?

De correlatie en de standaard schattingsfout zijn op directe wijze gerelateerd aan elkaar. Als een correlatie 1 of -1 is, dan liggen de punten uit de data precies op de regressielijn. De regressielijn is in dat geval een perfecte voorspeller van de Y-scores. In dat geval zal de standaard error van 0 zijn. Als de correlatie dichter bij de nul komt, betekent dit dat de lijn geen accurate voorspellingen doet. In dat geval wordt de standaard error van de schatting groter. R² wordt de bepalingscoëfficiënt (coëfficiënt of determination) genoemd omdat deze bepaalt welke proportie van de spreiding in Y wordt voorspeld uit de relatie die Y met X heeft. Daarom is 1-r² de proportie onverklaarde variantie in Y. Kortom:

Verklaarde variantie = SS_regression= r² SS_Y.
Onverklaarde variantie = SS_residual= (1- r²) SS_Y.

Als de correlatie 1 is, is de voorspelling perfect en zijn er geen residuen. Als de correlatie ongeveer nul is, worden de residuen juist groter. De standaard schattingsfout kan ook als volgt genoteerd worden: √ SS_residual / df

Hoe toets je de regressieformule?

Net zoals de significantie van de Pearson r berekend kan worden, is dit ook mogelijk voor een regressieformule. De nulhypothese stelt dat er geen relatie tussen X en Y bestaat in de populatie. Een specifiekere nulhypothese stelt dat de regressieformule niet een significante proportie van de variantie in Y-scores verklaard. Ook kan met de nulhypothese gezegd worden dat de regressiecoëfficiënt (b) nul is. De relatie tussen X en Y is in dat geval het gevolg van toeval. In de populatie is dan dus geen relatie tussen X en Y te vinden. Zoals met ANOVA, gebruikt de regressieanalyse een F-ratio om te bepalen of de hoeveelheid verklaarde variantie (door de regressielijn) significant groter is dan verwacht zou worden op basis van toeval. De F-ratio bestaat weer uit een MS-noemer en MS-teller:

MS_regression= SS_regression/ df_regression. De bijbehorende vrijheidsgraden zijn n-1. Dit is de noemer van de F-ratio.
MS_residual= SS_residual/ df_residual. In dit geval zijn de vrijheidsgraden n-2. MS_residualis de teller van de F-ratio.
De F-ratio is: F= MS_regression/MS_residual met vrijheidsgraden n-1, n-2.

Hoe werkt regressieanalyse met twee voorspellers?

Tot nu toe hebben we alleen gekeken naar situaties waarin maar één voorspeller (X-variabele) gebruikt werd. In de praktijkzijn er echter meer voorspellers gerelateerd aan een Y-variabele. Iemands rapportgemiddelde heeft bijvoorbeeld niet alleen te maken met IQ, maar ook met zelfvertrouwen, motivatie en ambitie. Het gebruik van meerdere voorspellers om Y te voorspellen noemen we multipele regressie. Het is mogelijk om heel veel voorspellers te gebruiken, maar in dit deel kijken we alleen naar het voorspellen van Y op basis van twee voorspellers. Multipele regressie kan in dat geval zelfs al complex zijn. Vaak zijn verschillende voorspellervariabelen gerelateerd aan elkaar. Dit betekent dat ze vaak dezelfde dingen meten en voorspellen. Omdat de variantie van de voorspellers kan overlappen, zorgt het toevoegen van een voorspellervariabele niet altijd voor een grotere accuraatheid van de voorspelling. Een voorbeeld is dat IQ overlapt met academische prestatie. Dit betekent dat een deel van academische prestatie voorspeld kan worden aan de hand van IQ.

Welke formules zijn er voor regressieanalyse met twee voorspellers?

De twee voorspellers noemen we X₁en X₂. Daardoor wordt de regressieformule:

Ŷ = b₁X₁+ b₂X₂ +a.
Als alle variabelen (X₁, X_{1 en}Y) gestandaardiseerd zijn, kan de z- formule voor regressieanalyse gebruikt worden: ž_y = (beta)Z_X1+ (beta)Z_X2. In de praktijk zetten onderzoekers X- en Y-waarden zelden om in z- scores voordat ze een regressieformule hebben gevonden.
b₁ wordt als volgt gevonden: (SP_X1Y)(SS_X2) – (SP_X1X2)(SP_X2Y)/(SS_X1)(SS_X2) – (SP_X1X2)².
b₂ is: (SP_X2Y)(SS_X1) – (SP_X1X2)(SP_X1Y)/(SS_X1)(SS_X2) – (SP_X1X2)².
a= M_Y– b₁M_X1 – b₂M_X2.

In de bovenstaande formules staat SS_X1voor de som van afwijkingen van voorspeller X_1.SS_X2staat voor de som van afwijkingen van voorspeller X_2.SP_X1Y staat voor de som van producten van afwijkingen voor X₁ en Y. SP_X2Ystaat voor hetzelfde, alleen dan voor de tweede voorspeller. SP_X1X2 staat voor de som van producten van afwijkingen voor X₁en X₂.

Hoe bereken je de proportieverklaarde variantie?

De proportieverklaarde variantie wordt bij een regressieanalyse met meerdere voorspellers uitgedrukt met R² (met een hoofdletter). Deze waarde geeft aan hoeveel van de variantie in Y verklaard wordt door de twee variabelen samen. Om R² uit te rekenen kunnen twee formules gebruikt worden:

R² = SS_regression/ SS_Y. Omgekeerd is SS_regressionR² x SS_Y.
R² = (b₁SP_X1Y+ b₂SP_X2Y)/ SS_Y.

De waarde van R² kan ook op indirecte wijze worden berekend aan de hand van de residuen. De residuen zijn de verschillen tussen de voorspelde Y-waarden en de werkelijke Y-waarden. De resulterende waarde is SS_residual.Deze laat zien wat de proportie onverklaarde variantie in Y is. Dit staat gelijk aan: (1- R²) SS_Y.Als we SS_residualdelen door SS_Yzien we wat de proportie onverklaarde variantie is (bijvoorbeeld 0.4). Om de proportieverklaarde variantie in Y te vinden, doen we dan 1-0.4=0.6.

Wat is de standaard schattingsfout voor multipele regressie?

Voor zowel lineaire als multipele regressie is het van belang om SS_residualte vinden om de standaard schattingsfout te berekenen. Voor lineaire regressie met één voorspeller staat SS_residualgelijk aan (1- r²)SS_Y.Hier horen n-2 vrijheidsgraden bij. Bij multipele regressie met twee voorspellers is de formule: SS_residual= (1- R²)SS_Ymet vrijheidsgraden n-3. De variantie van de MS-waarde is een maat voor de gemiddelde gekwadrateerde afstand tussen de echte Y-waarden en de voorspelde Y-waarden. Voor zowel lineaire als multipele regressie is de standaard schattingsfout daarom: √MS_residual

Hoe toets je de multipele regressieanalyse?

Zoals bij lineaire regressie gebruiken we de F-ratio om (de significantie van) de multipele regressieanalyse te toetsen. De totale variabiliteit van de Y-scores wordt opgedeeld in twee componenten: SS_residualen Ss_regression.

Met twee voorspellervariabelen heeft SS_regressiontwee vrijheidsgraden (df=2).
SS_residualheeft n-3 vrijheidsgraden (df=n-3).
Om deze reden is de noemer van de F-ratio: MS_regression= SS_regression/2.
De teller van de F-ratio is: MS_residual= SS_residual/n-3.
De uiteindelijke F-ratio is: F= MS_regression/ MS_residual.

Wat is de bijdrage van voorspellervariabelen?

Onderzoekers zijn bij een regressieanalyse vaak geïnteresseerd in de relatieve bijdrage van elke voorspeller. Is één voorspeller bijvoorbeeld beter dan de andere? Helaas worden de b- waarden (de regressiecoëfficiënten) door vele factoren beïnvloed. Als b₁groter is dan b₂dan zegt dit niet meteen dat b₁een betere voorspeller is. Als een regressieanalyse echter wordt gestandaardiseerd, zegt een grotere regressiecoëfficiënt wel degelijk dat deze een betere voorspeller is een kleinere regressiecoëfficiënt. Zoals eerder gezegd is de formule voor gestandaardiseerde regressieformules: ž_y = (beta)Z_X1+ (beta)Z_X2. De vraag is of variabele 2 een significante bijdrage levert aan de voorspelling als variabele 2 een grote(re) regressiecoëfficiënt heeft. De nulhypothese stelt dat variabele 2 geen significante bijdrage (bovenop variabele 1) levert bij de voorspelling van Y. Om deze hypothese te testen moeten we eerst uitzoeken hoeveel extra variantie wordt verklaard door X₁en X₂samen in vergelijking tot de variantie die alleen X₁verklaart. De correlatie tussen X₁en Y wordt als volgt gevonden:

r= SP_X1Y/ √(SSx1)(SSy)
De SS die de tweede variabele hier bovenop toevoegt is: SS_additional= (SS_{regression with X1 and X2}- SS_{regression with X1 alone}).
MS_additional= SS_additional/1.
De F-ratio om uit te zoeken of variabele 2 een significante bijdrage levert (bovenop variabele 1) is: F= MS_additional/ MS_residual.

Waarvoor wordt partiële correlatie gebruikt?

Het voordeel van de multipele regressie is dat de relatie tussen twee variabelen bekeken kan worden terwijl de invloed van een derde variabele weggelaten of constant gehouden wordt. Een directere manier om deze derde variabele te controleren is door de partiële correlatie te berekenen. De partiële correlatie berekent de relatie tussen twee variabelen terwijl de derde variabele gecontroleerd wordt door deze constant te houden. Als er drie variabelen zijn, X, Y en Z, kunnen er drie Pearson correlaties vastgesteld worden:

r_XYmeet de correlatie tussen X en Y
r_XZmeet de correlatie tussen X en Z
r_YZmeet de correlatie tussen Y en Z

Met deze drie correlaties wordt vervolgens de partiële correlatie berekend. De formule om de partiële correlatie tussen X en Y te berekenen terwijl Z constant gehouden wordt, ziet er dan zo uit:

r_{XyxZ =}(r_XY – (r_XYr_YZ)) /√1- r ²xz)(1-r ²yz)

Als er tussen twee variabelen geen partiële correlatie bestaat, ligt de uitkomst rond de nul.

Welke Chi-toetsen zijn er en wanneer gebruik je deze? - Chapter 17

Wat zijn parametrische en non-parametrische testen?

De tests die tot nu toe besproken zijn worden gebruikt om hypothesen over populaties te toetsen. We hebben bijvoorbeeld t-toetsen en ANOVA gebruikt om hypothesen te toetsen over de gemiddelden van populaties. Deze testen maken gebruik van bepaalde aannames, zoals de normaliteit van populaties en homogeniteit van varianties. Omdat deze tests parameters (populatiegegevens) meten en gebruik maken van specifieke aannames, noemen we ze parametrische tests. Een ander kenmerk van parametrische tests is dat ze gebruik maken van numerieke scores voor individuen. Deze scores worden vervolgens gebruikt in formules. Data voor parametrische tests moet dan ook op interval- of rationiveau zijn. Vaak zijn er echter situaties die niet voldoen aan voorwaarden van parametrische tests. Als niet aan de aannames van een test voldaan kan worden, is de data (met die betreffende test) niet goed te interpreteren. Gelukkig zijn er alternatieve manieren om hypothesen te toetsen. Deze alternatieven worden non-parametrische tests genoemd. In dit deel zal ingegaan worden op twee voorbeelden van non-parametrische tests. Beide tests zijn gebaseerd op de chi-toets. Ook gebruiken beide tests data uit steekproeven om hypothesen over proporties of relaties in de populatie te beantwoorden. De hypothesen worden echter niet geformuleerd in termen van een specifieke populatieparameter. Ook zijn er bijna geen aannames nodig over de populatiedistributie. Daarom worden non-parametrische tests ook wel distributievrije tests genoemd. Non-parametrische tests maken gebruik van data waarbij mensen geclassificeerd worden in categorieën. Het gaat dus in het algemeen om nominale en ordinale schalen. Non-parametrische tests zijn vaak niet even gevoelig als parametrische testen. Bij non-parametrische tests komt het vaker voor dat een echt bestaand effect niet gevonden kan worden. Het is daarom altijd beter om een parametrische test te gebruiken als dat mogelijk is.

Wanneer wordt de chi-toets voor goodness of fit gebruikt?

Parameters zoals het gemiddelde en de standaarddeviatie zijn de meest gebruikte manieren om een populatie te beschrijven. Er zijn echter situaties waarin een onderzoeker vragen heeft over de proporties of relatieve frequenties in een distributie. Een voorbeeld is dat er een vergelijking gemaakt moet worden tussen de proportie mannen en de proportie vrouwen in de advocatuur. Een ander voorbeeld is in welke mate Nederlanders Cola prefereren boven Cola Light. Dit soort voorbeelden zijn dus gebaseerd op vragen over proporties. We meten geen individuele scores, maar willen weten hoe groot de proportie mensen in een categorie (de populatie) is. De chi-toets voor goodness of fit wordt gebruikt om dit soort vragen te beantwoorden. Deze test gebruikt sampledata om hypothesen over de vorm of proportie van een populatiedistributie te toetsen. De test bepaalt hoe goed de gevonden sampleproporties passen bij de proporties die in de nulhypothese vermeld staan. De chi-toets maakt bij de hypothesen gebruik van kleine hokjes waar proporties in vermeld staan. De nulhypothese specificeert de proportie (of het percentage) van de populatie in elke categorie. Een onderzoeker kan bijvoorbeeld vermoeden dat 90% van de advocaten man is en 10% vrouw is. In de nulhypothese worden deze twee percentages in hokjes genoteerd. Boven de hokjes komen de categorieën te staan. Boven het hokje 90% staan in ons geval dus ‘man’. Een onderzoeker mag zelf kiezen welke proporties hij noteert, maar in de praktijk is er wel een logische reden om bepaalde percentages aan categorieën toe te wijzen in de nulhypothese.

Hypothesen

De nulhypothese valt in het algemeen in één van de volgende categorieën:

Geen ongelijkheid. In dit geval stelt de nulhypothese dat de proporties van de verschillende categorieën normaal gelijk verdeeld zijn. Een voorbeeld is dat 50% van de mensen in de advocatuur man is en 50% vrouw is. In de Chi-toets wordt dit zo genoteerd:

H₀:

Mannen	Vrouwen
50%	50%

Geen verschil met een al bekende populatie. In dit geval zegt dat de nulhypothese dat de proporties van de ene populatie hetzelfde zijn als de proporties die bestaan in een al bekende populatie. Stel je voor: uit onderzoek is al gebleken dat 60% van de Nederlanders voor abortus is en 40% tegen abortus is. Je wilt als onderzoeker echter weten hoe dit nou in Amerika zit. Op basis van je kennis over Nederland, stel je de nulhypothese op dat 60% van de Amerikanen tegen abortus (en 40% voor abortus) is.

De alternatieve hypothese voor de goodness of fit test stelt dat de populatiedistributie een andere vorm heeft dan in de nulhypothese staat. In ons geval stelt de alternatieve hypothese simpelweg dat niet 60% van de Amerikanen voor en 40% van de Amerikanen tegen abortus is. Het doel van de chi-toets is het vergelijken van steekproefdata met de nulhypothese. De vraag is dus hoe goed de data past (goodness of fit) bij de distributie uit de nulhypothese.

Data voor de chi-toets voor goodness of fit

Het werken met onderzoeksdata om de chi-toets te doen is erg simpel. Er hoeft bijvoorbeeld geen SS of steekproefgemiddelde berekend te worden. Het gaat via het volgende stappenplan:

Eerst moet een steekproef van n aantal individuen geselecteerd worden.
Vervolgens moet het aantal individuen per categorie (bijvoorbeeld man of vrouw in de advocatuur) geteld worden. Dit noemen we geobserveerde frequenties (f_o). Bij een sample van 40 individuen kunnen bijvoorbeeld 13 individuen in categorie A, 3 individuen in categorie B en 24 in categorie C vallen. Elk individu kan maar in één categorie zitten. Alle frequenties moeten optellen tot het totaal aantal deelnemers: Σf_o =n.
Stel je voor dat de nulhypothese was dat 25% van de populatie in categorie A, 50% in categorie B en 25% in categorie valt. Hoeveel mensen zijn dat dan per categorie in een steekproef van 40 mensen? Om hierachter te komen moet de percentages uit de nulhypothese vermenigvuldigd worden met n. Voor categorie A is dat bijvoorbeeld: 0.25 x 40=10 individuen. Wij hebben in onze sample echter 13 mensen in categorie A gevonden. De frequentiewaarden uit de nulhypothese worden verwachte frequenties (f_e) genoemd. De verwachte waarde = f_e =pn. P staat voor de proportie uit de nulhypothese en n staat voor de grootte van de steekproef.

Welke formule wordt gebruikt bij de chi-toets?

De steekproef bestaat bij een chi-toets dus uit de geobserveerde frequenties (f_o), terwijl de nulhypothese wordt gebruikt om verwachte frequenties te bepalen (f_e). De chi-toets statistiek meet simpelweg hoe goed de data (f_o) past bij de nulhypothese (f_e). Het symbool voor de chi-toets statistiek is X². De bijbehorende formule is: X²= Σ(f_o– f_e)²/ f_e.Deze moet volgens de onderstaande volgorde ingevuld worden:

Vind eerst het verschil tussen f_o(de data) en f_e(de hypothese) voor elke categorie.
Kwadrateer het verschil. Hierdoor worden alle verschillen positief.
Deel vervolgens het gekwadrateerde verschil door f_e.
Tel tot slot deze waarden voor elke categorie bij elkaar op.

Categorieën en vrijheidsgraden

Als er grote verschillen tussen f_oen f_ebestaan, is de waarde van de chi-statistiek groot. We moeten in dat geval concluderen dat de data niet bij de nulhypothese past. Als de geobserveerde frequenties echter dicht bij de verwachte frequenties liggen, dan betekent dit dat de data goed past bij de nulhypothese. In dit geval is de chi-statistiek klein. Om te kunnen zeggen of een verschil tussen f_oen f_egroot is, moeten we de chi-distributie raadplegen (blz. 737). Alle chi-waarden zijn positief, omdat gevonden verschillen tussen f_oen f_evolgens de formule gekwadrateerd moeten worden. De exacte vorm van de chi-distributie wordt bepaald door het aantal categorieën. Hoe meer categorieën er in een onderzoek zijn, hoe groter de chi-statistiek wordt. Daarom kan gesproken worden van een familie van chi-distributies (net zoals het geval is bij de t-distributie). Een chi-distributie wordt bepaald door de vrijheidsgraden (df). Deze worden gevonden door de berekening C-1. C staat voor het aantal categorieën uit een onderzoek. Het hoogste punt van de chi-distributie (de modus) wordt groter en groter wanneer de waarde voor de vrijheidsgraden toeneemt. Zie voor een voorbeeld van de uitwerking van de chi-toets blz. 614.

Wanneer wordt de chi-toets voor onafhankelijkheid gebruikt?

De chi-statistiek kan ook gebruikt worden om te toetsen of er een relatie bestaat tussen twee variabelen. In deze situatie wordt elk individu in de steekproef gemeten of geclassificeerd op basis van twee verschillende variabelen. De data voor zo een classificatie wordt vaak in een matrix gezet. De rijen staan voor de categorieën van één variabele (persoonlijkheid bijvoorbeeld) en de kolommen staan voor de andere variabele (kleuren). Voor persoonlijkheid kun je bijvoorbeeld twee rijen maken; introvert en extravert. Je kunt vier kleuren gebruiken bij de kolommen (rood, groen, blauw en geel). Zo kun je kijken naar de relatie tussen persoonlijkheid en lievelingskleur. De data bestaat niet uit scores, maar het aantal individuen per categorie. Zo kunnen er tien mensen zijn die introvert zijn en rood als lievelingskleur hebben. De data uit een steekproef wordt ook in dit geval gebruikt om een hypothese te toetsen over de bijbehorende frequentiedistributie in de populatie. Dit wordt gedaan middels de chi-toets voor onafhankelijkheid. De chi-toets voor onafhankelijkheid kan vaak in plaats van ANOVA gebruikt worden als:

De onafhankelijke variabele in werkelijkheid een quasi-onafhankelijke variabele is waarbij gescheiden groepen voorkomen (mannen vs. vrouwen of kinderen van tien vs. kinderen van twaalf).
De afhankelijke variabele opgemaakt wordt uit individuen die zijn ingedeeld volgens de nominale of ordinale schaal.

Hypothesen

De nulhypothese voor de chi-toets voor onafhankelijkheid stelt dat de variabelen die gemeten worden geen verband hebben. Voor elk individu is de waarde voor één variabele niet gerelateerd aan de waarde voor de andere variabele. Dit gegeven kan resulteren in twee verschillende nulhypothesen.

Bij de eerste versie van de nulhypothese wordt de data gezien als één steekproef waarbij elk individu op twee variabelen wordt gemeten. Het doel van de chi-toets is in dit geval uitvinden of er een relatie tussen de twee variabelen bestaat. In ons onderzoek proberen we dus uit te zoeken of er een consistente en voorspelbare relatie bestaat tussen lievelingskleur en persoonlijkheid. Kun je, als je iemands persoonlijkheid kent, ook de lievelingskleur voorspellen? De nulhypothese zegt dat er geen relatie tussen persoonlijkheid en lievelingskleur bestaat. Deze versie van de nulhypothese lijkt eigenlijk op het toetsen van een correlatie. Bij het toetsen van een correlatie kun je echter alleen gebruik maken van numerieke data.
Bij de tweede versie van de nulhypothese wordt de data gezien als twee aparte steekproeven die staan voor twee verschillende populaties. Het doel is uitzoeken of er een significant verschil tussen de populaties bestaat. In ons geval is het de vraag of er een significant verschil bestaat tussen de kleurvoorkeuren van introverten en extraverten. De nulhypothese zegt dat beide distributies (van introverten en extraverten) dezelfde vorm hebben (en dus ook dezelfde proporties). Deze versie van de nulhypothese voor de chi-toets lijkt op de t-test of ANOVA met onafhankelijke metingen, alleen wordt bij een t-test of bij ANOVA uitgegaan van numerieke data.

Vergelijking tussen de twee versies

De twee versies van de nulhypothese lijken op elkaar. De eerste versie zegt dat kleurvoorkeur niet gerelateerd is aan persoonlijkheid. Als dit waar is, dan kan de distributie van kleurvoorkeur niet afhangen van persoonlijkheid. Met andere woorden: de distributie van kleurvoorkeuren zou hetzelfde moeten zijn voor introverten en extraverten. Dit is dan ook meteen de tweede versie van de nulhypothese. Het vinden van gelijke proporties zegt dat er geen relatie tussen variabelen bestaat. Twee variabelen zijn onafhankelijk wanneer er geen consistente, voorspelbare relatie tussen beide bestaat. In dit geval is de frequentiedistributie van de ene variabele niet gerelateerd aan de categorieën van de andere variabele. Het gevolg is dat de frequentiedistributie voor één variabele dezelfde vorm heeft als de frequentiedistributie van de andere variabele. Zeggen dat er geen relatie tussen twee variabelen bestaat (versie 1) is dus hetzelfde als zeggen dat de distributies dezelfde proporties hebben (versie 2).

Geobserveerde en verwachte frequenties

De chi-toets voor onafhankelijkheid gebruikt dezelfde logica als de chi-toets voor goodness of fit.

Eerst wordt een steekproef geselecteerd en elk individu wordt gecategoriseerd. Omdat de chi-toets voor onafhankelijkheid twee steekproeven gebruikt, moet elk individu voor beide variabelen gecategoriseerd worden. De eerste deelnemer kan bijvoorbeeld introvert zijn en groen als lievelingskleur hebben.
De frequenties in de steekproefdistributie worden weer geobserveerde frequenties (f_o) genoemd. Vervolgens moeten de verwachte waarden uitgerekend worden (f_e).
Nadat dit gedaan is, berekenen we (net zoals bij de chi-toets voor goodness of fit) een chi- statistiek. Beide versies van de nulhypothese kunnen gebruikt worden, maar het is makkelijker om over proporties te praten bij een chi-toets. Daarom gaat de voorkeur in het algemeen uit naar de tweede versie van de nulhypothese.
Om de verwachte waarden uit te rekenen kan gebruik gemaakt worden van een makkelijke formule: f_e= (f_cfr)/n. F_cstaat voor de totale frequentie van de kolommen (kolomtotaal), en f_rstaat voor de totale frequentie van de rijen (rijtotaal). De kleine letter n staat voor het totaal aantal deelnemers in de sample

De chi-statistiek en bijbehorende vrijheidsgraden

De chi-statistiek voor onafhankelijkheid gebruikt precies dezelfde formule als de chi-toets voor goodness of fit: X²= Σ(f_o– f_e)²/ f_e.Een groot verschil tussen de verwachte en geobserveerde waarden resulteert in een grote chi-statistiek. Dit betekent dat de nulhypothese verworpen dient te worden. Om te bepalen of verschillen groot genoeg zijn om de nulhypothese te verwerpen, moeten de bijbehorende vrijheidsgraden uitgerekend worden. De vrijheidsgraden zijn: df= (R-1)(C-1). De R staat voor het aantal rijen en de C voor het totaal aantal kolommen. Ons onderzoek maakt gebruik van vier kleuren en twee categorieën van persoonlijkheid. In ons geval zijn de vrijheidsgraden dus (4-1)(2-1)=3 vrijheidsgraden. Het maakt niet uit welke variabele je als rijvariabele en welke je als kolomvariabele gebruikt, want het resultaat blijft 3. Deze vrijheidsgraden moeten gebruikt worden om te bepalen of de gevonden chi-statistiek een significant resultaat oplevert volgens de chi-tabel op blz. 737. Voor een uitgebreid voorbeeld van de chi-toets voor onafhankelijkheid zie het voorbeeld op blz. 622.

Effectgrootte voor de chi-toets voor onafhankelijkheid

De significantie van een hypothesetest wordt niet alleen bepaald door de sterkte van een effect, maar ook door de grootte van de samples. Een klein effect kan daarom al statistisch significant zijn als dit effect in een hele grote sample wordt gevonden. Omdat een significant effect niets zegt over de grootte van een effect is het slim om de effectgrootte van een significant resultaat te meten. Eerder is al gesproken over de phi-coëfficiënt (Φ). Deze maat wordt gebruikt om de correlatie tussen twee dichotome variabelen te berekenen. Dezelfde situatie bestaat wanneer de data voor een chi-toets voor onafhankelijkheid wordt gedaan voor een 2x2 matrix. Omdat Φ een correlatiemaat is, meet deze de sterkte van een relatie in plaats van de significantie. Daarom is (Φ) een maat voor effectgrootte. De phi-coëfficiënt kan direct berekend worden uit de chi-toets: simpelweg door de wortel (√) te trekken uit X²/n. De waarde van Φ wordt geheel bepaald door de proporties in de 2x2 matrix en is totaal onafhankelijk van de absolute grootte van frequenties (zie voor een voorbeeld blz. 627). Een Φ van 0.1 staat voor een klein effect, een Φ van 0.3 voor een gemiddeld effect en een Φ van 0.5 voor een groot effect. Soms wordt de Φ gekwadrateerd (Φ²) om de proportie verklaarde variantie aan te geven (zoals de r²). Als de chi-toets over een matrix gaat die groter is dan 2x2, dan wordt de phi-coëfficiënt iets anders uitgerekend. Dit resulteert in Cramer’s V. Deze kan uitgerekend worden door de wortel (√) te trekken uit X²/n(df*). De vrijheidsgraden (df*) worden bepaald door de kleinste te kiezen uit R-1 en C-1. R staat ook in dit geval voor rijen en C staat voor de kolommen uit de matrix.

Welke aannamen moeten gedaan worden?

Om een chi-toets (voor goodness of fit of voor onafhankelijkheid) uit te voeren moet aan twee voorwaarden voldaan worden.

Allereerst moeten de observaties onafhankelijk zijn. Deze aanname moet niet verward worden met het concept van onafhankelijkheid tussen variabelen. Elke geobserveerde waarde moet in maximaal één categorie passen.
De grootte van de verwachte frequentie moet per cel minimaal 5 zijn om een chi-toets uit te kunnen voeren. Als de verwachte frequenties heel klein zijn, dan is de chi-statistiek niet goed te interpreteren. Een manier om te kleine verwachte frequenties te vermijden is het gebruik van grote steekproeven.

Wat is het verschil tussen een chi-toets en andere statistische technieken?

Zoals eerder vermeld is de chi-toets is een non-parametrische test die als alternatief voor een parametrische test kan worden gebruikt. Een non-parametrische test wordt gebruikt wanneer de data niet voldoet aan de aannamen die nodig zijn voor een parametrische test of wanneer de data bestaat uit nominale of ordinale metingen. Het is dan onmogelijk om standaard beschrijvende statistieken (zoals het gemiddelde) te gebruiken.

Hoe en wanneer wordt er gewerkt met de binomiaal test? - Chapter 18

Hoe ontstaan binomiale data?

Binomiale data ontstaat wanneer individuen alleen in twee aparte categorieën geplaatst kunnen worden. Mensen kunnen alleen man of vrouw zijn en door te tossen kun je alleen kop of munt krijgen. Binomiale data ontstaat wanneer:

Een schaal precies uit twee categorieën bestaat.
Elke observatie in een sample in twee categorieën geclassificeerd kan worden.
De steekproefdata bestaat uit het aantal individuen in elke categorie.

De twee categorieën worden aangegeven met de letters A en B. De kans (of proportie) die hoort bij elke categorie wordt p en q genoemd. Een tosbeurt resulteert in (A) kop of (B) munt met kansen p=0.5 en q=0.5. In dit deel zal gekeken worden naar het gebruik van binomiale data om hypothesen te testen over de waarden van p en q in de populatie. Zo een soort hypothesetest wordt een binomiaaltest genoemd. Stel je voor: je hebt een sample van 35 studenten die kleurenblind zijn. Dertig hiervan zijn man en vier hiervan zijn vrouw. Kunnen we op basis van deze sample dan concluderen dat mannen meer kans hebben op kleurenblindheid? Om het antwoord op deze vraag te vinden moet een binomiaaltest gedaan worden, omdat er maar twee categorieën in de sample voorkomen.

Welke hypothesen zijn er voor de binomiaaltest?

De nulhypothese specificeert precieze waarden voor de populatieproporties p en q. Theoretisch gezien kun je dus elke proportiewaarde kiezen voor de nulhypothese, maar vaak is er een specifieke reden voor het kiezen van een bepaalde waarde. De nulhypothese valt in één van de volgende categorieën:

Alleen toeval. Vaak stelt de nulhypothese dat de twee uitkomsten A en B voorkomen in de populatie op basis van wat verwacht zou worden door toeval. Als je tost, zegt de nulhypothese bijvoorbeeld dat p(kop)=0.5 en q(munt)=0.5. De hypothese gaat dus uit van een normale proportie voor een normale munt. Het is niet verplicht om beide proporties te vermelden. Als de waarde van p duidelijk is, dan kan q ook bedacht worden (1-p). Kortom: de nulhypothese stelt dat er niets ongewoons aan de hand is in de populatie. De uitkomsten zijn het gevolg van toeval.
Geen verandering of verschil. Vaak ken je de proporties voor een populatie, maar wil je vaststellen of dezelfde proporties gelden in een andere populatie. In dit geval zegt de nulhypothese dat er geen verschil tussen de twee populaties bestaat.

Welke data en teststatistiek worden gebruikt?

Voor de binomiaaltest wordt een steekproef van n aantal individuen geselecteerd. Vervolgens tel je hoeveel daarvan in categorie A vallen en hoeveel daarvan in categorie B vallen. We richten ons op categorie A en gebruiken het symbool X om aan te geven hoeveel mensen er in categorie A vallen. X kan elke waarde van 0 tot n hebben. Bij elke waarde van X hoort een specifieke kans. De distributie van kansen voor elke waarde van X wordt de binomiale distributie genoemd. Als de waarden pxn en qxn beiden gelijk of groter dan tien zijn:

Begint de binomiale distributie te lijken op de normale distributie.
Is het gemiddelde van de distributie µ=pxn.
Is de standaarddeviatie van de distributie: σ=√npq.

Z-scores

Het is mogelijk om een z- score te berekenen voor elke waarde van X in de binomiale distributie: z= (X- µ)/ σ. Dit is hetzelfde als: (X-pn)/√npq. Dit is de bekende z- score formule. We passen de formule een beetje aan, zodat deze beter past bij de logica van de binomiaaltest. Het resultaat is z=(X/n-p)/√pq/n. In deze formule:

staat X/n voor de proportie individuen uit de steekproef die in categorie A valt.
p is een waarde uit de nulhypothese die laat zien wat de proportie van individuen in de populatie is dat in categorie A valt.
√pq/n is de standaardfout voor de steekproefdistributie van X/n. Deze maat geeft aan wat de standaard afstand is tussen de steekproefstatistiek (X/n) en de populatieparameter (p).

De binomiaaltest en de chi-toets worden beide gebruikt om uit te zoeken hoe goed de steekproefproporties passen bij een hypothese over de populatieproporties. Wanneer een experiment binomiale data heeft, kunnen zowel de binomiaaltest als de chi-toets gebruikt worden. Er is dan ook een duidelijke relatie tussen beide te formuleren: X² = z².

Welke stappen zijn er voor het uitvoeren van de binomiaaltest?

Het uitvoeren van de binomiaaltest gaat in vier stappen:

Eerst moeten de nulhypothese en de alternatieve hypothese geformuleerd worden. De nulhypothese specificeert een waarde voor p, de proportie die gerelateerd is aan categorie A. De waarde van q is 1-p. Hypothesen worden altijd in termen van populaties (en nooit in termen van steekproeven) geformuleerd.
Vervolgens moet de kritische regio vastgesteld worden. Wanneer pn en qn groter of gelijk aan tien zijn, zijn de z- scores bijna geheel normaal verdeeld. De z- tabel kan dan ook gebruikt worden om de grenzen voor de kritische regio vast te stellen. Bij een alfa van 5% wordt de kritische regio vastgesteld als alle z- scores die groter dan +1.96 of kleiner dan -1.96 zijn.
Na het vaststellen van de kritische grens moet de teststatistiek (een z- score) bepaald worden. De z- score kan gevonden worden door de aangepaste z- formule in te vullen (z=(X/n-p)/ √pq/n). Om de formule in te vullen moet dus wel geweten worden hoeveel individuen in categorie A vallen (in proporties).
Tot slot moet besloten worden of de nulhypothese klopt. Als de gevonden z- score binnen de kritische regio valt dient de nulhypothese verworpen te worden. Als de z- score buiten de kritische regio valt, dient de nulhypothese behouden te worden.

Wat is de tekentest?

In sommige situaties is een onderzoeker alleen geïnteresseerd in de richting van een verschil tussen twee observaties. Een psycholoog wil bijvoorbeeld weten of de situatie van patiënten na een behandeling verbeterd of verslechterd is. Er is hier sprake van herhaalde metingen. Elk individu wordt namelijk twee keer bestudeerd. In dit geval is er ook sprake van binomiale data: iemands situatie is verslechterd of verbeterd. De onderzoeker is echter niet geïnteresseerd in hoeveel verandering er plaatsgevonden heeft. De twee mogelijke richtingen worden aangegeven met een + (verbetering) en een – (verslechtering). Een tekentoets kan in vier stappen uitgevoerd worden:

De nulhypothese voor de tekentoets stelt dat er geen verschil bestaat tussen de situatie voor en na de behandeling. Een verandering in de score van een deelnemer is volgens de nulhypothese het gevolg van toeval. De proportie verbetering en de proportie verslechtering zijn dus gelijk: p(stijging)=0.5 en q(daling)=0.5. De alternatieve hypothese stelt dat de proporties niet gelijk zijn: p ≠q. Ook wordt er een alfa van 5% vastgesteld.
Vervolgens worde kritische regio vastgesteld.
Hierna wordt de teststatistiek berekend: z= (X-pn)/ √npq.
Tot slot moet, op basis van de informatie over de kritische regio, besloten worden of de nulhypothese behouden of afgewezen wordt.

Hoe gebruik je de tekentest?

Als het mogelijk is om een t-test te doen bij een onderzoek met herhaalde metingen, dan moet dat zeker gedaan worden. Dit omdat t-testen gebruik maken van echte verschillen in scores in plaats van een plus- en minteken. De beschikbare informatie wordt bij een t-test maximaal gebruikt, waardoor de t-test sterker is. Er zijn echter situaties waarin een t-test niet toereikend is en daarom niet gebruikt moet worden. Hieronder worden drie situaties beschreven waarin het beter is om een tekentest te gebruiken.

Als er een onduidelijke scores zijn is het onmogelijk om een t-test uit te voeren. In dat geval is een tekentoets het beste alternatief. Stel je voor: je bestudeert het effect van een drug op het probleemoplossend vermogen met een test. Je gebruikt een sample van ratten die worden gemeten voor en nadat ze de drug ingenomen hebben. Het is mogelijk dat er bij de meeste ratten een verslechtering of verbetering in het probleemoplossend vermogen waarneembaar is die zich uit in de snelheid van het oplossen van de test. Het is echter ook mogelijk dat een rat na inname van de drug de test helemaal niet meer kan maken. Omdat dit dier geen score heeft, is het onmogelijk om een samplegemiddelde, een SS en een t-statistiek te berekenen.
Vaak is het mogelijk om het verschil tussen twee condities te beschrijven zonder precies de scores in de condities te meten. Een dokter kan bijvoorbeeld zeggen dat het beter met een patiënt gaat, terwijl hij de situatie van de patiënt niet precies heeft kunnen meten. In zo een situatie is het gebruik van een tekentest handig. Een t-statistiek kan niet berekend worden, omdat er geen individuele ‘scores’ bestaan.
Tot slot kan een tekentest gebruikt worden wanneer een onderzoeker een check uitvoert voordat hij aan zijn experiment begint. Een onderzoeker kan bijvoorbeeld voorspellen dat scores in conditie 2 consistent groter moeten zijn dan de scores in conditie 1. Het bestuderen van de data na een week laat echter zien dat alleen de helft van de individuen in conditie 2 beter scoort dan de individuen in conditie 1. Op basis van deze korte termijn resultaten kan de onderzoeker ervoor kiezen om nog een keer naar (de opzet van) het experiment te kijken.

Hoe pas je statistische analyse toe? Appendix

Nu er verschillende statistische analyses gepresenteerd zijn, is het belangrijk om te weten welke methode te kiezen in een specifieke situatie. In dit deel wordt ingegaan op veel voorkomende categorieën van data en worden de bijbehorende statistische procedures besproken.

Welke categorieën voor data zijn er?

Er zijn drie basiscategorieën te onderscheiden:

Data van één groep participanten met één score per participant;
Data van één groep participanten met twee of meer variabelen per persoon;
Data van twee of meer groepen, waarbij voor iedere groep dezelfde variabelen gemeten worden.

De eerste categorie, data van één groep participanten met één score per participant, bestaat meestal uit data die bedoeld zijn voor beschrijvend onderzoek. Soms bestaan ze uit data die deel uitmaken van een groter onderzoek, waarbij verschillende variabelen beschreven worden. Per variabele is er echter één score per participant en er wordt niet gekeken naar verbanden tussen de verschillende variabelen. De tweede categorie, data van één groep participanten met twee of meer variabelen per persoon, bestaat altijd uit verschillende variabelen, die meestal in natuurlijke setting geobserveerd worden. Er wordt dus niet gemanipuleerd. Wel is de bedoeling om het verband tussen de verschillende variabelen te onderzoeken. De derde categorie, data van twee of meer groepen waarbij voor iedere groep dezelfde variabelen worden gemeten, is er ook op gericht om verbanden aan te tonen. Bij dit type data is er sprake van een eerste variabele die de groepen bepaalt, en de andere variabelen worden gemeten om vergelijkingen te maken tussen de groepen. De eerste variabele kan onder één van de volgende typen vallen:

persoonskenmerk, zoals leeftijd of opleidingsniveau;
tijdstip, zoals voor en na behandeling;
conditie, zoals met en zonder toediening van een medicijn.

Een andere onderscheidende factor voor deze derde categorie is dat er ofwel onafhankelijke metingen, ofwel herhaalde metingen gedaan kunnen worden. Er kan dus een vergelijking tussen groepen gedaan worden, maar ook een vergelijking binnen groepen. In het laatste geval wordt een groep van dezelfde participanten op verschillende momenten gemeten.

Welke meetniveaus zijn er?

Naast de manier waarop data gemeten is, is het meetniveau van belang voor het selecteren van de juiste statistische analyse. Let dus altijd op of de data op ratio-, interval-, ordinaal of nominaal niveau gemeten zijn. Ieder meetniveau past bij een ander soort analyse.

Statistische procedures voor categorie 1

Bij data van één groep participanten met één score per participant zijn vaak numeriek, dus op ratio- of intervalniveau. Gebruikelijk is om voor beschrijvende statistiek het gemiddelde en de standaardafwijking te bepalen, of, als er sprake is van extreme scores of een scheve verdeling, de mediaan in plaats van het gemiddelde. Voor inductieve statistiek wordt meestal een t-toets voor één steekproef gebruikt. Bij ordinaal meetniveau wordt de mediaan gebruikt als maat voor het midden en kan de verdeling van scores over de categorieën beschreven worden met proporties. Als de categorieën bijvoorbeeld hoog, gemiddeld en laag zijn, kan de verdeling hierover 40%, 35% en 25% zijn. Voor inductieve statistiek moeten de gemeten proporties vergeleken worden met de voorspelde proporties. Daarom kan er een chi-kwadraat goodness of fit-toets gedaan worden als er een hypothese is opgesteld over de verdeling in proporties over de categorieën, of er kan een binomiale toets gedaan worden als er maar twee categorieën zijn. Als er gemeten is op nominaal niveau, kan er voor beschrijvende statistiek gebruik gemaakt worden van de modus als middenmaat en voor de verdeling over de categorieën proporties, net als bij ordinaal niveau. Voor inductieve statistiek kan er wederom een chi-kwadraat goodness of fit-toets of een binomiale toets (bij twee categorieën) gedaan worden.

Statistische procedures voor categorie 2

Het doel van het gebruiken van data van één groep participanten met twee of meer variabelen per persoon is om verbanden te bestuderen. Bij twee variabelen worden correlaties, lineaire regressie of de chi-toets voor onafhankelijkheid gebruikt. Bij meer dan twee variabelen zijn partiële correlatie of multipele regressie passende analyses. Als er twee variabelen gemeten worden op numeriek niveau, is de Pearson-correlatie bruikbaar voor zowel beschrijvende als inductieve gegevens. Hierbij beschrijven het teken en de grootte van de correlatie hoe het lineaire verband eruit ziet. Het kwadraat van de correlatie (r²) is een maat voor de effectgrootte. De waarde van de correlatie is daarnaast de maat voor significantie, als deze vergeleken wordt met de kritieke waarden die vastgesteld zijn bij het opstellen van de hypothese. Naast de Pearson-correlatie kan lineaire regressie gebruikt worden. Door middel van deze analyse wordt de best passende vergelijking voor de rechte lijn gevonden, en deze lijn beschrijft het verband tussen X en Y (de twee variabelen). Voor inductieve statistiek geldt dat het verband significant is wanneer de best passende vergelijking meer van de variantie voorspelt dan verwacht zou worden bij geen verband tussen X en Y. Als er twee variabelen gemeten worden op ordinaal niveau, kan in plaats van de Pearson-correlatie de Spearman-correlatie gebruikt worden. Het teken en de grootte van de correlatie beschrijven het verband tussen twee variabelen, en de waarde bepaalt de significantie van het verband. Een andere methode die gebruikt kan worden als er twee variabelen gemeten worden, is de chi-toets voor onafhankelijkheid. Deze toets is passend bij ieder meetniveau. Voorwaarde is wel dat er een relatief klein aantal categorieën is waarin de data verdeeld zijn. Bij numerieke scores kan een groot bereik verdeeld worden in een kleiner aantal categorieën om dit op te lossen.

De chi-toets bevat geen waarden voor beschrijvende statistiek, maar in de rapportage wordt vaak de matrix met frequenties van de scores per categorie gezet. De toets is echter vooral bedoeld voor inductieve statistiek. De gemeten frequenties worden vergeleken met voorspelde frequenties. Voor effectgrootte moet een phi-coëfficiënt of Cramérs V berekend worden. Als er meer dan twee variabelen gemeten worden en het meetniveau is numeriek, zijn er twee opties: partiële correlatie of multipele regressie. Partiële correlatie houdt in dat het verband tussen twee variabelen gemeten wordt terwijl de derde variabele gecontroleerd wordt. Multipele regressie geeft de best passende vergelijking voor het verband tussen de variabelen. Voor beschrijvende statistiek wordt de richting en grootte van de partiële correlatie gebruikt om te laten zien hoe het verband eruit ziet. Ook multipele regressie resulteert in een lijn die de vorm van het verband tussen de variabelen laat zien. Voor inductieve statistiek is de waarde van de partiële correlatie van belang voor de significantie. Bij multipele regressie is het verband significant als de variantie van de Y-waarde meer is dan verwacht zonder verband met de twee X-waarden. Partiële correlatie en multipele regressie kunnen tevens gebruikt worden wanneer één of twee van de drie variabelen dichotoom zijn. De dichotome variabele wordt gecodeerd als numerieke waarde, met 0 en 1, en toegepast als andere numerieke waarden bij deze analyse.

Statistische procedures voor categorie 3

Voor data van twee of meer groepen zijn er twee mogelijkheden: designs met één factor of designs met meerdere factoren. Als er sprake is van een design met één factor is er één variabele die bepaalt in welke groep een participant valt, en één variabele waarop de groepen vergeleken worden. Numerieke waarden kunnen vergeleken worden door middel van een t-toets of ANOVA. Er wordt gebruik gemaakt van het gemiddelde en de standaardafwijking voor beschrijvende statistiek, en voor inductieve statistiek wordt de significantie van de t- of F-waarde bepaald. Een significant effect betekent in beide gevallen dat de verschillen tussen de steekproefgemiddelden erg onwaarschijnlijk zijn op basis van de verwachting (de nulhypothese). Als er ordinale data zijn voor de groepen, is de vraag of er significante verschillen zijn tussen de categorieën of rangen. Op voorwaarde dat er een relatief klein aantal categorieën is, kan de chi-toets voor onafhankelijkheid gebruikt worden. Ook is het noodzakelijk dat het een design is voor onafhankelijke metingen, dus geen herhaalde metingen. Als het niet mogelijk is om een chi-toets voor onafhankelijkheid te doen omdat er niet aan de voorwaarden wordt voldaan, zijn er verschillende alternatieven: de Mann-Whitney U-toets, de Wilcoxon-toets, de Kruskal-Wallis-toets en de Friedman-toets. Bij nominale data kan ook een chi-toets voor onafhankelijkheid gedaan worden, mits er niet te veel categorieën voorkomen. Designs met meerdere factoren vereisen aangepaste technieken. Bij numerieke data wordt gebruik gemaakt van de tweeweg ANOVA in plaats van ANOVA, waarbij de gemiddelden worden vergeleken van twee factoren en daarnaast de combinatie van die factoren. Op die manier kan er een hoofdeffect zijn van één of beide factoren en/of een interactie-effect.

Statistics for The Behavioral Sciences - Gravetter & Wallnau - BulletPoints

Wat is statistiek? - BulletPoints 1

De term statistieken verwijst naar een verzameling rekenkundige procedures die gebruikt worden om informatie samen te vatten en te interpreteren.
De volledige groep van individuen die een onderzoeker wil bestuderen wordt een populatie genoemd. Om deze populatie binnen een onderzoek te representeren, kan de onderzoeker een steekproef selecteren.
Een variabele is een kenmerk dat kan veranderen en verschillende waarden kan aannemen per individu. Voorbeelden zijn participant variabelen en omgevingsvariabelen. Om zo’n verandering te kunnen vaststellen worden metingen gedaan, die op individueel niveau ook wel een datum, score of ruwe score worden genoemd.
Parameters zijn waarden die een populatie beschrijven; statistieken zijn waarden die een steekproef beschrijven. Het verschil tussen deze waarden wordt ook wel sampling error genoemd.
Er zijn twee algemene statistische methodes: beschrijvende en inferentiële statistiek. Beschrijvende statistiek omvat procedures die gebruikt worden om data samen te vatten en te vereenvoudigen. Inferentiële statistiek verwijst naar technieken die worden gebruikt om gegevens over steekproeven te generaliseren naar de populatie.
Er kunnen verschillende onderzoeksmethoden gebruikt worden, zoals correlationeel en experimenteel onderzoek. Deze typen onderzoek verschillen in termen van manipulatie en controle.
Een onafhankelijke variabele omvat vaak experimentele en controle condities waardoor een effect kan worden vastgesteld op de afhankelijke variabele.
Variabelen zijn regelmatig niet-waarneembare constructen, waarvan een operationele definitie beschrijft hoe het construct onderzocht moet worden. Variabelen kunnen discreet en continu zijn en op verschillende schalen gemeten worden: nominaal, ordinaal, interval en ratio.

Wat zijn frequenties en frequentieverdelingen? - BulletPoints 2

In een frequentietabel wordt beschreven wat de frequentie is van bepaalde waarden die voorkomen in een populatie (frequentieverdeling). Bij een gegroepeerde frequentieverdeling zijn waarden van een continue variabele in klassen verdeeld.
Het bereik (range) verwijst naar het verschil tussen de hoogste en laagste waarde op de X-as.
Frequentieverdelingen op interval- en rationiveau kunnen ook worden weergegeven in bepaalde grafieken, zoals histogrammen en polygonen. Als de data op nominaal of ordinaal niveau is, kan ze worden weergegeven in een Staafdiagram.
Een aantal kenmerken die (de vorm van) grafieken kunnen beschrijven zijn relatieve frequenties, smooth curves, symmetrische of (positief en negatief) scheve verdeling, en de staart.
Een percentielrang verwijst naar een score die aangeeft welk percentage gelijk aan of lager is dan een bepaalde waarde in een verdeling.
Een cumulatieve frequentie houdt in dat frequenties tot en met een bepaalde waarde bij elkaar opgeteld zijn; een cumulatief percentage dat percentages tot en met een bepaalde waarde bij elkaar opgeteld zijn.
Interpoleren verwijst naar het schatten van tussenliggende waarden.

Welke centrummaten zijn er en hoe gebruik je deze? - BulletPoints 3

De centrummaat verwijst naar een maat die het midden van een verdeling aangeeft, op de meest representatieve manier.
Het gemiddelde van een verdeling wordt berekend door alle scores bij elkaar op te tellen en deze som te delen door het totaal aantal scores. Als niet alle groepen scores even zwaar meetellen, is er sprake van een gewogen gemiddelde. Er kan voor zowel de populatieverdeling en de steekproefverdeling een gemiddelde worden berekend.
De mediaan verdeelt een verdeling in tweeën (50% van de elementen in de verdeling heeft een score die lager dan of gelijk is aan de mediaan).
De modus is de score die in een frequentieverdeling het meest voorkomt.
Bij Bimodale en multimodale verdelingen is het mogelijk om meer dan een modus te hebben.

Wat is spreiding en hoe beschrijf je dit? - BulletPoints 4

Spreidingsmaten voorzien je van kwantitatieve metingen om de mate van spreiding van de scores binnen een verdeling aan te duiden.
Het bereik is het verschil tussen de hoogste en de laagste score in een verdeling.
De interkwartielafstand verwijst naar het verschil tussen het eerste kwartiel en het derde kwartiel (het gedeelte dat de middelste 50% van de scores in een verdeling omvat). De helft hiervan wordt de semi-interkwartielafstand genoemd.
De afwijking of deviatie is de afstand van een bepaalde score tot het gemiddelde. De standaarddeviatie is de gemiddelde afstand van alle scores tot het gemiddelde.
De gemiddelde gekwadrateerde afstand tot het gemiddelde wordt de variantie genoemd. De populatievariantie is de gemiddelde gekwadrateerde deviatie.
De sum of squares omvat de kwadraten van alle deviaties bij elkaar opgeteld.
Vrijheidsgraden bepalen het aantal scores in een steekproef dat onafhankelijk is. Voor een steekproef geldt df = n-1.
Als een statistische waarde overeenkomt met de parameter van de bijbehorende populatie is er sprake van unbiased statistiek, wat in tegenstelling staat tot biased statistiek.

Hoe gebruik je standaardscores? - BulletPoints 5

Een z-score is een gestandaardiseerde waarde die de exacte locatie van een X-waarde aangeeft, door middel van de numerieke waarde (beschrijft de afstand van de X-waarde tot het gemiddelde in termen van aantal standaarddeviaties tussen X en μ) en het teken (geeft aan of de score boven of onder het gemiddelde valt).
Als de gehele distributie van Z-scores wordt omgezet naar Z-waardes, is er sprake van een Z-score distributie. Deze verdeling heeft dezelfde vorm als de ruwe scores, een gemiddelde van nul en een standaardafwijking van 1.
Een ruwe score is verwijst naar een numerieke waarde zoals die in de oorspronkelijke verdeling is aangegeven. Ruwe scores kunnen gestandaardiseerd worden met behulp van een z-score transformatie. Op deze manier kunnen ruwe scores van verschillend verdelingen vergeleken worden.
De standaardverdeling is een distributie die samengesteld is met scores die getransformeerd zijn naar standaardscores.
Met betrekking tot inferentiële statistiek, vormen z-scores een objectieve methode om vast te stellen hoe goed een bepaalde score de populatie representeert.

Welke kansberekeningen zijn er? - BulletPoints 6

Een kans verwijst naar de proportie waarin een bepaalde score mogelijk is ten opzichte van alle mogelijke scores. Deze definitie is alleen geldig als de uitkomsten worden vastgesteld met behulp van een willekeurige steekproef.
Een willekeurige steekproef is een steekproef waarbij ieder element in een populatie een gelijke kans heeft om in een steekproef te komen en waarbij deze kans gelijk blijft voor overgebleven elementen wanneer en één of meerdere zijn geselecteerd.
Alle kansproblemen kunnen worden geherforumuleerd als proportieprobleem. Voor frequentieverdelingen kunnen kansvragen beantwoord worden door het vaststellen van de proporties van gebieden.
De standaardnormaaltabel geeft de proporties bij z-scores aan voor een normale verdeling. Het is mogelijk om tussen X-waardes en kansen te bewegen door middel van twee stappen: (1) transformatie met behulp van de z-score formule en (2) het opzoeken van de kans (proportie) die bij een z-score hoort (of andersom).
Het lichaam is de grootste oppervlakte onder een verdeling vanaf een bepaalde score. De staart is de kleinste oppervlakte onder een verdeling vanaf een bepaalde score.
Percentielen en percentielrangen meten de relatieve stand van een score binnen een distributie. Een percentielrang is het percentage individuen met een score boven of onder een bepaalde X-waarde en is altijd in overeenstemming met de proportie links van deze score.
Een binomiale verdeling is een verdeling waarbij maar twee waarden van een variabele mogelijk zijn en de scores van één van die waarden worden weergegeven.
De normaalapproximatie verwijst naar de normaalverdeling die bij een binomiale verdeling hoort.

Wat is er belangrijk bij kansen en steekproeven? - BulletPoints 7

De verdeling van steekproefgemiddelden wordt gedefinieerd als de verzameling gemiddelden voor alle mogelijke willekeurige steekproeven voor een specifieke steekproefgrootte (n) die kan worden verkregen voor een bepaalde populatie. Volgens de central limit theorem heeft deze verdeling een aantal parameters, die hieronder beschreven worden.
Met betrekking tot de vorm, zal de verdeling altijd normaal zijn als er aan de volgende eisen voldaan wordt: (1) de populatie waaruit de steekproeven genomen zijn is normaal en (2) de steekproefgrootte is relatief groot (≥ 30).
Wat betreft de centrummaat zal de verdeling van de distributiegemiddelden identiek zijn aan het gemiddelde van de populatie. Het gemiddelde van de verdeling van steekproefgemiddelden wordt de verwachte waarde van M genoemd.
Met betrekking tot de variabiliteit wordt de standaardafwijking van steekproefgemiddelden de standaardfout van M genoemd. Deze standaardfout meet de afstand tussen het steekproefgemiddelde en het populatiegemiddelde en geeft daarom aan hoe veel vertekening je kunt verwachten als je een steekproefgemiddelde gebruikt in plaats van een populatiegemiddelde.
Omdat je bij statistische inferentie gebruik maakt van steekproefstatistieken om algemene conclusies te trekken over een populatieparameter, speelt de standaardfout een cruciale rol bij inferentiële statistiek.

Hoe werkt het toetsen van hypothesen? - BulletPoints 8

Een hypothesetoets is een statistische methode waarbij gegevens over een steekproef gebruikt worden om een hypothese over een populatie te evalueren.
De nulhypothese stelt dat er geen verandering of verband optreedt in een onderzoekssituatie. Hier tegenover staat de alternatieve hypothese, die stelt dat er in een experiment een bepaalde invloed waargenomen zal worden van de onafhankelijke variabele op de afhankelijke variabele – dat er dus een effect plaatsvindt.
Over het algemeen worden er vier stappen gebruikt bij het testen van hypotheses: (1) stel een nulhypothese, alfaniveau en alternatieve hypothese vast, (2) lokaliseer het kritieke gebied, (3) verzamel de data en bereken de teststatistiek en (4) maak een beslissing (neem de nulhypothese aan of verwerp deze).
De teststatistiek is een specifieke grootheid die een grote hoeveelheid gegevens over een steekproef samenvat.
Het significantieniveau verwijst naar de kanswaarden die aangeven welke resultaten van een steekproef het meest onwaarschijnlijk zijn als de nulhypothese klopt (of: de kans dat er een type I-fout optreedt). Een andere veelgebruikte benaming is ‘Alfaniveau’. De significantie is de mate waarin een resultaat gebruikt kan worden om de nulhypothese te verwerpen.
Het kritieke gebied bestaat uit de extreme waarden van een steekproef als de nulhypothese waar is en wordt begrensd door de waarden van het significant niveau.
Omdat er bij hypothese testen een beslissing moet worden genomen op basis van inductie, bestaat er altijd de kans dat de verkeerde beslissing wordt genomen. Op dit gebied kunnen twee fouten worden gemaakt: type-I en type-II fouten.
Een type I-fout doet zich voor als de nulhypothese wordt verworpen, wanneer deze in werkelijkheid waar is. De type II-fout doet zich daarentegen voor als de nulhypothese niet wordt verworpen, terwijl deze in werkelijkheid niet klopt. De kans dat er een type-II fout optreedt wordt aangegeven met het symbool β (beta).
Bij een directionele of eenzijdige hypothese wordt een verwachting uitgesproken over de verandering van het gemiddelde, op basis van eerdere bevindingen of theoretische overwegingen. Als er geen a-priori reden is om eenzijdig te toetsen, wordt er gebruik gemaakt van een tweezijdige test.
Het is niet alleen belangrijk om de significantie in overweging te nemen om een behandeleffect te bepalen. De effectgrootte, een maat voor de grootte van het effect van een onafhankelijke variabele op een afhankelijke variabele, die meestal wordt aangeduid in absolute waarden, is eveneens belangrijk.
Cohen’s d is een gestandaardiseerde methode om de effectgrootte te meten met behulp van de verandering van het gemiddelde en de standaarddeviatie.
De ‘power’ refereert naar de kans dat een incorrecte nulhypothese verworpen zal worden. In andere woorden, het is het gedeelte van de behandelverdeling dat zich buiten de grens (en dus voorbij de kritieke waarde) van het kritieke gebied bevindt.
Als de grootte van het behandeleffect toeneemt, neemt ook de power toe. Het powerniveau kan verhoogd worden door verschillende factoren die door een onderzoeker gemanipuleerd kunnen worden, zoals (1) het verhogen van het alfaniveau, (2) het gebruiken van een eenzijdige test en (3) het gebruiken van een groot steekproef.

Hoe werk je met de T-Toets? - BulletPoints 9

De t-statistiek wordt gebruikt tijdens het hypothesetesten als de standaardafwijking van de populatie onbekend is. In dat geval wordt de steekproefvariantie (of standaardafwijking) gebruikt als vervanging van de populatievariantie. Ook wordt er een schatting gemaakt van de standaardfout.
De t-verdeling is een benadering van de normale z-verdeling. Bij het hypothesetesten wordt nu gezocht naar een kritische waarde binnen een t-verdeling. Er bestaat een familie van t-verdelingen, met de precieze vorm van t-waardes afhankelijk van vrijheidsgraden (n-1). Daarom zijn de kritische waarden afhankelijk van de vrijheidsgraden die geassocieerd zijn met de t-waarde.
Als de vrijheidsgraden toenemen, gaat de vorm van t-verdeling steeds meer lijken op een normaalverdeling.
Er kunnen verschillende effectgroottes worden berekend wanneer t-statistieken worden gebruikt bij het hypothesetesten, zoals Cohen’s d en r². Deze laatste maat verwijst naar het percentage in variabiliteit wat verklaard kan worden door het behandeleffect.

Hoe werkt de T-toets voor twee onafhankelijke groepen? - BulletPoints 10

De onafhankelijke t-statistiek gebruikt data van twee verschillende steekproeven om conclusies te trekken over verschillen in gemiddelden tussen twee populaties.
De nulhypothese van een onafhankelijke t-test stelt dat er geen verschil is tussen de populatiegemiddelden.
Er kunnen verschillende effectgroottes worden berekend wanneer je een onafhankelijke t-test gebruikt, zoals Cohen’s d en r².
De aannames voor deze t-toets zijn dat de observaties onafhankelijk zijn en dat de populaties normaal verdeeld zijn.
Voor juist gebruik en een correcte interpretatie van de t-test is het belangrijk dat de data voldoet aan de assumptie van homogeniteit van variantie (de twee populaties hebben gelijke varianties). Voor het testen van deze assumptie kunnen ook testen gebruikt worden, zoals Hartley’s F-max test.

Hoe werkt de T-toets voor twee gerelateerde groepen? - BulletPoints 11

Bij een t-toets voor gerelateerde groepen zijn de individuen in de ene conditie direct gerelateerd aan die in een andere conditie. De meest voorkomende vorm is een herhaalde metingen design, waarbij dezelfde steekproef getest wordt in allebei de behandelcondities. Ook kan er sprake zijn van matching.
Deze t-toets wordt uitgerekend met behulp van verschilscores.
Herhaalde metingen zijn met name handig voor het bestuderen van leren en ontwikkeling.
Een belangrijk voordeel van een herhaalde metingen design is het verminderen of elimineren van individuele verschillen, wat zorgt voor een kleinere steekproefvariantie en een grotere kans om een significant resultaat te behalen.
Er kunnen verschillende effectgroottes worden gebruikt wanneer je een t-test voor gerelateerde groepen gebruikt, zoals Cohen’s d en r².
Schatten is een procedure die gebruik maakt van steekproefdata om een idee te krijgen van het populatiegemiddelde of een verschil in gemiddelden.
Schatten en hypothesetesten maken allebei gebruik van steekproef data om vragen over populaties te beantwoorden. Deze twee procedures worden echter gebruikt om verschillende soorten vragen te beantwoorden. Hypothesetesten kunnen aangeven of er een behandeleffect bestaat, terwijl een schatting aangeeft hoe veel effect er is.
De reikwijdte van een betrouwbaarheidsinterval geeft een indicatie van de precisie: een smal betrouwbaarheidsinterval is preciezer dan een breed interval. Deze reikwijdte wordt beïnvloed door steekproefgrootte en het betrouwbaarheidsniveau.

Hoe werkt de analyse van variantie? - BulletPoints 12

Een ANOVA (analyse van variantie) is een hypothesetoets die meer dan twee behandelingen (of populaties) kan vergelijken. De onafhankelijke of quasi-onafhankelijke variabele wordt bij ANOVA een factor genoemd. De niveaus verwijzen naar de individuele groepen of condities van de behandeling waar een factor uit bestaat.
Een single-factor design is een onderzoek met één (quasi-) onafhankelijke variabele.
De F-ratio is de toetsingsgrootheid bij ANOVA; F=de variantie tussen de steekproefgemiddelden / de verwachte variante wanneer de behandeling geen effect heeft. De error term verwijst naar de teller van de F-ratio en meet de variantie op basis van toeval. Bovendien is de error term gelijk aan de noemer als de nulhypothese klopt
De tussengroepsvariantie meet het verschil tussen groepen (condities) dat voor kan komen op basis van toeval (dus als de nulhypothese klopt). Een voorbeeld hiervan zijn individuele verschillen – de onvoorspelbare en onverklaarbare verschillen tussen individuen in een steekproef. Een ander voorbeeld is experimentele error, wat zich voordoet wanneer er bij een herhaalde meting bij dezelfde persoon een verschillend resultaat gemeten wordt.
De binnengroepsvariantie meet hoeveel verschil (variantie) er binnen de groep verwacht kan worden op toevalsbasis (dus als de nulhypothese klopt)
η²(eta kwadraat) verwijst naar de gepoolde variantie bij ANOVA en wordt gebruikt als indicator van de effectgrootte.
Post hoc testen worden uitgevoerd na een ANOVA om vast te stellen welke gemiddelden significant verschillen. Bij een post hoc test worden de condities soms in paren vergeleken (paren van vergelijkingen).
Het experimenteel alfaniveau reflecteert het toenemen van de kans op type 1 fout omdat er voor elke aparte test (conditie) een apart alfaniveau wordt gebruikt. Wanneer er 3 tests worden uitgevoerd met een alfa van 5%, is er drie keer zoveel kans op een type 1 fout dan wanneer er slechts 1 test uitgevoerd wordt.
Onderzoekers kunnen gebruik maken van geplande en ongeplande vergelijkingen.

Hoe werkt ANOVA met herhaalde metingen? - BulletPoints 13

Een herhaalde metingen design kan gebruikt worden om twee of meer condities te vergelijken als dezelfde steekproef van individuen gebruikt wordt in elke conditie. Ook hier wordt gebruik gemaakt van een F-ratio.
De eerste fase van een herhaalde metingen ANOVA is gelijk aan die van de onafhankelijke metingen procedure: de variantie wordt opgedeeld in between- en within-treatments. Omdat dezelfde subjects gebruikt worden in alle condities, is het niet mogelijk dat verschillen tussen condities veroorzaakt worden door individuele verschillen. Daarom worden individuele verschillen direct geëlimineerd uit de between-treatments variantie.
In de tweede fase worden individuele verschillen vastgesteld en uit de teller van de f-ratio verwijderd. Om dit te kunnen doen, bereken je eerst de variabiliteit tussen individuen en vervolgens trek je deze waarden af van de bijbehorende within-treatments variabelen.
De effectgrootte is η²(eta kwadraat).
Als individuele verschillen heel groot zijn, kan het voorkomen dat behandeleffecten niet ontdekt kunnen worden in een independent measures design. In dat geval kan er soms beter gebruik worden gemaakt van een herhaalde metingen design.

Hoe werkt ANOVA met twee factoren? - BulletPoints 14

Een onderzoek met twee (quasi) onafhankelijke variabelen wordt een factorieel of twee-factoren design genoemd. Zo’n design kan worden weergegeven in een matrix: elke rij staat voor een niveau van factor A en elke kolom staat voor een niveau van factor B. Elke cel in de matrix geeft een specifieke combinatie aan van factor A en B.
Een hoofdeffect verwijst naar de verschillen in gemiddelden tussen de niveaus van één factor. Een simple main effect verwijst naar het hoofdeffect van een onafhankelijke variabele op één bepaald niveau van de andere onafhankelijke variabele; er zijn dus evenveel simple main effects van een onafhankelijke variabele als niveaus van de andere onafhankelijke variabele.
Een interactie-effect doet zich voor als factor A factor B beïnvloedt, of andersom. In een grafiek geven niet-parallelle lijnen dit effect (mogelijk) weer.
De effectgrootte wordt berekend als percentage van de variantie die verklaard wordt door de specifieke hoofdeffecten of interactie-effecten.

Hoe en waarom wordt er gewerkt met correlatie? - BulletPoints 15

Een correlatie meet de relatie tussen twee variabelen. Deze relatie wordt beschreven door de richting, vorm en sterkte / consistentie.
Een positieve correlatie doet zich voor wanneer twee variabelen in dezelfde richting bewegen (als X toeneemt, neemt Y ook toe).
Een negatieve correlatie doet zich voor wanneer de twee variabelen in tegengestelde richting bewegen (als X toeneemt, neemt Y af).
De Pearson correlatie (r) meet de sterkte en richting van een lineair verband tussen twee variabelen (met 0 = geen correlatie en -1 of +1 = perfecte correlatie).
De coëfficiënt van verklaarde variantie (r²⁾meet de proportie van variabiliteit van een variabele die verklaard kan worden door de relatie met de andere variabele en geeft de sterkte van de relatie aan (met 0 is geen en 1.00 is sterk).
De Spearman correlatie (r_s) wordt gebruikt wanneer variabele X en Y op ordinale schaal gemeten zijn of wanneer de grafiek een non-lineaire relatie laat zien.
De punt-biseriële correlatie meet de relatie tussen twee variabelen wanneer de ene variabele uit numerieke waarden bestaat en de tweede uit slechts twee waarden bestaat (dichotome variabele).

Hoe en waarom wordt er gewerkt met regressie? - BulletPoints 16

Regressie is een statistische techniek om de best passende lijn bij een dataset te vinden. De resulterende regressielijn geeft ook een indicatie van het soort relatie (positief of negatief); met deformule Ŷ = bX + a. Ŷ is de beste voorspelling van de Y-waarde.
De b of regressiecoëfficiënt geeft aan met hoeveel Y verandert als X één stap toeneemt; b = SP/SS_X.
a of het Y-intercept is de beginwaarde van Y; a = M_Y – bM_X.
De standaard schattingsfout geeft de maat van de gemiddelde standaarddeviatie tussen de gevonden regressielijn en alle data.
Een partiële correlatie kan worden vastgesteld bij het meten van de relatie tussen twee variabelen terwijl een derde variabele constant wordt gehouden (dus gecontroleerd).

Welke Chi-toetsen zijn er en wanneer gebruik je deze? - BulletPoints 17

Bij een parametrische toets worden aannames gemaakt over parameters waarin data van interval of ratio meetniveau wordt gebruikt. Als er niet aan deze voorwaarden wordt voldaan, kan er een non-parametrische (distributie-vrije) toets gebruikt worden. Deze toetsvorm maakt ook geen aannames over de populatieverdeling.
De chi-square test voor goodness of fit is een non-parametrische toets die wordt gebruikt om hypotheses over proporties van een populatie te testen. Deze test bepaalt hoe goed de geobserveerde frequenties passen bij de verwachte frequenties.
De geobserveerde frequentie (f_o) verwijst naar het aantal individuen uit de steekproef die in een categorie voorkomen. De verwachte frequentie (f_e) omvat het verwachte aantal individuen in een categorie op grond van de nulhypothese en het aantal individuen in de steekproef (n).
De Chi-square verdeling heeft een positieve skew en begint bij nul. De exacte vorm wordt bepaald door de vrijheidsgraden.
Met de Chi-square test voor onafhankelijkheid kun je de relatie tussen twee variabelen in de populatie op basis van de frequentieverdeling onderzoeken. De nulhypothese stelt dat er onafhankelijkheid van variabelen bestaat (er is geen voorspelbare relatie tussen deze variabelen).
Beide Chi-square testen zijn gebaseerd op de assumptie dat elke observatie onafhankelijk is van de anderen.
De Phi-coëfficiënt geeft een correlatie die de sterkte tussen twee dichotome variabelen meet met de formule: Φ = √(Χ² /n).
De Mediaantest is een alternatieve non-parametrische toets om te onderzoeken of er significante verschillen tussen twee of meer onafhankelijke steekproeven bestaan.

Hoe en wanneer wordt er gewerkt met de binomiaal test? - BulletPoints 18

Een binominale test wordt gebruikt voor dichotome data – dus wanneer elk individu in een steekproef geclassificeerd wordt in één van twee categorieën. Deze categorieën worden A en B genoemd en hebben elk een bijbehorende kans.
De binominale verdeling geeft de waarschijnlijkheid voor elke waarde van X, waarbij X gelijk is aan de hoeveelheid waarvan categorie A voorkomt binnen een steekproef van n gebeurtenissen.
Als pn en qn allebei ten minste 10 zijn, lijkt de binominale verdeling sterk op een normale verdeling. Door het gebruiken van een normal approximation kan voor elke X-waarde een corresponderende Z-waarde worden vastgesteld.
De binominale test gebruikt steekproefdata om hypotheses te testen over de binominale proporties voor een populatie (p en q). De nulhypothese specificeert p en q, en de binominale verdeling wordt gebruikt om het kritieke gebied te bepalen.
De binominale verdeling wordt regelmatig gebruikt voor de tekentest, waarbij het verschil tussen twee behandelingen wordt geëvalueerd door data te gebruiken van een herhaalde metingendesign. De verschilscores worden gecodeerd als toenames (+) of afnames (-).

Hoe pas je statistische analyse toe? - BulletPoints Appendix

Verschillende situaties vragen om verschillende methoden. Het is hierbij belangrijk om te kijken naar hoe de data verzameld zijn. Bijvoorbeeld: hoeveel scores zijn er per participant? En hoeveel groepen participanten zijn er?
Ook moet gekeken worden naar het meetniveau van de data. Niet alle analyses zijn namelijk voor alle meetniveaus geschikt.
Bij één groep participanten met één score per participant zijn de scores vaak op ratio- of intervalniveau.
Bij één groep participanten met meerdere scores per participant wordt vaak gebruik gemaakt van correlatie, regressie, of de chi-toets voor onafhankelijkheid.
Bij twee of meer groepen kan er sprake zijn van een design met één factor (ANOVA, t-toets) of een design met meerdere factoren (tweeweg ANOVA)

Statistics for The Behavioral Sciences - Gravetter & Wallnau - Begrippenlijst

Wat is statistiek? Chapter 1

Statistieken: Rekenkundige procedures die gebruikt worden om informatie samen te vatten en te interpreteren
Populatie: Een groep individuen die in een onderzoek bestudeerd wordt
Steekproef (Engels: sample): Een groep individuen die geselecteerd is uit een populatie als vertegenwoordigende groep voor het onderzoek
Variabele: Een kenmerk dat kan veranderen en verschillende waarden kan aannemen per individu
Data: Gegevens over metingen en observaties
Datum / score: Één losse observatie of meting
Parameter: Waarde die de gegevens van een gehele populatie beschrijft
Statistiek: Waarde die de gegevens van een steekproef beschrijft
Beschrijvende statistiek: Statistische procedures die gebruikt worden om data samen te vatten en te vereenvoudigen
Inductieve statistiek (Engels: inferential statistics): Statistische technieken die worden gebruikt om gegevens over steekproeven te generaliseren naar de populatie
Steekproeffout: De grootte van de fout die veroorzaakt wordt door het verschil tussen de statistiek van een steekproef en de parameter van de bijbehorende populatie
Correlatiemethode: Een methode die in de statistiek gebruikt wordt om de samenhang van twee variabelen te bestuderen
Experimentele methode: Een onderzoeksmethode waarbij één variabele beïnvloed wordt, terwijl de andere geobserveerd wordt
Onafhankelijke variabele: De variabele die beïnvloed wordt voor onderzoek en als eerste voorkomt in de tijd
Afhankelijke variabele: De variabele die beïnvloed wordt door de onafhankelijke variabele
Controlegroep: Een groep waarin geen invloed wordt uitgeoefend, en dient als vergelijkingsmateriaal voor de experimentele groep
Experimentele groep: Een groep waarin invloed wordt uitgeoefend om het effect van de invloed van de onafhankelijke variabele te meten
Construct: Interne kenmerken die niet direct geobserveerd kunnen worden, maar wel gebruikt worden om gedrag te beschrijven en verklaren
Operationele definitie: De omschrijving van de onderzoeksmethode om waarneembaar gedrag te meten, en de manier waarop deze metingen gebruikt worden om een construct te beschrijven of verklaren
Discrete variabele: Een variabele die wordt ingedeeld in vaste categorieën, die niet in kleinere waarden opgedeeld kunnen worden
Continue variabele: Een variabele die oneindig ver opgedeeld kan worden in kleinere waarden
Absolute grenswaarden (Engels: real limits): De grenzen van intervallen van continue variabelen. Een absolute grenswaarde is de scheidingslijn die precies tussen twee intervallen valt.
Bovenste absolute grenswaarde: De hoogste absolute grenswaarde van een interval
Onderste absolute grenswaarde: De laagste absolute grenswaarde van een interval
Nominaal meetniveau: Een meetniveau waarbij losse categorieën worden gebruikt, zonder numerieke waarden
Ordinaal meetniveau: Een meetniveau waarbij de categorieën in een logische volgorde gezet worden
Intervalmeetniveau: Een numeriek meetniveau waarbij ieder interval dezelfde grootte heeft
Ratiomeetniveau: Een numeriek meetniveau waarbij ieder interval dezelfde grootte heeft en een absoluut nulpunt aanwezig is.

Wat zijn frequenties en frequentieverdelingen? Chapter 2

Frequentietabel: Tabel waarin de frequentieverdeling wordt weergegeven
Frequentieverdeling: De beschrijving van de frequentie waarin bepaalde waarden voorkomen in een populatie
Gegroepeerde frequentieverdeling: Een frequentieverdeling waarbij waarden van een continue variabele in klassen zijn verdeeld
Klasse: Een interval van samengevoegde waarden van een continue variabele
Bereik (Engels: range): Het verschil tussen de hoogste en laagste waarde op de X-as
Histogram: Een grafiekvorm die gebruikt wordt voor numerieke data, waarbij de frequentie wordt aangegeven met staven
Polygoon: Een grafiekvorm die gebruikt wordt voor numerieke data, waarbij de frequentie wordt aangegeven met punten die verbonden worden met een lijn
Staafdiagram: Een grafiek die gebruikt wordt voor discrete data, van nominaal of ordinaal niveau, waarbij de frequentie wordt aangegeven met staven
Relatieve frequentie: Een waarde die gebruikt wordt wanneer de absolute frequentie niet bekend is, door een vergelijking te maken met een andere waarde (bijvoorbeeld: de waarde is twee keer zo groot als een andere waarde)
‘Smooth curve’: Een globale weergave van het verloop van een frequentieverdeling van numerieke waarden in een grafiek
Symmetrische verdeling: Een verdeling waarbij de grafiek in tweeën gedeeld kan worden zodat de ene kant het spiegelbeeld is van de andere kant
Scheve verdeling (Engels: skewed): Een verdeling waarbij zich aan de linker- of rechterkant een piek bevindt en die afloopt naar de andere kant
Staart: De aflopende kant van een scheve verdeling
Positief scheef: Een scheve verdeling waarbij de staart naar de positieve waarden afloopt (ook wel rechtsscheef genoemd)
Negatief scheef: Een scheve verdeling waarbij de staart naar de negatieve waarden afloopt (ook wel linksscheef genoemd)
Percentielrang: Een score die aangeeft welk percentage gelijk aan of lager dan een bepaalde waarde valt in een verdeling
Cumulatieve frequentie: De frequenties tot en met een bepaalde waarde bij elkaar opgeteld
Cumulatief percentage: De percentages tot en met een bepaalde waarde bij elkaar opgeteld
Interpoleren: Het schatten van tussenliggende waarden

Welke centrummaten zijn er en hoe gebruik je deze? Chapter 3

Centrummaat: Een maat die het midden van een verdeling aangeeft, op de meest representatieve manier
Gemiddelde (Engels: mean): Het gemiddelde van een verdeling wordt berekend door alle scores bij elkaar op te tellen, en dit te delen door het totaal aantal scores
Gewogen gemiddelde: Het gewogen gemiddelde wordt berekend wanneer verschillende groepen scores niet allemaal even zwaar meetellen; iedere groep telt in een andere proportie mee
Populatiegemiddelde: Het gemiddelde in de verdeling van een populatie
Steekproefgemiddelde: Het gemiddelde in de verdeling van een steekproef
Mediaan: De mediaan verdeelt een verdeling in tweeën, dus 50% van de elementen in de verdeling heeft een score die lager dan of gelijk aan de mediaan is
Modus: De modus is de score die in een frequentieverdeling het meest voorkomt
Bimodale verdeling: Een verdeling met twee pieken, oftewel twee waarden voor de modus
Multimodale verdeling: Een verdeling met meerdere pieken, dus meerdere waarden voor de modus

Wat is spreiding en hoe beschrijf je dit? Chapter 4

Spreidingsmaten: Kwantitatieve metingen om de mate van spreiding van de scores in een verdeling aan te duiden
Bereik: Het bereik is het verschil tussen de hoogste en de laagste score in een verdeling
Interkwartielafstand (Engels: interquartile range): Het verschil tussen het derde kwartiel en het derde kwartiel, dus het gedeelte dat de middelste 50% van de scores in een verdeling omvat
Semi-interkwartielafstand: De helft van de interkwartielafstand
Deviatie: De afstand van een bepaalde score tot het gemiddelde
Standaarddeviatie: De gemiddelde afstand van alle scores tot het gemiddelde
Populatievariantie: De gemiddelde gekwadrateerde deviatie
Variantie: De gemiddelde gekwadrateerde afstand tot het gemiddelde
Kwadratensom (Engels: sum of squares): De kwadraten van alle deviaties bij elkaar opgeteld
Vrijheidsgraad: Het aantal scores in een steekproef dat onafhankelijk is
Onzuivere statistiek ( Engels: ‘Biased statistic’): Een statistiekwaarde die niet gelijk is aan de parameter van de bijbehorende populatie
Zuivere statistiek (Engels: ‘Unbiased statistic’): Een statistiekwaarde die overeenkomt met de parameter van de bijbehorende populatie

Hoe gebruik je standaardscores? Chapter 5

z-score: Een gestandaardiseerde waarde die de exacte locatie van een waarde op de X-as van een verdeling aangeeft, door middel van het aantal standaarddeviaties
Originele score (Engels: raw score): De numerieke waarde zoals die in de oorspronkelijke verdeling is aangegeven
z-scoretransformatie: Het omrekenen van de originele scores naar standaardscores
Standaardverdeling: Een verdeling die samengesteld is met scores die getransformeerd zijn naar standaardscores

Welke kansberekeningen zijn er? Chapter 6

Kans: De proportie waarin een bepaalde score mogelijk is ten opzichte van alle mogelijke scores
Willekeurige steekproef (Engels: random sample): Een steekproef waarbij ieder element in een populatie een gelijke kans heeft om in een steekproef te komen en waarbij deze kans gelijk blijft voor overgebleven elementen wanneer en één of meerdere zijn geselecteerd
Standaardnormaaltabel: De tabel die de proporties bij z-scores aangeeft
De ‘body’: De grootste oppervlakte onder een verdeling vanaf een bepaalde score
De ‘tail’: De kleinste oppervlakte onder een verdeling vanaf een bepaalde score
Binomiale verdeling : Een verdeling waarbij maar twee waarden van een variabele mogelijk zijn, en de scores van één van die waarden worden weergegeven
Normaalapproximatie: De normaalverdeling die bij een binomiale verdeling hoort

Wat is er belangrijk bij kansen en steekproeven? Chapter 7

Steekproevenverdeling: De verdeling van de gemiddelden van alle mogelijke steekproeven van een bepaalde grootte die uit een populatie genomen kunnen worden
Steekproeffout: De grootte van het verschil tussen een statistiek van een steekproef en de parameter van de bijbehorende populatie
Centrale limiettheorie: Een theorie waarin gesteld wordt dat een steekproevenverdeling normaalverdeeld is en dat het gemiddelde van de steekproevenverdeling gelijk is aan het populatiegemiddelde
Verwacht steekproefgemiddelde: Het gemiddelde van een steekproevenverdeling, dat gelijk is aan het populatiegemiddelde
Standaardfout: De standaarddeviatie van een steekproevenverdeling
‘Law of large numbers’: Een regel waarin gesteld wordt dat hoe groter een steekproef is, hoe groter de kans dat het steekproefgemiddelde gelijk is aan het populatiegemiddelde

Hoe werkt het toetsen van hypothesen? Chapter 8

Hypothesetoets: Een methode waarbij gegevens over een steekproef gebruikt worden om een uitspraak te doen over en hypothese over een populatie
Nulhypothese: De hypothese dat en geen verandering of verband optreedt in een onderzoekssituatie, dus dat de onafhankelijke variabele géén invloed heeft op de afhankelijke variabele
Alternatieve hypothese: De hypothese dat er in een experiment een bepaalde invloed waargenomen zal worden van de onafhankelijke variabele op de afhankelijke variabele
Toetsingsgrootheid (Engels: test statistic): Een specifieke grootheid die een grote hoeveelheid gegevens over een steekproef samenvat
Significantieniveau: De kanswaarden die aangeven welke resultaten van een steekproef het meest onwaarschijnlijk zijn als de nulhypothese klopt (of: de kans dat er een type I-fout optreedt)
Alfaniveau: Een andere benaming voor ‘significantieniveau’
Kritiek gebied: Het gebied dat bestaat uit de extreme waarden van een steekproef als de nulhypothese waar is; het gebied wordt begrensd door de waarden van het significant niveau
Type I-fout: De fout die ontstaat doordat de nulhypothese wordt verworpen, wanneer deze in werkelijkheid waar is
Type II-fout: De fout die ontstaat doordat de nulhypothese niet wordt verworpen, terwijl deze in werkelijkheid niet klopt
Beta: De kans dat er een type II-fout optreedt
Significantie: De mate waarin een resultaat gebruikt kan worden om de nulhypothese te verwerpen
Directionele hypothese/ eenzijdige hypothese: Een hypothese waarin een verwachting wordt uitgesproken over de verandering van het gemiddelde
Effectgrootte: Een maat voor de grootte van het effect van een onafhankelijke variabele op een afhankelijke variabele, aangeduid in absolute waarden
Cohen’s d: Een methode om de effectgrootte te meten met behulp van de verandering van het gemiddelde en de standaarddeviatie
‘Power’: De kans dat een incorrecte nulhypothese verworpen zal worden

Hoe werk je met de T-Toets? Chapter 9

Geschatte standaardfout: Een schatting van de werkelijke standaardfout, die gebruikt wordt wanneer de standaarddeviatie onbekend is
t-toets: Een hypothesetest die gebruikt wordt wanneer de standaarddeviatie van de populatie onbekend is, en in plaats daarvan wordt de geschatte standaardfout gebruikt
t-verdeling: De verdeling van de waarden die voortkomen uit een steekproef en de vrijheidsgraad
Vrijheidsgraad (df): Het aantal scores in een steekproef die onafhankelijk zijn en kunnen variëren
Geschatte d: De schatting voor Cohen’s d
Percentageverklaarde variantie (Engels: percentage of variance): Een maat voor de effectgrootte waarmee het percentage van de spreiding dat veroorzaakt wordt door de onafhankelijke variabele berekend wordt

Hoe werkt de T-toets voor twee onafhankelijke groepen? Chapter 10

Opzet met onafhankelijke metingen (Engels: independent-measures design): Een onderzoeksopzet waarbij aparte steekproeven gebruikt worden om verschillende omstandigheden te onderzoeken, en die te kunnen vergelijken
Tussen-persoonsopzet Engels: between-subjects design): Een andere benaming voor de opzet met onafhankelijke metingen
Opzet met herhaalde metingen (Engels: repeated-measures design): Een onderzoeksopzet waarbij dezelfde steekproef gebruikt wordt voor twee verschillende onderzoekssituaties, waaruit dus twee verzamelingen van gegevens komen over een bepaalde variabele, die met elkaar vergeleken worden
Binnen-persoonsopzet (Engels: within-subjects design): Een andere benaming voor de opzet met herhaalde metingen
Geschatte standaardfout van M1-M2: De geschatte standaardfout die gebruikt wordt bij statistiek met onafhankelijke metingen
Gegroepeerde variantie (Engels: pooled variance): Een combinatie van de varianties van de verschillende steekproeven bij onafhankelijke metingen
Homogeniteit van variantie: Een assumptie waarmee gesteld wordt dat de varianties van twee steekproeven bij onafhankelijke metingen gelijk aan elkaar moeten zijn

Hoe werkt de T-toets voor twee gerelateerde groepen? Chapter 11

Opzet met herhaalde metingen / binnen-persoonsopzet: Een onderzoeksopzet waarbij dezelfde steekproef gebruikt wordt in verschillende onderzoekssituaties, waaruit dus twee verzamelingen van gegevens komen over een bepaalde variabele, die met elkaar vergeleken worden
Gepaarde steekproef: Een onderzoeksopzet waarbij twee verschillende steekproeven gebruikt worden, en elk element uit de ene steekproef gekoppeld wordt aan een element uit de andere steekproef met overeenkomstige kenmerken
Opzet met gerelateerde steekproeven: Een verzamelnaam voor onderzoeksopzetten waarbij twee steekproeven gekoppeld zijn, zoals de gepaarde steekproef en de binnen-persoonsopzet
Verschilscores: Het verschil tussen twee scores van de afhankelijke variabele (één score voor en één score na tussenkomst van de onafhankelijke variabele) van een individu in een steekproef
Volgorde-effect: Een verandering in de score die veroorzaakt wordt door deelname aan een voorafgaand onderzoek, in plaats van door de onafhankelijke variabele
Individuele verschillen: Kenmerken die per persoon verschillen, zoals leeftijd, geslacht en persoonlijkheid

Access:

Public

Check more: click and go to more related summaries or chapters

Studiegids voor samenvattingen bij Statistics for the Behavioral Sciences van Gravetter & Wallnau

Samenvatting van Statistics for the Behavioral Sciences van Gravetter en Wallnau - 10e druk

TentamenTests bij Statistics for The Behavioral Sciences van Gravetter en Wallnau - 10e druk

Voorbeelduitwerkingen bij de hoofdstukken 4 tot en met 11 van Statistics for the Behavioral Sciences

Oefenvragen en Antwoorden bij Statistics for the Behavioral Sciences (9e druk)

Begrippenlijst Research Methods for the Behavioral Sciences van Forzano & Gravetter

Oefen vragen Gravetter & Wallnau

Bulletpoint samenvatting Research Methods for the Behavioral Sciences (Gravetter, Forzano, 2012)

Statistics: summaries and study assistance - Theme

Join WorldSupporter!

Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>

Check: concept of JoHo WorldSupporter

Concept of JoHo WorldSupporter

JoHo WorldSupporter mission and vision:

JoHo wants to enable people and organizations to develop and work better together, and thereby contribute to a tolerant tolerant and sustainable world. Through physical and online platforms, it support personal development and promote international cooperation is encouraged.

JoHo concept:

As a JoHo donor, member or insured, you provide support to the JoHo objectives. JoHo then supports you with tools, coaching and benefits in the areas of personal development and international activities.
JoHo's core services include: study support, competence development, coaching and insurance mediation when departure abroad.