Willekeur is erg belangrijk bij het verzamelen van data, het idee dat er bekend is welke observaties mogelijk zijn, maar nog niet bekend welke er daadwerkelijk voor gaan komen. Kansen spelen daar een rol. De kans (probability) is de proportie van het aantal keren dat een bepaalde observatie voorkomt in een lange sequentie van soortgelijke observaties. De lange sequentie is hierbij belangrijk: naarmate deze langer is, wordt de kans steeds nauwkeuriger. De proportie uit de steekproef gaat dan steeds meer lijken op de proportie uit de populatie. Kansen kunnen ook worden weergegeven in percentages (bijvoorbeeld 70%) in plaats van in proporties (bijvoorbeeld 0.7). Een specifieke tak binnen de statistiek gaat uit van subjectieve kansen, deze tak heet Bayesiaanse statistiek. Het merendeel van de statistiek draait echter om de reguliere kansrekening.
Een kans schrijf je vaak zo op: P(A). Hierbij is P de kans op uitkomst A. Stel dat er twee mogelijke uitkomsten zijn die elkaar uitsluiten: A (getrouwd) en B (niet getrouwd). Dan schrijf je de kans op A als P(A). De kans op B staat gelijk aan 1 – P(A).
Stel dat je wilt weten of de meeste mensen blauw of rood als lievelingskleur hebben. Laten we weer aannemen dat het gaat om elkaar uitsluitende mogelijkheden zonder overlap. De kans dat iemand rood (A) of blauw (B) als lievelingskleur heeft, is dan P(A of B) = P (A) + P (B).
Stel dat er meerdere vragen worden gesteld en je wilt weten hoeveel van de getrouwde mensen ook kinderen hebben. Dan vermenigvuldig je de kans dat iemand is getrouwd (A) met de kans dat iemand kinderen heeft (B). De formule ziet er als volgt uit: P(A én B) = P(A) * P(B als ook A). Omdat er hierbij een verband is tussen A en B, heet het een conditionele kans.
Stel dat je meerdere mogelijkheden wilt onderzoeken die geen verband hebben. De kans dat zowel willekeurige persoon A graag truien draagt en de kans dat ook persoon B graag truien draagt, is dan P (A en B) = P (A) x P (B). Het gaat hier om onafhankelijke kansen.
Een willekeurige variabele houdt in dat de uitkomst van observatie tot observatie kan verschillen, maar in de praktijk wordt dit vaak gewoon een variabele genoemd. Een discrete variabele heeft vastgestelde mogelijke waarden. Een continue variabelen kent ontelbare mogelijke waarden. Omdat een kansverdeling de kansen weergeeft bij elke waarde van een variabele, gebeurt dit op verschillende wijze voor discrete en continue variabelen.
Bij een discrete variabele geeft de kansverdeling de kansen weer bij elke mogelijke waarde van de variabele. Elke kans is een getal tussen de 0 en de 1. De som van alle kansen staat gelijk aan 1. De kansen kunnen worden genoteerd als zijnde P(y). Hierbij is P de kans op een bepaalde waarde van y. In formule ziet dit er als volgt uit: 0 ≤ P(y) ≤ 1, en ∑alle y P(y) = 1.
Omdat een continue variabele een ontelbaar aantal mogelijke waarden heeft, kan de kansverdeling niet bij elke waarde een kans tonen. Daarom geeft deze de kans weer van intervallen van mogelijke waarden. De kans dat een waarde binnen een bepaald interval ligt, ligt tussen de 0 en de 1. De kans dat alle mogelijke waarden binnen het interval liggen, is 1. Deze kansverdelingen worden weergegeven in een curve. Stel dat in een interval (zoals op de afbeelding) 20% van de data bevindt, dan is de kans dat een waarde zich binnen dat interval bevindt 0,20.

Net zoals bij een populatiedistributie, heeft een kansverdeling voor de populatie parameters die de data beschrijven. Het gemiddelde beschrijft dan de centrale kans en de standaarddeviatie de variabiliteit. Het gemiddelde van de populatiedistributie bij een discrete variabele kan worden berekend met de volgende formule: µ = ∑ y P(y). In woorden: je vermenigvuldigt alle mogelijke waarden met hun kansen, en deze tel je bij elkaar op. Deze parameter wordt ook wel de ‘verwachte waarde van y’ genoemd, en wordt genoteerd als E(y). De standaarddeviatie van een populatiedistributie wordt op dezelfde manier berekend als bij een steekproef.
De normale verdeling is een belangrijke kansverdeling, omdat veel variabelen er in de werkelijkheid zo uit zien en omdat er heel veel statistische voorspellingen mee gedaan kunnen worden. De normale verdeling is symmetrisch, heeft een belvorm en heeft een gemiddelde (µ) en een standaarddeviatie (σ). De empirische regel is erop van toepassing: 68% valt binnen 1 standaarddeviatie, 95% valt binnen 2 standaarddeviaties en 97% valt binnen 3 standaarddeviaties. De normale verdeling ziet er zo uit:

Behalve dat er bij 1, 2 en 3 standaarddeviaties vaste percentages horen, kan dat natuurlijk ook voor 1,5 of 1,7 of 1,9 (etc.) standaarddeviatie. Deze proporties en standaarddeviaties staan allemaal vast. Meestal wordt de hoeveelheid standaarddeviaties aangegeven met de waarde z.
Er is bijvoorbeeld een variabele met µ = 18 en σ= 6. Je wilt weten hoe groot de proportie is die hoger heeft gescoord dan 30. De observatie is dus y = 30. Deze y moet je omzetten in een z-score. Dat doe je door (y - µ) / σ. In dit geval is z = (30 – 18) / 6 = 2. Nu kan worden opgezocht welke p-waarde (kans) er hoort bij een z = 2. Kansen zoeken voor een normale verdeling kan met R, SPSS, Stata of SAS. Als een curve symmetrisch is gevormd, is er sprake van zogenaamde cumulatieve kansen, dit betekent dat z links en rechts dezelfde afstand heeft tot het gemiddelde. De formule is: z = (y - µ) / σ.
De z-score is het aantal standaarddeviaties dat de variabele y van het gemiddelde afligt; ofwel in hoeverre er wordt afgeweken. Bij een positieve z-score valt y boven het gemiddelde, bij een negatieve score eronder. Als onder studenten het gemiddelde cijfer voor het vak Geschiedenis van de psychologie bijvoorbeeld een 6 is, dan heeft de student die een 7 heeft een kleine maar positieve z-score en de student die een 3 heeft een erg negatieve z-score.
Andersom berekenen kan ook: als de kans P bekend is en de waarde y nog niet. Als de kansen in een kansverdeling worden weergegeven, kan de z-score worden gevonden met behulp van software. De formule voor het vinden van y is dan y = µ + z σ.
Een normale verdeling kun je omzetten naar een standaardnormale verdeling, dit is een bepaalde distributie die vaak gebruikt wordt en die bestaat uit de z-scores. Je kunt een variabele y dus omzetten naar z door er het gemiddelde vanaf te trekken en vervolgens te delen door de standaarddeviatie. Wat overblijft, is een verdeling waarbij µ = 0 en σ = 1.
Een bivariate normale verdeling is een voorbeeld van een bivariate kansverdeling. Bij een verdeling met twee variabelen (y en x), zijn er twee gemiddelden (µy en µx) en twee standaarddeviaties (σy en σx). De covariantie is de manier waarop y en x samen variëren en heeft de volgende formule:
Covariantie (x, y) = E[(x – µx)(y – µy)]
Om te testen of een uitkomst, zoals een opinieonderzoek, een goeie representatie is van de populatie, kan een simulatie worden gebruikt. Met software kunnen willekeurige nummers worden gegenereerd.
Omdat soms niet bekend is hoe de populatie eruitziet, worden steekproeven gebruikt. De statistieken uit de steekproeven zeggen iets over de verwachte parameters uit de populaties. Een steekproefverdeling geeft de kansverdeling van steekproefgrootheden (het is niet de verdeling van de uitkomsten in een steekproef). Elke statistiek heeft een steekproefverdeling (zoals een voor de mediaan, voor het gemiddelde, etc.). Het is een kansverdeling die de kansen weergeeft van de mogelijke uitkomsten van een statistiek.
Het nut van een dergelijke steekproefverdeling is inschatten hoe dicht een statistiek ligt bij de voorspelde parameter. Een steekproefverdeling van een statistiek gebaseerd op n observaties is de relatieve frequentieverdeling van die statistiek, die het resultaat is van herhaalde steekproeftrekking van n, waarbij steeds de statistiekwaarde wordt berekend. Je kunt zo’n steekproefverdeling zelf maken door herhaalde steekproeftrekking, maar over het algemeen is de vorm van de verdeling wel bekend. Hiermee kun je dan de kansen van een waarde van een statistiek van een steekproef opzoeken bij een aantal (n) observaties.
Het gemiddelde is een veel gebruikte centrummaat. Maar wanneer het gemiddelde uit de steekproef bekend is, is nog niet bekend hoe dicht die ligt bij het gemiddelde van de populatie. Het is dus nog onbekend of ȳ = µ. Maar omdat de steekproefverdelingen al bekend zijn, kunnen er toch uitspraken over gedaan worden. Bijvoorbeeld dat er een hoge kans is dat ȳ binnen tien waarden van µ ligt. Echter, als er heel vaak een steekproef wordt getrokken, dan zal blijken dat het gemiddelde van deze steekproeven gelijk is aan het gemiddelde van de populatie. Het gemiddelde van een steekproefverdeling is dan ook gelijk aan het gemiddelde van de populatie.
De spreiding van de steekproefverdeling van ȳ wordt beschreven door de standaarddeviatie van ȳ, dit wordt de standaardfout van ȳ genoemd. Deze wordt genoteerd als σȳ.
De standaardfout kan worden berekend aan de hand van de volgende formule: σȳ =
.
Het nut van de standaardfout is aangeven hoeveel het gemiddelde per steekproef varieert, daarmee geeft de standaardfout informatie over hoe waardevol de steekproeven zijn.
Voor een willekeurige steekproef met grootte n, hangt de standaardfout van ȳ af van de standaarddeviatie van de populatie (σ). Uit de formule kan worden opgemaakt dat de standaardfout steeds kleiner wordt naarmate n groter wordt. Een grotere steekproef is dan ook een betere weergave van de populatie. Het feit dat het steekproefgemiddelde niet volledig overeenkomt met het populatiegemiddelde noemt men de steekproeffout. Deze wordt kleiner naarmate de steekproefgrootte (n) groter wordt.
De steekproeffout en de standaardfout zijn twee verschillende dingen. De steekproeffout is de aanduiding dat de steekproef en de populatie van elkaar verschillen wat betreft het gemiddelde. De standaardfout is een meting die aangeeft hoeveel steekproeven van elkaar verschillen wat betreft het gemiddelde.
Ongeacht de vorm van een populatiedistributie, de vorm van de steekproefverdeling van ȳ is altijd een belvorm, een normale verdeling. Dit wordt de centrale limietstelling genoemd. Ook al is de populatiedistributie zeer scheef verdeeld of heeft deze erg discrete waarden, dan nog heeft de steekproefverdeling een belvorm. Wanneer de populatie echter zeer scheef verdeeld is, moet de steekproef wel steeds groter worden om meer deze belvorm aan te nemen. Hoe schever de populatie verdeeld is, hoe groter de steekproef moet zijn. Voor kleine steekproeven gaat de centrale limietstelling niet per se op.
Net als de standaardfout, kan de centrale limietstelling gebruikt worden om informatie te vinden over de steekproefverdeling en het steekproefgemiddelde ȳ. Omdat het om een normale verdeling gaat, kan de empirische regel bijvoorbeeld worden toegepast.
Omdat steekproeven trekken essentieel is voor statistiek, is het onderscheid tussen drie verdelingen erg belangrijk:
De populatiedistributie beschrijft het geheel van de daadwerkelijke bevolking waaruit de steekproef wordt getrokken. De parameters µ en σ beschrijven het populatiegemiddelde en de standaarddeviatie van de populatie.
De steekproefdataverdeling (sample data distribution) is de verdeling van de observaties die zijn gemaakt tijdens de steekproef. Het steekproefgemiddelde ȳ en de standaarddeviatie s van de steekproef beschrijven de curve.
De steekproefverdeling (sampling distribution) geeft de kansen weer dat een statistiek van de steekproef, zoals het steekproefgemiddelde, bepaalde waarden heeft. Hiermee geeft het aan hoeveel steekproeven van elkaar kunnen verschillen.
Volgens de centrale limietstelling heeft de steekproefverdeling de vorm van een normale verdeling. Puur uit deze vorm kunnen gegevens worden afgeleid. De mogelijkheid om gegevens af te leiden, is de reden dat de normale verdeling zo belangrijk is binnen de statistiek.
Bij statistische inferentie is het bij elk vraagstuk van belang of het gaat over de steekproef, de populatie, of het verband daartussen. Een manier om dit te visualiseren, is om je twee (normale) verdelingen in te beelden, met bijvoorbeeld de steekproef links en de populatie rechts. Een hoop aanduidingen zijn belangrijk (ȳ, s, µ, σ, z), zorg dat je weet welke bij de steekproef hoort en welke bij de populatie.
Bij sommige kenmerken is het makkelijk voor te stellen dat ze beschouwd worden als variabelen in een onderzoek. Bijvoorbeeld leeftijd, stemgedrag, gewicht, aantal kinderen etc. De kansverdelingen van deze variabelen kunnen vervolgens worden geanalyseerd met behulp van maten zoals het gemiddelde ȳ en de standaarddeviatie s van de steekproeven. Het gemiddelde en de standaarddeviatie kunnen ook worden beschouwd als variabelen en worden weergegeven in een verdeling, enzovoorts. Dit systeem werkt net als Russische poppen die in elkaar passen; er is telkens weer een diepere dimensie. Dit idee helpt misschien om deze tekst beter te begrijpen.
Het onderscheid tussen de steekproefverdeling en de verdeling van de data van de steekproef klinkt niet erg logisch in het Nederlands, maar zo wordt het nou eenmaal genoemd, dus zorg dat je dit verschil snapt.
Als je niet weet waar je moet beginnen bij het uitrekenen van een wiskundig vraagstuk, begin dan met inventariseren of je alle benodigde gegevens hebt. Als je bijvoorbeeld de z-score moet berekenen, zorg dan dat je eerst de waarde van de standaarddeviatie hebt gevonden.