Hoe gebruik je kansverdelingen voor statistische inferentie? - Chapter 4

4.1 Wat zijn de basisregels van kansen?

Willekeur is erg belangrijk bij het verzamelen van data, het idee dat er bekend is welke observaties mogelijk zijn, maar nog niet bekend welke er daadwerkelijk voor gaan komen. Kansen spelen daar een rol. De kans (probability) is de proportie van het aantal keren dat een bepaalde observatie voorkomt in een lange sequentie van soortgelijke observaties. De lange sequentie is hierbij belangrijk: naarmate deze langer is, wordt de kans steeds nauwkeuriger. De proportie uit de steekproef gaat dan steeds meer lijken op de proportie uit de populatie. Kansen kunnen ook worden weergegeven in percentages (bijvoorbeeld 70%) in plaats van in proporties (bijvoorbeeld 0.7). Een specifieke tak binnen de statistiek gaat uit van subjectieve kansen, deze tak heet Bayesiaanse statistiek. Het merendeel van de statistiek draait echter om de reguliere kansrekening.

Een kans schrijf je vaak zo op: P(A). Hierbij is P de kans op uitkomst A. Stel dat er twee mogelijke uitkomsten zijn die elkaar uitsluiten: A (getrouwd) en B (niet getrouwd). Dan schrijf je de kans op A als P(A). De kans op B staat gelijk aan 1 – P(A).

Stel dat je wilt weten of de meeste mensen blauw of rood als lievelingskleur hebben. Laten we weer aannemen dat het gaat om elkaar uitsluitende mogelijkheden zonder overlap. De kans dat iemand rood (A) of blauw (B) als lievelingskleur heeft, is dan P(A of B) = P (A) + P (B).

Stel dat er meerdere vragen worden gesteld en je wilt weten hoeveel van de getrouwde mensen ook kinderen hebben. Dan vermenigvuldig je de kans dat iemand is getrouwd (A) met de kans dat iemand kinderen heeft (B). De formule ziet er als volgt uit: P(A én B) = P(A) * P(B als ook A). Omdat er hierbij een verband is tussen A en B, heet het een conditionele kans.

Stel dat je meerdere mogelijkheden wilt onderzoeken die geen verband hebben. De kans dat zowel willekeurige persoon A graag truien draagt en de kans dat ook persoon B graag truien draagt, is dan P (A en B) = P (A) x P (B). Het gaat hier om onafhankelijke kansen.

4.2 Wat is het verschil in kansverdelingen bij discrete en continue variabelen?

Een willekeurige variabele houdt in dat de uitkomst van observatie tot observatie kan verschillen, maar in de praktijk wordt dit vaak gewoon een variabele genoemd. Een discrete variabele heeft vastgestelde mogelijke waarden. Een continue variabelen kent ontelbare mogelijke waarden. Omdat een kansverdeling de kansen weergeeft bij elke waarde van een variabele, gebeurt dit op verschillende wijze voor discrete en continue variabelen.

Bij een discrete variabele geeft de kansverdeling de kansen weer bij elke mogelijke waarde van de variabele. Elke kans is een getal tussen de 0 en de 1. De som van alle kansen staat gelijk aan 1. De kansen kunnen worden genoteerd als zijnde P(y). Hierbij is P de kans op een bepaalde waarde van y. In formule ziet dit er als volgt uit: 0 ≤ P(y) ≤ 1, en alle y P(y) = 1.

Omdat een continue variabele een ontelbaar aantal mogelijke waarden heeft, kan de kansverdeling niet bij elke waarde een kans tonen. Daarom geeft deze de kans weer van intervallen van mogelijke waarden. De kans dat een waarde binnen een bepaald interval ligt, ligt tussen de 0 en de 1. De kans dat alle mogelijke waarden binnen het interval liggen, is 1. Deze kansverdelingen worden weergegeven in een curve. Stel dat in een interval (zoals op de afbeelding) 20% van de data bevindt, dan is de kans dat een waarde zich binnen dat interval bevindt 0,20.

Probability distribution with intervals

Net zoals bij een populatiedistributie, heeft een kansverdeling voor de populatie parameters die de data beschrijven. Het gemiddelde beschrijft dan de centrale kans en de standaarddeviatie de variabiliteit. Het gemiddelde van de populatiedistributie bij een discrete variabele kan worden berekend met de volgende formule: µ = ∑ y P(y). In woorden: je vermenigvuldigt alle mogelijke waarden met hun kansen, en deze tel je bij elkaar op. Deze parameter wordt ook wel de ‘verwachte waarde van y’ genoemd, en wordt genoteerd als E(y). De standaarddeviatie van een populatiedistributie wordt op dezelfde manier berekend als bij een steekproef.

4.3 Hoe werkt de normale verdeling precies?

De normale verdeling is een belangrijke kansverdeling, omdat veel variabelen er in de werkelijkheid zo uit zien en omdat er heel veel statistische voorspellingen mee gedaan kunnen worden. De normale verdeling is symmetrisch, heeft een belvorm en heeft een gemiddelde (µ) en een standaarddeviatie (σ). De empirische regel is erop van toepassing: 68% valt binnen 1 standaarddeviatie, 95% valt binnen 2 standaarddeviaties en 97% valt binnen 3 standaarddeviaties. De normale verdeling ziet er zo uit:

Normal probability distribution, Normale kansverdeling

Behalve dat er bij 1, 2 en 3 standaarddeviaties vaste percentages horen, kan dat natuurlijk ook voor 1,5 of 1,7 of 1,9 (etc.) standaarddeviatie. Deze proporties en standaarddeviaties staan allemaal vast. Meestal wordt de hoeveelheid standaarddeviaties aangegeven met de waarde z.

Er is bijvoorbeeld een variabele met µ = 18 en σ= 6. Je wilt weten hoe groot de proportie is die hoger heeft gescoord dan 30. De observatie is dus y = 30. Deze y moet je omzetten in een z-score. Dat doe je door (y - µ) / σ. In dit geval is z = (30 – 18) / 6 = 2. Nu kan worden opgezocht welke p-waarde (kans) er hoort bij een z = 2. Kansen zoeken voor een normale verdeling kan met R, SPSS, Stata of SAS. Als een curve symmetrisch is gevormd, is er sprake van zogenaamde cumulatieve kansen, dit betekent dat z links en rechts dezelfde afstand heeft tot het gemiddelde. De formule is: z = (y - µ) / σ.

De z-score is het aantal standaarddeviaties dat de variabele y van het gemiddelde afligt; ofwel in hoeverre er wordt afgeweken. Bij een positieve z-score valt y boven het gemiddelde, bij een negatieve score eronder. Als onder studenten het gemiddelde cijfer voor het vak Geschiedenis van de psychologie bijvoorbeeld een 6 is, dan heeft de student die een 7 heeft een kleine maar positieve z-score en de student die een 3 heeft een erg negatieve z-score.

Andersom berekenen kan ook: als de kans P bekend is en de waarde y nog niet. Als de kansen in een kansverdeling worden weergegeven, kan de z-score worden gevonden met behulp van software. De formule voor het vinden van y is dan y = µ + z σ.

Een normale verdeling kun je omzetten naar een standaardnormale verdeling, dit is een bepaalde distributie die vaak gebruikt wordt en die bestaat uit de z-scores. Je kunt een variabele y dus omzetten naar z door er het gemiddelde vanaf te trekken en vervolgens te delen door de standaarddeviatie. Wat overblijft, is een verdeling waarbij µ = 0 en σ = 1.

Een bivariate normale verdeling is een voorbeeld van een bivariate kansverdeling. Bij een verdeling met twee variabelen (y en x), zijn er twee gemiddelden (µy en µx) en twee standaarddeviaties (σy en σx). De covariantie is de manier waarop y en x samen variëren en heeft de volgende formule:

Covariantie (x, y) = E[(x – µx)(y – µy)]

4.4 Wat is het verschil tussen een steekproefverdeling en een verdeling van de uitkomsten uit een steekproef?

Om te testen of een uitkomst, zoals een opinieonderzoek, een goeie representatie is van de populatie, kan een simulatie worden gebruikt. Met software kunnen willekeurige nummers worden gegenereerd.

Omdat soms niet bekend is hoe de populatie eruitziet, worden steekproeven gebruikt. De statistieken uit de steekproeven zeggen iets over de verwachte parameters uit de populaties. Een steekproefverdeling geeft de kansverdeling van steekproefgrootheden (het is niet de verdeling van de uitkomsten in een steekproef). Elke statistiek heeft een steekproefverdeling (zoals een voor de mediaan, voor het gemiddelde, etc.). Het is een kansverdeling die de kansen weergeeft van de mogelijke uitkomsten van een statistiek.

Het nut van een dergelijke steekproefverdeling is inschatten hoe dicht een statistiek ligt bij de voorspelde parameter. Een steekproefverdeling van een statistiek gebaseerd op n observaties is de relatieve frequentieverdeling van die statistiek, die het resultaat is van herhaalde steekproeftrekking van n, waarbij steeds de statistiekwaarde wordt berekend. Je kunt zo’n steekproefverdeling zelf maken door herhaalde steekproeftrekking, maar over het algemeen is de vorm van de verdeling wel bekend. Hiermee kun je dan de kansen van een waarde van een statistiek van een steekproef opzoeken bij een aantal (n) observaties.

4.5 Hoe werkt de steekproefverdeling van een steekproefgemiddelde?

Het gemiddelde is een veel gebruikte centrummaat. Maar wanneer het gemiddelde uit de steekproef bekend is, is nog niet bekend hoe dicht die ligt bij het gemiddelde van de populatie. Het is dus nog onbekend of ȳ = µ. Maar omdat de steekproefverdelingen al bekend zijn, kunnen er toch uitspraken over gedaan worden. Bijvoorbeeld dat er een hoge kans is dat ȳ binnen tien waarden van µ ligt. Echter, als er heel vaak een steekproef wordt getrokken, dan zal blijken dat het gemiddelde van deze steekproeven gelijk is aan het gemiddelde van de populatie. Het gemiddelde van een steekproefverdeling is dan ook gelijk aan het gemiddelde van de populatie.

De spreiding van de steekproefverdeling van ȳ wordt beschreven door de standaarddeviatie van ȳ, dit wordt de standaardfout van ȳ genoemd. Deze wordt genoteerd als σȳ.

De standaardfout kan worden berekend aan de hand van de volgende formule: σȳ = Standard error, standaardfout.

Het nut van de standaardfout is aangeven hoeveel het gemiddelde per steekproef varieert, daarmee geeft de standaardfout informatie over hoe waardevol de steekproeven zijn.

Voor een willekeurige steekproef met grootte n, hangt de standaardfout van ȳ af van de standaarddeviatie van de populatie (σ). Uit de formule kan worden opgemaakt dat de standaardfout steeds kleiner wordt naarmate n groter wordt. Een grotere steekproef is dan ook een betere weergave van de populatie. Het feit dat het steekproefgemiddelde niet volledig overeenkomt met het populatiegemiddelde noemt men de steekproeffout. Deze wordt kleiner naarmate de steekproefgrootte (n) groter wordt.

De steekproeffout en de standaardfout zijn twee verschillende dingen. De steekproeffout is de aanduiding dat de steekproef en de populatie van elkaar verschillen wat betreft het gemiddelde. De standaardfout is een meting die aangeeft hoeveel steekproeven van elkaar verschillen wat betreft het gemiddelde.

Ongeacht de vorm van een populatiedistributie, de vorm van de steekproefverdeling van ȳ is altijd een belvorm, een normale verdeling. Dit wordt de centrale limietstelling genoemd. Ook al is de populatiedistributie zeer scheef verdeeld of heeft deze erg discrete waarden, dan nog heeft de steekproefverdeling een belvorm. Wanneer de populatie echter zeer scheef verdeeld is, moet de steekproef wel steeds groter worden om meer deze belvorm aan te nemen. Hoe schever de populatie verdeeld is, hoe groter de steekproef moet zijn. Voor kleine steekproeven gaat de centrale limietstelling niet per se op.

Net als de standaardfout, kan de centrale limietstelling gebruikt worden om informatie te vinden over de steekproefverdeling en het steekproefgemiddelde ȳ. Omdat het om een normale verdeling gaat, kan de empirische regel bijvoorbeeld worden toegepast.

4.6 Hoe hangen de populatie, steekproefdata en steekproefverdeling met elkaar samen?

Omdat steekproeven trekken essentieel is voor statistiek, is het onderscheid tussen drie verdelingen erg belangrijk:

  1. De populatiedistributie beschrijft het geheel van de daadwerkelijke bevolking waaruit de steekproef wordt getrokken. De parameters µ en σ beschrijven het populatiegemiddelde en de standaarddeviatie van de populatie.

  2. De steekproefdataverdeling (sample data distribution) is de verdeling van de observaties die zijn gemaakt tijdens de steekproef. Het steekproefgemiddelde ȳ en de standaarddeviatie s van de steekproef beschrijven de curve.

  3. De steekproefverdeling (sampling distribution) geeft de kansen weer dat een statistiek van de steekproef, zoals het steekproefgemiddelde, bepaalde waarden heeft. Hiermee geeft het aan hoeveel steekproeven van elkaar kunnen verschillen.

Volgens de centrale limietstelling heeft de steekproefverdeling de vorm van een normale verdeling. Puur uit deze vorm kunnen gegevens worden afgeleid. De mogelijkheid om gegevens af te leiden, is de reden dat de normale verdeling zo belangrijk is binnen de statistiek.

TentamenTickets

  • Bij statistische inferentie is het bij elk vraagstuk van belang of het gaat over de steekproef, de populatie, of het verband daartussen. Een manier om dit te visualiseren, is om je twee (normale) verdelingen in te beelden, met bijvoorbeeld de steekproef links en de populatie rechts. Een hoop aanduidingen zijn belangrijk (ȳ, s, µ, σ, z), zorg dat je weet welke bij de steekproef hoort en welke bij de populatie.

  • Bij sommige kenmerken is het makkelijk voor te stellen dat ze beschouwd worden als variabelen in een onderzoek. Bijvoorbeeld leeftijd, stemgedrag, gewicht, aantal kinderen etc. De kansverdelingen van deze variabelen kunnen vervolgens worden geanalyseerd met behulp van maten zoals het gemiddelde ȳ en de standaarddeviatie s van de steekproeven. Het gemiddelde en de standaarddeviatie kunnen ook worden beschouwd als variabelen en worden weergegeven in een verdeling, enzovoorts. Dit systeem werkt net als Russische poppen die in elkaar passen; er is telkens weer een diepere dimensie. Dit idee helpt misschien om deze tekst beter te begrijpen.

  • Het onderscheid tussen de steekproefverdeling en de verdeling van de data van de steekproef klinkt niet erg logisch in het Nederlands, maar zo wordt het nou eenmaal genoemd, dus zorg dat je dit verschil snapt.

  • Als je niet weet waar je moet beginnen bij het uitrekenen van een wiskundig vraagstuk, begin dan met inventariseren of je alle benodigde gegevens hebt. Als je bijvoorbeeld de z-score moet berekenen, zorg dan dat je eerst de waarde van de standaarddeviatie hebt gevonden.

 

Image

Access: 
Public

Image

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Activities abroad, study fields and working areas:
Institutions, jobs and organizations:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Submenu: Summaries & Activities
Follow the author: Annemarie JoHo
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
1693
Search a summary, study help or student organization