Begrippenlijst bij Introduction to the Practice of Statistics van Moore


Hoofdstuk 1: Distributies

Individuen

Individuen worden onderzocht en beschreven op basis van data. We gebruiken de term individuen voor mensen en de term cases voor alles behalve mensen.

Variabele

 

 

Categorische variabele

 

Kwantitatieve variabele

Een kenmerk van een individu. Een variabele kan verschillende waarden voor verschillende mensen hebben. Voorbeelden van variabelen zijn sekse, leeftijd, lengte en gewicht.

 

Plaatst een individu in één of van de twee of meer groepen of categorieën. Een voorbeeld is sekse.

 

Heeft een numerieke waarden waarmee gerekend kan worden. Een voorbeeld is lengte: iemand van twee meter is twee keer zo lang als iemand van één meter.

Distributie

Een distributie van een variabele vertelt ons welke waarden van een variabele bij individuen voorkomen en hoe vaak deze waarden voorkomen

Verkennende data-analyse (exploratory data analysis)

de belangrijkste kenmerken van een dataset worden beschreven

Staafdiagram (bar graph):

De hoogtes van de staven zeggen iets over hoe vaak bepaalde waarden voorkomen. De frequenties staan op de y-as en de lengtes van de staven dienen daar dan ook mee te corresponderen.

Cirkeldiagram (pie chart)

Hiermee kun je bijvoorbeeld meteen zien of er meer mannen dan vrouwen hebben meegedaan aan een onderzoek. Omdat cirkeldiagrammen niet gebruik maken van schalen, worden hoeveelheden door middel van percentages uitgedrukt.

Stam-en-bladdiagram (stemplot)

Een stam-en-bladdiagram geeft snel een beeld van de vorm van een distributie, terwijl elke waarde in de oorspronkelijke vorm worden toegevoegd. Zo een diagram is het handigst als er sprake is van niet al te veel observaties (die allemaal groter dan nul zijn).

Rug-tot-rugdiagram (back-to-back stemplot)

Een rug-tot-rugdiagram is een variant van de stam-en-bladdiagram. Met zo een diagram kunnen twee gerelateerde distributies vergeleken worden. Zo een diagram maakt gebruik van gemeenschappelijke stammen.

Histogrammen

 

Bij een histogram worden de waarden van een variabele opgedeeld in groepen. Daarom worden alleen de frequenties of percentages beschreven die bij de groepen horen.

Uitbijter

Dit is een individuele score die duidelijk buiten het algemene patroon valt.

Tijdplots (time plots)

 

Een tijdplot (time plot) van een variabele geeft een grafische weergave van elke observatie in relatie tot het moment waarop deze gemeten variabele is. Tijd moet altijd op de horizontale lijn gezet worden, terwijl de gemeten variabele op de Y-as moet staan.

Het gemiddelde (the mean)

 

Een numerieke beschrijving van een distributie begint met een meting van het middenpunt.

De mediaan

 

De mediaan M is het letterlijke middenpunt van en distributie. De helft van de observaties valt onder de mediaan, terwijl de andere helft zich boven de mediaan bevindt.

Interkwartiele range (interquartile range: IQR)

 

De afstand tussen de eerste en het derde kwartiel is een meer robuuste maat voor spreiding. Deze afstand wordt de interkwartiele range genoemd.

Variantie (s²)

De variantie van een dataset is het gemiddelde van de gekwadrateerde score-afwijkingen van het gemiddelde.

Standaarddeviatie (s)

De wortel uit de variantie.

Dichtheidscurves

 

Een dichtheidscurve beschrijft het algemene patroon van een distributie. Dichtheidscurves kunnen, net zoals distributies, allerlei vormen hebben. Een bijzondere variant is de normaalverdeling, waarbij beide helften van de curve symmetrisch zijn.

Modus

De modus van een distributie beschrijft het piekpunt van de curve.

Normaalverdelingen

 

Normaalverdelingen zijn symmetrisch en unimodaal: ze hebben dus maar één piek.

Cumulatieve proporties

 

Dit is de proportie observaties in een distributie die onder een bepaalde waarde ligt of daar precies gelijk aan is.

Hoofdstuk 2: Verbanden

Responsvariabele

Gerelateerd aan de uitkomsten van een onderzoek.

Verklarende variabele

Verklaart of veroorzaakt veranderingen in de responsvariabelen. In ons voorbeeld is lengte de verklarende variabele.

Puntgrafiek (scatterplot)

Grafisch wijze waarbij de relatie tussen twee kwantitatieve variabelen wordt verwerkt. De twee variabelen moeten wel bij dezelfde individuen gemeten worden.

Correlatie

De correlatie meet de richting en de sterke van een lineaire relatie tussen twee kwantitatieve variabelen.

Regressielijn

Een regressielijn is een rechte lijn die beschrijft hoe een responsvariabele Y verandert als een verklarende variabele X verandert.

Extrapolatie

Extrapoleren is het gebruik van een regressielijn om voorspellingen te doen die ver buiten de onderzochte waarden liggen.

Residu

Een residu is het verschil tussen een geobserveerde waarde van een responsvariabele en de voorspelde waarde volgens de regressielijn: residu = y- ŷ.

Op de loer liggende variabele (lurking variable)

Een variabele die niet in het onderzoek als een verklarende- of responsvariabele opgenomen is, maar toch de interpretatie van de relatie tussen deze variabelen kan beïnvloeden.

Causaliteit

Als variabele X variabele Y veroorzaakt.

Algemene respons (common response)

X en Y lijken samen te hangen omdat ze allebei worden beïnvloed door een andere variabele, namelijk variabele Z.

Confounding

Twee variabelen zijn ‘confounded’ wanneer hun effecten op een responsvariabele niet van elkaar kunnen worden onderscheiden.

Hoofdstuk 3: Data verzamelen

Anekdotisch bewijs (anecdotal evidence)

Gebaseerd op onze eigen selectie van informatie.

Randomisatie

Randomisatie is het gebruik van toeval om experimentele eenheden in groepen in te delen

Dubbel blind onderzoek

Wanneer zowel de subjecten zelf als de onderzoekers niet weten welke behandelingen de subjecten gekregen hebben.

Gematchte paar-design

Bij dit design worden twee behandelingen met elkaar vergeleken. De subjecten worden in groepjes van twee gepaard.

Blok design

In dit design wordt gebruik gemaakt van zogenaamde blokken. Een blok is een groep van experimentele eenheden of subjecten die op elkaar lijken.

Vrijwillige responssteekproef (voluntary response sample)

Het bestaat uit mensen die zelf kiezen om mee te doen aan een onderzoek.

Simpele random sample

Dit is een steekproef van grootte n die uit n aantal individuen uit de populatie bestaat. Deze individuen zijn zo gekozen dat elke set van n aantal individuen evenveel kans heeft gehad om voor de steekproef geselecteerd te worden.

Kanssample (probability sample)

Een steekproef die aan de hand van toevalsverschijnselen wordt geselecteerd.

Gestratificeerde (stratified) random sample

Een steekproef die vaak wordt gebruikt als er sprake is van een onderzoek naar een grote populatie.

Multistage sampling design

Bij dit design wordt de steekproef in fasen geselecteerd.

Onvoldoende dekking (undercoverage)

Als sommige groepen uit de populatie systematisch niet betrokken worden bij een steekproef.

Responsbias

 

Deelnemers reageren dan bijvoorbeeld niet eerlijk over zaken als drugsgebruik of stelen. Dit omdat niemand ongewenst gedrag wil toegeven.

Sampling variabiliteit

De waarde van een statistiek per steekproef varieert.

De steekproevendistributie (sampling distribution)

De distributie van alle waarden die de statistiek aanneemt in alle mogelijke steekproeven van dezelfde grootte en uit dezelfde populatie.

Informed consent
 

Alle deelnemers die mee willen doen aan een onderzoek moeten hun goedkeuring voor deelname geven.

De beoordelingscommissie

 

Het doel van de beoordelingscommissie is het beschermen van de rechten en de (mentale) gezondheid van deelnemers.

Hoofdstuk 4: Kansen

Random

We noemen een fenomeen random als individuele uitkomsten onzeker zijn, maar er toch een duidelijk uitkomstenpatroon op lange termijn waar te nemen is.

Kans (probability)

De kans (probability) op een uitkomst van een random fenomeen is de proportie van het aantal keren dat de uitkomst voor zal komen na vele herhalingen.

Kansmodel (probability model)

De beschrijving van een random fenomeen in rekenkundige termen

Sampleruimte (S)

Een sampleruimte (S) van een random fenomeen is de set van alle mogelijke uitkomsten.

Discrete random variabele X

Variabele met een eindig aantal mogelijke waarden.

Unie

Een unie van een verzameling van gebeurtenissen is de gebeurtenis dat minstens één van de alle gebeurtenissen voorkomt.

Conditionele kans

Kijkt naar de kans op een bepaalde gebeurtenis, gegeven het feit dat een andere gebeurtenis is voorgekomen.

Intersectie

De intersectie van een verzameling gebeurtenissen is de gebeurtenis waarbij alle gebeurtenissen uit de verzameling voorkomen.

Hoofdstuk 5: Steekproevendistributies

De steekproevendistributie (sampling distribution)

De kansdistributie van een toets. Zo een distributie laat zien hoe een toets (zoals een gemiddelde) zal variëren wanneer herhaaldelijk een steekproef getrokken zou worden.

De populatiedistributie

Een distributie die alle waarden bevat die een variabele aanneemt bij leden van de populatie.

Steekproefgemiddelden

Het steekproefgemiddelde () is een schatting van het gemiddelde μ van de populatie,

Telling

Een random variabele X is een telling (count) als we tellen hoe vaak een bepaalde uitkomst voorkomt.

Binomiale distributie

Distributie bestaand uit n observaties die allen onafhankelijk zijn. Elke observatie valt onder een van de twee categorieën(succes of falen).

Hoofdstuk 6: Introductie in statistische gevolgtrekkingen

Statistische gevolgtrekkingen (statistical interference)

Gaan over het trekken van conclusies over een populatie op basis van steekproefdata.

Betrouwbaarheidsintervallen

Bij het berekenen van betrouwbaarheidsintervallen proberen we met een bepaalde zekerheid (bijvoorbeeld met een zekerheid van 95%) te stellen dat een populatiewaarde zich tussen twee grenswaarden bevindt.

Nulhypothese

De hypothese die bij een significantietoets getoetst wordt.

Alternatieve hypothese

Deze stelt dat er wel een verschil of verandering is. We willen bewijs vinden dat de alternatieve hypothese steunt.

Teststatistiek

Een teststatistiek meet in hoeverre de nulhypothese en de verzamelde data overeenkomstig zijn. Dit gegeven gebruiken we voor de significantietoets. Een teststatistiek zien we als een random variabele.

P-waarde

De p-waarde is de kans dat een teststatistiek een extreme(re) waarde aanneemt dan uit de gevonden data blijkt, als de nulhypothese waar zou zijn.

Significantieniveau

De beslissende waarde van p. Ook wel alpha genoemd.

Power

De kans dat een significantietoets met een vaste α de nulhypothese zal afwijzen als de alternatieve hypothese in werkelijkheid juist is, noemen we de power van de toets.

Een type II fout

Aannemen van de nulhypothese en afwijzen van de alternatieve hypothese. Dit terwijl de alternatieve hypothese in werkelijkheid juist is.

Een type I fout

Afwijzen van de nulhypothese en het aannemen van de alternatieve hypothese. Dit terwijl in werkelijkheid de nulhypothese juist is.

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

T-distributie

We gebruiken de t-distributie (in plaats van de z-distributie) wanneer we de standaarddeviatie van de populatie niet kennen.

Robuustheid

Een distributie die niet erg door een niet-normaalverdeelde populatie wordt beïnvloed, wordt robuust genoemd.

Hoofdstuk 8: Statistische gevolgtrekkingen voor proporties

Steekproefproportie

De steekproefproportie wordt gebruikt om de populatieproportie te schatten.

De plus vier schatting

De plus vier regel om een populatieproportie te schatten is: p-golf= X+2/n+4.

plus vier schattingen van twee populatieproporties

p1-golf= X1 +1/ n1 +2 en p2-golf= X2 +1/ n2 +2

Hoofdstuk 9: Analyse van tweewegtabellen

Tweewegtabellen

Variabelen die in twee rijen en twee kolommen worden gezet.

De verwachte celtelling

(Rijtotaal/ kolomtotaal)/n

 

Chi-kwadraat toets

De chi-kwadraat toets meet hoeveel de geobserveerde celtellingen verschillen van de verwachte celtellingen. Grote waarden van X 2 geven bewijs tegen de nulhypothese.

Hoofdstuk 10: Regressie

Simpele lineaire regressie

Simpele lineaire regressie wordt gebruikt om de relatie tussen een responsvariabele (y) en een verklarende variabele (x) te onderzoeken.

Subpopulatie

Elke waarde van x gaat samen met één subpopulatie. Elke subpopulatie bestaat uit alle individuen in de populatie die dezelfde waarde van x hebben.

Voorspellingsinterval

Soms willen we een waarde van een y voorspellen die ver buiten de y-waarden in de data ligt. In dat geval maken we gebruik van een voorspellingsinterval.

Analyse van Variantie (ANOVA)

Door middel van analyse van variantie (ANOVA) kunnen we uitzoeken in hoeverre data verklaard kan worden door het deel dat past bij de regressielijn (fit) en het deel dat daarvan afwijkt (residuen).

Populatiecorrelatie (ρ)

Correlatie tussen twee variabelen in een populatie. Als x en y beide normaalverdeeld zijn, dan is ρ=0 hetzelfde als zeggen dat x en y in de populatie onafhankelijk zijn.

Hoofdstuk 11: Meervoudige regressie

Meerdere voorspellers

Bij simpele lineaire regressie is er maar één voorspeller waardoor de observaties samengevat kunnen worden als (xi, yi). Als er meerdere voorspellers zijn, dan maken we gebruik van de notatie xij. In dit verband staat j voor de j-ste variabele en i voor het i-ste geval (case).

Het statistische model voor multipele lineaire regressie

yi= β0+ β1xi1 + β2xi2+ … + βpxip + εi

betrouwbaarheidsinterval voor βj

bj± t*SEbj. In deze formule is SEbj de standaardfout van bj en t* is de waarde van t(n-p-1).

 

Hoofdstuk 12: Eenweg ANOVA

Analyse van Variantie

We gebruiken ANOVA (analyse van variantie) om verschillende gemiddelden met elkaar te vergelijken.

Eenweg ANOVA

Deze techniek wordt gebruikt als er maar één manier is om de populaties te classificeren. Een voorbeeld is onderzoeken of overlevingskansen verschillen voor drie verschillende longkankerbehandelingen.

Tweeweg ANOVA

In dit geval is er meer dan één manier om populaties te classificeren.

De twee sample t-toets

De twee-sample t-toets vergelijkt de gemiddelden van twee populaties. De aanname is hierbij dat beide populaties dezelfde (maar een onbekende) standaarddeviatie hebben en dat de steekproefgroottes gelijk zijn.

Multipele vergelijkingen (multiple-comparisons)

Als we geen vermoeden hebben over de specifieke relatie tussen de populatiegemiddelden, dan kunnen we gebruik maken van multipele vergelijkingen (multiple-comparisons). We onderzoeken in dat geval welke paren van populatiegemiddelden significant van elkaar verschillen.

 

Eenweg ANOVA model

xij = μi + ε ij

Sum of Squares (SS)

SS (sums of squares) laat zien hoeveel spreiding er in de data aanwezig is.

Contrast

Een contrast is een combinatie van populatiegemiddelden in de vorm van Ψ= Σ aiμi. De coëfficiënten van ai tellen op tot 0.

 

Multipele vergelijkingen

Multipele vergelijkingen worden uitgevoerd nadat de nulhypothese voor eenweg ANOVA verworpen is. Aan de hand van deze vergelijkingen worden steeds paren van populaties met elkaar vergeleken.

‘least-significant differences method’ (LSD)

Om t** te bepalen wordt gebruik gemaakt van een alfa van 5%.

Bonferroni methode

Methode om t** te bepalen. Met deze methode neemt de kans op een type I fout niet toe per vergelijking. De kans blijft altijd 5%.

Hoofdstuk 13: Tweeweg ANOVA

Tweeweg ANOVA

Bij tweeweg ANOVA maken we gebruik van twee factoren; elke factor heeft meerdere niveaus.

Hoofdeffect

De verschillen in gemiddelden tussen de niveaus van een variabele.

Interactie effect

Verschillen in gemiddelden die ontstaan door een unieke combinatie van een specifieke variabele en een specifiek niveau van een variabele.

Bron

  • Deze begrippenlijst is gebaseerd op de 8e druk van Introduction to the Practice of Statistics van Moore uit 2014.
Check page access:
Public
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

How to use and find summaries?


Online access to all summaries, study notes en practice exams

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Starting Pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Follow authors or (study) organizations: by following individual users, authors and your study organizations you are likely to discover more relevant study materials.
  3. Search tool: quick & dirty - not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject. The search tool is available at the bottom of most pages or on the Search & Find page
  4. Tags & Taxonomy: gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study (main tags and taxonomy terms)

Field of study

Quick links to WorldSupporter content for universities in the Netherlands

Follow the author: Business and Economics Supporter
Comments, Compliments & Kudos:

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Promotions
special isis de wereld in

Waag jij binnenkort de sprong naar het buitenland? Verzeker jezelf van een goede ervaring met de JoHo Special ISIS verzekering

More contributions of WorldSupporter author: Business and Economics Supporter: