Begrippenlijst bij Introduction to the Practice of Statistics van Moore

Hoofdstuk 1: Distributies
Hoofdstuk 2: Verbanden
Hoofdstuk 3: Data verzamelen
Hoofdstuk 4: Kansen
Hoofdstuk 5: Steekproevendistributies
Hoofdstuk 6: Introductie in statistische gevolgtrekkingen
Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies
Hoofdstuk 8: Statistische gevolgtrekkingen voor proporties
Hoofdstuk 9: Analyse van tweewegtabellen
Hoofdstuk 10: Regressie
Hoofdstuk 11: Meervoudige regressie
Hoofdstuk 12: Eenweg ANOVA
Hoofdstuk 13: Tweeweg ANOVA
Bron

Hoofdstuk 1: Distributies

Individuen	Individuen worden onderzocht en beschreven op basis van data. We gebruiken de term individuen voor mensen en de term cases voor alles behalve mensen.
Variabele Categorische variabele Kwantitatieve variabele	Een kenmerk van een individu. Een variabele kan verschillende waarden voor verschillende mensen hebben. Voorbeelden van variabelen zijn sekse, leeftijd, lengte en gewicht. Plaatst een individu in één of van de twee of meer groepen of categorieën. Een voorbeeld is sekse. Heeft een numerieke waarden waarmee gerekend kan worden. Een voorbeeld is lengte: iemand van twee meter is twee keer zo lang als iemand van één meter.
Distributie	Een distributie van een variabele vertelt ons welke waarden van een variabele bij individuen voorkomen en hoe vaak deze waarden voorkomen
Verkennende data-analyse (exploratory data analysis)	de belangrijkste kenmerken van een dataset worden beschreven
Staafdiagram (bar graph):	De hoogtes van de staven zeggen iets over hoe vaak bepaalde waarden voorkomen. De frequenties staan op de y-as en de lengtes van de staven dienen daar dan ook mee te corresponderen.
Cirkeldiagram (pie chart)	Hiermee kun je bijvoorbeeld meteen zien of er meer mannen dan vrouwen hebben meegedaan aan een onderzoek. Omdat cirkeldiagrammen niet gebruik maken van schalen, worden hoeveelheden door middel van percentages uitgedrukt.
Stam-en-bladdiagram (stemplot)	Een stam-en-bladdiagram geeft snel een beeld van de vorm van een distributie, terwijl elke waarde in de oorspronkelijke vorm worden toegevoegd. Zo een diagram is het handigst als er sprake is van niet al te veel observaties (die allemaal groter dan nul zijn).
Rug-tot-rugdiagram (back-to-back stemplot)	Een rug-tot-rugdiagram is een variant van de stam-en-bladdiagram. Met zo een diagram kunnen twee gerelateerde distributies vergeleken worden. Zo een diagram maakt gebruik van gemeenschappelijke stammen.
Histogrammen	Bij een histogram worden de waarden van een variabele opgedeeld in groepen. Daarom worden alleen de frequenties of percentages beschreven die bij de groepen horen.
Uitbijter	Dit is een individuele score die duidelijk buiten het algemene patroon valt.
Tijdplots (time plots)	Een tijdplot (time plot) van een variabele geeft een grafische weergave van elke observatie in relatie tot het moment waarop deze gemeten variabele is. Tijd moet altijd op de horizontale lijn gezet worden, terwijl de gemeten variabele op de Y-as moet staan.
Het gemiddelde (the mean)	Een numerieke beschrijving van een distributie begint met een meting van het middenpunt.
De mediaan	De mediaan M is het letterlijke middenpunt van en distributie. De helft van de observaties valt onder de mediaan, terwijl de andere helft zich boven de mediaan bevindt.
Interkwartiele range (interquartile range: IQR)	De afstand tussen de eerste en het derde kwartiel is een meer robuuste maat voor spreiding. Deze afstand wordt de interkwartiele range genoemd.
Variantie (s²)	De variantie van een dataset is het gemiddelde van de gekwadrateerde score-afwijkingen van het gemiddelde.
Standaarddeviatie (s)	De wortel uit de variantie.
Dichtheidscurves	Een dichtheidscurve beschrijft het algemene patroon van een distributie. Dichtheidscurves kunnen, net zoals distributies, allerlei vormen hebben. Een bijzondere variant is de normaalverdeling, waarbij beide helften van de curve symmetrisch zijn.
Modus	De modus van een distributie beschrijft het piekpunt van de curve.
Normaalverdelingen	Normaalverdelingen zijn symmetrisch en unimodaal: ze hebben dus maar één piek.
Cumulatieve proporties	Dit is de proportie observaties in een distributie die onder een bepaalde waarde ligt of daar precies gelijk aan is.

Hoofdstuk 2: Verbanden

Responsvariabele	Gerelateerd aan de uitkomsten van een onderzoek.
Verklarende variabele	Verklaart of veroorzaakt veranderingen in de responsvariabelen. In ons voorbeeld is lengte de verklarende variabele.
Puntgrafiek (scatterplot)	Grafisch wijze waarbij de relatie tussen twee kwantitatieve variabelen wordt verwerkt. De twee variabelen moeten wel bij dezelfde individuen gemeten worden.
Correlatie	De correlatie meet de richting en de sterke van een lineaire relatie tussen twee kwantitatieve variabelen.
Regressielijn	Een regressielijn is een rechte lijn die beschrijft hoe een responsvariabele Y verandert als een verklarende variabele X verandert.
Extrapolatie	Extrapoleren is het gebruik van een regressielijn om voorspellingen te doen die ver buiten de onderzochte waarden liggen.
Residu	Een residu is het verschil tussen een geobserveerde waarde van een responsvariabele en de voorspelde waarde volgens de regressielijn: residu = y- ŷ.
Op de loer liggende variabele (lurking variable)	Een variabele die niet in het onderzoek als een verklarende- of responsvariabele opgenomen is, maar toch de interpretatie van de relatie tussen deze variabelen kan beïnvloeden.
Causaliteit	Als variabele X variabele Y veroorzaakt.
Algemene respons (common response)	X en Y lijken samen te hangen omdat ze allebei worden beïnvloed door een andere variabele, namelijk variabele Z.
Confounding	Twee variabelen zijn ‘confounded’ wanneer hun effecten op een responsvariabele niet van elkaar kunnen worden onderscheiden.

Hoofdstuk 3: Data verzamelen

Anekdotisch bewijs (anecdotal evidence)	Gebaseerd op onze eigen selectie van informatie.
Randomisatie	Randomisatie is het gebruik van toeval om experimentele eenheden in groepen in te delen
Dubbel blind onderzoek	Wanneer zowel de subjecten zelf als de onderzoekers niet weten welke behandelingen de subjecten gekregen hebben.
Gematchte paar-design	Bij dit design worden twee behandelingen met elkaar vergeleken. De subjecten worden in groepjes van twee gepaard.
Blok design	In dit design wordt gebruik gemaakt van zogenaamde blokken. Een blok is een groep van experimentele eenheden of subjecten die op elkaar lijken.
Vrijwillige responssteekproef (voluntary response sample)	Het bestaat uit mensen die zelf kiezen om mee te doen aan een onderzoek.
Simpele random sample	Dit is een steekproef van grootte n die uit n aantal individuen uit de populatie bestaat. Deze individuen zijn zo gekozen dat elke set van n aantal individuen evenveel kans heeft gehad om voor de steekproef geselecteerd te worden.
Kanssample (probability sample)	Een steekproef die aan de hand van toevalsverschijnselen wordt geselecteerd.
Gestratificeerde (stratified) random sample	Een steekproef die vaak wordt gebruikt als er sprake is van een onderzoek naar een grote populatie.
Multistage sampling design	Bij dit design wordt de steekproef in fasen geselecteerd.
Onvoldoende dekking (undercoverage)	Als sommige groepen uit de populatie systematisch niet betrokken worden bij een steekproef.
Responsbias	Deelnemers reageren dan bijvoorbeeld niet eerlijk over zaken als drugsgebruik of stelen. Dit omdat niemand ongewenst gedrag wil toegeven.
Sampling variabiliteit	De waarde van een statistiek per steekproef varieert.
De steekproevendistributie (sampling distribution)	De distributie van alle waarden die de statistiek aanneemt in alle mogelijke steekproeven van dezelfde grootte en uit dezelfde populatie.
Informed consent	Alle deelnemers die mee willen doen aan een onderzoek moeten hun goedkeuring voor deelname geven.
De beoordelingscommissie	Het doel van de beoordelingscommissie is het beschermen van de rechten en de (mentale) gezondheid van deelnemers.

Hoofdstuk 4: Kansen

Random	We noemen een fenomeen random als individuele uitkomsten onzeker zijn, maar er toch een duidelijk uitkomstenpatroon op lange termijn waar te nemen is.
Kans (probability)	De kans (probability) op een uitkomst van een random fenomeen is de proportie van het aantal keren dat de uitkomst voor zal komen na vele herhalingen.
Kansmodel (probability model)	De beschrijving van een random fenomeen in rekenkundige termen
Sampleruimte (S)	Een sampleruimte (S) van een random fenomeen is de set van alle mogelijke uitkomsten.
Discrete random variabele X	Variabele met een eindig aantal mogelijke waarden.
Unie	Een unie van een verzameling van gebeurtenissen is de gebeurtenis dat minstens één van de alle gebeurtenissen voorkomt.
Conditionele kans	Kijkt naar de kans op een bepaalde gebeurtenis, gegeven het feit dat een andere gebeurtenis is voorgekomen.
Intersectie	De intersectie van een verzameling gebeurtenissen is de gebeurtenis waarbij alle gebeurtenissen uit de verzameling voorkomen.

Hoofdstuk 5: Steekproevendistributies

De steekproevendistributie (sampling distribution)	De kansdistributie van een toets. Zo een distributie laat zien hoe een toets (zoals een gemiddelde) zal variëren wanneer herhaaldelijk een steekproef getrokken zou worden.
De populatiedistributie	Een distributie die alle waarden bevat die een variabele aanneemt bij leden van de populatie.
Steekproefgemiddelden	Het steekproefgemiddelde () is een schatting van het gemiddelde μ van de populatie,
Telling	Een random variabele X is een telling (count) als we tellen hoe vaak een bepaalde uitkomst voorkomt.
Binomiale distributie	Distributie bestaand uit n observaties die allen onafhankelijk zijn. Elke observatie valt onder een van de twee categorieën(succes of falen).

Hoofdstuk 6: Introductie in statistische gevolgtrekkingen

Statistische gevolgtrekkingen (statistical interference)	Gaan over het trekken van conclusies over een populatie op basis van steekproefdata.
Betrouwbaarheidsintervallen	Bij het berekenen van betrouwbaarheidsintervallen proberen we met een bepaalde zekerheid (bijvoorbeeld met een zekerheid van 95%) te stellen dat een populatiewaarde zich tussen twee grenswaarden bevindt.
Nulhypothese	De hypothese die bij een significantietoets getoetst wordt.
Alternatieve hypothese	Deze stelt dat er wel een verschil of verandering is. We willen bewijs vinden dat de alternatieve hypothese steunt.
Teststatistiek	Een teststatistiek meet in hoeverre de nulhypothese en de verzamelde data overeenkomstig zijn. Dit gegeven gebruiken we voor de significantietoets. Een teststatistiek zien we als een random variabele.
P-waarde	De p-waarde is de kans dat een teststatistiek een extreme(re) waarde aanneemt dan uit de gevonden data blijkt, als de nulhypothese waar zou zijn.
Significantieniveau	De beslissende waarde van p. Ook wel alpha genoemd.
Power	De kans dat een significantietoets met een vaste α de nulhypothese zal afwijzen als de alternatieve hypothese in werkelijkheid juist is, noemen we de power van de toets.
Een type II fout	Aannemen van de nulhypothese en afwijzen van de alternatieve hypothese. Dit terwijl de alternatieve hypothese in werkelijkheid juist is.
Een type I fout	Afwijzen van de nulhypothese en het aannemen van de alternatieve hypothese. Dit terwijl in werkelijkheid de nulhypothese juist is.

Hoofdstuk 7: Statistische gevolgtrekkingen voor distributies

T-distributie	We gebruiken de t-distributie (in plaats van de z-distributie) wanneer we de standaarddeviatie van de populatie niet kennen.
Robuustheid	Een distributie die niet erg door een niet-normaalverdeelde populatie wordt beïnvloed, wordt robuust genoemd.

Hoofdstuk 8: Statistische gevolgtrekkingen voor proporties

Steekproefproportie	De steekproefproportie wordt gebruikt om de populatieproportie te schatten.
De plus vier schatting	De plus vier regel om een populatieproportie te schatten is: p-golf= X+2/n+4.
plus vier schattingen van twee populatieproporties	p₁-golf= X₁+1/ n₁+2 en p₂-golf= X₂+1/ n₂+2

Hoofdstuk 9: Analyse van tweewegtabellen

Tweewegtabellen

Variabelen die in twee rijen en twee kolommen worden gezet.

De verwachte celtelling

(Rijtotaal/ kolomtotaal)/n

Chi-kwadraat toets

De chi-kwadraat toets meet hoeveel de geobserveerde celtellingen verschillen van de verwachte celtellingen. Grote waarden van X² geven bewijs tegen de nulhypothese.

Hoofdstuk 10: Regressie

Simpele lineaire regressie	Simpele lineaire regressie wordt gebruikt om de relatie tussen een responsvariabele (y) en een verklarende variabele (x) te onderzoeken.
Subpopulatie	Elke waarde van x gaat samen met één subpopulatie. Elke subpopulatie bestaat uit alle individuen in de populatie die dezelfde waarde van x hebben.
Voorspellingsinterval	Soms willen we een waarde van een y voorspellen die ver buiten de y-waarden in de data ligt. In dat geval maken we gebruik van een voorspellingsinterval.
Analyse van Variantie (ANOVA)	Door middel van analyse van variantie (ANOVA) kunnen we uitzoeken in hoeverre data verklaard kan worden door het deel dat past bij de regressielijn (fit) en het deel dat daarvan afwijkt (residuen).
Populatiecorrelatie (ρ)	Correlatie tussen twee variabelen in een populatie. Als x en y beide normaalverdeeld zijn, dan is ρ=0 hetzelfde als zeggen dat x en y in de populatie onafhankelijk zijn.

Hoofdstuk 11: Meervoudige regressie

Meerdere voorspellers

Bij simpele lineaire regressie is er maar één voorspeller waardoor de observaties samengevat kunnen worden als (x_i,y_i). Als er meerdere voorspellers zijn, dan maken we gebruik van de notatie x_ij.In dit verband staat j voor de j-ste variabele en i voor het i-ste geval (case).

Het statistische model voor multipele lineaire regressie

y_i= β₀+ β₁x_i1 + β₂x_i2+ … + β_px_ip + ε_i

betrouwbaarheidsinterval voor β_j

b_j± t*SE_bj.In deze formule is SE_bjde standaardfout van b_jen t* is de waarde van t(n-p-1).

Hoofdstuk 12: Eenweg ANOVA

Analyse van Variantie	We gebruiken ANOVA (analyse van variantie) om verschillende gemiddelden met elkaar te vergelijken.
Eenweg ANOVA	Deze techniek wordt gebruikt als er maar één manier is om de populaties te classificeren. Een voorbeeld is onderzoeken of overlevingskansen verschillen voor drie verschillende longkankerbehandelingen.
Tweeweg ANOVA	In dit geval is er meer dan één manier om populaties te classificeren.
De twee sample t-toets	De twee-sample t-toets vergelijkt de gemiddelden van twee populaties. De aanname is hierbij dat beide populaties dezelfde (maar een onbekende) standaarddeviatie hebben en dat de steekproefgroottes gelijk zijn.
Multipele vergelijkingen (multiple-comparisons)	Als we geen vermoeden hebben over de specifieke relatie tussen de populatiegemiddelden, dan kunnen we gebruik maken van multipele vergelijkingen (multiple-comparisons). We onderzoeken in dat geval welke paren van populatiegemiddelden significant van elkaar verschillen.
Eenweg ANOVA model	x_ij= μ_i+ ε_ij
Sum of Squares (SS)	SS (sums of squares) laat zien hoeveel spreiding er in de data aanwezig is.
Contrast	Een contrast is een combinatie van populatiegemiddelden in de vorm van Ψ= Σ a_iμ_i. De coëfficiënten van a_itellen op tot 0.
Multipele vergelijkingen	Multipele vergelijkingen worden uitgevoerd nadat de nulhypothese voor eenweg ANOVA verworpen is. Aan de hand van deze vergelijkingen worden steeds paren van populaties met elkaar vergeleken.
‘least-significant differences method’ (LSD)	Om t** te bepalen wordt gebruik gemaakt van een alfa van 5%.
Bonferroni methode	Methode om t** te bepalen. Met deze methode neemt de kans op een type I fout niet toe per vergelijking. De kans blijft altijd 5%.

Hoofdstuk 13: Tweeweg ANOVA

Tweeweg ANOVA	Bij tweeweg ANOVA maken we gebruik van twee factoren; elke factor heeft meerdere niveaus.
Hoofdeffect	De verschillen in gemiddelden tussen de niveaus van een variabele.
Interactie effect	Verschillen in gemiddelden die ontstaan door een unieke combinatie van een specifieke variabele en een specifiek niveau van een variabele.

Bron

Deze begrippenlijst is gebaseerd op de 8e druk van Introduction to the Practice of Statistics van Moore uit 2014.

Check page access:

Public

Join WorldSupporter!

Join with a free account for more service, or become a member for full access and support of WordSupporter

Check more or recent content:

Introduction to the practice of Statistics - Moore (8e druk)

This content is related to:

Introduction to the practice of Statistics - Moore (8e druk)

Boekbundel bij Introduction to the practice of Statistics van Moore (8e druk) + koppeling naar de 9e drukRead more

1970 reads

Work for WorldSupporter

JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

How to use and find summaries?

Online access to all summaries, study notes en practice exams
Using and finding summaries, study notes en practice exams on JoHo WorldSupporter
Quicklinks to fields of study (main tags and taxonomy terms)
Quick links to WorldSupporter content for universities in the Netherlands

Online access to all summaries, study notes en practice exams

Check out: Register with JoHo WorldSupporter: starting page (EN)
Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
Check out: Summaries & Study Assistance - Starting page

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

Starting Pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
Follow authors or (study) organizations: by following individual users, authors and your study organizations you are likely to discover more relevant study materials.
Search tool: quick & dirty - not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject. The search tool is available at the bottom of most pages or on the Search & Find page
Tags & Taxonomy: gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Check out: Why and how to add a WorldSupporter contributions
JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form