TentamenTests bij de 10e druk van Introduction to the Practice of Statistics van Moore, McCabe & Craig

Wat zijn distributies? - TentamenTests 1
Wat zijn statistische verbanden? - TentamenTests 2
Hoe moet je data verzamelen? - TentamenTests 3
Wat werkt kansrekening in de statistiek? - TentamenTests 4
Wat zijn steekproefdistributies? - TentamenTests 5
Wat zijn statistische gevolgtrekkingen? - TentamenTests 6
Wat zijn statistische gevolgtrekkingen voor distributies? - TentamenTests 7
Wat zijn statistische gevolgtrekkingen voor proporties? - TentamenTests 8
Wat zijn gevolgtrekkingen voor categorische data? - TentamenTests 9
Wat is regressie? - TentamenTests 10
Wat is multiple regressie? - TentamenTests 11
Wat is eenweg ANOVA? - TentamenTests 12
Wat is tweeweg ANOVA? - TentamenTests 13
Wat is logistische regressie? - TentamenTests 14
Wat zijn nonparametrische toetsen? - TentamenTests 15

Wat zijn distributies? - TentamenTests 1

Meerkeuzevragen

Vraag 1

Welke van de onderstaande maten kan worden berekend uit de five-number summary (vijf-getallen-samenvatting)?

A. Het gemiddelde
B. De interkwartiele range
C. De standaarddeviatie
D. De variantie

Vraag 2

Persoon X heeft veel oefententamens van statistiek gemaakt. Hierdoor begrijpt X de stof goed en haalt het tentamen. De variabele ‘aantal uren studeren’ is een voorbeeld van een

A. Afhankelijke variabele
B. Normaal verdeelde variabele
C. Onafhankelijke variabele
D. Kwalitatieve variabele

Vraag 3

Een docent heeft een stemplot (stam-en-bladdiagram) gemaakt van het aantal punten dat iedere leerling op het tentamen statistiek (schaal 0-100) heeft gehaald. Uit het stemplot blijkt dat de modus gelijk is aan 61. Welke van de onderstaande stemplots zou hierop van toepassing kunnen zijn?

A.
3 | 8
4 | 2 8
5 | 4 5 6 7
6| 1 1 1 6
7| 3 3 8 8
8| 0 2 2 5 9
9| 3 5 9

B.
3 | 8
4 | 2 3 8
5 | 4 5 5 5
6| 0 0 1 6
7| 3 3 8 8 9
8| 0 2 5
9| 3 5 9

C. Geen van de bovenstaande stemplots zou van toepassing kunnen zijn.
D. Beide stemplots zouden van toepassing kunnen zijn.

Vraag 4

Met behulp van welke figuur kun je het beste zien of de scores op een variabele normaal verdeeld zijn?

A. Q-Q plot
B. Staafdiagram
C. Tijddiagram
D. Histogram

Vraag 5

Van een groep eerstejaars Psychologiestudenten zijn de tentamencijfers voor Statistische modellen 1 bekend. De five-number summary van deze tentamencijfers is als volgt: 4 5 6 7 9 Welke bewering is waar?

A. De scores boven de modus zijn minder verspreid dan de scores onder de modus.
B. De scores boven de modus zijn meer verspreid dan de scores onder de modus.
C. De scores boven de mediaan zijn minder verspreid dan de scores onder de mediaan.
D. De scores boven de mediaan zijn meer verspreid dan de scores onder de mediaan.

Vraag 6

Wat valt niet uit een boxplot af te leiden, wanneer de variabele scheef verdeeld is?

A. Het gemiddelde
B. De mediaan
C. De interkwartiele range
D. Het minimum

Vraag 7

Wat voor plot staat hieronder afgebeeld?

A. Density plot
B. Normal Quantile plot
C. Line plot
D. Residual plot

Vraag 8

De scores van 400 proefpersonen op een intelligentietest hebben een gemiddelde van 300 en een standaarddeviatie van 30. De onderzoeker wil de scores lineair transformeren zodat het gemiddelde 100 is en de standaarddeviatie 15. Wat moet de onderzoeker doen?

A. Alle scores delen door 2.
B. Alle scores delen door 3.
C. Alle scores delen door 2 en er 50 vanaf trekken.
D. Alle scores delen door 2 en er 100 vanaf trekken.

Vraag 9

Welke van de onderstaande beweringen is/zijn waar?

I. De standaarddeviatie is resistent.
II. De standaarddeviatie is nul wanneer er geen uitbijters zijn.

A. Alleen bewering I is waar.
B. Alleen bewering II is waar.
C. Beide beweringen zijn waar.
D. Beide beweringen zijn niet waar.

Vraag 10

De verdeling van huizenprijzen blijkt rechtsscheef verdeeld te zijn. De gemiddelde huizenprijs is 223500 euro. Dan is de mediaan

A. Lager dan 223500
B. Gelijk aan 223500
C. Hoger dan 223500
D. Daar kan op basis van deze gegevens geen uitspraak over worden gedaan.

Vraag 11

Van een test is bekend dat deze een gemiddelde heeft van 100 en een standaarddeviatie van 30. Een onderzoeker wil de scores zodanig transformeren, dat de standaarddeviatie 15 wordt, maar het gemiddelde gelijk blijft aan 100. Met welke van de onderstaande transformaties zal hij dit bereiken?

A. Y = 0.50X
B. Y = 0.50X + 50
C. Y = 2X
D. Dat is niet mogelijk

Vraag 12

Gegeven is een five-number summary met de volgende getallen: 20, 25, 28, 35 en 55. Welke van de volgende scores zou volgens het 1.5*IQR-criterium als uitbijter worden aangemerkt?

A. 15
B. 55
C. Zowel 1 als 55
D. Geen van bovenstaande

Vraag 13

Een onderzoeker wil zijn data set beschrijven met twee samenvattingsmaten: een centrummaat en een spreidingsmaat. Waar kan de onderzoeker het beste voor kiezen, als hij de data set wil beschrijven met zo robuust mogelijke maten?

A. Gemiddelde en standaarddeviatie
B. Gemiddelde en IQR
C. Mediaan en standaarddeviatie
D. Mediaan en IQR

Vraag 14

Een onderzoeker heeft van 500 mensen gegevens verzameld over het maandelijks bruto-inkomen en de benzinekosten per maand. Op basis van de verzamelde gegevens maakt de onderzoeker het onderstaande Q-Q plot. Welke van de volgende conclusies is juist?

A. Het bruto-inkomen correleert sterk met de maandelijkse benzinekosten
B. Het bruto-inkomen lijkt normaal verdeeld
C. Het bruto-inkomen correleert niet sterk met de maandelijkse benzinekosten
D. Het bruto-inkomen lijkt niet perfect normaal verdeeld

Vraag 15

Een onderzoeker heeft gegevens verzameld over de leefsituatie van studenten en deze opgedeeld in de volgende categorieën: zelfstandig (studio), samenwonend met partner, samenwonend met andere studenten (studentenhuis), bij ouders. De onderzoeker wil de verzamelde gegevens grafisch weergeven. Welke figuur kan hij hiervoor het beste gebruiken?

A. Boxplot
B. Stemplot
C. Staafdiagram
D. Spreidingsdiagram

Vraag 16

In een internationaal onderzoek over meerdere landen bij mannen en vrouwen wordt gekeken in hoeverre het bruto-inkomen voorspeld kan worden aan de hand van het opleidingsniveau. Wat is hier de onafhankelijke variabele?

A. Nationaliteit
B. Geslacht
C. Bruto-inkomen
D. Opleidingsniveau

Vraag 17

Wat betekent een interkwartielrange (IQR) van 16?

A. Dat de middelste 50% van de scores verspreid liggen over een schaalbreedte van 4 punten.
B. Dat de middelste 50% van de scores verspreid liggen over een schaalbreedte van 8 punten.
C. Dat de middelste 50% van de scores verspreid liggen over een schaalbreedte van 16 punten.
D. Dat de middelste 50% van de scores verspreid liggen over een schaalbreedte van 32 punten.

Vraag 18

Van 1500 kinderen is gemeten hoe lang zij erover doen om een bepaalde tekst te schrijven. Er wordt aangenomen dat de variabele ‘tijd’ normaal verdeeld is in de populatie. Uit een aselecte steekproef van 2500 personen blijken 95% van de scores tussen de 5 en 9 minuten te liggen. Welke van de onderstaande uitspraken is waar?

I. De standaarddeviatie in de steekproef zal hoogstwaarschijnlijk ongeveer 1 zijn.
II. Het steekproefgemiddelde zal hoogstwaarschijnlijk ongeveer 7 zijn.

A. Alleen bewering I is waar
B. Alleen bewering II is waar
C. Beide beweringen zijn waar
D. Beide beweringen zijn niet waar

Vraag 19

Afgelopen weekend vielen de bladeren weer van de boom. Dit leverde veel problemen op bij de NS. Van een aselecte steekproef van 100 personen is bekend hoeveel minuten vertraging zij dit weekend hadden bij de NS. Op basis van deze gegevens is het onderstaande boxplot opgesteld. Wat zou het vierkantje redelijkerwijs kunnen aangeven?

A. De mediaan
B. De positie van de mediaan na weglating van de uitbijters
C. De IQR D. Het gemiddelde

Vraag 20

Gegeven zijn de scores op variabel X. Een onderzoeker wil de ruwe scores lineair transformeren door ze te vermenigvuldigen met 1 en er daarna 20 bij op te tellen. Wat verandert er door deze transformatie wel, en wat niet?

A. De vorm van de verdeling van scores en het gemiddelde veranderen niet, maar de standaarddeviatie wordt 20 punten groter.
B. De vorm van de verdeling van scores en de standaarddeviatie veranderen niet, maar het gemiddelde wordt 20 punten hoger.
C. De vorm van de verdeling van scores verandert niet, maar het gemiddelde en de standaarddeviatie worden 20 punten hoger.
D. De vorm van de verdeling van scores zal meer normaal verdeeld zijn, het gemiddelde en de standaarddeviatie worden 20 punten hoger.

Vraag 21

In een vragenlijst staat het volgende item: ‘Hoe vaak heb je afgelopen week je haar gewassen’. Het is een MC-vraag met de volgende antwoordmogelijkheden: 1 = niet, 2 = één keer, 3 = twee keer, 4 = drie keer, 5 = vier keer of vaker. Wat is het hoogst zinvolle meetniveau van deze variabele?

A. Nominaal
B. Ordinaal
C. Interval
D. Ratio

Vraag 22

Van 800 random geselecteerde studenten is bekend welke sport zij (primair) beoefenen. De resultaten zijn weergegeven in onderstaand taartdiagram (pie chart). Op basis van deze gegevens, hoeveel studenten beoefenen er (ongeveer) rugby?

A. 7
B. 56
C. 80
D. 560

Vraag 23

Van 500 deelnemers aan een concert van Justin Bieber is de leeftijd weergegeven in onderstaande tabel. Wat is de mediaan van de leeftijd?

Leeftijd	9	10	11	12	13	14	15	16	22
Aantal deelnemers	32	83	90	100	87	32	16	56	4

A. 11
B. 11,5
C. 12
D. 12,2

Vraag 24

Er zijn drie kinderen van 1, 3 en 5 jaar in een kamer. Als er een 3-jarig kind de kamer binnenkomt, wat gebeurt er dan met het gemiddelde en de variantie?

A. Het gemiddelde blijft gelijk, maar de variantie wordt groter
B. Het gemiddelde blijft gelijk, maar de variantie wordt kleiner
C. Het gemiddelde en de variantie blijven beide gelijk
D. Het gemiddelde en de variantie worden beide kleiner

Vraag 25

Een docent statistiek geeft een tentamen aan 5 studenten. Hij komt tot de volgende cijfers: 4, 6, 7, 7, 8. Wat is de variantie voor deze scores?

A. 0
B. 0.76
C. 1.40
D. 2.30

Vraag 26

Wanneer kun je beter gebruiken maken van de five-number summary (vijf-getallen samenvatting) dan van het gemiddelde en de standaarddeviatie om de verdeling van een variabele te beschrijven?

A. Nooit, het gemiddelde en de standaarddeviatie zijn altijd beter.
B. Als de verdeling van de variabele redelijk symmetrisch is.
C. Als de verdeling van de variabele sterk scheef verdeeld is met sterke uitbijters.
D. Als de verdeling van de variabele licht scheef verdeeld is zonder uitbijters

Vraag 27

Een random variabele X heeft een gemiddelde van 10 en een standaarddeviatie van 2. De variabele X wordt vermenigvuldigd met 2 om zo een nieuwe variabele Y te maken: Y = 2X. Wat is de variantie van de nieuwe variabele Y?

A. 2
B. 4
C. 16
D. 32

Vraag 28

Uit een onderzoek blijkt dat mensen die meer bier drinken, minder vaak ziek zijn. Ook blijkt dat mensen die meer bier drinken, vaker sinaasappelsap drinken. De variabelen “sinaasappelsap drinken” en “bier drinken” zijn ………. variabelen als verklaring voor minder ziek zijn.

A. Scheve
B. Normaal verdeelde
C. Verklarende
D. Verstrengelde (confounding)

Vraag 29

Een groep studenten denkt dat het drinken van sinaasappelsap zorgt voor lichamelijk herstel. Om dit te testen gaan zij wekelijks naar een bejaardentehuis waar zij de bewoners bezoeken en met hen praten onder het genot van een glaasje sinaasappelsap. Na enkele maanden zijn veel van de bewoners vrolijk en gezond. Wat is de verklarende variabele in dit onderzoek?

A. Sinaasappelsap
B. De woonsituatie (bejaardentehuis)
C. De emotionele toestand van de bewoners
D. Alle bovenstaande antwoorden

Vraag 30

In een grootschalig onderzoek in de V.S. worden verschillende variabelen gemeten. Welke van onderstaande variabelen is een nominale variabele?

A. De staat waarin men woont
B. De leeftijd van de respondent
C. Het aantal mensen binnen het huishouden
D. Het totale inkomen van het huishouden per jaar

Vraag 31

Om te onderzoeken in hoeverre de scores op twee variabelen gelijk zijn, kan men het beste gebruiken maken van

A. De correlatie
B. Kendall’s tau
C. De interkwartiel afstand
D. Het gemiddelde absolute verschil

Vraag 32

Kees heeft de scores van 10 personen op een test weergegeven in een stemplot. Nu wil Kees de figuur uitbreiden door onderscheid te maken tussen mannen en vrouwen. Welke figuur kan hij hiervoor het beste gebruiken?

A. Een staafdiagram
B. Een histogram
C. Een tijdsplot
D. Een back-to-back stemplot

Antwoorden

Vraag	Antwoord	Toelichting
1	B	De interkwartiele range is het derde kwartiel minus het eerste kwartiel, in formulevorm: IQR = Q3 – Q1.
2	C	De variabele ‘aantal uren studeren’ verklaart (deels) het wel of niet halen van het tentamen en is daarmee een onafhankelijke variabele (ook wel verklarende variabele genoemd). Dit zegt echter niks over de verdeling van een variabele, dus er kunnen op basis van deze gegevens geen uitspraken worden gedaan over de verdeling (bijvoorbeeld of de variabele normaal of scheef verdeeld is).
3	B	Bij de eerste stemplot is de mediaan (middelste waarde) 73 en de modus (meest voorkomende waarde) 61. Bij de tweede stemplot is de mediaan 66 en de modus 55.
4	A
5	D	De mediaan is 6. De minimum score is 4 en de maximum score is 9. Dit betekent dat de mogelijke waarden onder de mediaan variëren van 4-6 en boven de mediaan van 6-9. De spreiding boven de mediaan is dus groter dan de spreiding onder de mediaan. De five-number-summary geeft geen directe informatie over de modus.
6	A	Een boxplot geeft de mediaan, eerste en derde kwartiel, en eventuele uitbijters weer. Wanneer een variabele niet (perfect) normaal verdeeld is, is het gemiddelde niet gelijk aan de mediaan en valt het gemiddelde dus niet rechtstreeks uit een boxplot af te leiden.
7	B
8	C	x_new = a + b_x.Het vermenigvuldigen van iedere observatie met b (hier: 0.5) zorgt voor een vermenigvuldiging van zowel centrummaten (gemiddelde) als spreidingsmaten (variantie) met dat getal. Optellen/aftrekken van a bij iedere observatie zorgt voor het optellen/aftrekken van a bij centrummaten, maar verandert niets aan spreidingsmaten.
9	D	De standaarddeviatie wordt beinvloed door uitbijters en is dus niet resistent; een paar uitbijters kunnen de standaarddeviatie erg verhogen. De standaarddeviatie is nul wanneer er geen spreiding is, dat wil zeggen dat alle observaties dezelfde waarde hebben.
10	A	Het gemiddelde wordt getrokken naar de kant waar de staart zit, want deze wordt relatief sterk beïnvloed door extreme scores. De mediaan wordt minder beïnvloedt door extreme scores, en ligt in dit geval dus lager dan het gemiddelde.
11	B	Eerst de standaarddeviatie aanpassen: S_nieuw = SD * \|b\| geeft b = 0.5 Vervolgens alleen het gemiddelde nog aanpassen: 100 = 0.5*100 + a geeft a = 50
12	B	De interkwartiel range (IQR) = 35 – 25 = 10 1.5IQR betekent dus dat scores beneden (25 – 1.510) = 10 en boven (35 + 1.5*10) = 50 als uitbijter worden aangemerkt.
13	D	Mediaan en IQR zijn relatief robuuste samenvattingsmaten.
14	D	Een Q-Q plot geeft aan in hoeverre er sprake is van een normale verdeling. De lijn loopt niet mooi diagonaal, dus alleen D is goed.
15	C	et gaat hier om een kwalitatieve (categorische) variabele. Deze kan het beste weergegeven worden met een staafdiagram. Alle andere figuren zijn alleen geschikt voor kwanitatieve (interval) variabelen.
16	D	De onafhankelijke variabele is de variabele waarmee je de afhankelijke variabele probeert te verklaren.
17	C
18	C	Als de populatie normaal verdeeld is, zal een aselecte steekproef van 500 personen dat hoogstwaarschijnlijk ook zijn. Volgens de 65-95-99.7 vuistregel omvatten 2 standaarddeviaties links en rechts van het gemiddelde 95% van de scores. Dus 1 standaarddeviatie is ongeveer 1. Het gemiddelde van de steekproef zal rond de 7 liggen.
19	D	Hier kun je uit de alternatieven afleiden wat het moet zijn: a is het niet (want dat is het streepje in het midden van de boxplots), b is het niet (want de mediaan zou zakken als je de uitbijters weg zou laten), de IQR is het niet (want dat is de breedte van de middelste box, en die komt niet overeen met de hoogte van het vierkantje. D is juist. We zien hier een rechtsscheve verdeling, wat betekent dat het gemiddelde naar rechts (hier: ‘omhoog’) wordt getrokken en dus boven de mediaan ligt.
20	B
21	B	Het gaat om categorieën, dus C en D vallen af. Omdat er wel een ordening in de categorieën zit, is ordinaal het hoogst zinvolle meetniveau.
22	B	7%, dus 0.07*800 = 56.
23	C	De mediaan is het (500+1)/2 = 250,5ste getal, dus het midden van getal 250 en 251. Dit getal ligt bij de leeftijd van 12 jaar.
24	B	De waarneming die erbij komt is gelijk aan het gemiddelde, dus het gemiddelde blijft gelijk. De som van de gekwadrateerde verschillen is gelijk gebleven, maar doordat je deelt door een groter getal, wordt de variantie kleiner.
25	B	Bereken eerst het gemiddelde: \[ \bar{x} = \frac{4 + 6 + 7 + 7 + 8}{5} = 6.4 \] Bereken vervolgens de som van de afwijkingen van iedere score ten opzichte van het gemiddelde en kwadrateer deze som. (x - x̄)² = (4 − 6.4)² + (6 − 6.4)²+ (7 − 6.4)² + (7 − 6.4)² + (8 − 6.4)² = (−2.4)² + (−0.4)² + (0.6)² + (0.6)² + (1.6)²= 5.76 + 0.16 + 0.36 + 0.36 + 2.56 = 9.2 Vervolgens neem je daar de wortel van en deel je door n - 1. Dus var = 1/4 √9.2 ≈ 0.76
26	C
27	C	σ_a+bX = b σ_x, so: σ²_a+bX = b²σ²_x. Dus: σ² = 2² * 2² = 4 * 4 = 16.
28	D
29	A
30	A
31	D	De correlatie en Kendall’s tau gaan over het verband tussen de variabelen; dit zegt niets over het verschil tussen scores. De interkwartielafstand zegt iets over de spreiding van de scores, ook hier kunnen geen uitspraken worden gedaan over het verschil/de overeenkomst tussen scores.
32	D

Wat zijn statistische verbanden? - TentamenTests 2

Meerkeuzevragen

Vraag 1

In SPSS is een regressieanalyse uitgevoerd met de variabelen educatie (aantal jaren onderwijs) en inkomen. Onderstaande tabel is de output van de regressieanalyse in SPSS. Wat zijn hier de a en b in de regressieformule ŷ = a + bx?

A. a = -1636.364 en b = 237.063
B. a = 237.063 en b = -1636.364
C. a = -0.606 en b = 1.495
D. a = -1636.364 en b = -0.606

			Unstandardized Coefficients	Standardized Coefficients
1	Model	B	Std. Error	Beta	t	Sig.
	(Constant)	-1636.364	2699.962		-.606	.561
	Education	237.063	158.575	.467	1.495	.173

Vraag 2

Wat probeert men te minimaliseren in een spreidingsdiagram van de regressie van Y op X?

A. De kwadratensom van horizontale afstanden van de punten tot de lijn
B. De kwadratensom van verticale afstanden van de punten tot de lijn
C. De kwadratensom van de kortste afstanden van de punten tot de lijn
D. De kwadratensom van horizontale en verticale afstanden van de punten tot de lijn

Vraag 3

Gegeven is dat de correlatie tussen X en Y gelijk is aan 0.6. Verder is gegeven dat X een gemiddelde heeft van 3 en Y een gemiddelde heeft van 5. De standaarddeviatie van zowel X als Y is 1. Wat zijn a en b in de regressievergelijking ŷ = a + bx?

A. a = 0 en b = 0.6
B. a = 0.6 en b = 0
C. a = 0.6 en b = 3.2
D. a = 3.2 en b = 0.6

Vraag 4

De correlaties tussen vier variabelen zijn berekend en weergegeven in onderstaande tabel. De onderzoeker wil een lineaire regressievergelijking opstellen om het tentamencijfer te voorspellen op basis van één van de andere variabelen. Uitgaande van onderstaande tabel, welke variabele is de beste voorspeller van het tentamencijfer?

A. Aantal uren gestudeerd
B. Aantal uren Netflix
C. Vorige tentamencijfer
D. Daar valt op basis van correlaties niets over te zeggen

Correlaties

		Tentamencijfer	Aantal uren voor studie	Aantal uren voor Netflix	Vorige tentamencijfer
Tentamencijfer	Pearson correlation	1	-.277	-952 **	.533
	Sig. (2-tailed)		.438	.000	.113
	N	10		10	10
Aantal uren voor studie	Pearson correlation	-.277	1	.377	.394
	Sig. (2-tailed)	.438		.283	-.260
	N	10		10	10
Aantal uren voor Netflix	Pearson correlation	-.952 **	.377	1	-.379
	Sig. (2-tailed)	.000	.283		.280
	N	10	10	10	10
Vorige tentamencijfer	Pearson correlation	.533	.394	-.379	1
	Sig. (2-tailed)	.113	.260	.280
	N	10	10	10	10
**Correlatie is significant op het 0.01 niveau (2-tailed)

Vraag 5

In een onderzoek naar het verband tussen overgewicht en bezoek aan de huisarts is gevonden dat mensen met overgewicht vaker naar de huisarts gaan dan mensen zonder overgewicht. Daarmee is aangetoond dat

A. Overgewicht ervoor zorgt dat mensen vaker naar de huisarts gaan
B. Mensen die overgewicht hebben minder naar de huisarts zullen gaan, wanneer ze afvallen.
C. Er een samenhang is tussen het wel of niet hebben van overgewicht en het aantal huisartsbezoeken.
D. Er onder de mensen met overgewicht veel mensen zijn die een bezoek aan de huisarts brengen.

Vraag 6

Gegeven zijn de scores van 100 proefpersonen. We weten dat de variantie van X gelijk is aan 4 en dat de variantie van Y gelijk is aan 9. De covariantie tussen X en Y is gelijk aan 3. Wat is dan de correlatie tussen X en Y?

A. 0.08
B. 0.25
C. 0.50
D. 0.75

Vraag 7

In een onderzoek naar het verband tussen gebit en geheugen (Algemeen Dagblad, 2004) is gevonden dat mensen die hun eigen gebit nog hadden een beter geheugen hadden dan mensen met een kunstgebit. De onderzoekers concluderen dat ‘tanden en kiezen uiterst belangrijk zijn voor ons geheugen’. Een criticus beweert echter dat het gevonden verband eenvoudig te verklaren is via lurking variables (derde variabelen). Welke van onderstaande variabele(n) kan hier de rol van een derde variabele spelen?

A. Het al dan niet hebben van een kunstgebit
B. De leeftijd
C. Het geheugen
D. Alle drie de bovenstaande variabelen

Vraag 8

In onderstaande figuur zijn de scores van 20 personen op variabelen X en Y weergegeven. Van de 20 personen, valt één persoon nogal op. Vormen de scores van deze persoon een invloedrijk punt?

A. Ja, want het weglaten van deze persoon zal de correlatie tussen X en Y aanzienlijk veranderen.
B. Ja, want de score van deze persoon op variabele Y kan duidelijk als outlier (uitbijter) worden opgevat.
C. Nee, want het weglaten van deze persoon zal de correlatie tussen X en Y niet veranderen.
D. Nee, want de score van deze persoon op variabelen X en Y kunnen duidelijk niet als outlier (uitbijter) worden opgevat.

Vraag 9

De correlatie tussen variabelen X en Y blijkt precies 1.0 te zijn. Wat mag je concluderen?

A. Het gemiddelde absolute verschil zal 0 zijn
B. De helling van de regressievergelijking zal gelijk zijn aan 0
C. De scores op X zijn gelijk aan de scores op Y
D. De scores op Y zijn een lineaire transformatie van de scores op X

Vraag 10

Gegeven zijn twee variabelen X en Y. Om Y te voorspellen uit X is de volgende regressievergelijking opgesteld: ŷ = −9 + 3.2X. De correlatie tussen X en Y is 1.0. Als je weet dat iemand een score heeft van −9 op Y, wat kun je dan zeggen over het residu y − ŷ?

A. Het residu zal positief zijn
B. Het residu zal negatief zijn
C. Het residu zal nul zijn
D. Daar kan op basis van deze gegevens geen uitspraak over worden gedaan

Vraag 11

Gegeven is dat de correlatie tussen X en Y gelijk is aan -0.40. Beide variabelen hebben een gemiddelde van 30. De standaarddeviatie van X is 6. De standaarddeviatie van Y is 3. Wat is het intercept in de regressievergelijking van Y op X?

A. 6
B. 24
C. 36
D. 54

Vraag 12

Gegeven is dat de correlatie tussen X en Y gelijk is aan 0. Hieronder staan 4 conclusies die zijn getrokken op basis van dit gegeven. Welke conclusie is onjuist?

A. Er is geen lineaire samenhang tussen X en Y
B. De scores op X en Y zijn volledig identiek aan elkaar
C. De regressievergelijking is een horizontale lijn (helling = 0)
D. Er is 0% verklaarde variantie zijn bij een lineaire regressie

Vraag 13

In welke situatie is er sprake van Simpson’s paradox?

A. Ziekenhuis X heeft een lager sterftecijfer bij terminale patiënten, en ziekenhuis Y heeft een lager sterftecijfer bij niet-terminale patiënten. Als we het al dan niet terminaal zijn van patiënten buiten beschouwing laten heeft ziekenhuis X een lager sterftecijfer
B. Ziekenhuis X heeft een lager sterftecijfer bij terminale patiënten, en ziekenhuis Y heeft een lager sterftecijfer bij niet-terminale patiënten. Als we het al dan niet terminaal zijn van patiënten buiten beschouwing laten heeft ziekenhuis Y een lager sterftecijfer
C. Ziekenhuis X heeft een lager sterftecijfer bij terminale patiënten, en ziekenhuis X heeft een lager sterftecijfer bij niet-terminale patiënten. Als we het al dan niet terminaal zijn van patiënten buiten beschouwing laten heeft ziekenhuis X een lager sterftecijfer
D. Ziekenhuis X heeft een lager sterftecijfer bij terminale patiënten, en ziekenhuis X heeft een lager sterftecijfer bij niet-terminale patiënten. Als we het al dan niet terminaal zijn van patiënten buiten beschouwing laten heeft ziekenhuis Y een lager sterftecijfer

Vraag 14

Wat is onderstaand scatterplot een redelijke schatting van de correlatie tussen lichaamslengte in centimeters en schoenmaat?

A. -0.70
B. -0.10
C. 0.10
D. 0.70

Vraag 15

Er is een lineaire regressievergelijking opgesteld: y = 10 + 0.8x, waarbij y de eindscore is en x de deelscore is. Stel dat Marleen 80 scoort op de deelscore, wat is dan haar voorspelde (predicted) eindscore?

A. 64
B. 72
C. 74
D. 80

Vraag 16

Iemand vraagt zich af of vrouwen daten met partners met gelijke lichaamslengte. In onderstaande tabel staat de data weergegeven van de lichaamslengte in inches (1 inch ≈ 2.5 cm) van zes vrouwen en hun date.

Lengte vrouw	64	65	65	66	66	68
Lengte date	68	69	69	70	72	73

Welke van de onderstaande uitspraken is juist?

A. Elke lichaamslengte boven de 66 inches moet beschouwd worden als uitbijter.
B. Er is een sterke positieve samenhang tussen de lichaamslengte van de vrouwen en hun date.
C. Er is een sterke negatieve samenhang tussen de lichaamslengte van de vrouwen en hun date.
D. Als de lichaamslengte van de vrouwen en hun data uitgedrukt zou zijn in centimeters, dan zou de correlatie 2,5 maal groter zijn.

Vraag 17

In een onderzoek naar het verband tussen geslacht en inkomen blijkt dat de correlatie tussen deze twee variabelen gelijk is aan r = -0.61. Welke van onderstaande uitspraken is juist?

A. Vrouwen verdienen gemiddeld meer dan mannen
B. Mannen verdienen gemiddeld meer dan vrouwen
C. Er is een rekenfout gemaakt, de correlatie moet positief zijn
D. De meting is zinloos; r kan alleen bepaald worden voor twee kwantitatieve variabelen

Vraag 18

Veel middelbare scholieren in de VS maten de SAT-test en/of de ACT-test als toelatingstest voor vervolgonderwijs. Er zijn data verzameld van 60 scholieren die zowel de SAT-test als de ACT-test hebben gemaakt.

De SAT-test had een gemiddelde van 888 met een standaarddeviatie van 180.
De ACT-test had een gemiddelde van 25 met een standaarddeviatie van 5.
De correlatie tussen de SAT-test en ACT-test is 0.851

Een onderzoeker wil de SAT voorspellen uit de ACT met behulp van een lineaire regressievergelijking. Wat is de kleinste kwadraten regressielijn y = ax + b bij deze data?

A. y = 122.10 + 30.636x
B. y = 30.636 + 122.10x
C. y = 0.024 + 3.725x
D. y = 3.725 + 0.024x

Vraag 19

Er wordt een kleinste kwadraten regressielijn geschat voor een variabele. Een van de data-punten heeft een positief residu. Welke van de onderstaande uitspraken is juist?

A. De correlatie tussen alle voorspelde en geobserveerde datapunten is positief.
B. Dit data-punt ligt boven de regressielijn.
C. Dit data-punt moet een invloedrijk punt zijn.
D. Dit data-punt ligt aan de rechterkant van het spreidingsdiagram.

Antwoorden

Vraag	Antwoord	Toelichting
1	A	a is intercept, b is de slope (helling).
2	B
3	D	\[ b = r_{xy} \frac{s_{x}}{s_{y}} = 0.6 \frac{1}{1} = 0.6 \] \[ a = \bar{y} - b * \bar{x} = 5 - 0.6 * 3 = 3.2 \]
4	B	r² = (−0.952)² = 0.906. Dus het aantal uren Netflix kijken verklaart ongeveer 90% van de variantie op het tentamencijfer.
5	C	A en B impliceren een oorzakelijk verband. D is onjuist, omdat het zo zou kunnen zijn dat er onder de mensen met overgewicht weinig mensen zijn die de huisarts bezoeken, maar wel meer dan mensen zonder overgewicht. Het zegt dus iets over het relatieve aantal huisartsbezoeken van mensen met overgewicht ten opzichte van mensen zonder overgewicht, niet over het absolute aantal huisartsbezoeken.
6	C	\[ r_{xy} = \frac{cov(x,y)}{s_{x}s_{y}} \] \[ = \frac{3}{\sqrt{4} * \sqrt{9} } \] \[ = \frac{3}{2*3} \] \[ = \frac{3}{6} \] \[ = 0.5 \]
7	B	Een derde variabele is een variabele –anders dan de verklarende of veroorzakende variabele- die van invloed is/kan zijn op de relatie tussen variabelen in een studie.
8	A
9	D	Correlatie geeft in hoeverre er sprake is van het op één lijn liggen van de scores: een correlatie van 1 duidt er dus op dat ze precies op 1 lijn liggen. Dit betekent niet per se dat de scores gelijk zijn, of dat de helling 1 is. Als de scores niet per se gelijk zijn hoeft het verschil dus ook niet 0 te zijn.
10	C	Een correlatie van 1 betekent dat alle punten perfect op één lijn liggen (zie ook vorige vraag). Een gevolg hiervan is dat alle residuen 0 zijn.
11	C	\[ b = \frac{s_{y}}{s_{x}} * r_{xy} = \frac{3}{6} * -.40 = -.20 \] \[ a = \bar{y} − b ∗ \bar{x} \] \[ = 30 − 0.20 ∗ 30 \] \[ = 30 − −6 \] \[ = 30 + 6 \] \[ = 36 \]
12	B	Een correlatie van 0 betekent dat er geen lineair verband is. Dit betekent dat A en C juist zijn. Het percentage verklaarde variantie is r² en is dus ook 0. B is onjuist.
13	D	Letterlijk besproken in College. Zie ook pagina 143-145 in het boek voor een gedetailleerde uitleg met een ander voorbeeld. Kern van Simpson’s paradox: een verband dat er oorspronkelijk lijkt te zijn, draait om als je een derde variabele toevoegt.
14	D	De regressielijn loopt omhoog; er is dus sprake van een positieve correlatie. Daarnaast is te zien dat er een redelijke samenhang is tussen lichaamslengte en schoenmaat; D benadert dit verband het beste.
15	C	y = 10 + 0.8*80 = 74
16	B
17	D
18	A	b = r * (SSAT /S_CAT) = 0.851 * (180/5) = 30.636 a = SAT - b * ACT = 888 - 30.636 * 25 = 122.1
19	B

Hoe moet je data verzamelen? - TentamenTests 3

Meerkeuzevragen

Vraag 1

Wat is een voorbeeld van een matched-pairs design met twee condities?

A. Elke proefpersoon wordt verbonden aan een vergelijkbare proefpersoon. Deze twee proefpersonen worden random aan een van de condities toegewezen en vergeleken.
B. Elke proefpersoon wordt achtereenvolgens toegewezen aan beide condities. De volgorde van de condities wordt random gekozen per proefpersoon.
C. Geen van beide
D. Beide

Vraag 2

Een random steekproef is een steekproef waarbij

A. De proefpersonen uit random uit de populatie worden getrokken.
B. De condities at random worden toegewezen aan de proefpersonen .
C. De condities at random worden geselecteerd.
D. De condities in een random volgorde worden toegewezen aan de proefpersonen

Vraag 3

Welke van de volgende uitspraken over experimenteel onderzoek is juist?

I. De onafhankelijke variabele wordt gemanipuleerd door de onderzoeker
II. Het is bij een experiment mogelijk een causaal verband te onderzoeken

A. Alleen bewering I is waar
B. Alleen bewering II is waar
C. Beide beweringen zijn waar
D. Beide beweringen zijn niet waar

Vraag 4

Een onderzoeker wil een studie doen naar de relatie tussen inkomen en opleidingsniveau. Hij wil bij het verzamelen van zijn gegevens rekening houden met de verhouding tussen mannen en vrouwen (die in de populatie 50% om 50 % is), en met de verhouding in sociaaleconomische status (SES). SES is onderverdeeld in drie categorieën: laag, gemiddeld en hoog, die in de populatie respectievelijk bij 30%, 60, en 10% voorkomen. Om deze percentuele verhoudingen exact terug te vinden in zijn steekproef categoriseert hij de populatie volgens geslacht en SES, en vervolgens trekt hij uit iedere groep een bepaald aantal mensen (in de verhouding zoals ze voorkomen in de populatie). Wat voor type steekproef beschrijft deze manier van steekproeftrekking het best?

A. Convenient sample
B. Stratified sample
C. Multistage sample
D. Paired sample

Vraag 5

Anneloes is flink verkouden. Haar huisgenoot slikt elke dag een knoflooktablet en is al twee jaar lang niet verkouden geweest. De tante van Anneloes heeft een kennis die ook dagelijks een knoflooktablet inneemt en ook al meer dan een jaar niet verkouden is geweest. Op basis van deze gegevens besluit Anneloes om knoflooktabletten te gaan innemen zodra haar verkoudheid voorbij is. Op welk onderzoek is Anneloes haar beslissing gebaseerd?

A. Anekdotisch bewijs
B. Een observationeel onderzoek gebaseerd op beschikbare data
C. Een observationeel onderzoek gebaseerd op een steekproef
D. Een experiment

Vraag 6

De samenhang tussen cola drinken en gewichtstoename is onderzocht. De studie bestond uit 25 deelnemers, ingedeeld in twee groepen. De eerste groep deelnemers volgde een cola-vrij dieet. De twee groep volgde een cola-rijk dieet. Na 8 weken is de gewichtstoename van iedere deelnemer gemeten. Dit onderzoek is een voorbeeld van een

A. Observationeel onderzoek
B. Survey
C. Matched-pairs experiment
D. Experiment, maar niet een dubbelblind experiment

Vraag 7

Geertje wil prijsverschillen van koffiemelk onderzoeken bij Albert Heijn, Jumbo en De Spar. Hoe kan Geertje het beste de producten kiezen om bias zoveel mogelijk te voorkomen?

A. Kies veel gekochte soorten koffiemelk
B. Kies koffiemelk van bekende merken
C. Kies zowel veel gekochte als merkproducten
D. Selecteer random een aantal beschikbare producten

Vraag 8

Bij een onderzoek naar Ritalin worden 100 vrijwilligers eerst ingedeeld naar geslacht. Daarna krijgt de helft van de mannen (random toegewezen) Ritalin, en de andere helft een placebo. Ook bij de vrouwen krijgt de helft (random toegewezen) Ritalin en de andere helft een placebo. Dit is een voorbeeld van een

A. Replicatie
B. Matched-pairs design
C. Verstrengeling, want het effect van geslacht raakt verstrengeld met het effect van het medicijn
D. Block-design

Antwoorden

Vraag	Antwoord	Toelichting
1	D	Een matched pairs design kan zowel betrekking hebben op de toewijzing/volgorde van proefpersonen aan beide condities, als het toewijzen van vergelijkbare proefpersonen aan verschillende condities.
2	A
3	C
4	B	De populatie wordt opgedeeld in ‘strata’. Vervolgens wordt uit iedere stratum een steekproef genomen. Op die manier worden de verhoudingen in de populatie behouden.
5	A
6	D
7	D
8	D

Wat werkt kansrekening in de statistiek? - TentamenTests 4

Meerkeuzevragen

Vraag 1

Gegeven zijn de scores op variabele X met een gemiddelde van 10 en een standaarddeviatie van 2. Op grond hiervan kunnen de scores op variabele Y berekend worden met Y = 10 – 2X. De standaarddeviatie van Y is

A. 2
B. 4
C. 16
D. 32

Vraag 2

Gegeven zijn twee gebeurtenissen A en B. Gegeven is dat P(B) = 0.6, P(A en B) = 0.3 en P(A of B) = 1.0. Wat is dan de kans op gebeurtenis A, oftewel P(A)?

A. 0.1
B. 0.3
C. 0.6
D. 0.7

Vraag 3

Gegeven zijn twee gebeurtenissen A en B. Gegeven is dat P(A) = 0.3 en P(B) = 0.5 en P(B|A) = 0.8. Wat is dan de kans op P(A en B)?

A. 0.15
B. 0.24
C. 0.40
D. 0.48

Vraag 4

Er wordt twee keer geworpen met een eerlijke dobbelsteen. Hoe groot is de kans dat de som van beide worpen gelijk is aan 12? A. 1/36 B. 2/36 C. 4/36 D. 1/12 5. Van een groep ouderen zijn de volgende gegevens bekend over de woonsituatie en eenzaamheid (zie onderstaande tabel).

	Eenzaam	Niet eenzaam	Totaal
In bejaardentehuis	40	30	70
Zelfstandig wonend	10	20	30
Totaal	50	50	100

Vraag 5

Wat is de kans dat een oudere, waarvan bekend is dat hij of zij in het bejaardentehuis woont, eenzaam is?

A. 40/70
B. 40/100
C. 50/100
D. 70/100

Vraag 6

Mensen die psychotisch zijn, zijn vaak ook depressief. Om dit te onderzoeken zijn gegevens verzameld van 100 patiënten. Gegeven is dat 30% van de patiënten psychotisch is. Van de patiënten die psychotisch zijn, is 80% depressief. Van de patiënten die niet psychotisch zijn, is slechts 20% depressief. Hoeveel patiënten uit deze steekproef zijn psychotisch en depressief?

A. 20
B. 24
C. 30
D. 80

Vraag 7

Als gebeurtenissen A en B afhankelijk zijn, dan geldt:

A. P(A | B) = 0
B. P (A en B) = 0
C. Zowel A als B
D. Geen van bovenstaande antwoorden is juist

Vraag 8

Gegeven is dat 25% van de mensen een vitaminetekort heeft. Verder is bekend dat van alle mensen met een vitaminetekort, 80% hier ook daadwerkelijk positief op test. Bij mensen die geen vitaminetekort hebben, blijkt 10% toch een positief testuitslag te hebben. Wat is de kans dat iemand die een positieve uitslag krijgt ook daadwerkelijk een vitaminetekort heeft?

A. 20%
B. 73%
C. 80%
D. 90%

Vraag 9

Gegeven is de onderstaande kansverdeling op variabele X. Het gemiddelde van X is 2.5. Wat is de verwachte standaarddeviatie van deze variabele?

X	1	2	3	4
P	.30	.20	.20	.30

A. 1.20
B. 1.45
C. 1.80
D. 2.00

Vraag 10

Gegeven is: P(A) = 0.40 en P(B) = 0.30. Verder is bekend dat A en B onafhankelijk zijn. Wat is de kans op A gegeven B?

A. 0.12
B. 0.30
C. 0.40
D. Dat is niet te bepalen zonder meer gegevens

Vraag 11

Bij het spelletje moet je drinken wanneer je 1 gooit. Iemand doet 3 rondes mee met dit spelletje, en werpt met dezelfde eerlijke dobbelsteen. Wat is de kans dat deze persoon precies 1 keer moet drinken?

A. \[ 1 * ({\frac{1}{6}}^{1} * {\frac{5}{6}}^{2}) \]
B. \[ 3 * ({\frac{1}{6}}^{1} * {\frac{5}{6}}^{2}) \]
C. \[ (^{3}_{2}) \]
D. Dit is niet te bepalen aan de hand van deze gegevens.

Vraag 12

Stel dat A en B twee onafhankelijke gebeurtenissen zijn. Gegeven is dat P(A) = 0.5 en P(B) = 0.2. Wat is de kans dat A niet gebeurt en dat B niet gebeurt?

A. 0.1
B. 0.3
C. 0.4
D. 0.7

Vraag 13

Wanneer je twee keer gooit met een eerlijke dobbelsteen, hoe groot is dan de kans dat je beide keren hetzelfde getal gooit?

A. 1/6
B. 1/12
C. 1/18
D. 1/36

Vraag 14

Gegeven is de onderstaande kansverdeling van X, waarbij X het aantal cursussen is dat een voltijdstudent heeft gevolgd deze periode.

X	1	2	3	4
P	.20	.30	.20	.30

Wat is het gemiddeld aantal gevolgde cursussen door voltijdstudenten deze periode?

A. 0.65
B. 2
C. 2.6
D. 1.10

Vraag 15

En wat is de standaarddeviatie van de variabele X, zoals weergegeven bij vraag 14?

A. 0.32
B. 0.64
C. 1.04
D. 1.10

Vraag 16

Hans wordt regelmatig ingehuurd om bepaalde computerproblemen op te lossen, zo ook het debuggen van virussen. Recent zijn er twee virussen in omloop: virus Dummy en virus Smarty. De volgende gegevens zijn bekend:

65% van de klanten heeft problemen met virus Dummy en 35% heeft problemen met virus Smarty.
Als de computer besmet is met Dummy, dan is er 80% kans dat Hans de problemen kan oplossen.
Als de computer besmet is met Smarty, dan is er 30% kans dat Hans de problemen kan oplossen.

Als er random een computer geselecteerd wordt, waarvan we weten dat Hans de problemen heeft opgelost, wat is dan de kans dat deze computer besmet was met Dummy?

A. 0.52
B. 0.53
C. 0.63
D. 0.83

Vraag 17

Gegeven zijn twee disjuncte gebeurtenissen A en B. De kans op gebeurtenis A is 0.2 De kans op gebeurtenis B is 0.8. Wat is P(A of B)?

A. 0.6
B. 0.8
C. 1.0
D. Dat is niet te bepalen zonder meer gegevens

Antwoorden

Vraag	Antwoord	Toelichting
1	C	var(Y) = (-2)² * var(X) = (-2)² * (2)² = 4 * 4 = 16 sd(Y) = √var(Y) = √16 = 4
2	D	P(A of B) = P(A) + P(B) - P(A en B). Deze formule invullen geeft: 1.0 = x + 0.6 − 0.3. Dus x = 1.0 − 0.6 + 0.3 = 0.7
3	B	P(A en B) = P(B \| A) * P(A) = 0.24
4	A	De som van twee worpen is alleen gelijk aan 12 als beide keren een 6 wordt gegooid. Dus: 1/6 * 1/6 = 1/36.
5	A	Er wordt gevraagd om een conditionele kans (= gegeven woonsituatie in bejaardentehuis).
6	B	30% is psychotisch, dus 30/100 * 100 = 30 patiënten zijn psychotisch. Van die 30 personen, is 80% depressief. Dus: 80/100 * 30 = 24 patiënten zijn psychotisch depressief. Tip: teken een boomdiagram.
7	D	Onafhankelijk betekent dat de ene gebeurtenis geen invloed of voorspellende waarde heeft op de andere gebeurtenis. Als twee gebeurtenissen onafhankelijk zijn, zegt A niks over de kans op B: P(B\|A) = P(B) en A en B kunnen gerust samen optreden.
8	B	Teken een boomdiagram. Uitgaande van 1000 personen hebben in totaal 275 mensen een positieve testuitslag, waarvan 200 mensen ook daadwerkelijk een vitaminetekort hebben (immers: 2500.8 = 200). Dat komt overeen met 73% (want: 200/275 100 ≈ 73%).
9	A	Var = 0.30 ∗ (1 − 2.5)² + 0.20 ∗ (2 − 2.5)² + 0.20 ∗ (3 − 2.5)²+0.30 ∗ (4 − 2.5)² = 1.45 SD = √1.45 ≈ 1.20
10	C	Gevraagd wordt wat de kans op A gegeven B is, oftewel: P(A\|B). Als A en B onafhankelijk zijn, voorspelt B niks over A. De kans op A wordt dus niet niet beïnvloedt door de kans op B, en dus geldt: P(A\|B) = P(A).
11	B	De kans op precies 1 keer drinken betekent dat je of de eerste, of de tweede, of de derde keer 1 gooit. Dit betekent 3 boven 1 (=3) maal de kans op ieder van de drie mogelijkheden (dat is 1/6 * 5/6.
12	C	P(A niet en B niet) = P(A niet) * P(B niet) = (1 – 0.5) * (1 – 0.2) = 0.5 0.8 = 0.4
13	A	De kans op een bepaald getal = 1/6 De kans om dat getal beide keren te gooien = 1/6 * 1/6 = 1/36 Dit kan voor alle 6 de getallen, dus 1/36 * 6 = 6/36 ofwel 1/6
14	C	μ = 1 ∗ 0.2 + 2 ∗ 0.3 + 3 ∗ 0.2 + 4 ∗ 0.3 = 2.65
15	A	Gemiddelde = 2.6 (zie vraag 14). Variantie = (0.20 * 1-2.6)² + (0.30 * 2-2.6)² + (0.20 * 3-2.6)² + (0.30 * 4-2.6)2 = (-0.32)² + (-0.18)² + (0.08)² + (0.42)² = 0.3176 ≈ 0.32
16	D	Maak een boomdiagram 1000.65 = 65 > 650.8 = 52 (computers met Dummy, gemaakt door Hans) 1000.35 = 35 > 350.3 = 10.5 (computers met Smarty, gemaakt door Hans). Dus, 52 / (52+10.5) = 0.8333 ≈ 0.84
17	C	Disjunct betekent dat P(A of B) = 1.0

Wat zijn steekproefdistributies? - TentamenTests 5

Meerkeuzevragen

Vraag 1

De scores op de Cito-toets zijn bij benadering normaal verdeeld met een gemiddelde van 535 en een standaarddeviatie van 5. Welk percentage van de leerlingen heeft naar schatting hoger gescoord dan 545?

A. 1%
B. 2.5%
C. 5%
D. 10%

Vraag 2

Gegeven is dat de scores op de variabele inslaaptijd voor kinderen normaal verdeeld zijn met gemiddelde van 1500 seconden en een standaarddeviatie van 300 seconden. Wat is de proportie van kinderen die in meer dan 1000 seconden inslaapt?

A. 0.0475
B. 0.1423
C. 0.8577
D. 0.9525

Vraag 3

Welke van onderstaande beweringen over sampling variability (steekproeffluctuatie) is/zijn juist?

I. De steekproeffluctuatie kan worden verkleind door de steekproef te vergroten.
II. De steekproeffluctuatie is de mate van spreiding van een statistic wanneer de statistic bij vele random steekproeven uit dezelfde populatie wordt berekend.

A. Alleen bewering I is waar
B. Alleen bewering II is waar
C. Beide beweringen zijn waar
D. Beide beweringen zijn niet waar

Vraag 4

De scores op een test voor het ontwikkelingsniveau van peuters zijn normaal verdeeld met een gemiddelde van 100 en een standaarddeviatie van 10. Wat is de kans dat een willekeurige peuter een score van 115 of hoger heeft op deze test?

A. .0068
B. .4404
C. .5596
D. .9332

Gebruik de volgende gegevens voor vraag 5 en 6: De populatie Nederlandse psychologiestudenten is vrij scheef verdeeld voor geslacht: slechts 20% is man en 80% is vrouw. Gekeken wordt naar het aantal mannen in een willekeurige steekproef van psychologiestudenten (dus waarvoor geldt: p = 0.20).

Vraag 5

Wat is de kans op minder dan 2 mannelijke studenten in een willekeurige steekproef van 8?

A. .1678 + .3355
B. .1678 + .3355 + .2936
C. 1 – (.1678 + .3355)
D. Daar kan op basis van deze gegevens geen uitspraak over worden gedaan

Vraag 6

Wat is de kans op minstens 30 mannelijke studenten in een willekeurige steekpoef van 120 studenten? Gebruik hiervoor de normaal benadering van de binomiale verdeling.

A. P(Z > 1.15)
B. P(Z > 1.26)
C. P(Z > 1.37)
D. P(Z > 1.48)

Vraag 7

Gegeven zijn de scores op een Cito-toets. Bekend is dat de scores in de populatie normaal verdeeld zijn met een gemiddelde van 100. In een aselecte steekproef van 25 mensen uit deze populatie is het gemiddelde 105. De standaarddeviatie in de steekproef is 3. Welke van de volgende uitspraken is juist?

A. 100 is een parameter, 25 is een statistic.
B. 100 is een parameter, 105 is een statistic.
C. 25 is een parameter, 3 is een statistic.
D. 25 is een parameter, 105 is een statistic.

Vraag 8

Met een unbiased (zuivere) statistic wordt bedoeld dat bij een groot aantal vergelijkbare steekproeven uit dezelfde populatie, van dezelfde steekproefgrootte n …

A. De statistics allemaal dicht bij elkaar liggen.
B. Het gemiddelde van de statistics gelijk is aan de parameter.
C. De spreiding van de statistics nul is.
D. Het gemiddelde van de statistics nul is.

Vraag 9

Wat is P(-0.55 < Z < 1.21) als we gebruik maken van tabel A voor standard normaal verdelingen?

A. 0.2912
B. 0.5957
C. 0.7088
D. 0.8869

Vraag 10

De scores van leerlingen op de American College Test (ACT) zijn in de populatie normaal verdeeld met een gemiddelde van 18 en een standaarddeviatie van 6. Op een bepaalde school maken 50 leerlingen de ACT. Veronderstel dat deze 50 scores dezelfde verdeling volgen als in de populatie. Wat is de steekproevenverdeling van de gemiddelde score op de ACT voor steekproeven van 50 leerlingen?

A. Ongeveer een normale verdeling, maar de benadering is slecht
B. Een exact normale verdeling
C. Een rechtsscheve verdeling
D. Een linksscheve verdeling

Vraag 11

Het geboortegewicht van voldragen baby’s is normaal verdeeld met een gemiddelde van 7 pond en een standaarddeviatie van 0.8 pond. Wat is de kans dat het gemiddelde gewicht van een aselect gekozen voldragen baby meer dan 7.6 pond is?

A. 0.23
B. 0.75
C. 0.77
D. Dat is niet te bepalen zonder meer gegevens

Vraag 12

X is binomiaal verdeeld met parameters n = 10 en p = 0.7. Wat is het gemiddelde aantal successen, en wat is de standaarddeviatie?

A. μ = 1.45, σ = 7
B. μ = 1.45, σ = 2.1
C. μ = 7, σ = 2.1
D. μ = 7, σ = 1.45

Vraag 13

Gegeven is dat 30% van de huwelijken in Nederland binnen 15 jaar eindigt in een scheiding. Een groot onderzoek heeft gedurende de laatste 15 jaar honderden huwelijken in Nederland gevolgd. Stel dat 100 van deze huwelijken aselect geselecteerd worden, wat is dan de kans dat minder dan 20 van deze huwelijken eindigen in een scheiding?

A. .011
B. .110
C. .890
D. .989

Vraag 14

Gegeven is dat variabele X in de populatie sterk linksscheef verdeeld is. Hoe ziet dan de steekproevenverdeling van X eruit voor steekproeven van grote n = 100 uit deze populatie?

A. Sterk linksscheef verdeeld, in overeenstemming met de verdeling in de populatie.
B. Meer normaal verdeeld dan in de populatie.
C. Exact normaal verdeeld.
D. Daar is op basis van deze gegevens geen uitspraak over te doen

Vraag 15

Een voorwaarde voor de binomiale verdeling is dat alle observaties …. zijn

A. Onafhankelijk
B. Random
C. Afhankelijk
D. Positief

Vraag 16

Er wordt een enkelvoudige aselecte steekproef getrokken uit een grote populatie. Het percentage respondenten in de steekproef met een bepaald kenmerk wordt bepaald. Wat is de beste beschrijving van dit percentage?

A. Het is een parameter.
B. Het is een statistic.
C. Het is een lurking variable.
D. Geen van bovenstaande uitspraken is juist.

Antwoorden

Vraag	Antwoord	Toelichting
1	B	545 – 535 = 10. Dat zijn twee standaarddeviaties boven het gemiddelde. Twee standaarddeviaties links en rechts van het gemiddelde komt overeen met 95% van alle scores. Dan blijft er dus 5% over: 2.5% links (< 525) en 2.5% rechts (> 545). Tip: teken een normaalverdeling met lijnen voor het gemiddelde en de kritieke waarden.
2	D	Er wordt gevraagd hoeveel kinderen in meer dan 1000 seconden inslapen. Z > (x - μ)/σ = (1000 - 1500)/300 = -500/300 = -1.67 Z = -1.67 opzoeken in Tabel A levert p = .0475 op. Dit is de linker overschrijdingskans. Omdat gevraagd wordt naar de proportie kinderen die meer dan 1000 seconden nodig heeft om in te slapen, doe je 1 – 0.0475 = 0.9525. Dus, 95% van de kinderen heeft een inslaaptijd van 1000 seconden of meer.
3	C
4	A	Z > (x - μ)/σ = (115 - 100)/10 = 15/10 = 1.5 Z = 1.5 opzoeken in tabel A levert een linkeroverschrijdingskans op van p = .9932. Gevraagd wordt de rechteroverschrijdingskans (115 of meer), dus het antwoord is 1 – 0.9932 = 0.0068.
5	A	Opzoeken in Tabel C: P(X < 2 \| p = 0.20, n = 8) = P(X = 0 \| p = 0.20, n = 8) + P(X = 1 \| p = 0.20, n = 8) .
6	B	Eerst bereken je het gemiddelde en de standaarddeviatie: x̄ = 120 ∗ 0.20 = 24 SD = √((n * p * (1-p)) = √(120 ∗ 0.20 ∗ 0.80) ≈ 4.38 Gebruik bij een normaal benadering van een binomiale verdeling altijd de continuïteitscorrectie. Dat betekent in dit geval dat je de grens voor 29.5 gebruikt in plaats van 30. Dit geeft: P(X > 30\|p = 0.20, n = 120) = P (Z > (29.5 - 24)/4.38) = P(Z > 1.26)
7	B	20 is de waarde die je wilt weten van de populatie (het gemiddelde in de populatie), 18 is de waarde berekend op basis van de steekproef (het gemiddelde in de steekproef). Onthoud: populatie > parameter en steekproef > statistic (pp – ss).
8	B	Unbiased betekent dat er geen structurele vertekening is. Dit betekent dat een individuele steekproef wellicht afwijkt van de populatieparameter, maar dat deze gemiddeld genomen gelijk zijn aan de parameter
9	B	B P(-0.55 < Z < 1.21) = P(Z < 1.21) – P(Z < -0.55) = 0.8869 – 0.2912 = 0.5957
10	B
11	B	Z > (x - μ)/σ = (7.6 - 7)/0.8 = 0.6/0.8 = 0.75 geeft .7734 We willen de rechteroverschrijdingskans weten, dus P = 1 - .7734 = 0.2266
12	D	μ = np = 10 * 0.7 = 7 σ = √((np(1-p)) = √2.1 ≈ 1.45
13	A	Gebruik de normaal benadering van de binomiale verdeling met continuïteitscorrectie. μ = np = 0.30 * 100 = 30 σ = √((np(1-p)) = √30(0.70) = √21 ≈ 4.58 P(Z < (19.5 - 30)/4.58) ≈ -2.29, opzoeken in tabel A geeft P < .0110
14	D	Centrale limiet theorie (zie hoofdstuk 5)
15	A
16	B

Wat zijn statistische gevolgtrekkingen? - TentamenTests 6

Meerkeuzevragen

Vraag 1

Het aantal jaren opleidingsniveau is gemeten bij een random steekproef uit de populatie van Nederlandse mannen. Vervolgens is een 95% betrouwbaarheidsinterval opgesteld voor het eerste kwartiel. Dit 95% betrouwbaarheidsinterval bevat

A. De laagste 25% van de scores op ‘aantal jaren opleidingsniveau’ in de steekproef.
B. De laagste 25% van de scores op ‘aantal jaren opleidingsniveau’ in de populatie.
C. Met 95% zekerheid de waarde van het eerste kwartiel in de steekproef.
D. Met 95% zekerheid de waarde van het eerste kwartiel in de populatie.

Vraag 2

Stel we hebben het gemiddelde berekend van scores op een variabele X voor een random steekproef van 100 studenten uit de populatie van studenten in Groningen en we stellen een 95% betrouwbaarheidsinterval op. Dan is dit 95% betrouwbaarheidsinterval het interval waarin

A. 95% van de gevonden gemiddelden uit de steekproef liggen.
B. 95% van de gevonden gemiddelden uit de populatie liggen.
C. Met 95% zekerheid de steekproefwaarde van het gemiddelde van X ligt.
D. Met 95% zekerheid de populatiewaarde van het gemiddelde van X ligt.

Vraag 3

Gemiddeld genomen werkt een Nederlander 30 uur per week. Ga ervanuit dat deze variabele normaal verdeeld is met een standaarddeviatie van 3. Hoe groot is dan ongeveer het deel van de Nederlanders dat tussen de 24 en 36 uur werkt?

A. 5%
B. 32%
C. 68%
D. 95%

Vraag 4

Rimmer doet een onderzoek naar de gemiddelde tevredenheid van pedagogiekstudenten met hun tentamencijfer op statistiek. Hij gebruikt daarbij een schaal van 0 tot 100 en gaat ervan uit dat de scores normaal verdeeld zullen zijn. Rimmer steelt een 95% betrouwbaarheidsinterval op voor het gemiddelde uit een random steekproef. Het betrouwbaarheidsinterval loopt van 60 tot 75. Wat betekent dit interval?

A. 95% van de scores in de steekproef liggen tussen de 57 en 63.
B. 95% van de scores in de populatie liggen tussen de 57 en 63.
C. Er is 95% kans dat dit interval het populatiegemiddelde bevat.
D. Er is 95% kans dat dit interval het steekproefgemiddelde bevat.

Vraag 5

Aan 100 Groningse studenten is gevraagd hoeveel biertjes zij de afgelopen week hebben gedronken. De scores zijn rechtsscheef verdeeld met een gemiddelde van 5 en een standaarddeviatie van 3. Hoe veel biertjes moet een student drinken om bij de hoogste 2.5% te zitten?

A. Minimaal 8
B. Minimaal 11
C. Minimaal 14
D. Daar kan op basis van deze gegevens geen uitspraak over worden gedaan.

Vraag 6

De scores op een tentamen zijn normaal verdeeld met gemiddelde 60 en standaarddeviatie 8. Wat is de score die je moet behalen om tot de 5% laagste scores te behoren?

A. Ongeveer 44 of lager
B. Ongeveer 44 of hoger
C. Ongeveer 47 of lager
D. Ongeveer 47 of hoger

Vraag 7

De tijd om een tentamen af te ronden is normaal verdeeld met een gemiddelde van 50 minuten en een standaarddeviatie van 10 minuten. Wat is ongeveer het percentage studenten dat het tentamen binnen een uur afrondt?

A. 68%
B. 84%
C. 95%
D. 99.7%

Vraag 8

Uit een onderzoek blijkt dat Nederlanders gemiddeld 1200 euro per jaar uitgeven aan kleding, met een standaarddeviatie van 14.83. Gegeven is dat de margin of error (m) 30 is. Hoe groot moet de steekproef minimaal zijn om een 95% betrouwbaarheidsinterval op te kunnen stellen?

A. 5
B. 6
C. 33
D. 34

Antwoorden

Vraag	Antwoord	Toelichting
1	D	Een betrouwbaarheidsinterval gebruik je om met een bepaalde (on)zekerheid uitspraken te doen over de populatie; je wilt immers uitspraken doen over de populatie. De steekproef is slechts een middel daartoe.
2	D	Zie uitleg bij de vorige vraag.
3	D	Neem 1 standaarddeviatie links en rechts van het gemiddelde. Volgens de 68-95-99.7 regel heb je daarmee dus op 95% van alle observaties.
4	C
5	D	Het is eens linksscheve verdeling, waardoor je niet zonder meer dit soort uitspraken mag doen: de 68-95-99.7 regel gaat hier niet op.
6	C	Let op: bij de vorige vraag kon je makkelijk schatten met de vuistregel (ongeveer 2 standaarddeviaties, dus z = 2), maar nu moet je de z-score echt opzoeken. Laagste 5% betekent dat je moet kijken in tabel A bij een linkeroverschrijdingskans van .05. Deze ligt tussen -1.64 en -1.65 in, dus z = -1.645. Het antwoord is dan: 60 − 1.645 ∗ 8 = 46.84. Dit is afgerond 47.
7	B	Binnen een uur, betekent +1 standaarddeviatie naar rechts. 1 SD aan beide kanten omvat 68%. Tel daar de helft van de resterende 32% bij op, dus: 68 + 16 = 84%.
8	D	\[ n = {\frac{z * \sigma}{m}}^{2} = {\frac{1.96 * 14.83}{5}}^{2} = 5.813^{2} = 33.80 \] Dus minimaal 34.

Wat zijn statistische gevolgtrekkingen voor distributies? - TentamenTests 7

Meerkeuzevragen

Vraag 1

Gegeven zijn twee onafhankelijke variabelen X en Y. Verder is bekend dat het gemiddelde van X gelijk is aan 20 en de standaarddeviatie gelijk is aan 10. Variabele Y heeft een gemiddelde van 10 en een standaarddeviatie van 5. Wat is de standaarddeviatie van de variabele (X – Y)?

A. 5
B. 15
C. 75
D. 125

Vraag 2

Stel we hebben twee onafhankelijke random variabelen X en Y. Welke van onderstaande uitspraken is niet juist?

A. De variantie van het verschil X – Y is gelijk aan het verschil van de varianties.
B. De variantie van de som X + Y is gelijk aan de som van de varianties.
C. Het gemiddelde van de som X + Y is gelijk aan de som van de gemiddelden.
D. Het gemiddelde van het verschil X – Y is gelijk aan het verschil van de gemiddelden.

Vraag 3

Een onderzoeker vindt dat hij een lager risico moet lopen om ten onrechte de nulhypothese te verwerpen. Wat stel je hem voor te doen?

A. Toetsen bij een lager significantieniveau
B. De steekproef vergroten
C. Onderzoek naar een groter effect doen
D. Er voor proberen te zorgen dat de standaardfout zo klein mogelijk is

Vraag 4

De scores van een bepaalde variabele zijn in de populatie normaal verdeeld met een standaarddeviatie van 12. Stel er wordt rechtseenzijdig getoetst met de nulhypothese dat het populatiegemiddelde gelijk is aan 80. Bekend is dat de nulhypothese verworpen wordt vanaf een steekproefgemiddelde van 82.5. Wat zal de power zijn wanneer het populatiegemiddelde 86 zou zijn? Ga hierbij uit van een steekproefgrootte van 64 personen. De power is ongeveer …

A. 0.76
B. 0.82
C. 0.94
D. 0.99

Vraag 5

Gegeven is dat bij een gepoolde t−procedure voor het toetsen van een verschil in gemiddelden de power 0.82 is bij α = 0.05 en een steekproef van 50 personen. De onderzoeker wil eigenlijk dat de power naar minimaal 0.90 gaat. Wat zou hij theoretisch kunnen doen om dit te bereiken?

A. Met een grotere steekproef werken in combinatie met α = 0.01
B. Met een grotere steekproef werken in combinatie met α = 0.10
C. Met een kleinere steekproef werken in combinatie met α = 0.01
D. Met een kleinere steekproef werken in combinatie met α = 0.10

Vraag 6

In een steekproef van 81 personen is het steekproefgemiddelde gelijk aan 104 met een standaarddeviatie van 17.24. Voor een one-sample t−test voor toetsing van de nulhypothese dat het populatiegemiddelde gelijk is aan 100 (H₀: μ = 100) wordt een rechteroverschrijdingskans gevonden van 0.02. Wat vertelt deze overschrijdingskans je?

A. Er is 2% kans dat het populatiegemiddelde gelijk is aan 100, als je een steekproefgemiddelde van precies 104 vindt.
B. Er is 2% kans dat het populatiegemiddelde gelijk is aan 100, als je een steekproefgemiddelde hoger dan 104 vindt.
C. Als het populatiegemiddelde gelijk is aan 100, is er 2% kans dat je een steekproefgemiddelde van precies 104 vindt.
D. Als het populatiegemiddelde gelijk is aan 100, is er 2% kans dat je een steekproefgemiddelde hoger dan 104 vindt.

De volgende gegevens horen bij vraag 7 tot en met vraag 14. Er zijn verschillende manieren om beter met stress om te kunnen gaan. Eén manier om stress te verminderen is het aanbieden van een bepaalde vorm van hulp. De onderzoekers registreerden de fysiologische reactie van proefpersonen tijdens een veeleisende taak waarbij ze achteruit moesten tellen (hoofdrekenen is een erg betrouwbare manier om stress te veroorzaken). De deelnemers waren 45 vrouwen die allen een hond hebben. De test werd onder drie condities (variabele CONDIT) uitgevoerd:

De experimentleider aanwezig (CONTROL)
Een vriendin en de experimentleider aanwezig (FEMALE FRIEND)
De hond en de experimentleider aanwezig (PET DOG)

Eén van de fysiologische reacties die gemeten werd is de gemiddelde hartslag per persoon tijdens de rekentest (MEAN HEART RATE). Hieronder zijn beschrijvende gegevens van de drie groepen op MEAN HEART RATE gegeven en de output voor de t-procedure voor het verschil tussen twee gemiddelden waarbij gekeken is naar de controlegroep (groep 1) versus de groep proefpersonen die een vriendin meegenomen had (groep 2). Hierbij wordt de nulhypothese getoetst dat er geen verschil in populatiegemiddelden tussen beide groepen is.

Tabel 1. 'Descriptive statistics'

		N	Mean	Mean	Std. dev.
condit		statistic	statistic	std. error	statistic
control	Mean heart rate	15	82,52	2,386	9,242
female friend	Mean heart rate	15	91,33	2,154	8,341
pet dog	Mean heart rate	15	73,48	2,574	9,970

Tabel 2. 't-test for equality of means'

		Sig. (2-tailed)	Mean difference	Std. error difference	Lower limit 95% CI for thedifference	Upper limmit 95% CI for the difference
Mean heart rate	Equal variances assumed	,011	-8,801	3,214	-15,385	-2,217
	Equal variances not assumed	,011	-8,801	3,214	-15,388	-2,214

Vraag 7

De onderzoekers hebben gekozen voor het vergelijken van de gemiddelden op basis van de two sample t−procedure. Aan welke van onderstaande voorwaarden hoeft dan niet voldaan te zijn?

A. De scores op MEAN HEART RATE zijn normaal verdeeld in beide populaties.
B. De standaarddeviaties van de scores op MEAN HEART RATE in beide populaties zijn gelijk aan elkaar.
C. De twee steekproeven zijn onafhankelijk van elkaar uit hun respectievelijke populatie gehaald.
D. Zowel A, B, als C zijn voorwaarden waaraan voldaan moet zijn om de uitkomsten van de two-sample t−procedure zinvol te kunnen interpreteren.

Vraag 8

Stel je wilt een 99% betrouwbaarheidsinterval voor het verschil tussen beide gemiddelden (groep 1 en groep 2) opstellen volgens de gepoolde t−procedure. Welke t−verdeling zou je bij deze output gebruiken om de kritieke t−waarde op te zoeken?

A. De gepoolde t-verdeling
B. Een t−verdeling met df = 14
C. Een t−verdeling met df = 28
D. Een t−verdeling met df = 44

Vraag 9

De onderzoekers willen onderzoeken of de gemiddelde hartslag bij de groep proefpersonen die een vriendin meegenomen hebben significant hoger is dan bij de controlegroep. Wat zou de kleinste van onderstaande α’s zijn waarbij de nulhypothese wordt verworpen?

A. α = 0.10
B. α = 0.05
C. α = 0.01
D. α = 0.005

Vraag 10

Wat zou de waarde van de toetsingsgrootheid t zijn die de nulhypothese toetst dat het populatiegemiddelde op MEAN HEART RATE gelijk is aan 80 voor de controlegroep?

A. -2.74
B. -1.06
C. 1.06
D. 2.74

Vraag 11

Stel je wilt toetsen of de hypothese dat MEAN HEART RATE in de populatie bij de controlegroep precies 14 punten lager is dan bij de groep FEMALE FRIEND (H₀: μ₁ − μ₂ = −14) bij een significantieniveau van 5%. Wat zou je dan beslissen?

A. Deze nulhypothese zou niet verworpen worden aangezien het gevonden verschil in steekproefgemiddelden van -8,8 niet ver genoeg van afwijkt van 14.
B. Deze nulhypothese zou wel verworpen worden aangezien het gevonden verschil in steekproefgemiddelden van -8,8 wel ver genoeg van afwijkt van 14.
C. Deze nulhypothese zou niet verworpen worden aangezien de gevonden overschrijdingskans van 0.011 niet klein genoeg is.
D. Deze nulhypothese zou wel verworpen worden aangezien de gevonden overschrijdingskans van 0.011 wel klein genoeg is

Vraag 12

Wat zou de waarde van de standaardfout zijn voor het verschil in steekproefgemiddelden tussen de groep FEMALE FRIEND en PET DOG?

A. 2.154
B. 2.364
C. 2.574
D. 3.356

Vraag 13

Iemand wil onderzoeken of er meer spreiding is binnen de controlegroep in vergelijking met de groep waarbij een vriendin aanwezig is. Ze onderzoekt dit door middel van de F−toets en zij wil de bijbehorende p−waarde vervolgens opzoeken in Tabel E. Welke F−waarde vindt zij?

A. 0.81
B. 0.90
C. 1.11
D. 1.23

Vraag 14

Stel je voor dat het experiment iets anders vormgegeven was: er waren in totaal slechts 15 vrouwen, die alle 15 in alle drie de condities (in willekeurige volgorde) de rekentest gemaakt zouden hebben. Voor elke vrouw zou je dan dus drie rekentestscores hebben. Welke procedure zou je dan aanraden als je de verdeling van scores onder de controleconditie zou willen vergelijken met die van de conditie FEMALE FRIEND (er vanuit gaande dat de scores normaal verdeeld zijn in de populatie)?

A. De tekentoets voor de verschilscores
B. De gepaarde t-toets voor de verschilscores
C. De binomiaaltoets voor de verschilscores
D. Noch A, noch B, noch C is een aan te raden procedure

Antwoorden

Vraag	Antwoord	Toelichting
1	D	De variantie van de verschil variabele is gelijk aan de som van de varianties van beide variabelen. Dus var(X – Y) = var(X) + var(Y) = 10² + 5² = 125.
2	A
3	A	Om de kans op een type-1 fout te verkleinen, kun je toetsen bij een lager significantieniveau.
4	D	power = P(X > 82.5 \| μ = 86) = P(Z > (82.5 - 86)/(12√64) = -2.33 1 − 0.0099 = 0.99 (Tabel A)
5	B	Meer power: (a) grotere steekproef; (b) hoger significantieniveau.
6	D	Als het populatiegemiddelde gelijk is aan 100, is er 2% kans dat je een steekproefgemiddelde hoger dan 104 vindt.
7	B	Bij een twee steekproeven t-toets hoeven de standaarddeviaties niet gelijk aan elkaar te zijn.
8	C	df = N1 + N2 - 2 = 15 + 15 - 2 = 28
9	C	p = ,011 bij tweezijdig, dus p = ,0055 bij éénzijdig
10	C	\[ t = \frac{82.52 - 80}{9.242/ \sqrt{15}} = 1.06 \]
11	A	Deze nulhypothese zou niet verworpen worden aangezien het gevonden verschil in steekproefgemiddelden van -8,8 niet ver genoeg van afwijkt van 14.
12	D	\[ SE = \sqrt{ \frac{8.341^{2}}{15} + \frac{9.970^{2}}{15} } \]
13	D	F = s₁²/s₂²= 9.242²/ 8.341² = 1.23
14	B	Aangezien alle vrouwen alle tests hebben gemaakt, is hier de gepaarde t-toets voor verschilscores het meest geschikt.

Wat zijn statistische gevolgtrekkingen voor proporties? - TentamenTests 8

Meerkeuzevragen

Gebruik onderstaande informatie voor het beantwoorden van vraag 1 tot en met vraag vraag 4. Er is een onderzoek uitgevoerd om de rijvaardigheid van studenten uit Groningen, Rotterdam en Leiden te vergelijken. Van de 100 aselect geselecteerde studenten uit Groningen gaven vijftien studenten aan dat zij het afgelopen jaar betrokken zijn geweest bij een auto-ongeluk. Van de 100 aselect geselecteerde studenten uit Leiden gaven twaald studenten aan dat zij het afgelopen jaar betrokken zijn geweest bij een auto-ongeluk.

De gebruikte notatie in onderstaande opgaven is als volgt:

p_G = de proportie studenten uit Groningen die het afgelopen jaar betrokken zijn geweest bij een auto-ongeluk.
p_R = de proportie studenten uit Rotterdam die het afgelopen jaar betrokken zijn geweest bij een auto-ongeluk.
p_L = de proportie studenten uit Leiden die het afgelopen jaar betrokken zijn geweest bij een auto-ongeluk.

Vraag 1

De onderzoekers willen toetsen of p_Lgroter is dan 10%. Voer een geschikte significantietoets uit. Welke van de onderstaande uitspraken is niet juist?

A. De toetsingsgrootheid (test statistic) is gelijk aan 0.67.
B. De berekende toetsingsgrootheid (test statistic) is t-verdeeld met df = 99.
C. De kritieke waarde bij α = 0.05 is gelijk aan 1.645.
D. De P-waarde is gelijk aan 0.2514.

Vraag 2

De onderzoekers willen toetsen of p_R kleiner is dan 25%. Daartoe stellen ze een steekproef samen van n aselect geselecteerde studenten uit Rotterdam. Zij rapporteren dat het 90%- betrouwbaarheidsinterval voor p_R loopt van 0.26 tot 0.30. Welke van onderstaande uitspraken is correct?

A. Het betrouwbaarheidsinterval wordt breder bij een grotere steekproefgrootte n, mits verder alle andere grootheden gelijk blijven.
B. Het betrouwbaarheidsinterval wordt breder bij een toename van het betrouwbaarheidsniveau C, mits verder alle andere grootheden gelijk blijven.
C. Zowel A als B is juist.
D. Zowel A als B is niet juist.

Vraag 3

Stel de onderzoekers willen onderzoeken hoe groot p_L is. Daartoe stellen ze een steekproef samen van n aselect geselecteerde studenten uit Leiden. Welke van onderstaande steekproefgroottes n is de kleinste steekproefgrootte waarvoor het 90%-betrouwbaarheidsinterval voor p_L smaller is dan 0.04?

A. 500
B. 1000
C. 2000
D. 2500

Vraag 4

De onnauwkeurigheidsmarge (margin of error) van het 95%-betrouwbaarheidsinterval voor p_G − p_A (large sample) is gelijk aan …

A. \[ \sqrt{ \frac{0.15 * 0.85}{100} + \frac{0.12 * 0.88}{100} } \]
B. \[ 1.96 * \sqrt{ \frac{0.15 * 0.85}{100} + \frac{0.12 * 0.88}{100} } \]
C. \[ 1.984 \sqrt{ \frac{0.15 * 0.85}{100} + \frac{0.12 * 0.88}{100} } \]
D. Geen van bovenstaande alternatieven is juist.

Vraag 5

De onderzoeker uit de voorgaande opgave toetst de hypothese dat de steekproef een enkelvoudige aselecte steekproef (SRS) is uit een populatie met 70% vrouwen en 30% mannen. Hij hanteert een significantieniveau van 5%. Het blijkt dat de p-waarde gelijk is aan 0.3. De onderzoeker concludeert vervolgens dat de steekproef een enkelvoudige aselecte steekproef is uit een populatie met 70% vrouwen en 30% mannen. Welke van onderstaande uitspraken over deze conclusie is juist?

A. De conclusie is correct, omdat de verdeling in de steekproef niet significant verschillend is van de verdeling in de populatie.
B. De conclusie is correct, omdat we de nulhypothese niet kunnen verwerpen.
C. De conclusie is niet correct, omdat we de nulhypothese niet kunnen verwerpen.
D. De conclusie is niet correct, omdat we geen bewijs hebben voor de nulhypothese.

Vraag 6

Stel je wilt een betrouwbaarheidsinterval voor een populatieproportie opstellen en er is geen informatie bekend is over een mogelijke schatting van de populatieproportie. Wat is de reden dat we in dit geval, bij het bepalen van de minimale steekproefgrootte, een geschatte populatieproportie van 0.50 gebruiken?

A. De minimale steekproefgrootte gebaseerd op een populatieproportie van 0.50 is hoe dan ook groot genoeg als blijkt dat de populatieproportie afwijkt van 0.50.
B. Een geschatte populatieproportie van 0.50 ligt precies tussen de 0 en de 1 in en is, als er niets bekend is over de populatieproportie, dus de beste schatting die je kan geven.
C. Bij bepaling van de steekproefgrootte met een geschatte populatieproportie van 0.50 zal het risico op fout type I geminimaliseerd worden.
D. Geen van bovenstaande alternatieven is juist.

Antwoorden

Vraag	Antwoord	Toelichting
1	B	H₀: p = 0.10, z = (0.12 - 0.10) / √(0.1*0.9/100) = 0.67 p = P(Z > 0.67) = 0.2514
2	B	Wanneer alle andere grootheden (zoals steekproefgrootte) gelijk blijven, dan zorgt een toename van het betrouwbaarheidsniveau ervoor dat het betrouwbaarheidsinterval breder wordt. Je wilt meer betrouwbaarheid zonder dat je extra 'middelen' hebt, dus wordt het interval waarin die waarde ligt breder.
3	C	n = (1.645/0.02)² * 0.5 * 0.5 = 1691.3, dus vanaf n = 1692 is het interval voldoende klein.
4	B
5	D	Als de H₀ niet wordt verworpen, dan betekent dit NIET dat de H₀ geaccepteerd wordt.
6	A	De minimale steekproefgrootte gebaseerd op een populatieproportie van 0.50 is hoe dan ook groot genoeg als blijkt dat de populatieproportie afwijkt van 0.50.

Wat zijn gevolgtrekkingen voor categorische data? - TentamenTests 9

Meerkeuzevragen

Vraag 1

Een onderzoeker wil te weten komen of zijn steekproef een enkelvoudige aselecte steekproef (SRS) is uit de populatie studenten bedrijfskunde. Hij weet dat de populatie bedrijfskunde studenten bestaat uit 70% vrouwen en 30% mannen. Zijn steekproef van n = 500 proefpersonen bestaat uit 63% vrouwen en 37% mannen. Welke toets kan de onderzoeker het beste uitvoeren om te toetsen of de steekproef een enkelvoudige aselecte steekproef (SRS) is uit een populatie met 70% vrouwen en 30% mannen?

A. De z-toets voor een populatieproportie
B. Een chi-kwadraat toets
C. Zowel A als B is geschikt
D. Zowel A als B is niet geschikt

Gebruik onderstaande informatie voor vraag 2 tot en met vraag 4.

Er is een onderzoek uitgevoerd om te onderzoeken of het gemak waarmee het statistische computerprogramma R aangeleerd wordt (variabele: R) samenhangt met de statistische kennis van studenten (variabele: KENNIS). Om hier inzicht in te krijgen, is er een vragenlijst opgestuurd naar aselect geselecteerde studenten van Nederlandse universiteiten. In onderstaande tabellen vind je enkele onderzoeksresultaten en incomplete SPSS-output.

			Kennis
		Slecht	Gemiddeld	Goed	Totaal
R	Slecht	11	15	2	28
	Gemiddeld	8	33	11	52
	Goed	1	17	14	32
	Totaal	20	65	27	112

			Kennis
		Slecht	Gemiddeld	Goed	Totaal
R	Slecht	55%	23%	7%	25%
	Gemiddeld	40%	51%	41%	46%
	Goed	5%	26%	52%	29%
	Totaal	100%	100%	100%	100%

Chi-square test

	Value	Asymp. Sign. (2-sided)
Pearson Chi-Square	20.413^a	.000
Likelihood Ratio	20.914	.000
Linear-by-Linear Association	18.840	.000
N of Valid Cases	112

^a. 0 cells (0,0%) have expected count less than 5. The minimum expected count is 5,00.

Vraag 2

Welke verdeling is een correcte beschrijving van de getallen in de kolom “KENNIS = Goed” van Tabel 2 (dus de percentages 7%, 41% en 52%)?

A. De marginale kansverdeling van R.
B. De gezamenlijke kansverdeling van KENNIS en R.
C. De conditionele kansverdeling van R gegeven KENNIS.
D. De chi-kwadraat verdeling

Vraag 3

Er is een chi-kwadraat analyse uitgevoerd op bovenstaande data. Welke van onderstaande uitspraken op basis van bovenstaande gegevens is juist?

A. Het aantal vrijheidsgraden is gelijk aan 8.
B. Als er geen samenhang is tussen R en KENNIS, dan is het verwachte aantal studenten met ‘KENNIS=goed’ en ‘R=goed’ gelijk aan 30.
C. De bijdrage van de cel (KENNIS=goed, R=goed) aan de chi-kwadraat statistic is gelijk aan 5.12.
D. Geen van bovenstaande uitspraken is juist.

Vraag 4

Wat kunnen we zeggen over de samenhang tussen het gemak waarmee R aangeleerd wordt en de statistische kennis, op basis van bovenstaande R-uitvoer en α = 0.05?

A. Er is waarschijnlijk geen samenhang tussen het gemak waarmee R aangeleerd wordt en de statistische kennis.
B. Er is een erg zwakke samenhang tussen het gemak waarmee R aangeleerd wordt en de statistische kennis.
C. Er is een sterke samenhang tussen het gemak waarmee R aangeleerd wordt en de statistische kennis.
D. Geen van bovenstaande alternatieven is juist.

De volgende gegevens horen bij vraag 5 en 6. Een huizenjager heeft op de website Funda.nl van 126 huizen de volgende informatie bijgehouden: wel/geen vrijstaande woning en de staat van de woning (matig, redelijk, goed). Dit leverde hem onderstaande output op vanuit SPSS.

			staat van de woning
		matig	redelijk	goed	totaal
vrijstaand	ja	21	14	7	42
	nee	7	42	35	84
totaal		28	56	42	126

	Value
Pearson Chi-Square	28,875
Likelihood Ratio	28,082
Linear-by-Linear Association	22,727
N of valid cases	126

Vraag 5

Wat is een voorwaarde voor het gebruik van de Chi-kwadraat procedure bij de gegevens in deze kruistabel?

A. De verwachte frequenties moeten gemiddeld groter zijn dan 5.
B. De huizen moeten onafhankelijk van elkaar geselecteerd zijn.
C. Zowel A, als B is een voorwaarde.
D. Noch A, noch B is een voorwaarde

Vraag 6

Wat zal de bijdrage zijn aan de gevonden waarde bij de chi-kwadraat analyse van de 21 niet vrijstaande en 7 wel vrijstaande woningen die in matige staat zijn, gezamenlijk?

A. 7.29
B. 14.58
C. 21.87
D. Geen van bovenstaande alternatieven is juist

Vraag 7

Er vanuit gaande dat deze 126 huizen een aselecte steekproef uit de populatie zijn. Wat zal de waarde van de toetsingsgrootheid zijn waarbij de nulhypothese getoetst wordt dat de proportie matige woningen (ongeacht of deze vrijstaand zijn) in de populatie gelijk is aan 0.30?

A. t = −1.91
B. t = −2.10
C. z = −1.91
D. z = −2.10

Vraag 8

Stel dat bij de gevonden Chi-kwadraat waarde de overschrijdingskans dusdanig klein is dat de nulhypothese verworpen kan worden. Wat mag je dan concluderen?

A. De verdeling in de populatie van de staat van de woning is bij vrijstaande woningen waarschijnlijk anders dan bij niet-vrijstaande woningen.
B. De kans in de populatie op een woning in een redelijke staat is bij vrijstaande woningen waarschijnlijk anders dan de kans in de populatie op een woning in redelijke staat bij niet-vrijstaande woningen.
C. Zowel A, als B
D. Noch A, noch B

Vraag 9

Iemand heeft op basis van bovenstaande kruistabel de (afgeronde) kansen 0.33 en 0.67 gevonden. Welke kansverdeling(en) vormen deze twee getallen?

A. De marginale verdeling van vrijstaande woningen
B. De volgens de nulhypothese verwachte conditionele verdeling van vrijstaande woningen gegeven een matige staat van de woning
C. De volgens de nulhypothese verwachte conditionele verdeling van vrijstaande woningen gegeven een redelijke staat van de woning
D. Zowel A, B als C zijn juist

Antwoorden

Vraag	Antwoord	Toelichting
1	C	Bij 2x2 kruistabellen heb je twee mogelijkheden, die precies dezelfde uitkomsten leveren: een chi-kwadraat analyse of een z-toets voor een proportie. Deze vraag is zeer vaak fout beantwoord in tentamens.
2	C
3	C	df = (r - 1) * (c - 1) = 2 * 2 = 4 Verwachte aantal = (32 * 27) / 112 = 7.14 Dit aantal mag je niet afronden op gehele getallen. Bijdrage = (14-7.14)² / 7.14 = 5.12
4	D	Een significantietoets geeft nooit informatie over de sterkte van de samenhang. Ook levert een significantietoets nooit bewijs vóór de nulhypothese.
5	C	Voor een chi-kwadraat toets geldt dat zowel de verwachte frequenties per cel meer dan vijf moeten zijn als ook dat de observaties onafhankelijk van elkaar geselecteerd horen te zijn.
6	C	Verwachte aantallen: 42 × 28/126 = 9.33 en 84 × 28/126 = 18.67 x² bijdrage = (21 - 9.33)² / 9.33 + (7 - 18.67)²/ 18.67 = 14.58 + 7.29 = 21.87
7	C	Steekproefproportie matige woningen is: \[ \hat{p} = 28/126 = 0.22 \] Dit levert de volgende z-waarde op: \[ z = \frac{0.22 - 0.30}{\sqrt{0.3 x 0.7 / 126} } = -1.91 \]
8	A	Er zijn twee mogelijke nulhypothesen die getoetst kunnen worden met een chi-kwadraat toets: H0: er is geen samenhang tussen de staat van de woning en of de woning al dan niet vrijstaand is, of H0: de verdeling van de staat van de woning is gelijk voor vrijstaande en niet-vrijstaande woningen. Hele specifieke hypotheses geformuleerd als b worden niet getoetst met een chi-kwadraat toets. Deze hypothese zou je moeten/kunnen toetsen met een toets of twee proporties gelijk zijn aan elkaar. Als er sprake was geweest van een 2x2 design, dan waren deze toetsen gelijk aan elkaar. Maar omdat we een 2x3 design hebben, komen de toets op proporties en de chi-kwadraat toets niet meer overeen met elkaar. Vandaar dat alleen a juist is.
9	A	Marginale verdeling van vrijstaande woningen is 42/126 = 0.33 en 84/126 = 0.67 Conditionele verdeling van vrijstaand gegeven matig is 21/28 = 0.75 en 7/28 = 0.25 Conditionele verdeling van vrijstaand gegeven redelijk is 14/56 = 0.25 en 42/56 = 0.75.

Wat is regressie? - TentamenTests 10

Meerkeuzevragen

Vraag 1

Bij een enkelvoudige regressie wordt H₀: R² = 0 versus H_A: R² > 0 verworpen met een p-waarde van 0.04. Wat kan je zeggen over de p-waarde van H₀: β1 = 0 versus H_A: β1 ≠ 0?

A. p = 0.02.
B. p = 0.04.
C. p = 0.08.

Vraag 2

Vul aan: “In een enkelvoudig regressiemodel, is de SS_MODEL gebaseerd op de ...

A. ...verschillen tussen de voorspellingen en het gemiddelde”
B. ...verschillen tussen metingen en voorspellingen”
C. ...verschillen tussen de metingen en het gemiddelde”

Vraag 3

Uit een enkelvoudige regressie blijkt n = 20, r = 0.85. Wat kan je zeggen over het 95% betrouwbaarheidsinterval voor ρ?

A. Dit interval is symmetrisch rond 0.85.
B. De linkergrens ligt dichter bij 0.85 dan de rechtergrens.
C. De rechtergrens ligt dichter bij 0.85 dan de linkergrens.

Vraag 4

Een onderzoek is uitgevoerd om een verband te vinden tussen de uitgevoerde braadtijd (m, in minuten) van een kalkoen gebaseerd op het gewicht (g, in pounds) en of de kalkoen gevuld is (D = 1) of niet (D = 0). Dit onderzoek, op basis van 32 kalkoenen, leverde y_i = 12.0 + 27.0 g_i + 36.0 D_i. Een gevulde kalkoen van 7 pounds wordt vier uur (240 minuten) in de oven geplaatst. Welk residu e_i hoort hier volgens de regressievergelijking bij?

A e_i < 0
B. 0 ≤ e_i < 15
C. e_i ≥ 15

Vraag 5

Om de resultaten te gebruiken in een Nederlands kookboek, wordt bovenstaand onderzoek omgezet naar een waarin de kalkoen gemeten is in kilogram. (1 pound = 0.45 kg). Welke uitspraak is waar?

A. Het regressiegewicht van gewicht wordt 60. De intercept verandert wel.
B. Het regressiegewicht van gewicht wordt 60. De intercept verandert niet.
C. Het regressiegewicht van gewicht wordt 12. De intercept verandert niet.
D. Het regressiegewicht van gewicht wordt 12. De intercept verandert wel.

Vraag 6

Een regressieanalyse wordt uitgevoerd. De verklarende variabelen zijn twee dummyvariabelen, die gebaseerd zijn op een factor met 3 groepen. De onderzoekers zijn voornamelijk geïnteresseerd in de volgende twee contrasten:

\[ \psi_{1}: 1/2 (\mu_{1} + \mu_{2}) - \mu_{3} = 0 \hspace{2mm} en \hspace{2mm} \psi_{2}: \mu_{1} - \mu_{2} = 0 \]

Welke codering is hiervoor het meest geschikt?

A. D₁ = -1 in groep 1, 0 in groep 3, 1 in groep 2; D₂ = -1/2 niet in groep 3, 1 wel in groep 3
B. D₁ = -1 in groep 2, 0 in groep 3, 1 in groep 1; D₂ = -1/2 niet in groep 2, 1 wel in groep 2
C. D₁ = -1 in groep 3, 0 in groep 2, 1 in groep 1; D₂ = -1/2 niet in groep 3, 1 wel in groep 3

Vraag 7

Zowel de helling b₁ bij een enkelvoudige regressieanalyse als de Fisher-z getransformeerde correlatiecoëfficiënt r_z hebben een steekproevenverdeling die normaal verdeeld is. Toch gebruik je om β1 te toetsen een ander soort verdeling (t-verdeling) dan wanneer je ρ_z toetst (normale verdeling). Waarom?

A. Omdat de steekproevenverdeling van de correlatiecoëfficiënt bij ρ ≠ 0 niet normaal verdeeld is.
B. Omdat SE_b1 nog geschat moet worden en SE_zr niet, gebruik je bij b₁ wel en bij r_z niet een t-verdeling. C. Omdat je voor het toetsen van H₀: β₁ = 0 de Fisher-z-transformatie niet nodig hebt.

Vraag 8

Wat is de functie van kruisvalidatie in regressieanalyse? Kruisvalidatie wordt gebruikt om…

A. ... te bepalen hoeveel en welke onafhankelijke variabelen in het model moeten worden opgenomen.
B. ... te bepalen hoe goed met het geschatte model voorspellingen in een andere steekproef kunnen worden gemaakt.
C. ... uit te rekenen wat het maximale percentage variantie is dat door het geschatte model kan worden verklaard in de steekproef.

Vraag 9

Welke aanname hoef je niet te checken bij het uitvoeren van een regressieanalyse waarbij alle onafhankelijke variabelen dummyvariabelen zijn?

A. Constante variantie
B. Onafhankelijke residuen
C. Lineariteit

Antwoorden

Vraag	Antwoord	Toelichting
1	B	De R² kan niet lager zijn dan 0, dus is een éénzijdige toets in feite hetzelfde als een tweezijdige toets.
2	A	SS_M wordt berekend met de formule: Σ(ŷ_i-ȳ)².
3	C
4	B	_yi = 12.0 + 27.0 g_i + 36.0 D_i _yi = 12.0 + 27.0 * 7 + 36.0 * 1 = 237 e_i = (geobserveerde y-waarde) – (voorspelde y-waarde) e_i = 240 - 237 = 3
5	B	Het intercept gaat over de minuten braadtijd en verandert niet. Het regressiegewicht verandert als volgt: 27/0.45 = 60.
6	A
7	B	Omdat SE_b1 nog geschat moet worden en SE_zr niet, gebruik je bij b₁ wel en bij r_z niet een t-verdeling.
8	B	Kruisvalidatie wordt gebruikt om te bepalen hoe goed met het geschatte model voorspellingen in een andere steekproef kunnen worden gemaakt.
9	C	Bij dummy variabelen hoef je lineariteit niet te checken, dat geldt alleen voor continue variabelen.

Wat is multiple regressie? - TentamenTests 11

Meerkeuzevragen

Vraag 1

In welke van onderstaande multipele regressiesituaties is de aangepaste (‘adjusted’) R² het grootst? (Hierbij slaat n op de steekproefgrootte en p op het aantal onafhankelijke variabelen).

A. Bij n = 90, p = 2, R 2 = 0.400
B. Bij n = 90, p = 4, R 2 = 0.400
C. Bij n = 70, p = 2, R 2 = 0.400

Vragen 2 tot en met 7 gaan over de volgende SPSS output van een multipele regressieanalyse op de volgende pagina. Variabelen y, x₂ en x₃ zijn continue variabelen. Variabele x₁ is een dummy met waarden 1 voor vrouwen en waarde 2 voor mannen.

Model	Sum of Squares	df	Mean Square
Regression	5021,347		1673,782
Residual	3696,188		45,075
Total	8717,535	85

	Unstandardized	Coefficients	Standardized Coefficients
Model	B	Std. Error	Beta	VIF
(Constant)	46,095	15,254
1	5,334	2,710	,145	1,048
2	,101	,051	,153	1,155
3	-1,011	,097	-,819	1,204

Vraag 2

Wat is de p-waarde voor H₀: β₃ = 0 versus H_A: β₃ > 0.

A. Kleiner dan 1%
B. Tussen 1% en 10%
C. Groter dan 10%

Vraag 3

Persoon 40 in de steekproef is een man met scores x2 = 40, x3 = 10 en y = 52. Wat is het residu behorende bij deze persoon?

A. Kleiner dan 0
B. Tussen de 0 en 2
C. Groter dan 2

Vraag 4

Hoeveel vrijheidsgraden horen bij de toets op H: β₁ = 0 met tweezijdig alternatief?

A. 82
B. 83
C. 84

Vraag 5

Stel de dummy-variabele x1 was gecodeerd met waarden -1 en 1 in plaats van met waarden 1 en 2. Hoe had de regressievergelijking er dan uit gezien?

A. y = 40.761 + 5.334 x1 + 0.101 x2 – 1.011 x3
B. y = 48.762 + 2.667 x1 + 0.101 x2 – 1.011 x3
C. y = 46.095 + 10.668 x1 + 0.101 x2 – 1.011 x3.

Vraag 6

Welke uitspraak met betrekking tot correlaties in de data is correct?

A. Geen van de drie x-variabelen heeft een correlatie met y die groter is dan 0.76.
B. De correlatie tussen x2 en x3 is groter dan 0.25.
C. De absolutie waarde van de correlatie van x2 met y is groter dan de absolute waarde van de correlatie van x3 met y.

Antwoorden

Vraag	Antwoord	Toelichting
1	C	Zowel hoofd- als interactieffecten.
2	C
3	C	ŷ = 46,095 + 5,3341 + 0,10140 - 1,011* 10 ŷ = 45,359 residu = y - ŷ = 52 - 45,359 = 6,641
4	A	df_totaal = N - 1 = 85, dus N = 86 df_model = N - I - 1 = 86 - 3 - 1 = 82
5	B	y = 48,762 + 2,667 x1 + 0,101 x2 – 1,011 x3. Vul in x1 = - 1 geeft: y = 48,762 + 2.667 * -1 ..... y = 46,095 ..... Vul in x1 = 1 geeft: y = 48,762 + 2,667 * 1 ..... y = 51,429 (= 46,095 * 5,334)
6	A

Wat is eenweg ANOVA? - TentamenTests 12

Meerkeuzevragen

Vraag 1

In de context van een eenweg ANOVA met 4 groepen met in elke groep een steekproefgrootte van 20, hoeveel vrijheidsgraden horen bij het contrast ψ: μ1 = μ4?

A. 3
B. 38
C. 76

Vraag 2

Wat is geen geldig contrast bij een eenweg ANOVA bij drie groepen?

A. (μ₁ + μ₂)/2 = 0
B. (μ₁ – μ₂)/2 = 0
C. μ₃ – (μ₁ + μ₂)/2 = 0

De volgende gegevens horen bij vraag 4 tot en met vraag 7. Een eenweg ANOVA-analyse in R levert onderstaande output. De steekproefgrootte is bij elke groep hetzelfde. De groepsgemiddelden zijn achtereenvolgens: 3.90, 6.82 en 7.80.

ANOVA Tabel

	Df	Sum Sq.	Mean Sq.	F value	Pr (> F)
Group	2	41.2	20.60	7.03	0.009 **
Residuals	12	35.2	2.93

Vraag 3

Wat is de gepoolde standaarddeviatie?

A. 1.71
B. 2.33
C. 4.85

Vraag 4

Wat is de rechtergrens van het 95% betrouwbaarheidsinterval voor deze groep, gebaseerd op de gepoolde standaarddeviatie?

A. Deze is kleiner dan 5.0
B. Deze ligt tussen 5.0 en 6.0
C. Deze is groter dan 6.0

Vraag 5

Hoeveel van de variantie kan door factor Groep verklaard worden?

A. Meer dan 50%
B. Tussen 30% en 50%
C. Minder dan 30%

Vraag 6

Men wil alle meervoudige vergelijkingen uitvoeren. Hierbij kan gekozen worden uit de LSD (Least Significant Difference) of de Bonferroni methode om kanskapitalisatie tegen te gaan. Welke methode verdient hier de voorkeur?

A. Voor beide is wat te zeggen
B. Bonferroni
C. LSD

De volgende gegevens horen bij vraag 7 tot en met vraag 9. Een eenweg-ANOVA wordt uitgevoerd. Bij deze analyse geldt de volgende informatie: de steekproefgrootte is 83, de onafhankelijke variabele x bestaat uit 3 groepen, de variantie van afhankelijke variabele y is 100.0, en de kwadratensom (‘sum of squares’) behorende bij ‘between groups’ is gelijk aan 5320.

Vraag 7

Wat is de waarde van s_p?

A. 6.0
B. 7.2
C. 36.0
Vraag 8

Wat is het aantal vrijheidsgraden van de ANOVA-toetsgrootheid voor de test H₀: μ₁ = μ₂ = μ₃?

A. 2 en 80
B. 80 en 2
C. 2

Vraag 9

Er wordt besloten om groepen 2 en 3 samen te voegen tot één groep. De ANOVA wordt opnieuw uitgevoerd. Wat kan je zeggen over de SS_error?

A. Deze wordt kleiner.
B. Deze wordt groter.
C. Deze kan zowel groter als kleiner worden.

Vraag 10

Gegeven is de volgende incomplete tweeweg-ANOVA-tabel. Wat is waar?

	SS	df	MS	F
Factor A		2
Factor B		3	1,93
Interactie AB	13,05
Error	7,61	19
Totaal	28,08

A. F_A = 0.815
B. F_A = 2.035
C. F_A = 5.490

Antwoorden

Vraag	Antwoord	Toelichting
1	C	df = n - k = 70 - 4 = 80 - 4 = 76 Er zijn 4 groepen van elk 20, dus n = 4*20 = 80
2	A
3	A	Om de gepoolde standaarddeviatie te vinden moet de wortel uit MSE getrokken worden. S_p² = √MSE = √2.93 ≈ 1.71
4	B
5	A
6	C	De LSD kan gevaarlijk zijn, vooral als er veel populaties onderzocht worden. Dit komt doordat de kans op een type-I fout dan toeneemt. In dat geval wordt de nulhypothese verworpen, terwijl deze in werkelijkheid wel klopt. Als onderzoeker neem je dan aan dat er een effect bestaat, terwijl dit niet het geval is. Om t** te bepalen, kunnen we ook kiezen voor de Bonferroni methode. Met deze methode neemt de kans op een type-I fout niet toe per vergelijking. De kans blijft altijd 5%.
7	A
8	A	df = I - 1 en N - I df = 3 - 1 en 83 - 3 df = 2 en 80
9	B	Minder vrijheidsgraden, dus de SS_error wordt groter.
10	B	FA = MS_A / MS_E MS_A = SS_A/df_A MS_E = SS_E/dfE

Wat is tweeweg ANOVA? - TentamenTests 13

Meerkeuzevragen

Vraag 1

Bij een tweeweg ANOVA gelden de volgende vier populatiegemiddelden:
(A1,B1): 12
(A2,B1): 12
(A1,B2): 18
(A2,B2): 16

Welke bewering is waar?

A. Er is geen interactie-effect.
B. Er is geen hoofdeffect voor factor B.
C. Beide hoofdeffecten alsmede een interactie-effect zijn aanwezig.

De volgende gegevens horen bij vraag 2 tot en met vraag 5. Een onderzoek is verricht naar de relatie tussen geslacht (M/V) en woongebied (stad, dorp, of platteland) en het gevoel van welbehagen (gemeten op een continue schaal). Dit heeft de volgende (incomplete) ANOVA-tabel opgeleverd.

Bron	SS	df	MS	F	p
Geslacht				5.0	.028
Woongebied			4.5		.229
Interactie					.004
Error		80.0	3.0
Totaal	300.0

Vraag 2

Bereken de Mean Sum of Squares voor factor Geslacht.

A. 5
B. 15
C. 30

Vraag 3

Bereken de F-waarde behorende bij Woongebied.

A. 1.5
B. 3.0
C. 4.5

Vraag 4

Hoeveel procent van de variantie in welbehagen kan door het model verklaard worden?

A. 20%
B. 60%
C. 80%

Vraag 5

Welke conclusie is te trekken op basis van de p-waarden?

A. Omdat het hoofdeffect woongebied niet significant is, kan je net zo goed een eenweg-ANOVA met alleen factor geslacht uitvoeren.
B. Post-hoc toetsen zijn nodig om te vinden waar de verschillen bij geslacht te vinden zijn.
C. Zowel A als B zijn waar.
D. Zowel A als B zijn niet waar.

Antwoorden

Vraag	Antwoord	Toelichting
1	C
2	B	F = MSA / MSE MSA = F * MSE MSA = 5 * 3 = 15
3	A	F = MSB / MSE F = 4.5 / 3 = 1.5
4	A
5	D	Beide beweringen zijn niet juist.

Wat is logistische regressie? - TentamenTests 14

Meerkeuzevragen

Vraag 1

Welke kans hoort bij een odds van 0.25?

A. 1/5
B. 1/4
C. 1/3
D. 1/25

Vraag 2

Welke schattingsmethode wordt door SPSS gebruikt bij logistische regressie?

A. Kleinste kwadradenmethode
B. Wald statistics
C. Maximum likelihoodmethode

De volgende gegevens behoren bij vraag 3 tot en met vraag 7. Als proef worden automobilisten die voor de tweede keer in 12 maanden beboet worden voor flink te hard rijden, verplicht op cursus gestuurd. Bekeken wordt of deze automobilisten in de 12 maanden na de cursus opnieuw in de fout gaan (dummy recidive = 0 bij geen gemeten snelheidsovertreding, recidive = 1 bij opnieuw een boete). Middels een logistische regressie wordt gekeken of de kans op recidive afhangt van het aantal sessies van de cursus dat de automobilist gevolgd heeft.

	B	S.E.	Wald	df	Sig.	Exp(B)
sessies	-.654	.256	6.529	1	.011	.520
constant	4.779	1.879	6.471	1	.011	118.944

Vraag 3

Is er volgens de resultaten van dit model een significante relatie tussen recidive en het aantal sessies in de cursus?

A. Ja, p <.001 en dus is er een significant verband.
B. Nee, p> .001, dus er is geen significante relatie
C. Op basis van deze informatie kan hierover niets worden gezegd.

Vraag 4

Wat is volgens het model de kans dat iemand na 6 sessies opnieuw de fout in gaat?

A. 60%
B. 70%
C. 85%

Vraag 5

Vanaf hoeveel sessies is de kans op recidive kleiner dan 50%?

A. 6
B. 8
C. 9

Vraag 6

“Elke extra sessie maakt de ... op recidive ongeveer twee keer zo klein.” Welk woord moet op de puntjes?

A. Kans
B. Log-odds
C. Odds

Vraag 7

Bij hoeveel personen suggereert het model ten onrechte dat ze opnieuw de fout in zullen gaan?

A. 3
B. 4
C. 7

De volgende gegevens horen bij vragen 8 - 12. Een arts onderzoekt een groep van 20 patiënten die een hersentumor hebben gehad. De afhankelijke variabele is of de patiënt binnen een jaar een nieuwe tumor gekregen heeft (1 = ja, 0 = nee). Verklarende variabelen zijn treatment, een dummy die aangeeft of de patiënt het afgelopen jaar in behandeling is geweest om woedeuitbarstingen onder controle te krijgen, en anxiety, een score op een vragenlijst die meet hoe angstig iemand is. Via SPSS is een logistische regressie uitgevoerd.

	B	S.E.	Wald	df	Sig.	Exp(B)
treatment	-1,024	1,171				,359
anxiety	,119	,055	4,688	1	,030
constant	-6,363	3,214	3,920	1	,048	,002

Vraag 8

De derde persoon in de data set heeft een woedebehandeling gehad en scoorde 50 punten op de anxietytoets. Wat is, volgens het regressiemodel, de kans dat deze persoon een nieuwe hartaanval krijgt?

A. 19%
B. 24%
C. 61%

Vraag 9

Welke waarde voor de toetsgrootheid van de Wald-toets voor treatment levert SPSS?

A. 0.147
B. 0.765
C. 0.874

Vraag 10

Geef een 95% betrouwbaarheidsinterval voor de odds-ratio voor anxiety.

A. (1.011, 1.255)
B. (1.053, 1.185)
C. (1.060, 1.192)

Vraag 11

Wat is het effect van het volgen van een woedebehandeling op de tweede tumor?

A. De kans op een tweede tumor is ongeveer drie keer zo klein als een behandeling gevolgd wordt.
B. De odds voor een tweede tumor is ongeveer drie keer zo klein als een behandeling gevolgd wordt
C. De logit voor een tweede tumor is ongeveer drie keer zo klein als een behandeling gevolgd wordt

Vraag 12

Het model voorspelt bij twee personen onterecht dat ze geen tweede tumor krijgen. Bij drie personen wordt onterecht wel een tweede tumor voorspelt. Wat is het percentage of agreement dat uit de classificatietabel afgelezen kan worden?

A. 70%
B. 75%
C. 80%

Vraag 13

Welke kans hoort bij een odds van 0.32?

A. Kans tussen 0% en 25%
B. Kans tussen 25% en 50%
C. Kans tussen 50% en 100%

Vraag 14

Welke claim bij logistische regressie is waar?

A. Als een odds-ratio voor een variabele niet significant afwijkt van 1, dan wijkt de B-coefficient voor die variabele niet significant af van 0.
B. Een odds-ratio groter dan 1 betekent een positief lineair verband tussen de onafhankelijke variabele en de kans dat de afhankelijke variabele 1 is.
C. De logit-transformatie is nodig om aan de aanname van constante variantie te voldoen.

Antwoorden

Vraag	Antwoord	Toelichting
1	A	odds = p/(1 - p) Invullen van p = 1/5 = 0.2 geeft; odds = 0.2/0.8 = 0.25
2	C
3	B	p = .011 so p is not smaller than .001. Hence, there is no significant relationship between recidivism and the number of sessions of the course.
4	B
5	B
6	C	Een logistische regressie vergelijking zegt iets over de odds.
7	B
8	A
9	B
10	A
11	B	De odds voor een tweede tumor is ongeveer drie keer zo klein als een behandeling gevolgd wordt.
12	B
13	A	odds = p / (1 - p) 0.32 = p (1 - p) 0.32 - 0.32p = p 0.32 = p + 0.32p 0.32 = 1.32p p = 0.32 / 1.32 p ≈ 0.24 (≈ 24%)
14	A	Als een odds-ratio voor een variabele niet significant afwijkt van 1, dan wijkt de B-coefficient voor die variabele niet significant af van 0.

Wat zijn nonparametrische toetsen? - TentamenTests 15

Meerkeuzevragen

Vraag 1

Er worden twee metingen verricht op twee groepen met n₁ = 12 en n₂ = 18. Er lijkt te zijn voldaan aan de gebruikelijke parametrische aannames. Welke toets kan het beste gebruikt worden om de twee groepen te vergelijken?

A. De gepaarde t-toets.
B. De reguliere (ongepaarde) t-toets.
C. Een aparte t-toets per groep.
D. Kruskal-Wallis toets

Vraag 2

Er worden metingen verricht bij drie groepen. Gegeven is: n₁ = 12, n₂ = 25 en n₃ = 312. Uit de data blijkt onder andere dat s₁ = 12.3, s₂ = 12.6, s₃ = 13. Wat is een geldige reden om de Kruskal-Wallis toets te verkiezen boven een eenweg ANOVA?

A. Dat de steekproefgrootte per groep zo ongelijk verdeeld is.
B. Wanneer de aanname van normaliteit geschonden lijkt te zijn.
C. Zowel A als B zijn waar.
D. Zowel A als B zijn niet waar.

Vraag 3

Bij een onderzoek worden in twee groepen drie metingen gedaan. Wat is de kleinste waarde die Wilcoxon’s W kan aannemen?

A. 4
B. 5
C. 6
D. 7

Vraag 4

Er zijn analyses op de scores van vijf groepen uitgevoerd. Vervolgens zijn zowel een eenweg ANOVA als de Kruskal-Wallistoets uitgevoerd. De QQ-plot toont afwijkingen rechtsboven in de figuur. Deze afwijkingen hebben ongeveer dezelfde afstand tot de lijn. Verder zijn een boxplot en output van zowel ANOVA als Kruskal-Wallis gegeven. De boxplot toont twee uitbijters. Wat is voor dit onderzoek een goede reden om de Kruskal-Wallistoets uit te voeren?

A. De normaliteitsaanname lijkt geschonden.
B. De homoscedasticiteitsaanname is geschonden.
C. Zowel A als B zijn waar.

Vraag 5

Men is voornamelijk geïnteresseerd in de mogelijke verschillen tussen groepen 1 en 4. Welke toets is niet bruikbaar om hier een uitspraak over te doen?

A. Kruskal-Wallistoets
B. Wilcoxon rank sum test
C. Wilcoxon signed rank test

De volgende informatie wordt gebruikt voor opgaven 6 tot en met 9. Er wordt onderzocht in hoeverre slaapgebrek invloed heeft op tentamen resultaten. De onderzoekers vermoeden dat een slaaptekort een negatief effect heeft op de tentamenscores. De onderzoekers hebben op basis van theoretische argumenten, een sterk vermoeden dat de data niet uit een normale verdeling komen. Negen proefpersonen worden willekeurig in twee groepen verdeeld. Groep 1 ondergaat een ongestoorde nacht en wordt vervolgens gevraagd een statistiek tentamen te maken. De deelnemers in groep 2 worden ’s nachts elk uur wakker gemaakt en maken de ochtend erop hetzelfde statistiek tentamen. Dit levert de volgende resultaten:

Groep 1: 104 96 112 106 100
Groep 2: 98 104 92 100 13

Vraag 6

Wat is de Z-waarde van Wilcoxon’s rangsomtoets, gebaseerd op de benadering met een normale verdeling?

A. 0.27
B.10
C. 1.22

Vraag 7

Wat is de maximale waarde die de toetsgrootheid W1 van Wilcoxon’s rangsomtoets kan halen bij n1 = 5 en n2 = 4?

A. 28
B. 30
C. 35.

Vraag 8

Een andere niet-parametrische toets is de Kruskal-Wallis toets. Kan deze hier ook gebruikt worden om te kijken of beide groepen verschillen?

A. Nee, want er is niet voldaan aan de vuistregel dat in elke groep minimaal vijf personen moet zitten.
B. Nee, want deze is ontwikkeld voor een situatie met minimaal 3 groepen.
C. Ja.

Vraag 9

Ongeacht het antwoord op de vorige vraag, wat is de waarde van Kruskal-Wallis’ H toegepast op de data?

A. -28.5
B. 1.5
C. 2.25

Antwoorden

Vraag	Antwoord	Toelichting
1	B	Er is aan de aannames voldaan, dus een parametrische toets kan worden uitgevoerd. Het gaat om een vergelijking tussen twee groepen, dus een reguliere t-toets is hier het meest geschikt.
2	B	De Kruskal-Wallis toets is een alternatieve non-parametrische toets. Deze wordt gebruikt wanneer er niet aan de aannames voor een parametrische toets (o.a. normaliteit) voldaan is.
3	C	W = 1 + 2 + 3 = 6
4	A	De QQ-plot toont een afwijking aan, dus de normaliteitsassumptie lijkt te zijn geschonden. Dat geldt niet voor de assumptie van gelijke varianties; zowel boven als onder de lijn zitten varianties met ongeveer dezelfde afstand.
5	C
6	B	\[z = \frac{W - \mu_{W}}{\sigma_{W}} = \frac{W - n_{1} (N + 1) / 2}{\sqrt{n_{1}n_{2} (N+1) / 12 }} \]
7	C	Alle negen observaties krijgen een gerankschikt nummer: 1 2 3 4 5 6 7 8 9 Neem voor maximale score bij n₁ = 5 de hoogste 5 observaties, dus W_max= 5 + 6 + 7 + 8 + 9 = 35
8	C
9	B	\[ H = \frac{12}{N(N + 1)} \sum{\frac{R_{i}^{2}}{n_{i}} } - 3(N + 1) \]

Supporting content II (teasers)

Oefenvragen bij het boek Introduction to the Practice of Statistics van Moore & McCabe

Bijgaand oefenvragen bij de hoofdstukken 1 tot en met 7 van het boek van Moore & McCabe in PDF.

Deze oefenvragen zijn onder andere te gebruiken bij het vak Statistiek 1A en Statistiek 1B zoals gegeven aan de Universiteit van Groningen (Psychologie).

Succes met leren!

Oefenvragen_NL.pdf

Read more about Oefenvragen bij het boek Introduction to the Practice of Statistics van Moore & McCabe

Join World Supporter

for free to follow other supporters, see more content and use the tools
for €10,- by becoming a member to see all content

Why create an account?

Your WorldSupporter account gives you access to all functionalities of the platform
Once you are logged in, you can:
- Save pages to your favorites
- Give feedback or share contributions
- participate in discussions
- share your own contributions through the 7 WorldSupporter tools

Follow the author: Vintage Supporter