Hoorcollege en werkgroepaantekeningen week 1-3, 5

Deze samenvatting is gebaseerd op het studiejaar 2013-2014.


Week 1

Hoorcollege 1

De statistiek die in week 1 wordt behandeld kan worden verdeelt in drie delen: beschrijvende statistiek, verklarende statistiek en kansberekening. Voor alle drie is het noodzakelijk dat een aantal termen bekend zijn:

  • Populatie is het totaal aan objecten waar het over gaat.

  • Parameter is een beschrijvende maat van de populatie.

  • Een steekproefgrootheid is een beschrijvende maat van de steekproef/sample.

  • Beschrijvende statistiek is als je informatie wilt halen uit data.

  • Verklarende statistiek is iets over een populatie zeggen als een steekproef bekend is. Kansberekening gaat de kans van een bepaalde steekproef als de populatie bekend is. Het is belangrijk dat een steekproef ‘willekeurig’ is. Deze moet representatief zijn voor de gehele populatie.

 

Mogelijke datapunten

Voorbeelden

Kwantitatieve data (kan mee gerekend worden)

Interval-tijd

1995; 1996; 1997; 1998;

Interval-Ratio

€2000,-; ROI; winst

Kwalitatieve data

Nominaal

5 Mannen; 6 Vrouwen

Ordinaal

Slecht; Matig; Goed; Geweldig

Discrete variabelen kunnen slechts specifieke waarden aannemen, zoals: 1995; 5 mannen

Continue variabelen kunnen elke waarden aannemen, zoals: €2000,-; €2000,87387

Gemiddeldes kunnen alleen genomen worden van kwantitatieve interval data.

Omzet is een voorbeeld van een kwantitatief, continue ratio type data punt. School cijfers kunnen kwantitatief en kwalitatief zijn. Je kan er berekeningen en gemiddeldes van maken, maar je kan ze ook ordinaal rangschikken van laag naar hoog.

 

Voorbeeld van opsomming datapunten

Naam data punt

Frequentie

Relatieve frequentie

Groene jas

20

40%

Rode jas

25

50%

Paarse jas

5

10%

Totaal

50

100%

 

Formule EEN(formuleblad week 1)  betekent: tel alle uitkomsten op, van i=1 tot i=n
 

Rekenvoorbeelden: Formule TWEE (formuleblad week 1)

 

Xi= een observatie. In de tweede tabel zijn er in totaal 50 observaties. Zoek in statistiek boek rekenkundig gemiddelde, mediaan en modus op.

 

Soms moet je niet een rekenkundig maar een meetkundig gemiddelde nemen.

Voorbeeld: Je hebt €100,- op je spaarrekening. In jaar 1 is het groeipercentage 0%, in jaar 2 is het groeipercentage 300%. Je eindigt met €400,-. Groeipercentage is niet 0.5(0+300) = 150%. De groeipercentages worden vermenigvuldigt en niet opgetelt. Daardoor reken je het zo uit: totale groeifactor is 4. Aantal groeifactoren is 2. Gemiddelde groeifactor is 2 => 100%.

Algemene formule: DRIE (formuleblad week 1)

 

Werkgroep 1

Twee nieuwe manieren om standaardvariantie te berekenen

Nu zal een makkelijke standaardvariantie formule worden afgeleid. Het kan belangrijk zijn om te snappen hoe zo’n afleiding in zijn werk gaat (het werd gevraagd aan derdejaars bij het onderzoeksproject). Benodigd zijn de standaardvariantie formule en de gemiddelde formule. LET OP, een gemiddelde wordt aangegeven als ×. Om opmaak redenen zal Xg of Yg gebruikt worden.

VIER (formuleblad week 1)

 

 

Een andere manier om de standaarddeviatie te vinden geldt alleen wanneer een grafiek klokvormig is. Volgens een empirische regel bevat 0,675S boven en onder de mediaan 50% van alle datapunten. 1,34S is dan gelijk aan de IQR. Door de IQR uit te rekenen kan een voorspelling van de deviatie berekend worden. Dit kan misschien gebruikt worden in een zeer specefieke toetsvraag waarin andere data ontbreekt.

 

Klassen en boxplots.

Als je een aantal datapunten wil verdelen in klassen, kan je het aantal klassen en de klassenbreedte vinden met behulp van Sturges’ formule. Het maakt niet uit als je hier vanaf wijkt! Is het bijvoorbeeld mooier om een klasse erbij te doen, of de breedte te veranderen van 9 naar 10, dan mag dat. Voordeel van opbreken in klassen: je laat duidelijker zien hoe punten verdeelt zijn. Nadeel van opbreken in klassen: je creëert onzekerheid omdat je niet weet wáár punten zich in een klasse bevinden.

Hoogste modale klasse is niet de klasse met de meeste datapunten, maar de klasse met de hoogste frequentiedichtheid. De modus is vervolgens het midden van de klasse.

Een boxplot is een visuele representatie van de laagste waarde, het eerste kwartiel Q1, de mediaan=tweede kwartiel, het derde kwartiel Q2, en de hoogste waarde. De afstand tussen Q1 en Q2 wordt ook wel IQR genoemd: interkwartielafstand.

 

VIJF (formuleblad week 1)

 

Methode voor het vinden van een bepaalde ‘locatie’ in een groep data punten, gerangschikt van laag naar hoog. Locaties zijn: eerste kwartiel punten, de mediaan of de derde kwartiel. Voorbeeld: vind de mediaan van 26 datapunten: . De mediaan bevind zich halverwege het 13e en het 14e data punt.

 

Uitschieters

Als je de linker of rechter steel van de boxplot tekent, mogen uitschieters niet meetellen als laagste of hoogste waarden. Belangrijk is dat je deze uitschieters wel aandacht geeft. Er is misschien een meetfout gemaakt, of er is een belangrijke reden voor het ontstaan van de uitschieter. Een waarde wordt gezien als een uitschieter als een waarde 1,5*IQR onder Q1 of boven Q3 zit.

 

Hoorcollege 2

Een spreidingsdiagram kan worden gebruikt om de relatie tussen twee variabelen te visualiseren. Hieronder staat een tabel met alle benodigde informatie en datapunten. X is de onafhankelijke variabele.

 

i

XiYixi-Xgyi-Yg(xi-Xg)(yi-Yg)

1

13

10

-12

-13

156

2

18

18

-7

-5

35

3

22

31

-3

8

-24

4

32

20

7

-3

-21

5

40

36

15

13

195

totaal

125

115

0

0

341

 

Xg= 25

Yg=23

Sxy= cov(X,Y)= 85,25Rxy= 0.7485

R²= 0,56

 

Het vinden van covariantie en correlatie tussen twee variabelen (voor een populatie of een steekproef) is een kwestie van formules invullen die te vinden zijn op het formuleblad en in het statistiek boek. Hieronder zullen de implicaties van deze cijfers besproken worden met relatie tot bovengenoemd voorbeeld.

  • Xi-Xg zijn alle afstanden van het gemiddelde af. Dit is per definitie dus altijd nul als je het optelt.

  • Covariantie geeft aan of een relatie tussen twee variabelen positief/gelijk of negatief/omgekeerd is . In het voorbeeld is de relatie drie keer positief en twee keer negatief. Over het algemeen genomen is de relatie positief: 85,25.

  • Correlatie geeft aan hoe sterk de relatie tussen twee variabelen is. Als r=-1 dan zorgt een 10% groei in X voor een 10% daling in Y. Als r=+1 dan zorgt een 10% groei in X voor een 10% groei in Y. Als r=0 is er geen correlatie. Natuurlijk blijven het allemaal theoretische verbanden met zo weinig data tot je beschikking.

  • R² geeft aan hoeveel een verandering kan uitgelegd worden door middel van de andere variabele. In het voorbeeld wordt theoretisch gezien 56% van de verandering van Y verklaart door de verandering in X.

 

Het maken van een regressielijn

Een regressielijn is een handige representatie om de correlatie tussen twee variabelen vast te leggen. Een regressielijn kan gebruikt worden om voorspellingen te maken. Als x 20 is, wat zal y dan zijn? Er moet dan wel rekening worden gehouden met het bereik. In het voorbeeld kan een regressielijn alleen betekenisvolle voorspellingen maken tussen x=10 en x=45. Voor dit bereik is geen algemene regel

 

ZES (formuleblad week 1)

 

Echte waarde Ui = voorspelde waarde (ÿ1)+ afwijking (Ri)

Hier komt een bewijs van de waarden B0 en B1. Net als het bewijs van de standaardvariatie formule uit werkgroep 1 kan dit bewijs van pas komen in latere jaren. De afstand tussen de echte waarde Yi en de voorspelde waarde ÿi moet zo klein mogelijk zijn. Daarom wordt de som van deze mogelijke afstanden afgeleid, en gelijk gesteld aan nul. Dit gebeurt met respect tot de variabelen b0 en b1. De kettingregel wordt gebruikt.

 

ZEVEN (formuleblad week 1)

 

Bovenste formule omleiden, beide kanten mogen vermenigvuldigd worden met bijvoorbeeld (1/n), terwijl de vergelijking correct blijft. Dit leidt tot: )= Bo

B0 substitueren in de tweede formule:

ACHT (formuleblad week 1)

Deze formule kan worden omgeleid, zodat b1 aan één kant komt te staan:

NEGEN (formuleblad week 1)

 

B1 en B0 kunnen worden gevonden door: TIEN

 

Werkgroep 2

Permutaties en combinaties

10! = 10x9x8x7x6x5x4x3x2x1

 

Duidelijke uitleg voor het uitrekenen van permutaties en combinaties is te vinden in de syllabus.

 

Eén voorbeeld: hoeveel mogelijkheden zijn er om de letters CHEESE op te schrijven. Normaal zijn dat er 6!, maar de letter E komt drie keer voor, waardoor er 3! Combinaties wegvallen. Antwoord:6!: 3!

Week 2

Hoorcollege 1

Meer informatie over variantie. Als je de populatie variantie berekend, gebruik je: 1/N. Als je de steekproef variantie uitrekent gebruik je 1/(n-1). Dit is omdat je een deel van de berekeningsvrijheid verliest: je neemt het gemiddelde als zeker, maar het is niet zeker. Het gemiddelde cijfer mag je niet meer meenemen in je berekening.

Als je alle data punten met een absoluut getal verhoogt, zal het gemiddelde ook verhogen, maar de variantie niet. Bg= Ag+verandering. Sb = Sa.

Als je alle data punten met een getal vermenigvuldigt, zullen het gemiddelde en de variantie ook verhogen. Bg=Ag x verandering. Sb=|Sa x verandering. Let op! De variantie blijft altijd positief, dit kan je aangeven met absolute waarden symbolen. |-2|=2

 

Nu zal er over kansberekening gepraat worden. Vier voorwaarden die moeten worden voldaan:

  1. Willekeurig experiment (gooi een muntje op of kies een kaart uit een pak kaarten).

  2. Er is een steekproef ruimte. Er is een gelimiteerde hoeveelheid mogelijkheden, welke ook gedeeltelijk exclusief zijn (kop of munt, gooi je kop, dan is het geen munt. Of als het ruiten is, dan is het geen klaver).

  3. Er zijn verschillende gebeurtenissen (je gooit een muntje, je pakt een kaart).

  4. Collectie gebeurtenissen worden aangegeven met hoofdletters. Voorbeelden zijn: bevat tenminste één kop=A. Of bevat een ruiten=B en een klaver=A. Twee letters worden al gebruikt: alle mogelijkheden samen zijn S, de kans is P.

 

Notatie regels

A = “aas”  Ac= “niet aas”

B = “ruiten” Bc = “niet ruiten”

P(S)=1 (kans op alle mogelijkheden = 1)

AUB = Kans op aas én/of kans op ruiten= ¼+1/13

AΛB = Kans dat A én B voldoen= ¼*1/13=1/52

A|B = Kans op A onder voorwaarde B=1/13 (als je alleen ruiten hebt, hoeveel kans op een aas?)

B|A = Kans op B onder voorwaarde A=1/4 (als je alleen 4 azen hebt, hoeveel kans op ruiten?)

0

P(AUB)= P(A) + P(B) Als AΛB = Ø= niet bestaand.

Er is dan geen overlap tussen mogelijkheden A en B

P(AUB)= P(A) + P(B) – P(AΛB) Als AB niet gelijk is aan Ø

 

Reken regels

Als A={E1, …, En} dan P(A) = (PE1+…+PEn)

P(AUB)= P(A) + P(B) – P(A

ΛB)

P(A) = 1- P(Ac)

 

Formule EEN (formuleblad week 2)

 

 

A

Ac

totaal

B

0.05

0.03

0.08

 

0.20

0.72

0.92

Totaal

0.25

0.75

1

 

De tabel hierboven heet een kans tabel. De kans dat A gebeurt is 0.25. De kans dat A én B gebeuren is 0.05. Alle kansen opgeteld staat gelijk aan 1.

 

P(B)=0.08, dit heet een marginale waarschijnlijkheid.

P(AΛB)=0.05

P(A|Bc)

De variabelen A en B zijn afhankelijk als de marginale kansen vermenigvuldigt niet gelijk zijn aan de corresponderende kans. In dit voorbeeld: 0.08*0.25 is niet 0.05. De variabelen beïnvloeden elkaar dus waarschijnlijk (kan een lineair verband zijn, kan kwadratisch zijn, kan enorm raar zijn).

Let op correlatie. Lineair of kwadratisch

Als de gebeurtenissen onafhankelijk zijn, is P(A|B) gelijk aan P(A) (want B heeft geen invloed).

De kans op regen in New York hoeft geen invloed te hebben op de kans op regen in NL.

 

Werkgroep 1

Een venn diagram kan gebruikt worden om kansen te visualiseren. Gebeurtenissen zijn aangegeven met cirkels. Hieronder zijn twee voorbeelden te zien van venn diagrammen. Het is belangrijk om te realiseren dat er soms meer opties zijn dan de gebeurtenissen A/B/C. In deze gevallen kan een andere letter gebruikt worden om de omgeving buiten de cirkels aan te geven. Bijvoorbeeld, wanneer je 50 kaarten hebt, zijn er een paar met eigenschap A/B/C, en misschien een paar zonder eigenschap!

Formule TWEE (formuleblad week 2)

 

Hoorcollege 2

Bekend statistisch probleem dat de ‘quizmaster’ heet.

De quizmaster laat je drie deuren zien. Achter één deur is een auto te vinden. Je krijgt de kans om één deur te openen, en de kans dat daar de auto achter staat is 1/3.

Vervolgens doet de quizmaster deur 3 open voordat je een keuze hebt kunnen maken. Er zit geen auto achter deur 3. Hoe groot is nu de kans dat je de juiste deur opent? NIET ½, maar 2/3!

 

Ander statistisch probleem: Er zijn drie dozen. Eentje met twee gouden medailles, eentje met twee zilveren medailles, en eentje met een gouden en een zilveren medaille. Je pakt willekeurig een medaille en dat blijkt een gouden te zijn. Hoe groot is de kans dat de andere medaille zilver is? Niet zomaar ½! Met twee voorbeelden wordt dit geïllustreerd:

(Medailles heten: |G1,G2| |G3,Z1| |Z2,Z3|).

Pak je eerst G1, dan pak je daarna G2

Pak je eerst G2, dan pak je daarna G1

Pak je eerst G3, dan pak je daarna Z1 (de gezochte mogelijkheid).

De kans is dus 1/3!

Je kan dit probleem ook uitrekenen m.b.v. voorwaardelijke kansberekening:

DRIE (formuleblad week 2)

 

Bivariate kansverdeling kan alle mogelijke uitkomsten laten zien. Een iets uitgebreidere versie van een kanstabel.

Y/X

2

3

4

5

Totaal

0

0.14

0.17

0.09

0.12

0.51

1

0.16

0.20

0.12

0.01

0.49

Totaal

0.30

0.37

0.20

0.13

1.00

 

Formulie VIER (formuleblad week 2)

Bovenstaand voorbeeld: E[X]= 3.16 en E[XY]= 1.45

 

Stel je gemiddelde verkoop is €25000,-, standaarddeviatie =4000

Winst = 0.3(verkoop) -6000 = 1500

Winst variantie is vervolgens: V(P) =

 

Wat is de kans dat een dobbelsteen 4 is? P(x=4)=1/6

Wat is de kans dat een dobbelsteen 4 of kleiner is? F(x

P(X)=F(x)-(Fx-1)

 

Let op als de marginale kansen vermenigvuldigt hetzelfde zijn, dan zijn de variabelen zelfstandig. Als variabelen zelfstandig zijn, dan is de covariantie 0. Andersom geldt het niet! Als de covariantie 0 is, is er misschien geen linear maar een kwadratisch verband tussen de variabelen.

 

Regels voor het vinden van het gemiddelde, variantie, covariantie, correlatiecoëfficient, conditionele waarschijnlijkheid verschillen weinig. Notatie is iets anders.

VIJF(formuleblad week 2)

 

Mediaan is anders, namelijk: Stel alle mogelijkheden tellen op tot 1, dan is Q1 te vinden bij mogelijkheid 0.25. Als je de mediaan wil uitrekenen heb je eigenlijk F(k) nodig! En dan kijk je, waar zit .50.

 

Werkgroep 2

Vaak kan je aan een aantal kernwoorden zien wat voor rekenmethode je het beste kan gebruiken. Op de eerste plaats is je intuïtie (dat je kan trainen door te oefenen) het beste! Maar vaak kan je het volgende gebruiken:

  • Bij conditionele waarschijnlijkheid, zoals P(A|B) kan je een kans tabel gebruiken.

  • Als er staat: ten minste x gebeurtenissen/maximaal x gebeurtenissen, kan je vaak de kansen optellen door apart op te tellen. Bijvoorbeeld: wat is de kans van minimaal 4 van de 6 mensen? Tel P(4) + P(5) + P(6) op!

  • Als er staat: P(X aantal is van groep Y) kan je combinaties gebruiken. Een voorbeeld volgt hieronder.

 

Stel er zijn 2 groepen. Groep 1 bevat 40 kinderen, groep 2 bevat 30 kinderen. Ze leggen allemaal een test af, en vervolgens worden er willekeurig 20 testen uitgepikt. Hoe groot is dan de kans dat er exact 8 testen van groep 1 komen? Notatie: P(8 testen van groep 1).

Reken uit als: ZES (formuleblad week 2)

In je rekenmachine heb je een nCr knop, dan reken je dit uit als: (40C8)(30C12)/(70C20)

40C8 spreek je uit als 40KIES8. Het heet ook wel hypergeometrische verdeling.

 

Statistiek is minder ‘precies’ in het gebruik van notatie dan wiskunde. Je kan bijvoorbeeld gewoon een afgerond cijfer opschrijven met een = teken i.p.v. een ≈ teken. Dit komt omdat er vaak al van uit wordt gegaan dat iets een waarschijnlijkheid, een steekproef of een aanname is. Je zal ook af en toe een niet wetenschappelijke uitleg tegenkomen in de vragen. Bijvoorbeeld: Er komen gemiddeld 10 mensen binnen elke ochtend. Er wordt niet duidelijk aangegeven welk punt van de ochtend het is, of hoe de 10 mensen verdeeld zijn over de ochtend, of over de verdeling tussen verschillende weekdagen in de ochtend.

 

Voorbeeld van een formule. X en Y staan voor gebeurtenissen. W=4X +5Y +7

Komt er een vraag over afhankelijkheid? Ze zijn afhankelijk! Verbonden via deze formule!

E(W)=E(4X +5Y +7)=4E(X) + 5E(Y) + 7

V(W)=16V(X) + 25V(Y) + 2*4*5*COV(X,Y)

Algemene formules:

Afhankelijk: V(aX + bY + c)=a²V(X) +b²V(Y) +2abCOV(X,Y)

Onafhankelijk en dus niet verbonden via een formule: V(aX +bY + c)=a²V(X) +b² V(Y)

 

Week 3

Hoorcollege 1

Belangrijk om te realiseren! V(aX + bY +c) = EEN (zie formuleblad week 3)

Dit komt door de rekenregel: TWEE (zie formuleblad week 3)

 

Als vijf variabelen A verschillend zouden zijn, dan kan je de variantie uitrekenen met: V(Atotal)=5V(A). Het is belangrijk om een aantal opdrachten te maken met ditsoort transformaties, om te weten welke methode waar wordt gebruikt. Bij de maple testen wordt bijvoorbeeld V(Atotal)=5V(A) gebruikt wanneer de variabele het gewicht van appels is, en wanneer de variabele de lengte van een consultatie is. In een werkcollege wordt V(Atotal)=25V(A) gebruikt wanneer de variabele het rendement van een investering is en wanneer de variabele HIV testen zijn.

 

Voorbeeldvraag variantie

Stel, je hebt een portfolio van investeringen, bestaande uit A en B. Je verdiensten hieruit heten Ra en Rb. A levert 8% rendement op, B levert 10% rendement op. De totale verdiensten P hebben het volgende verband: DRIE (zie formuleblad 3)

E[Rp ]=0.2*0.08 + 0.8*0.10=0.096 => 9.6%

VIER (zie formuleblad week 3)

Deze deviaties zijn belangrijk, omdat ze de mate van risico weerspiegelen! De deviaties laten zien hoe onzeker de inkomsten zijn. Totale risico is dan:

VIJF (zie formuleblad week 3)

De variantie, en daarmee ook de deviatie, kan verschillen naarmate p verschilt. Oftewel, hoe erg beïnvloeden de variabelen elkaar? De variantie is het grootst als p=1 =>V(Rp )=4.6%. De variantie is het kleinst als =-1 =>V(Rp)=3.4%.

 

Distributie formules

Er worden nu vier distributie methodes besproken. Let goed op de voorwaarden en de informatie in de vraag om te weten welke je moet gebruiken. Dit is te vinden in het boek. De eerste is hypergeometrische distributie, deze is al behandeld vorige week. De tweede en derde methodes komen nu aan bod. Het zijn allen methodes om verdeling van kansen de berekenen.

 

Voorbeeld situatie:  Er zijn drie multiple-choice vragen. I)Hoe groot is de kans dat je er 2 goed hebt? II)Hoe groot is de kans dat je er ten minste 2 goed hebt? Er wordt gebruik gemaakt van q: de kans dat je iets niet goed hebt. P-1=q Omdat alle kansen samen 1 moeten zijn.

Zie tabel 1 (zie formuleblad week 3)

 

Bernouille distributie.

Er zijn maar twee mogelijke uitkomsten. Notatie: Bin ~(n=3; p=1/4)

I) Formule invullen ZES (zie formuleblad week 3)=>P(X=2)

II)Formule invullen P(Xtenminste2)=P(X=2)+P(X=3). Je kan ook in een tabel opzoeken, als de waarden k, n en p(x) bekend zijn

 

Poisson distributie:

Sommige kansen kunnen geschat worden met een poisson distributie. De verschillen tussen verschillende kansen liggen soms maar een honderste uit elkaar.

Formule invullen ZEVEN (zie formuleblad week 3)

Vergelijk de kans op een bepaalde voorspelde waarde (u) met een echte waarde. Stel het gemiddelde aantal vragen goed per test is (u=3). Wat is dan de kans dat je er (x=5) goed hebt? Je kan ook in een tabel opzoeken, als de waarden u en x bekend zijn.

 

Werkcollege 1

Als je een opdracht moet maken, zorg dat je de onbekende ‘X’ goed defineert. Deze kan je vervolgens gebruiken om een kans van een bepaalde x (of een interval van x) te bepalen. Je kan vaak opdrachten op veel verschillende manieren oplossen. Je kan andere distributie methodes gebruiken soms (bernouille/poisson/hypergeometrisch). Je kan ook X anders defineren (in plaats van de kans op het aantal winners, reken 1 minus de kans op het aantal verliezen uit).

 

Je kan vaak in een tabel een bepaalde distributie opzoeken. Dit geld alleen voor P(X2)=1-P(X

 

Werkgroep vraag 3: De gemiddelde hoeveelheid muggen die per zomeravond de kamer in vliegt is 1.204. Hoe groot is de kans dat tijdens één nacht ten minste twee muggen mijn kamer binnenvliegen. X per tijdseenheid dus ~Pois(1.204). DISCREET! X=’aantal muggen per tijdseenheid’

P(X>2)=1-P(X

Methode 1: zoek direct op in tabel.

Methode 2: 1-P(X

Let op: P(X=0) is in heel veel opdrachten ook een kans die je moet berekenen.

 

Hoe groot is de kans dat je ten minste vier van de tien zomernachten zonder muggen kan slapen. ~Bin(n>4, p=0.3). Want P(X=0)=0.3

Kans dat je ten minste vier nachten zonder slaapt = 1- kans dat je 4 nachten met mug slaapt. 1 – P(x=10)-P(X=9)-P(X=8)-P(X=7)-P(X=6) =

ACHT (zie formuleblad week 3)

 

Hoorcollege 2

Voordat je zeker kan zijn over een bepaalde kansberekening of inferentie moet je kijken naar de grootte van de steekproefgrootheid. Stel je populatie is 200, dan is het niet verstandig om een steekproef te nemen van 800 (iedereen 4 keer ondervragen) of van 200 (is nog steeds geen steekproef).

 

Stel je hebt 5 witte en 5 zwarte kralen, en je moet drie keer een kraal pakken. Hoe groot is dan de kans dat je drie zwarte pakt.

Met vervanging: (5/10)^3

Zonder vervanging: (5-3)(5-0)/(10-3)

 

Integralen herhaling

NEGEN (zie formuleblad week 3)

Afleiding voor de verwachte waarde E(X) en variantie in een GELIJKE distributie. De totale kans is gelijk aan de oppervlakte onder de grafiek

TIEN (zie formuleblad week 3)

Sommige kansverdelingen zijn normale kansverdelingen. Dit betekent dat er een zekere vorm van symmetrie tussen de verdeling van kansen zit. De grafiek lijkt op een bell-curve. Door x aan te passen aan het gemiddelde en de deviatie kan een standaard grafiek worden gecreërd, waarvan veel waarden bekend zijn. De ‘aangepaste’ grafiek krijgt de benaming Z.

ELF (zie formuleblad week 3)

 

Economisch voorbeeld met het gebruik van ‘genormaliseerde’ grafieken. Je hebt een investering gedaan die een gemiddelde omzet realiseert van 17%, met een risico (= ) van 5%. X=omzet ~N( =17%, TWAALFDit betekent dat de variabele X een normale kans distributie heeft.

  1. Wat is de kans dat de omzet hoger is dan 25%?

P(X>25)=?

P(X>25)= P(Z>DERTIEN)=P(Z>1.60)=1-P(Z

  1. Wat is de kans dat de omzet tussen de 5 en 30 procent zit?

<

p>P(5<X<25)=?

<

p>P(5<X<25)= P(-2.40<Z<2.60)= P(Z<2.60)-P(z<-2.40)= P(Z<2.60)-(1-P(Z<2.40))=0.9953-(1-0.998)=0.9933

  1. Wat is de kans dat de omzet exact  30 procent is?

P(X=30%)=0 Dit is een continue kansverdeling, de kans op één waarde is oneindig klein.

  1. Welke minimale omzet (dus welke omzet en hoger) kunnen we verwachten als de kans 10% is?

P(X>x)=0.1

VEERTIEN (zie formuleblad week 3)

 

Werkcollege 2

 

Kansverdelingen kunnen kwantitatief of kwalitatief zijn. Kwantitatieve kansverdelingen kunnen discreet of continue zijn. Twee soorten continue kansverdelingen kunnen we wat mee. Ze zijn óf uniform (elke kans is even groot) óf normaal verdeelt (symmetrisch).

Drie soorten discrete kansverdelingen kunnen we wat mee. Ze zijn óf hypergeometrisch, of binominaal, of paisson verdeelt.

 

Oefenvraag: gemiddeld worden er drie HIV testen per dag genomen, en een werkweek bestaat uit vijd dagen. Xtotaal=”totaal aan testen per week”

Important to note: discrete variable

Xtotaal=X1+X2+X3+X4+X5

V(Xtotaal)=V(5X1)=25V(X1) omdat alle variabele X’en hetzelfde zijn.

 

Vraag: hoe groot is de kans dat er meer dan 19 HIV testen per week worden afgenomen?

<

p>Discrete: Xtot~Poi( =15)                   P(Xtot>19)=1-P(Xtot<18)=1-0.899=0.11

Continuous: Xtot~N( =15,VIJFTIEN, (zie formuleblad week 3)) P(Xtot>18.5)=1-P(Z>0.90)

 

Meer algemene mogelijkheden:

P(X)=15

<

p>1. Discreet: P(X<15) – P(X<14) =0.102

2. Poisson: ZESTIEN (zie formuleblad week 3)= 0.1024

<

p>3. Continu: P(14.5<X<15.5) = 0.1034

 

Stel dat X=’IQ score’ met =100 (per definitie, IQ scores worden zo gemaakt dat het gemiddelde 100 punten is). V(x)=49.

 

ZEVENTIEN (zie formuleblad week 3)

E[Z]=0             V[Z]=1/49

 

Week 5

 

Hoorcollege 1

Meestal wordt er gebruik gemaakt van de term: een ‘eerlijke’ dobbelsteen. Het is makkelijk om te bewijzen dat een dobbelsteen niet eerlijk is: één kansverdeling klopt niet. Bijvoorbeeld: P(x=4) is niet 1/6. Het is moeilijk om te bewijzen dat een dobbelsteen wel eerlijk is: zes kansverdelingen kloppen wel!

µ=3.5 V(X)=2.92

 

Voorbeeld: je gooit twee eerlijke dobbelstenen op.

X1=1e gooi; X2=2e gooi; µ=3.5. Vraag jezelf altijd af of variabelen afhankelijk zijn. In het dobbelsteenvoorbeeld zijn variabelen onafhankelijk.

Steekproef

Populatie

µ=0.5(X1+X2)

S=X1+X2

µ=1/n(X1+…+Xn)

S=(X1+…+Xn)

E(µ)= µ

E(S)=2 µ

E(µ)= µ

E(S)=n µ

V(µ)=1/2(EEN)

V(S)=2(EEN)

V(µ)=1/n(EEN)

V(S)=nEEN

 

Let op: Als je de som neemt van verschillende variabelen, dan: V(S)=2 EEN (zie formuleblad week 5)

Als je een variabel vermenigvuldigt, dan: V(2X1)= 4EEN

Variantie is hoger als je een variabele slechts vermenigvuldigd.

 

Centrale Limietstelling

Centrale limietstelling voorspelt dat als gebeurtenissen X1, X2...,Xn willekeurig uit dezelfde populatie worden gekozen, dat zal µ bij benadering normaal verdeelt zijn. Onder de voorwaarde N>30. Hoe groter de steekproef, hoe groter de gelijkenis van de kansverdeling met een normale distributie.

 

Veel vragen kun je oplossen door µ(gemiddelde) OF S(som) te gebruiken.

Als je 25 batterijen hebt, gemiddelde batterijduur is 25 uur, deviatie= 2 uur. Wat is de kans dat de batterijen samen minder dan 604 uur werken?

 

TWEE (zie formuleblad week 5)

 

Veel vragen kun je oplossen door een precieze methode te gebruiken, of een normale distributie ervan te maken (Centrale Limietstelling).

Een klas bevat 20 studenten. X=1 als iemand een vrouw is, X=0 als iemand anders dan een vrouw is.

S=Xtot=”totaal aantal vrouwelijke studenten”=X1+X2+…+X20)~Bin(n=20, p=0.25).

P(Xtot)=7?

Discreet binominaal oplossen: 0.112

Discreet binominaal oplossen: P(6

Continu normaal benadering: P(6.5

P(Xtot)>10?

Continu binominaal oplossen: 0.014

Continu normaal benadering: P(Xtot>9.5=)0.0102

Als je bij P(Z>X)=0.02 de X wil weten kan je als volgt te werk gaan:

P(Z

P(Z

P(Z

Z>2.06

 

Werkcollege 1

We mogen aannemen dat een aantal variabelen normaal gedistribueerd zijn, en een aantal variabelen continue zijn. Hier zijn geen vaste regels voor, maar net als met het gebruik van Sturges’ regel moet je je verstand gebruiken, en kan het geen kwaad om je denkwijze op te schrijven op een toets. Massa en tijd zijn bijvoorbeeld continu, maar aantal medewerkers is een discrete variabele. Het IQ is een voorbeeld van een variabele die al per definitie normaal gedistribueerd is (gemiddelde=100).

Als je met andere variabelen wil rekenen die niet per definitie normaal gedistribueerd zijn, mag dat onder bepaalde voorwaarden. Je past dan centrale limietstelling toe.

Binominaal: np>5 en nq>5.

Poisson: n>15

Geen duidelijke distributie: N>30 (dit betekend dat je er op de toets van uit kan gaan dat elke distributie van willekeurige variabelen een normale verdeling hebben als je maar genoeg datapunten hebt).

 

<

p>Je moet je altijd afvragen als je van een bepaalde distributie een normale distributie maakt, of je een continuïteitscorrectie moet toepassen. Dit moet omdat veel variabelen discreet zijn, maar de normale verdeling alleen werkt met continue variabelen. Een voorbeeld is: P(X=13)=>P(12.5<X<13.5).

 

Als je een normale distributie wil berekenen, kan je vaak een waarde onderzoeken op het totaal of op het gemiddelde.

 

Voorbeeldvraag: Je gooit 35 keer een eerlijke dobbelsteen, wat is de kans dat het gemiddelde aantal punten op een dobbel minder is dan 3. Gemiddelde=3.5

Manier 1:X=’gemiddeld aantal punten op de dobbelsteen’

VIER(zie formuleblad week 5)

Manier 2:X=’aantal punten op de dobbelstenen in totaal’

VIJF (zie formuleblad week 5)

Omdat je niet het gemiddelde aantal punten neemt (wat continu is) maar het totaal aan punten (wat discreet is) moet je continuïteitscorrectie toepassen!

ZES (zie formuleblad week 5)

 

Je moet dus letten op twee dingen: de variantie is anders bij de twee methodes, en de Continuïteitscorrectie is anders bij de twee methodes. Als je meer en meer experimenten zou toepassen zal de kans uiteindelijk 0 worden dat je een bepaalde waarde krijgt.

Notatie: ZEVEN (zie formuleblad week 5)

 

Hoorcollege 2

Soms kan je ook de distributie van een breuk bekijken. Je hoeft ook hier geen continuïteitscorrectie toe te passen.

Notatie van breuk of verhouding is een P met een ^ erboven. Vanwege opmaak redenen zal Pb gebruikt worden.

Stel: X=’aantal successen’ en is binominaal gedistribueerd. Alle X’s zijn onafhankelijk.

Pb=X/N

E[Pb]=(np)/N=p

V(Pb)=(Npq)/NN=pq/N

De kans op een bepaalde breuk of verhouding kan wederom worden berekend met een normale distributie als N>30.

 

Stel er is een populatie bestaande uit 1 miljoen 1en en 1 miljoen 5en.

Gemiddelde=3 Variantie=4

Drie nummers worden willekeurig uitgekozen, met vervanging.

Er zijn dan twee benaderingen voor de populatiegemiddelde:

Xgemiddelde(X1+X2+X3)/3 en de Mediaan= punt op L50.

Hieronder staat een tabel met steekproefdistributie en de benaderingen voor de gemiddeldes.

 

(X1,X2,X3,)

P(X1,X2,X3,)

Xgemiddelde

Mediaan

(1,1,1)

1/8

1

1

(1,1,5)

1/8

7/3

1

(1,5,1)

1/8

7/3

1

(5,1,1)

1/8

7/3

1

(1,5,5)

1/8

11/3

5

(5,1,5)

1/8

11/3

5

(5,5,1)

1/8

11/3

5

(5,5,5)

1/8

5

5

 

E[Xgem]=3

E[M]=3

Het zijn dus allebei onbevooroordeelde metingen van het populatie gemiddelde.

V[Xgem]=4/3

V[M]=13-9=4

Xgem is dus meer efficiënt dan M, omdat de variantie kleiner is.

 

<

p>1759<µ

 

Werkcollege 2

 

Formule voor de betrouwbaarheidsinterval:

ACHT (zie formuleblad week 5)

Stel je hebt een 99% betrouwbaarheidsinterval, met N=3 (er zijn drie metingen gedaan); deviatie=0.03; gemiddelde=0.635

NEGEN (zie formuleblad week 5)

(0.59; 0.68)

Volgende week wordt een exacte methode uitgelegd hoe je de Z waardes kan vinden. Hij kan worden benaderd door gebruik van de normaal tabel.

 

Deze theorie kan misschien onduidelijk zijn, omdat je zou denken dat je met maar 3 metingen nooit een klein interval kan hebben. De deviatie van 0.03 is daarentegen zo klein, dat je dus met 99% zekerheid kan zeggen dat het gemiddelde in dit bereik ligt.

 

Stel je wil een Z waarde vinden, en er zijn twee mogelijke waarden die daaraan voldoen, bijvoorbeeld bij P(Z

 

Stel Y=0.6X1 + 0.6X2 – 0.2X3. Dit is waarschijnlijk een onbevooroordeelde meter van Xgemiddelde omdat de som van de verschillende gewichten (0.6+0.6-0.2) 1 is.

 

<

p>Stel je hebt met 16 observaties een 90% CI gemaakt van 8.5235<µ<10.2765.

De deviatie is maximaal 2.

Hoeveel observaties moet je dan nog toevoegen om dit interval hooguit een breedte van 1 te laten hebben?

Wat je wilt is dus: TIEN (zie formuleblad week 5)

Deviatie =2

N=?

ELF (zie formuleblad week 5)

N>43.2964

Let op, je moet nog twee denkstappen maken om de vraag te beantwoorden!

N moet dus minimaal 44 zijn, en je moet dus minimaal (44-16)28 observaties extra maken.

 

Als je wil kijken of mensen je koning leuk vinden, en je steekproef bestaat uit 20 studenten, is dat een slechte steekproef!
 
Er zijn drie verschillende soorten data die ja kan halen uit steekproeven.
1. punt benadering, zoals Xgemiddelde en Variantie
2. Interval benadering, zoals een CI
3. hypothese testen, zoals H0:X=1750? (komt volgende week)

Week 6

Hoorcollege 1

Een van de belangrijkste dingen in statistiek is: hyoptheses testen. Hierbij kijk je of een bepaald statement waar kan zijn. Is je hypothese bijvoorbeeld dat het gemiddelde van iets kleiner dan 15 is, maar je neemt waar van een steekproef dat het gemiddelde 16 is, dan hoeft dit niet te betekenen dat je hypothese verworpen moet worden. Door een bepaalde deviatie en zekerheid van je analyse kan het zijn dat de waarde 16 nog binnen het bereik ligt. Als je tot conclusies komt is dit altijd slechts een statistische conclusie, je bent er niet helemaal zeker van, maar er is een grote kans. De hypothese kan ook nooit aangenomen worden! Hij kan alleen ‘verworpen’ of ‘niet verworpen’ worden.

 

Voorbeeld: Je wilt weten of de gemiddelde levensduur van lampen meer is dan 1200 uur, met een zekerheid van 95%. X=’levensduur van lampen’Je neemt een steekproef van 100, en hier komt een gemiddelde uit van 1265 uur. Populatie deviatie is 300

Er zijn zes stappen die je altijd moet nemen als je een hypothese test.

  1. Aannames. Er zijn altijd vier aannames:EEN (zie formuleblad week 6) ; α=0.05; willekeurige steekproef; N>30 dus volgens CLT is X normaal gedistribueerd.
  2. Hypotheses. Er zijn er altijd twee: H0: µ=1200 is de null hypothese. Je wil dat de lampen meer dan 1200 uur branden, dus is de grenswaarde 1200. H1: µ>1200 is je onderzoekshypothese.
  3. Test statistiek en distributie. Er zijn twee verschillende manieren:

Ongestandaardiseerd: Xgem=1265~N(1200, 300^2)

Standaardiseerd: TWEE (zie formuleblad week 6) ~N(0,1)

  1. Kritieke regio. Buiten welke regio is µ niet meer dan 1200?

Let op, de Z-waarde die gebruikt wordt is , omdat er een eenzijdige test van 95% is, dat wil zeggen, alleen waarden onder 1200 worden afgewezen. Als er een tweezijdige test is worden  gebruikt, omdat er boven en onder de 1200 een kritieke regio is.

Ongestandaardiseerd: Xgem>DRIE (zie formuleblad week 6)

Standaardiseerd: VIER (zie formuleblad week 6)

  1. Steekproef realisatie en confrontatie. Je kijkt of je test statistiek zich in de kritieke regio bevindt. Verwep H0. Je mag nooit een hypothese accepteren! Alleen verwerpen of niet verwerpen. Als je een hypothese zou accepteren dan moet je de gehele populatie onderzocht hebben.
  2. Conclusie. Dit moet volgens richtlijnen. Met de gegeven steekproef, en een significantie van 5%, is er genoeg statistisch bewijs om af te leiden dat de gemiddelde levensduur van de lampen meer is dan 1200 uur.

 

Stappen 4 en 5 kan je op nog twee manieren doen.

<

p>Verwerp H0 als je p-waarde kleiner is dan α. P-waarde=P(Z<Zobservatie)

Het kan ook P(Z>Zobervatie) zijn, ligt eraan welke test je doet.

Als de test tweezijdig is verkrijg je P door: 2P(>| Zobervatie|)

 

Als de test tweezijdig is kan je ook kijken naar het zekerheidsinterval. De kritieke regio wordt dan automatisch de waarden buiten dit zekerheidsinterval

 

Er zijn twee soorten fouten die men kan maken met hypothese testen, omdat het populatiegemiddelde anders kan uitvallen dan wat je hebt bedacht.

TYPE 1 fout: verwerp H0 terwijl H0 goed is. Kans is α

TYPE 2 fout: verwerp H0 niet, terwijl H0 fout is.Kans is β

Een TYPE 1 fout wordt gezien als erger dan een TYPE 2 fout, om dezelfde reden dat het erger is als je een onschuldig persoon in de gevangenis zet, dan wanneer je 100 schuldige mensen vrij rond laat lopen.

Kans op TYPE 1 wordt vaak gegeven, het typeert je onderzoek. Kans op TYPE 2 is:

P(verwerp H0 niet| H0 niet klopt)

 

Kracht van een test heeft de kans (1- β)= P(VerwerpH0; H0 is fout)=P(test statistiek is in de kritieke regio). Deze kracht reken je simpelweg uit door te kijken naar: VIJF

Je kan de kans op α verminderen door de kritieke regio te vergroten.

Je kan de kans op β verminderen door α te vergroten of door n te verhogen.

 

Als niet alleen het gemiddelde niet bekend is, maar ook de deviatie, kan je deze ook uit de steekproef halen. Je kan dan vervolgens bij het berekenen van een bepaalde kritieke regio niet de Z-waarde gebruiken, omdat die ervan uitgaat dat er een perfect normale distributie is. Je kan een T-waarde gebruiken, te vinden in je tabellenboek. De formule voor een bepaald zekerheidsinterval of kritieke regio is dan vervolgens:

ZES(zie formuleblad week 6)

 

Werkcollege 1

Nog een test voorbeeld. Stel dat je wil bewijzen dat het gemiddelde nationale inkomen niet hoger is dan 30000. Uit een steekproef van 350 mensen komt een gemiddelde uit van 30400. De populatie standaard deviatie is 8000. Test het met een significantie niveau van 5%.

  1. Aannames.ZEVEN; α=0.05; willekeurige steekproef; N>30 dus volgens CLT is X normaal gedistribueerd.
  2. Hypotheses. H0: µ=30000 `   H1: µ>30000.
  3. Test statistiek en distributie.

Ongestandaardiseerd: Xgem=1265~N(30000, 8000^2)

Standaardiseerd: ACHT (zie formuleblad week 6) ~N(0,1)

  1. Kritieke regio. Buiten welke regio is µ niet meer dan 1200?

<

p>Ongestandaardiseerd: Xgem<30703

  1. Steekproef realisatie en confrontatie. Xgem-observatie is 30400. Verwerp H0 niet.
  2. Conclusie. 30400 zit niet in de kritieke regio. Met de gegeven steekproef, en een significantie van 5%, is er genoeg statistisch bewijs om af te leiden dat het gemiddelde inkomen minder is dan 30000.

 

Wederom kunnen stap 4 en 5 ook gedaan worden met de p-waarde. Verwerp H0 als P(Z>Zobservatie)

 

Hoorcollege 2

Het resultaat van een test is statistisch, niet wiskundig. Je bent nooit zeker van een uitkomst, maar er kan een grote kans bestaan. Als de populatie gemiddelde niet bekend is, kan je deze uit een steekproef halen. Als de deviatie niet bekend is, kan je deze ook uit de steekproef halen. Dit vergroot de onzekerheid, en de grootte van de onzekerheid ligt wederom aan het aantal steekproef variabelen of de grootte van alfa in een interval.

Voorbeeld:

Het zekerheidsinterval van µ zonder bekende populatie deviatie ziet er als volgt uit:

NEGEN (zie formuleblad week 6)

De T waarde kan uit je tabellenboekje worden gehaald, de s en Xgem moet je uit de steekproef halen. Als je een test wil doen moet je in stap 3 een test statistic berekenen, om te zien of deze zich in de afwijsregio bevind. Een formule voor het vinden van de test statistic staat hieronder. Wederom moet je s en Xgem uit de steekproef halen. De waarde voor µ is de hypothese die je probeert te testen.

TIEN(zie formuleblad week 6)

Het 95% zekerheidsinterval voor µ bevat alle waarden µ0 waarvoor H0= µ niet kan worden verworpen.

<

p>De p-waarde is de laagste significantie waarde waarvoor H0 kan worden verworpen, want: als P

 

Werkgroep 2

In praktisch elke opdracht kan je opschrijven (voor wellicht extra punten):

  1. de variabele is normaal gedistribueerd vanwege … Dit zal heel vaak het geval zijn omdat je er anders niet mee kan rekenen. Let op, er kunnen strikvragen zijn waarin een variabele niet normaal gedistribueerd is.
  2. De waardes voor de variabelen zijn uit een willekeurige steekproef genomen. Hierdoor gelden namelijk de wetten der statistiek.

Er zijn verschillende rekenmethodes voor een test als je populatie deviatie wel of niet bekend is, en als de populatie gemiddelde wel of niet bekend is.

Tot nu toe waren testen alleen bezig met of een bepaald populatie gemiddelde ‘waarschijnlijk’ zich aan een bepaalde conditie houdt, bijvoorbeeld H0: u=120.

Je kan ook kijken naar hoe de populatie deviatie zich waarschijnlijk gedraagt! Dit noemen we een chi-kwadraat test. De variabele X die je hierna ziet wordt chi genoemt, alweer een Griekse letter. Hier kan mee gerekend worden door de theorie dat deviatie/variantie een eigen distributie heeft, die naarmate N groter wordt, meer en meer op een normale distributie lijkt, dus geen symmetrische distributie. De relatie is als volgt weergegeven:

ELF (zie formuleblad week 6)

De populatie deviatie kan in een bepaalde zekerheidsinterval zitten. Bijvoorbeeld: er is met 95% zekerheid te zeggen dat  zich in een bepaald bereik zal bevinden. Er zijn drie verschillende intervallen die hier mee te maken hebben. Het waarschijnlijkheidsinterval van en  en het zekerheidsinterval van .

TWAALF (zie formuleblad week 6) is een waarde die je kan opzoeken in je tabellenboekje, als de waarden alpha en n bekend zijn. De eerste formule is een gegeven (chi kwadraat verdeelt zich in een bepaald bereik, afhankelijk van de variabelen alpha en n. Vanaf daar kan de formule worden herschreven om het zekerheidsinterval van de deviatie te krijgen.

DERTIEN (zie formuleblad week 6)

Waarom staat de laatste vergelijking niet als kans opgeschreven maar als een interval? Dat is omdat de populatiedeviatie een echte bestaande waarde heeft, er is geen sprake van een kans. Zorg daarom dat je:

  1. Weet welke variabelen je aan het gebruiken bent, en de juiste letters ervoor opschrijft!
  2. Populatie parameters vaak alleen kan aangeven met een zekerheidsinterval, terwijl je bij steekproef parameters gebruik kan maken van kansen en waarschijnlijkheidsintervallen.

 

Stel: 1,59

Als H0: =7.6 en H1: 7.6; verwerp H0 omdat H1 logischer is. Tweezijdig dus α is bijv. 5%.

Als H0: =7.6 en H1: 7.6; verwerp H0 omdat H1 logischer is. Eenzijdig dus α is dan 2,5%.

Als H0: =7.6 en H1: 7.6; verwerp H0 niet omdat H0 logischer is! Eenzijdig dus α is dan 2,5%.

 

Week 7

Hoorcollege 1

Je kan naast inferentie van een bepaalde distributie, ook inferentie maken van kansen. de formule ziet er dan iets

Np>5 Nq>5

Dan kan je CLT toepassen.

E[P]= de populatie kans

P1= de steekproef kans. Normaal kan je dit aangeven als een P met een ^ erboven.

EEN (zie formuleblad, week 7)

 

Proportie test probleem

Stel dat een verkoper reclametijd wil kopen bij RTL4 als hun marktaandeel groter is dan 5%. Resultaten van een steekproef van 500 mensen laat zien dat de steekproefaandeel 6.2% is. Test met een significantie van 5%.

 

Aannames: Willekeurige steekproef; np>5 en nq>5 dus CLT mag worden gebruikt.

Hypotheses: H0: p=0.05 H1: p>0.05

Test statistic: TWEE (zie formuleblad, week 7)

Kritieke regio: Z>Z1%=2.326

Confrontatie: DRIE (zie formuleblad, week 7)

Verwerp H0 niet! Er is dus niet genoeg statistisch bewijs om te concluderen dat het aandeel meer is dan 5%.

 

Wat is het onderscheidend vermogen (the power) van de test als p=0.09?

P(H0 is verworpen| H0 klopt niet)

P(H0 is in de kritieke regio| p=0.09)

VIER (zie formuleblad, week 7)

P=0.07267

P(P1>0.07267|p=0.09)=P(Z>-1.35)=0.9115

 

Soms is de kans ergens op onbekend. Er wordt aangenomen dat voor een bepaalde nauwkeurigheid (is in dit geval gelijk aan variantie) de kans 0.5 bereikt bij de minimale steekproefgrootte om die zekerheid te krijgen. Bijvoorbeeld: wat is de minimale steekproefgrootte met een 90% zekerheid en een maximale onnauwkeurigheid van 1%, als de kans p onbekend is?

 

n>VIJF (zie formuleblad, week 7)

De steekproefgrootte is dus minimaal 6766.

 

Werkcollege 1

 

Voorbeeld zekerheidsinterval opdrachten

In een steekproef van 800 personen zijn er 115 spontaan in contact gekomen met tijdschrift A. Welke steekproefgrote moet worden gekozen als je erachter wil komen, met een zekerheid van 95%, dat maximaal 2% van de populatie spontaan in contact is gekomen met tijdschrift B.

Let op! Het gaat nu om een nieuw tijdschift, dus we weten niet welk deel van de populatie of steekproef spontaan in contact isgekomen met tijdschrift B. We mogen aannemen dat p=0.5.

 

De breedte van het zekerheidsinterval mag niet groter dan 0.02 zijn. Dus:

ZES (zie formuleblad, week 7) n>9604

 

Als de steekproef proportie nu bekend wordt, zal pq lager worden. Er is meer zekerheid, dus voor een maximale breedte van 2% voor het zekerheidsinterval hoeft n minder groot te zijn dan 9604. Als p=0.20 zal n>6147

 

Voorbeeld gevorderde examenopdracht

Een jam maker zorgt ervoor dat het gewicht van zijn potjes gevuld met jam 500 gram is. Het gewicht van de lege potjes is normaal gedistribueerd met gemiddelde van 50 gram, deviatie is 7.2 gram.

Daarnaast is het totale gewicht met een meetfout gedistribueerd met gemiddelde van 0 gram en deviatie van 12 gram. Wat is dan de standaard deviatie van het netto gewicht.

Er zijn een aantal inzichten die belangrijk zijn om te hebben voor het beantwoorden van de vraag. Als Z=totale gewicht en Y=jam gewicht=netto gewicht en X=potjes gewicht.

Dan geld: Z=X+Y.

Als je dan de standaarddeviatie van het nettogewicht wil hebben, dan hebben we het over de deviatie van Y.

V(Z)=V(Y)+V(X)

V(X)=7.2^2

V(Z)=V(E)=12^2. Dit is moeilijk om te beredeneren. De variabele ‘meetfout’ E=Z-500. Dit betekent dat de variantie van E gelijk is aan de variantie van het totale gewicht Z.

Als je V(Z) en V(X) invult krijg je deviatie vanY= 13.99

 

De jammaker wil nu dat maximaal 5% van de potjes een nettogewicht hebben van minder dan 435 gram. Hij wil dit bereiken door de juistheid van de meetapparatuur te verhogen. Wat is dan de maximale standaard deviatie? Het is belangrijk om te realiseren dat het gaat om de deviatie van de meetfout E.

 

<

p>P(Y<435)<0.05

<

p>P(Z

V(Y)=V(Z)-V(X)=V(E)-V(X)

Als je invult krijg je V(Y)=>9.11 V(X)=7.2^2 Dus deviatie van E

 

Hoorcollege 2

 

Als je een test wil doen met de proportie, kan je soms geen CLT gebruiken, omdat NP of NQ minder dan 5 is. Je kan dan een exacte binominale distributie gebruiken om toch te testen of P gelijk is aan een bepaalde waarde.

X=”aantal deelnemers die terug willen komen”. 15 mensen zijn gevraagd, 7 mensen zeiden van wel. Test met een zekerheid van 5% of de proportie mensen die terug willen komen groter is dan 20%. Np=7, nq=8. CLT kan niet worden toegepast.

H0: P=0.2 H1: P>0.2 X~Bin(15,0.2) Xobservatie=7

P(X>7) moet meer zijn dan 0.05 om de hypothese niet te verwerpen.

P(X>7)=1-P(X

Het kan gebeuren dat je de mogelijkheid hebt om een exacte test te doen, of een CLT test, en dat beide mogelijkheden een andere uitkomst bieden (verwerp H0 of verwerp H0 niet). In dat geval maakt het niet uit welke mogelijkheid je kiest, als je maar een goeie berekening hebt en de methodes echt toepasbaar zijn.

Als je een test wil doen met ordinale getallen, kan je de mediaan gebruiken.

Stel dat Xi…Xn alle verschillende waarnemingen zijn. Di is de afstand tot de meridiaan

ACHT (zie formuleblad, week 7)

Test de hypothese H0 M=M0 dus met H1 M>M0 dus

Stel dat 20 mensen reager op de zin “cruijff is de beste voetballer aller tijden”. 5 mensen zijn neutraal, 3 mensen zijn enigszins tegen of tegen, 12 mensen zijn voor of enigszins voor. Test met een significantie van 5% of mensen het met de zin eens zijn.

Assumpties: Het is een willekeurige steekproef; np=nq=10>5 dus CLT is toepastbaar.

Test de hypothese H0 M=M0 dus met H1 M>M0 dus

~Bin(15,0.5). Nu kan je net als in eerdere binominale opdrachten de tabel gebruiken of een exacte binominale test. Variantie=npq=3.75

<

p>P(X>12)=1-P(X<11)=0.018<0.05 dus verwerp H0.

P(Xcontinu>11.5)=P(Z>NEGEN (zie formuleblad, week 7) 0.0102

Onthoud dat er een verschil is tussen zekerheids intervallen CI (om een populatie gemiddelde) en kansintervallen PI (om een steekproefgemiddelde).

 

Werkgroep 2

Er is op blackboard een document te vinden over testen rond een mediaan, deze is anders dan het document dat aanwezig is in de syllabus.

 

Mediaan test vraag

Stel dat je 9 waardes hebt van een bepaalde verbogen (dus niet normale) distributie). Er zijn 6 waardes hoger dan 60, 2 waardes lager dan 60, en er is één waarde 60. Voor welke significantie kan je dan concluderen dat de mediaan groter is dan 60?

 

H0: M=60 H1: M>60

X+=’aantal waarnemingen boven 60’

P+=’proportie waarnemingen boven 60’

X+~Bin(n=8, p=1/2). N is 8 omdat je de mediaan niet meer mee laat tellen. De mediaan wordt een referentiepunt en kan niet meer mee gerekend worden.

 

Als de mediaan groter is dan 60, moet de null hypothese worden verworpen. Dan moet Xobservatie in de kritieke regio zitten. De kritieke regio is de significantie als je p waardes gebruikt: verwerp H0 voor p

P(X+>6)=1-P(X+0.145

α is ook altijd lager dan 1, omdat de maximale kans 1 is.

 

Als je een dergelijke meridiaan test doet, en je wilt de CLT gebruiken, is het genoeg om te zeggen dat n>10, want np=nq>5. P en Q zijn altijd 0.5 in een mediaan test.

 

Exacte proportie vraag

Het management van een bedrijf wil onderzoeken of meer dan 40% van de ondervraagden een auto hebben. Uit een steekproef van 10 mensen hebben 7 mensen een auto. Is er genoeg bewijs om te zeggen dat meer dan 40% een auto heeft? Significantie=5%

 

X=’Aantal mensen met een auto’

H0: p=0.4 H1: P>0.4 n=10

Aannames: willekeurige steekproef (wat erg onwaarschijnlijk is met maar 10 mensen)

<

p>Np=4

 

X~Bin(10, 0.4)

Xobservatie=7

P(X>7)=1-P(Xα. Niet de null hypothese verwerpen!

 

Met deze steekproef en een significantie van 5% is er niet genoeg statistisch bewijs om af te leiden dat meer dan 40% van de ondervraagden een auto hebben.

 

Stel dat de kritieke regio X>7 is. Wat is dan het onderscheidend vermogen (the power) van de test als 80% van de mensen een auto hebben?

β=P(verwerp H0|p=0.8)

P(X>7|P=0.8), dit kan je opzoeken in je tabellenboekje. Je hoeft dus geen onderscheidend vermogen uit te rekenen met een Z test, zoals in andere opdrachten. P=0.879

formules_week_1.pdf
formules_week_2.pdf
formules_week_3.pdf
formulas_week_5.pdf
formules_week_7.pdf
formules_week_6.doc

Check page access:
Public
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

How to use and find summaries?


Online access to all summaries, study notes en practice exams

Using and finding summaries, study notes en practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Starting Pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
  2. Use the menu above every page to go to one of the main starting pages
  3. Tags & Taxonomy: gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
  4. Follow authors or (study) organizations: by following individual users, authors and your study organizations you are likely to discover more relevant study materials.
  5. Search tool : 'quick & dirty'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject. The search tool is also available at the bottom of most pages

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study (main tags and taxonomy terms)

Field of study

Follow the author: Vintage Supporter
Comments, Compliments & Kudos:

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.