Samenvatting bij de 9e druk van Managerial Statistics van Keller
- Hoofdstuk 1. Inleiding
- Hoofdstuk 2. Tabellen en diagrammen
- Hoofdstuk 3. Grafieken en presentaties
- Hoofdstuk 4. Analyse en beschrijving van data
- Hoofdstuk 5. Steekproeven in de praktijk
- Hoofdstuk 6. Kansen en mogelijkheden
- Hoofdstuk 7. Discrete variabelen en investeringen
- Hoofdstuk 8. Continue variabelen
- Hoofdstuk 9. Verdelingen
- Hoofdstuk 10. Schattingen
- Hoofdstuk 11. Significantie
- Hoofdstuk 12. Conclusies trekken
- Hoofdstuk 13. Het vergelijken van populaties
- Hoofdstuk 14. Analyse van de variantie
- Hoofdstuk 15. Chi-kwadraat toets
- Hoofdstuk 16. Simpele lineaire regressie en correlatie
- Hoofdstuk 17. Meervoudige regressie
- Hoofdstuk 18. Modellen opstellen
- Hoofdstuk 19. Geen parameters
- Hoofdstuk 20. Tijdsreeksen en voorspelling
- Hoofdstuk 21. Statistische processen beheren
- Hoofdstuk 22. Beslissingsanalyse
- Hoofdstuk 23. Conclusie
Hoofdstuk 1. Inleiding
Door middel van statistiek kan men informatie uit data verwerven. Er zijn verschillende manieren om dit te doen.
Descriptive statistics houdt zich bezig met het organiseren, samenvatting en presenteren van data op een informatieve manier. Dit kan bijvoorbeeld door middel van grafieken.
Inferential statistics zijn methodes die gebruik maken van een steekproef. Een relatief kleine groep wordt dan als samenstelling genomen om de rest van de populatie te vertegenwoordigen. Deze manier van werken geeft een globaal beeld over de werkelijkheid.
Men weet pas de precieze data als men ieder lid van de populatie zou ondervragen, maar dit is tijdrovend en doorgaans onmogelijk.
Statistical inference problems bestaan uit 3 factoren, namelijk:
Population
Dit is een groep van items die van belang zijn voor het vraagstuk (hoeft niet per se uit mensen te bestaan)
Een beschrijvende maat voor een populatie wordt een parameter genoemd, bijvoorbeeld het aantal stemmen bij presidentsverkiezingen.
Sample
Dit is een subgroep die uit de populatie naar voren komt. De data (statistiek) afkomstig uit de subgroep wordt gebruikt om betekenis te geven aan de parameters.
Statistical Inference
Dit is het proces van het maken van een aanname, voorspelling of besluit naar aanleiding van de data die uit de populatie verkregen is.
Aangezien deze data bij een kleine groep wordt verkregen, die een veel grotere populatie vertegenwoordigd is de informatie niet altijd betrouwbaar. Om de betrouwbaarheid te meten zijn er twee begrippen:
Confidence level
Deze meet of de meting ook nog betrouwbaar zou zijn als deze heel vaak wordt herhaald.Significance level
Als het doel van de meting het trekken van conclusies over een populatie is, dan meet de significance level hoe vaak de conclusie verkeerd zou zijn op de lange termijn.
Voorbeeld: stel dat er geconcludeerd wordt dat Bush de verkiezingen met meer dan 50% zal winnen, met een significance level van 5%, dan betekent dit dat deze conclusie 5% van de keren dat de proef herhaald wordt, fout zal zijn.
Hoofdstuk 2. Tabellen en diagrammen
2.1 Types data en informatie
Het doel van Statistiek is het verkrijgen van informatie uit data. Er zijn verschillende types data en informatie.
Enige begrippen:
Variabele: in diverse onderzoeken is een variabele te vinden. Dit is dan ook het gegeven wat interessant is voor de onderzoeker. Bijvoorbeeld het gemiddeld behaalde cijfer op een examen; niet elk behaald cijfer is hetzelfde, dus is in dit geval het cijfer de variabele factor.
Waarde: de waardes van de variabelen kunnen verschillen. Als men het cijfer als variabele neemt, kan deze op een tentamen van 0 tot 10 variëren.
Data: zijn de geobserveerde waardes van variabelen in een onderzoek. Als men bij een tentamen als waarde 0 tot 10 aan kan nemen, maar de werkelijk behaalde cijfers variëren van 4,1 tot 9,8, dan zijn alleen de behaalde cijfers data.
(Data is het meervoud van datum, 1 cijfer zou een datum zijn.) Niet alle data zijn alleen maar cijfers, er zijn 3 soorten data:
Interval data: dit zijn reële getallen, zoals hoogte, gewicht, inkomen en afstand. Dit wordt ook wel kwantitatief of numeriek genoemd.
Berekening: alle soorten berekeningen zijn mogelijk.
Nominal data: dit zijn categorieën. Bijvoorbeeld of men getrouwd is, een partner of kinderen heeft, etc. Dit zijn dus geen getallen maar met woord beschreven categorieën. Vaak wordt deze data weergegeven met voor elke status een cijfer. Dus: Alleenstaand: 1, Getrouwd: 2, Gescheiden: 3, etc.
Dit soort data wordt ook wel kwalitatief of categorisch genoemd.
Berekening: het is niet mogelijk om met nominale data te rekenen. Dit komt omdat de getallen tussen bijvoorbeeld 1 en 2 in het bovenstaande voorbeeld, niets betekenen. Bij numerieke data is dit wel het geval. Wél is het mogelijk om de frequentie erbij te vermelden, wat de cijfers al meer betekenis geeft.
Ordinal data: dit soort data lijkt heel erg op nominale data, maar is geordend. Bijvoorbeeld: Zeer slecht, Slecht, Matig, Redelijk, Goed, Zeer goed. Hierin is een volgorde aan te brengen.
Berekening: Met dit soort data is het wel mogelijk om te rekenen, mits er een ordening aanwezig blijft. Zo is er bijvoorbeeld de mediaan, die in het midden van alle gevonden
data ligt.
2.2 Grafiek- en tabeltechnieken voor nominale data
Zoals eerder vermeld, is rekenen met nominale data alleen mogelijk als men frequenties vermeld. Dit kan je doen, door middel van grafieken of tabellen.
De tabel die ontstaat als je de data en frequentie bij elkaar zet, wordt de frequency distribution genoemd. Een relative frequency distribution is dezelfde tabel, maar dan de verschillende data in procenten van het totaal. Zie de volgende tabel:
Area | Frequency | Relative Frequency |
Accounting | 73 | 28.9% |
Finance | 52 | 20.6 |
General management | 36 | 14.2 |
Marketing/Sales | 64 | 25.3 |
Other | 28 | 11.1 |
Total | 253 | 100 |
Deze data kun je gemakkelijk in een bar chart (staafdiagram) verwerken. Aangezien dit de gegevens grafisch maakt, is er een duidelijker overzicht dan wanneer de getallen in een tabel staan. Ook kun je een pie chart maken, die doorgaans eerder gebruikt wordt voor relative frequencies.
In Bijlage 2.1 staat een afbeelding van een bar chart.
In bijlage 2.2 staat een afbeelding van een pie chart.
Deze grafieken worden gebruikt om getallen met categorieën te verbinden, zodat men deze eventueel met elkaar kan vergelijken.
Een voorbeeld kan worden gegeven van bierconsumptie. In bijlage 2.3 is de bierconsumptie per capita aangegeven voor20 landen.
In bijlage 2.4 is een bar chart gemaakt van deze gegevens.
2.3 Grafiektechnieken voor interval data
De belangrijkste grafieksoort die gebruikt wordt voor interval data is het histogram. Dit is hetzelfde als een staafdiagram waarbij de frequentie links staat, maar in dit geval staan verschillende getalintervallen horizontaal (in plaats van categorieën bij nominale data).
Bij interval data krijg je lijsten met data die op zichzelf weinig zeggen. Deze data worden dan in intervallen ingedeeld, waardoor je de frequenties per interval overzichtelijk kunt maken.
De frequenties die bij de intervallen horen, kun je gemakkelijk in een histogram zetten. Hierdoor ontstaat een overzicht waarin je in één oogopslag kunt zien, welke uitkomst het meest voorkomt.
Om te bepalen hoeveel intervallen er ongeveer gebruikt moeten worden, bestaat
Een skewed histogram heeft een uitloper naar links of rechts. Wanneer een histogram positively skewed is, begint de grafiek links hoog en loopt lager naarmate hij naar rechts gaat. Het kan ook zijn dat het laagste punt links zit en hoger uitloopt naar rechts (negatively skewed).
Modale klassen komen het meeste voor van alle klassen. Een unimodal histogram is een histogram met één piek. Deze hoeft niet per se symmetrisch te zijn.
Een bimodal diagram heeft twee pieken, die niet per se even hoog hoeven te zijn.
Een unimodal histogram die wel symmetrisch is, is een speciaal geval. Deze komt later aan bod.
Stem-and-leaf display
Omdat een histogram belangrijke verschillen binnen een klasse niet weergeeft, heeft John Turkey een stem-and-leaf display ontworpen. Deze geeft alle klassen weer, met daarachter het aantal variabelen wat binnen de klassen mogelijk is.
Stem Leaf
0 0000000001112222333333444445555555666666677778888999
1 00011112222333444556678899999
2 0011111112222333444445556677789999
3 00001111111223334444444555666667789999
4 00112223333344444555666677788899
5 00001111112223345566777778889999
In klasse 0-1 komt 0,0 negen keer voor. 0,1 komt drie keer voor, 0,2 vier keer, etc.
Zoals je ziet, ligt de stem-and-leaf diagram nu op zijn rechterzijde.
Ogive
Er is al eerder gesproken over een relative frequency distribution. Hier is ook een grafiek van te maken. De delen tellen zich dan op, zodat uiteindelijk 100% op de horizontale as bereikt wordt, en men weet hoeveel data er in totaal (verticale as) was.
Deze grafiek is handig, omdat je in één oogopslag kunt zien dat bijvoorbeeld 70% van de studenten 60 punten of lager heeft.
2.4 Beschrijven van de relatie tussen twee variabelen
Met voorgaande technieken hebben we steeds situaties met 1 variabele geëvalueerd (univariate). Er zijn echter veel situaties te bedenken waarin twee variabelen een rol spelen (bivariate).
Een contingency tabel (ook wel een classification table of cross-tabulation table genoemd) wordt gebruikt om de relatie tussen twee variabelen te beschrijven.
Een voorbeeld van een contingency tabel uit het boek (blz.53, ex.2.8)
Newspaper | Blue Collar | White Collar | Professional | Total |
G&M | 27 | 29 | 33 | 89 |
Post | 18 | 43 | 51 | 112 |
Star | 38 | 21 | 22 | 81 |
Sun | 37 | 15 | 20 | 72 |
Total | 120 | 108 | 126 | 354 |
In deze tabel worden twee variabelen met elkaar vergeleken, namelijk het beroep en de krant die gelezen wordt. Deze manier van onderzoek komt veel voor in de praktijk.
De grafiek waarin de relatie wordt weergegeven is het scatterdiagram.
Dit diagram geeft alle gevonden data weer als stippeltjes. Hierdoor ontstaat globaal een richting waarin de grafiek gaat.
Aangezien je globaal de richting weet, kun je een rechte lijn trekken door het diagram. Als de meeste puntjes zich op en rond deze lijn bevinden, kun je spreken van een linear relationship. Hoe verder de stipjes er vanaf liggen, hoe zwakker het verband tussen de twee variabelen.
Als variabele B toeneemt als A toeneemt, spreken we van een positive linear relationship.
Als variabele B afneemt als A toeneemt, spreken we van een negative linear relationship.
Beschrijven van tijdseries-data
Er bestaan cross-sectional data. Dit komt voor als je meerdere dingen op hetzelfde tijdstip onderzoekt. Dit kan bijvoorbeeld op de huizenmarkt zijn, hoe de relatie ligt tussen de verkoopwaarde van het huis en de grootte van het kavel.
Ook kun je onderzoeken hoe de prijs varieert door de jaren heen, dit heet time-series data.
De waarde komt dan op de verticale as van de line chart, en de periode op de horizontale as.
Hoofdstuk 3. Grafieken en presentaties
Uitslagen van onderzoeken kan men duidelijk maken door ze in een grafiek te verwerken. Om dit te doen, zijn meerdere manieren mogelijk. Hier hoort een term bij, namelijk: graphical excellence. Dit houdt de mate van kwaliteit van de grafieken in. Grafieken kunnen ook gebruikt worden om de lezer te misleiden.
Goede grafiek:
De grafiek presenteert veel verwante data beknopt maar duidelijk
De bedoeling van de grafiek komt goed over op de lezer
De grafiek moedigt mensen aan om variabelen te vergelijken
De vorm van de grafiek laat de data zelf nog steeds de bovenhand voeren
Er is geen misleiding of onduidelijkheid wat betreft de data
Bij het gebruik van grafieken komt vaak graphical deception voor. Dit is het misleiden van lezers door middel van een aangepast grafiek. Let dus bij het aflezen van een grafiek goed op de assen. Ze moeten evenredig verdeeld zijn (in verhouding staat met elkaar) en duidelijk de werkelijkheid weergeven.
Ook de staven in het staafdiagram mogen in dikte niet verschillen, omdat dit een verkeerd beeld schept.
Stappenplan voor het schrijven van een verslag:
Maak je onderwerp duidelijk
Beschrijf het experiment
Beschrijf de resultaten
Gebruik hierbij bijvoorbeeld grafieken, maar niet als deze vervangbaar zijn door een tabel of een zin.
Bediscussiëer de grenzen van de gebruikte statistische technieken
Stappenplan voor het maken van een mondelinge presentatie:
Ken je publiek
Beperk je punten tot het onderwerp, conclusie en aanbevelingen
Hou je aan de tijdlimiet
Gebruik grafieken
Zorg voor handouts
Vormen van histogrammen
Het doel van het tekenen van histogrammen is net als bij andere statistieke technieken, om informatie te verkrijgen. Wanneer de informatie bekend is, kan een beschrijving worden gegeven van hetgeen ontdekt is. De vorm van een histogram kan verschillende karakteristieken hebben.
Symmetrie geeft aan dat bij het trekken van een verticale lijn door het midden van het histogram een spiegelbeeld ontstaat, waarbij beide zijden identiek aan elkaar zijn.
Bijlage 3.1 bevat een afbeelding van symmetrische histogrammen.
Helling
Een schuine histogram heeft een lang eind aan de linkerkant of rechterkant. De helling kan positief of negatief zijn.
Bijlage 3.2 bevat een afbeelding van een historgram met een positieve en negatieve helling.
Modale klassen
Een modale klasse is de klasse met het grootste aantal observaties. Er bestaan unimodale en bimodale histogrammen. Bimodaal geeft aan dat er twee verschillende verdelingen aanwezig zijn.
Bijlage 3.3 bevat een afbeelding van een unimodale histogram.
Bijlage 3.4 bevat een afbeelding van een bimodale histogram.
3.4 grafische presentatie
Grafische uitmuntendheid wordt bereikt wanneer de volgende karakteristieken aan de orde zijn:
De grafiek presenteert een grote dataset bondig en duidelijk. Grafische technieken worden gebruikt om een samenvatting van de grote dataset mogelijk te maken. Kleine data sets zijn samengevat met behulp van een tabel.
De ideeën en concepten van de statistische onderzoeker worden op een manier duidelijk gemaakt waarbij de concepten op de juiste manier worden toegelicht. De grafiek is ontworpen om een beschrijving te geven van een fenomeen in data. Een uitstekende grafiek is ene grafiek die bij wijze van spreken duizend woorden kan vervangen en toch te begrijpen blijft voor lezers.
De grafiek moedigt de kijker aan om een vergelijking te maken van twee of meer variabelen. Grafieken geven een variabele weer met weinig informatie. Grafieken kunnen he best gebruikt worden om een relatie tussen twee of meer variabelen uit te leggen en waarom bepaalde resultaten zich hebben voorgedaan.
De weergave spoort de kijker aan om de inhoud van de data te bekijken. De vorm van de grafiek is bedoeld om de inhoud te helpen presenteren.
Er is geen verstoring van wat de data weergeeft. Er kan geen statistische techniek worden gebruikt door zomaar iets te zeggen. Een lezer met kennis kan daar doorheen kijken. Decepties werken in dat geval niet.
Deceptie
Het gebruik van grafieken en charts is overtuigend in bijvoorbeeld kranten en tijdschriften. Toch kan er manipulatie aan de orde zijn zonder dat men dit weet. Een doorsnee lezer is niet in staat om door deceptie heen te kijken. Daarom is het belangrijk om kritisch naar informatie te kijken en te evalueren of er enige waarde in de informatie zit. Het eerste waar naar gekeken kan worden is de schaal op de as. Een lijndiagram van de omzet van een bedrijf kan een groei van 100% aangevenover bijvoorbeeld vijf jaar. Bijlage 3.5 bevat een voorbeeld waarbij de grafiek niet van toegevoegde waarde is, omdat er geen waarde op de y-as staat. Dit maakt de informatie onbetrouwbaar en voegt geen waarde toe. Misleiding kan ontstaan door het niet vermelden van de betreffende informatie op de y-as.
Hoofdstuk 4. Analyse en beschrijving van data
Methodes om het centrum te localiseren
Er zijn verschillende technieken om data met nummers te beschrijven. Zoals eerder is uitgelegd, valt er met interval data goed te rekenen. Hier bestaan dan ook de meeste technieken voor. Na de interval data komt ordinal data, waar ook nog enkele technieken voor te beschrijven zijn. Dan blijft er een enkele techniek over voor de nominal data.
Er zijn drie verschillende maten om het centrum van een groep data te vinden.
De arithmetic mean, wordt ook wel gewoon de mean genoemd, maar nog duidelijker als het gemiddelde.
Berekening: de som van alle verzamelde data delen door het aantal van gevonden data.
De median (mediaan), is het middelste van alle data.
Berekening: plaats alle gevonden data in volgorde (toenemend of aflopend) en dan is de middelste waarneming de mediaan. Staan er twee cijfers in het midden (bij een even aantal waarnemingen) is het gemiddelde tussen deze twee de mediaan.
De mode (modus)
Read more
Add new contribution