Toegangsopties


De volledige inhoud van deze pagina is alleen zichtbaar voor ingelogde gebruikers van het WorldSupporter platform.

Meer voordelen van je eigen account:

  • Je kunt je eigen inhoud aanmaken en delen
  • je kunt de navigatie gebruiken om je favoriete organisaties, groepen en supporters te bewaren en te volgen
  • Je kunt bijdragen toevoegen of feedback achterlaten bij de inhoud van andere Supporters
  • Je kunt je favoriete inhoud 'flaggen' en later gebruiken
  • Meer voordelen die kun je vinden via het menu en de WorldSupporter toolkits

Wil je volledige toegang tot alle pagina's op WorldSupporter?

 

Support JoHo and support yourself by becoming a JoHo member

Word nu JoHo WorldSupporter donateur

 

 

Title: Bijlages bij de samenvatting van de 9e druk van Managerial Statistics van Keller
Bijlages bij de samenvatting van de 9e druk van Managerial Statistics van Keller
Media of ericdehaar
Contributions, Comments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Supporting content
Samenvatting bij de 9e druk van Managerial Statistics van Keller

Samenvatting bij de 9e druk van Managerial Statistics van Keller


Hoofdstuk 1. Inleiding

Door middel van statistiek kan men informatie uit data verwerven. Er zijn verschillende manieren om dit te doen.

Descriptive statistics houdt zich bezig met het organiseren, samenvatting en presenteren van data op een informatieve manier. Dit kan bijvoorbeeld door middel van grafieken.

Inferential statistics zijn methodes die gebruik maken van een steekproef. Een relatief kleine groep wordt dan als samenstelling genomen om de rest van de populatie te vertegenwoordigen. Deze manier van werken geeft een globaal beeld over de werkelijkheid.

Men weet pas de precieze data als men ieder lid van de populatie zou ondervragen, maar dit is tijdrovend en doorgaans onmogelijk.

Statistical inference problems bestaan uit 3 factoren, namelijk:

  • Population

Dit is een groep van items die van belang zijn voor het vraagstuk (hoeft niet per se uit mensen te bestaan)

Een beschrijvende maat voor een populatie wordt een parameter genoemd, bijvoorbeeld het aantal stemmen bij presidentsverkiezingen.

  • Sample

Dit is een subgroep die uit de populatie naar voren komt. De data (statistiek) afkomstig uit de subgroep wordt gebruikt om betekenis te geven aan de parameters.

  • Statistical Inference

Dit is het proces van het maken van een aanname, voorspelling of besluit naar aanleiding van de data die uit de populatie verkregen is.

Aangezien deze data bij een kleine groep wordt verkregen, die een veel grotere populatie vertegenwoordigd is de informatie niet altijd betrouwbaar. Om de betrouwbaarheid te meten zijn er twee begrippen:

    • Confidence level
      Deze meet of de meting ook nog betrouwbaar zou zijn als deze heel vaak wordt herhaald.

    • Significance level

 

Als het doel van de meting het trekken van conclusies over een populatie is, dan meet de significance level hoe vaak de conclusie verkeerd zou zijn op de lange termijn.

Voorbeeld: stel dat er geconcludeerd wordt dat Bush de verkiezingen met meer dan 50% zal winnen, met een significance level van 5%, dan betekent dit dat deze conclusie 5% van de keren dat de proef herhaald wordt, fout zal zijn.

 

 

Hoofdstuk 2. Tabellen en diagrammen

 

2.1 Types data en informatie

Het doel van Statistiek is het verkrijgen van informatie uit data. Er zijn verschillende types data en informatie.

Enige begrippen:

  • Variabele: in diverse onderzoeken is een variabele te vinden. Dit is dan ook het gegeven wat interessant is voor de onderzoeker. Bijvoorbeeld het gemiddeld behaalde cijfer op een examen; niet elk behaald cijfer is hetzelfde, dus is in dit geval het cijfer de variabele factor.

  • Waarde: de waardes van de variabelen kunnen verschillen. Als men het cijfer als variabele neemt, kan deze op een tentamen van 0 tot 10 variëren.

  • Data: zijn de geobserveerde waardes van variabelen in een onderzoek. Als men bij een tentamen als waarde 0 tot 10 aan kan nemen, maar de werkelijk behaalde cijfers variëren van 4,1 tot 9,8, dan zijn alleen de behaalde cijfers data.

(Data is het meervoud van datum, 1 cijfer zou een datum zijn.) Niet alle data zijn alleen maar cijfers, er zijn 3 soorten data:

  • Interval data: dit zijn reële getallen, zoals hoogte, gewicht, inkomen en afstand. Dit wordt ook wel kwantitatief of numeriek genoemd.

Berekening: alle soorten berekeningen zijn mogelijk.

  • Nominal data: dit zijn categorieën. Bijvoorbeeld of men getrouwd is, een partner of kinderen heeft, etc. Dit zijn dus geen getallen maar met woord beschreven categorieën. Vaak wordt deze data weergegeven met voor elke status een cijfer. Dus: Alleenstaand: 1, Getrouwd: 2, Gescheiden: 3, etc.

Dit soort data wordt ook wel kwalitatief of categorisch genoemd.

  • Berekening: het is niet mogelijk om met nominale data te rekenen. Dit komt omdat de getallen tussen bijvoorbeeld 1 en 2 in het bovenstaande voorbeeld, niets betekenen. Bij numerieke data is dit wel het geval. Wél is het mogelijk om de frequentie erbij te vermelden, wat de cijfers al meer betekenis geeft.

  • Ordinal data: dit soort data lijkt heel erg op nominale data, maar is geordend. Bijvoorbeeld: Zeer slecht, Slecht, Matig, Redelijk, Goed, Zeer goed. Hierin is een volgorde aan te brengen.

    • Berekening: Met dit soort data is het wel mogelijk om te rekenen, mits er een ordening aanwezig blijft. Zo is er bijvoorbeeld de mediaan, die in het midden van alle gevonden

data ligt.

 

2.2 Grafiek- en tabeltechnieken voor nominale data

Zoals eerder vermeld, is rekenen met nominale data alleen mogelijk als men frequenties vermeld. Dit kan je doen, door middel van grafieken of tabellen.

 

De tabel die ontstaat als je de data en frequentie bij elkaar zet, wordt de frequency distribution genoemd. Een relative frequency distribution is dezelfde tabel, maar dan de verschillende data in procenten van het totaal. Zie de volgende tabel:

Area

Frequency

Relative Frequency

Accounting

73

28.9%

Finance

52

20.6

General management

36

14.2

Marketing/Sales

64

25.3

Other

28

11.1

Total

253

100

 

Deze data kun je gemakkelijk in een bar chart (staafdiagram) verwerken. Aangezien dit de gegevens grafisch maakt, is er een duidelijker overzicht dan wanneer de getallen in een tabel staan. Ook kun je een pie chart maken, die doorgaans eerder gebruikt wordt voor relative frequencies.

In Bijlage 2.1 staat een afbeelding van een bar chart.

In bijlage 2.2 staat een afbeelding van een pie chart.

Deze grafieken worden gebruikt om getallen met categorieën te verbinden, zodat men deze eventueel met elkaar kan vergelijken.

Een voorbeeld kan worden gegeven van bierconsumptie. In bijlage 2.3 is de bierconsumptie per capita aangegeven voor20 landen.

In bijlage 2.4 is een bar chart gemaakt van deze gegevens.

 

2.3 Grafiektechnieken voor interval data

De belangrijkste grafieksoort die gebruikt wordt voor interval data is het histogram. Dit is hetzelfde als een staafdiagram waarbij de frequentie links staat, maar in dit geval staan verschillende getalintervallen horizontaal (in plaats van categorieën bij nominale data).

Bij interval data krijg je lijsten met data die op zichzelf weinig zeggen. Deze data worden dan in intervallen ingedeeld, waardoor je de frequenties per interval overzichtelijk kunt maken.

De frequenties die bij de intervallen horen, kun je gemakkelijk in een histogram zetten. Hierdoor ontstaat een overzicht waarin je in één oogopslag kunt zien, welke uitkomst het meest voorkomt.

Om te bepalen hoeveel intervallen er ongeveer gebruikt moeten worden, bestaat

Een skewed histogram heeft een uitloper naar links of rechts. Wanneer een histogram positively skewed is, begint de grafiek links hoog en loopt lager naarmate hij naar rechts gaat. Het kan ook zijn dat het laagste punt links zit en hoger uitloopt naar rechts (negatively skewed).

Modale klassen komen het meeste voor van alle klassen. Een unimodal histogram is een histogram met één piek. Deze hoeft niet per se symmetrisch te zijn.

Een bimodal diagram heeft twee pieken, die niet per se even hoog hoeven te zijn.

Een unimodal histogram die wel symmetrisch is, is een speciaal geval. Deze komt later aan bod.

Stem-and-leaf display

Omdat een histogram belangrijke verschillen binnen een klasse niet weergeeft, heeft John Turkey een stem-and-leaf display ontworpen. Deze geeft alle klassen weer, met daarachter het aantal variabelen wat binnen de klassen mogelijk is.

 

Stem Leaf

0 0000000001112222333333444445555555666666677778888999

1 00011112222333444556678899999

2 0011111112222333444445556677789999

3 00001111111223334444444555666667789999

4 00112223333344444555666677788899

5 00001111112223345566777778889999

 

In klasse 0-1 komt 0,0 negen keer voor. 0,1 komt drie keer voor, 0,2 vier keer, etc.

Zoals je ziet, ligt de stem-and-leaf diagram nu op zijn rechterzijde.

 

Ogive

Er is al eerder gesproken over een relative frequency distribution. Hier is ook een grafiek van te maken. De delen tellen zich dan op, zodat uiteindelijk 100% op de horizontale as bereikt wordt, en men weet hoeveel data er in totaal (verticale as) was.

Deze grafiek is handig, omdat je in één oogopslag kunt zien dat bijvoorbeeld 70% van de studenten 60 punten of lager heeft.

 

2.4 Beschrijven van de relatie tussen twee variabelen

Met voorgaande technieken hebben we steeds situaties met 1 variabele geëvalueerd (univariate). Er zijn echter veel situaties te bedenken waarin twee variabelen een rol spelen (bivariate).

Een contingency tabel (ook wel een classification table of cross-tabulation table genoemd) wordt gebruikt om de relatie tussen twee variabelen te beschrijven.

Een voorbeeld van een contingency tabel uit het boek (blz.53, ex.2.8)

Newspaper

Blue Collar

White Collar

Professional

Total

G&M

27

29

33

89

Post

18

43

51

112

Star

38

21

22

81

Sun

37

15

20

72

Total

120

108

126

354

 

In deze tabel worden twee variabelen met elkaar vergeleken, namelijk het beroep en de krant die gelezen wordt. Deze manier van onderzoek komt veel voor in de praktijk.

De grafiek waarin de relatie wordt weergegeven is het scatterdiagram.

Dit diagram geeft alle gevonden data weer als stippeltjes. Hierdoor ontstaat globaal een richting waarin de grafiek gaat.

Aangezien je globaal de richting weet, kun je een rechte lijn trekken door het diagram. Als de meeste puntjes zich op en rond deze lijn bevinden, kun je spreken van een linear relationship. Hoe verder de stipjes er vanaf liggen, hoe zwakker het verband tussen de twee variabelen.

Als variabele B toeneemt als A toeneemt, spreken we van een positive linear relationship.

Als variabele B afneemt als A toeneemt, spreken we van een negative linear relationship.

 

Beschrijven van tijdseries-data

Er bestaan cross-sectional data. Dit komt voor als je meerdere dingen op hetzelfde tijdstip onderzoekt. Dit kan bijvoorbeeld op de huizenmarkt zijn, hoe de relatie ligt tussen de verkoopwaarde van het huis en de grootte van het kavel.

Ook kun je onderzoeken hoe de prijs varieert door de jaren heen, dit heet time-series data.

De waarde komt dan op de verticale as van de line chart, en de periode op de horizontale as.

 

Hoofdstuk 3. Grafieken en presentaties

 

Uitslagen van onderzoeken kan men duidelijk maken door ze in een grafiek te verwerken. Om dit te doen, zijn meerdere manieren mogelijk. Hier hoort een term bij, namelijk: graphical excellence. Dit houdt de mate van kwaliteit van de grafieken in. Grafieken kunnen ook gebruikt worden om de lezer te misleiden.

Goede grafiek:

  • De grafiek presenteert veel verwante data beknopt maar duidelijk

  • De bedoeling van de grafiek komt goed over op de lezer

  • De grafiek moedigt mensen aan om variabelen te vergelijken

  • De vorm van de grafiek laat de data zelf nog steeds de bovenhand voeren

  • Er is geen misleiding of onduidelijkheid wat betreft de data

 

Bij het gebruik van grafieken komt vaak graphical deception voor. Dit is het misleiden van lezers door middel van een aangepast grafiek. Let dus bij het aflezen van een grafiek goed op de assen. Ze moeten evenredig verdeeld zijn (in verhouding staat met elkaar) en duidelijk de werkelijkheid weergeven.

Ook de staven in het staafdiagram mogen in dikte niet verschillen, omdat dit een verkeerd beeld schept.

Stappenplan voor het schrijven van een verslag:

  1. Maak je onderwerp duidelijk

  2. Beschrijf het experiment

  3. Beschrijf de resultaten

  4. Gebruik hierbij bijvoorbeeld grafieken, maar niet als deze vervangbaar zijn door een tabel of een zin.

  5. Bediscussiëer de grenzen van de gebruikte statistische technieken

 

Stappenplan voor het maken van een mondelinge presentatie:

  1. Ken je publiek

  2. Beperk je punten tot het onderwerp, conclusie en aanbevelingen

  3. Hou je aan de tijdlimiet

  4. Gebruik grafieken

  5. Zorg voor handouts

 

 

Vormen van histogrammen

Het doel van het tekenen van histogrammen is net als bij andere statistieke technieken, om informatie te verkrijgen. Wanneer de informatie bekend is, kan een beschrijving worden gegeven van hetgeen ontdekt is. De vorm van een histogram kan verschillende karakteristieken hebben.

 

Symmetrie geeft aan dat bij het trekken van een verticale lijn door het midden van het histogram een spiegelbeeld ontstaat, waarbij beide zijden identiek aan elkaar zijn.

 

Bijlage 3.1 bevat een afbeelding van symmetrische histogrammen.

 

Helling

Een schuine histogram heeft een lang eind aan de linkerkant of rechterkant. De helling kan positief of negatief zijn.

Bijlage 3.2 bevat een afbeelding van een historgram met een positieve en negatieve helling.

 

Modale klassen

Een modale klasse is de klasse met het grootste aantal observaties. Er bestaan unimodale en bimodale histogrammen. Bimodaal geeft aan dat er twee verschillende verdelingen aanwezig zijn.

 

Bijlage 3.3 bevat een afbeelding van een unimodale histogram.

Bijlage 3.4 bevat een afbeelding van een bimodale histogram.

 

3.4 grafische presentatie

Grafische uitmuntendheid wordt bereikt wanneer de volgende karakteristieken aan de orde zijn:

 

  1. De grafiek presenteert een grote dataset bondig en duidelijk. Grafische technieken worden gebruikt om een samenvatting van de grote dataset mogelijk te maken. Kleine data sets zijn samengevat met behulp van een tabel.

  2. De ideeën en concepten van de statistische onderzoeker worden op een manier duidelijk gemaakt waarbij de concepten op de juiste manier worden toegelicht. De grafiek is ontworpen om een beschrijving te geven van een fenomeen in data. Een uitstekende grafiek is ene grafiek die bij wijze van spreken duizend woorden kan vervangen en toch te begrijpen blijft voor lezers.

  3. De grafiek moedigt de kijker aan om een vergelijking te maken van twee of meer variabelen. Grafieken geven een variabele weer met weinig informatie. Grafieken kunnen he best gebruikt worden om een relatie tussen twee of meer variabelen uit te leggen en waarom bepaalde resultaten zich hebben voorgedaan.

  4. De weergave spoort de kijker aan om de inhoud van de data te bekijken. De vorm van de grafiek is bedoeld om de inhoud te helpen presenteren.

  5. Er is geen verstoring van wat de data weergeeft. Er kan geen statistische techniek worden gebruikt door zomaar iets te zeggen. Een lezer met kennis kan daar doorheen kijken. Decepties werken in dat geval niet.

 

Deceptie

Het gebruik van grafieken en charts is overtuigend in bijvoorbeeld kranten en tijdschriften. Toch kan er manipulatie aan de orde zijn zonder dat men dit weet. Een doorsnee lezer is niet in staat om door deceptie heen te kijken. Daarom is het belangrijk om kritisch naar informatie te kijken en te evalueren of er enige waarde in de informatie zit. Het eerste waar naar gekeken kan worden is de schaal op de as. Een lijndiagram van de omzet van een bedrijf kan een groei van 100% aangevenover bijvoorbeeld vijf jaar. Bijlage 3.5 bevat een voorbeeld waarbij de grafiek niet van toegevoegde waarde is, omdat er geen waarde op de y-as staat. Dit maakt de informatie onbetrouwbaar en voegt geen waarde toe. Misleiding kan ontstaan door het niet vermelden van de betreffende informatie op de y-as.

 

Hoofdstuk 4. Analyse en beschrijving van data

 

 

Methodes om het centrum te localiseren

Er zijn verschillende technieken om data met nummers te beschrijven. Zoals eerder is uitgelegd, valt er met interval data goed te rekenen. Hier bestaan dan ook de meeste technieken voor. Na de interval data komt ordinal data, waar ook nog enkele technieken voor te beschrijven zijn. Dan blijft er een enkele techniek over voor de nominal data.

Er zijn drie verschillende maten om het centrum van een groep data te vinden.

 

  1. De arithmetic mean, wordt ook wel gewoon de mean genoemd, maar nog duidelijker als het gemiddelde.

  • Berekening: de som van alle verzamelde data delen door het aantal van gevonden data.

 

  1. De median (mediaan), is het middelste van alle data.

  • Berekening: plaats alle gevonden data in volgorde (toenemend of aflopend) en dan is de middelste waarneming de mediaan. Staan er twee cijfers in het midden (bij een even aantal waarnemingen) is het gemiddelde tussen deze twee de mediaan.

 

  1. De mode (modus)

  2. Read more
Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
[totalcount] 1