1. Hoe kunnen data grafisch worden weergegeven?


Statistieken worden in veel aspecten van ons dagelijks leven gebruikt: om de verkoop van een nieuw product te voorspellen, of bijvoorbeeld om het weer, gemiddelde cijferpunten, enzovoort te voorspellen. We moeten constant grote hoeveelheden gegevens opnemen en interpreteren. Wat moeten we er echter mee doen als de gegevens eenmaal zijn verzameld? Hoe beïnvloeden gegevens de besluitvorming? Over het algemeen helpen statistieken ons om gegevens te begrijpen. In dit eerste hoofdstuk zullen we grafische manieren introduceren om gegevens te presenteren. Deze grafische weergaven (tabellen en plots) helpen om de gegevens beter te begrijpen. Voorbeelden van dergelijke grafische weergaven zijn: tabellen, staafdiagrammen, cirkeldiagrammen, histogrammen, stengel- en bladweergaven, enzovoort.

Hoe kun je beslissingen nemen in een onzekere omgeving?

Vaak zijn beslissingen gebaseerd op beperkte informatie. Stel bijvoorbeeld dat iemand geïnteresseerd is in het op de markt brengen van een nieuw product. Alvorens dit te doen, wil de fabrikant een marktonderzoek uitvoeren om het potentiële vraagniveau te beoordelen. Hoewel de fabrikant geïnteresseerd is in alle potentiële kopers (populatie), is deze groep vaak te groot om te analyseren. Gegevens verzamelen voor de hele bevolking is onmogelijk of onbetaalbaar. Daarom is een representatieve subgroep van de populatie (steekproef) nodig.

Steekproef en populatie

Een populatie is de complete set van alle items (waarnemingen) waarin men geïnteresseerd is. De populatiegrootte wordt aangegeven met N en kan zeer groot zijn, soms zelfs oneindig. Een steekproef is een waargenomen subset van de populatie. De steekproefgrootte wordt aangegeven met n.

Steekproeftrekking

Er zijn verschillende manieren om een ​​representatieve subgroep (steekproef) van de populatie te verkrijgen. Dit proces wordt ook steekproeftrekking (in het Engels: sampling) genoemd. Zo kan een eenvoudige willekeurige steekproef (SRS) worden uitgevoerd. SRS is een procedure om een ​​steekproef van n objecten (individuen) zo te selecteren dat elk lid van de populatie puur toevallig wordt gekozen. De selectie van een lid heeft geen invloed op de selectie (kans) van een ander lid. Met andere woorden, elke observatie (individu) heeft een gelijke kans om in de steekproef te worden opgenomen. SRS komt heel veel voor, met als gevolg dat het bijvoeglijk naamwoord vaak wegvalt, wat betekent dat de resulterende steekproef vaak simpelweg een "willekeurige steekproef" (random sample) wordt genoemd. Een tweede manier van steekproeftrekking wordt systematische steekproeftrekking genoemd. Voor systematische steekproeven is de populatielijst op een bepaalde manier gerangschikt. Deze rangschikking houdt geen verband houdt met de variable van interesse. Bij systematische steekproeven wordt elk jde-item in de populatie geselecteerd, waarbij j de verhouding is van de populatiegrootte N tot de gewenste steekproefgrootte n, dat wil zeggen: j = N / n. Het eerste item dat in willekeurig geselecteerde items moet worden opgenomen. Systematische steekproeven geven een goede weergave van de populatie als er geen cyclische variatie in de populatie is.
 

Parameter en statistiek

Een parameter is als een maat die een populatiekarakteristiek beschrijft. Een statistiek wordt gedefinieerd als een numerieke maat die een steekproefkarakteristiek beschrijft. Als we bijvoorbeeld het gemiddelde IQ van 500 geregistreerde kiezers meten, wordt dit gemiddelde een statistiek genoemd. Als we om de een of andere reden het gemiddelde IQ van de gehele populatie kunnen berekenen, wordt dit resulterende gemiddelde een parameter genoemd.

In de praktijk zijn we meestal niet in staat om de relevante parameters direct te meten. Daarom gebruiken we statistieken om enig inzicht te krijgen in de populatiewaarden. We moeten ons echter realiseren dat er altijd een element van onzekerheid bij betrokken is, omdat we de exacte waarde van de bevolking niet kennen. Er zijn twee bronnen van fouten die deze onzekerheid beïnvloeden. Ten eerste is de steekproeffout (in het Engels: sampling error) te wijten aan het feit dat informatie beschikbaar is over slechts een subset van de populatieleden (meer in detail besproken in hoofdstukken 6, 7 en 8). Ten tweede is de niet-steekproeffout (in het Engels: non-sampling error) niet verbonden met de gebruikte bemonsteringsprocedure. Voorbeelden van niet-monsterfouten zijn: de steekproef die is bemonsterd is eigenlijk niet de relevante; deelnemers aan de enquête kunnen onnauwkeurige of oneerlijke antwoorden geven; ondervraagden reageren mogelijk helemaal niet op (bepaalde) vragen.

Welke stappen dien je te nemen bij het statistisch denken?

Statistisch denken begint met probleemdefinitie:

  1. Welke informatie is vereist?
  2. Wat is de populatie van interesse?
  3. Hoe moeten steekproefleden worden geselecteerd?
  4. Hoe moet informatie van de steekproefleden worden verkregen?

Na het beantwoorden van deze vragen zijn we geïnteresseerd in de vraag hoe we steekproefinformatie kunnen gebruiken om beslissingen over de populatie te nemen. Voor deze besluitvorming zijn zowel beschrijvende statistieken als inferentiële statistieken vereist. Beschrijvende statistieken zijn gericht op grafische en numerieke procedures; ze worden gebruikt om gegevens samen te vatten en te verwerken. Vervolgens gebruiken inferentiële statistieken de gegevens om voorspellingen, voorspellingen en schattingen te doen om beslissingen te nemen.

Wat is een variabele en wat zijn de meetniveaus van een variabele?

Een variabele is een kenmerk van een individu of objecten. Voorbeelden zijn leeftijd en gewicht.

Variabelen zijn ofwel categorisch (met antwoorden die tot groepen of categorieën behoren) of numeriek (met antwoorden die tot een numerieke schaal behoren). Numerieke variabelen kunnen worden onderverdeeld in discreet en continu. Een discrete numerieke variabele kan (maar hoeft niet) een eindig aantal waarden te hebben. Discrete numerieke variabelen komen vaak van een telproces, zoals het aantal studenten in een klas of het aantal studiepunten dat studenten hebben verdiend. Een continue numerieke variabele kan elke waarde aannemen binnen een gegeven bereik van reële getallen. Continue numerieke variabelen vloeien vaak voort uit een meetproces in plaats van een telproces. Voorbeelden zijn gewicht, lengte en de afstand tussen twee steden.

Variabelen kunnen op verschillende manieren worden gemeten. Het belangrijkste onderscheid is tussen kwantitatief (waarin er een meetbare betekenis is voor het verschil in getallen) en kwalitatief (waarbij er geen meetbare betekenis is voor het verschil in getallen). Kwalitatieve gegevens kunnen verder worden onderverdeeld in nominale en ordinale gegevens. Nominale variabelen worden als het laagste meetniveau beschouwd. De numerieke identificatie wordt strikt voor uw gemak gekozen en houdt geen rangorde in van antwoorden (bijvoorbeeld: land van nationaliteit of geslacht). Ordinale variabelen impliceren een rangorde van de gegevens (bijvoorbeeld productkwaliteit, met 1 = slecht, 2 = gemiddeld, 3 = goed). Kwantitatieve gegevens kunnen verder worden onderverdeeld in interval (willekeurige nul) en ratio (absolute nul). Temperatuur wordt bijvoorbeeld beschouwd als een intervalvariabele (het heeft een willekeurig nulpunt). Gewicht wordt beschouwd als een verhoudingsvariabele (het heeft een absoluut nulpunt).

Hoe kunnen categorische variabelen grafisch worden beschreven?

Categorische variabelen kunnen op verschillende manieren grafisch worden beschreven. Deze worden in dit gedeelte kort geïntroduceerd.

Een frequentieverdeling is een tabel die wordt gebruikt om gegevens te ordenen. De linkerkolom bevat alle mogelijke antwoorden van een variabele. De rechterkolom bevat de frequenties, het aantal waarnemingen voor elke mogelijke reactie. Men kan ook een relatieve frequentieverdeling verkrijgen door elke frequentie te delen door het aantal waarnemingen en de resulterende verhouding met 100% te vermenigvuldigen.

Frequenties kunnen ook worden weergegeven door middel van grafieken. Veelgebruikte grafieken om frequenties weer te geven zijn een staafdiagram en een cirkeldiagram. Anders dan een histogram, is het in een staafdiagram (in het Engels: bar chart) niet nodig dat de balken elkaar "raken". Elke balk geeft de frequentie van een categorie weer. Een staafdiagram wordt vaak gebruikt als men de aandacht op de frequentie van elke categorie wil vestigen. Een cirkeldiagram (in het Engels: pie chart) wordt vaak gebruikt als men de aandacht wil vestigen op het aandeel van frequenties in elke categorie. De "taart" (dat wil zeggen de cirkel) vertegenwoordigt het totaal, en de "stukken" (de segmenten) vertegenwoordigen aandelen (categorieën) van dat totaal.

 
Een speciaal type staafdiagram is een Pareto-diagram. Een Pareto-diagram geeft de geordende frequenties aan. De balk links geeft de meest voorkomende oorzaak aan. De balken rechts geven oorzaken aan met afnemende frequenties. Een Pareto-diagram wordt gewoonlijk gebruikt om de "vitale enkelingen" te scheiden van de "triviale velen".

Een kruistabel (ook bekend als contingentietabel) geeft het aantal waarnemingen weer voor elke combinatie van waarden voor twee categorische variabelen (nominaal of ordinaal). De combinatie van alle mogelijke intervallen voor deze twee variabelen bepaalt het aantal cellen in het aantal. Een kruistabel met r rijen (d.w.z. aantal variabelen van de eerste variabele) en c kolommen (d.w.z. het aantal categorieën van de tweede variabele) wordt een r x c kruistabel genoemd.

 

Hoe kunnen tijdreeksgegevens grafisch worden weergegeven?

Cross-sectionele gegevens zijn gegevens die op één tijdstip worden verzameld. Tijdreeksgegevens (in het Engels" time-series data) hebben daarentegen betrekking op gegevens die op opeenvolgende tijdstippen worden gemeten. Met andere woorden, een tijdreeks is een reeks metingen, die in de tijd worden geordend, voor een bepaalde hoeveelheid interesse. De volgorde van de waarnemingen in tijdreeksen is belangrijk. Tijdreeksgegevens kunnen grafisch worden weergegeven door een lijndiagram, ook bekend als een tijdreeksplot. Dit is een plot met tijd op de horizontale as en de numerieke hoeveelheid interesse langs de verticale as. Elke observatie levert één punt op de grafiek op. Door aangrenzende punten in de tijd samen te voegen door een rechte lijn, wordt een tijdreeksplot geproduceerd. Tijdreeksen kunnen dus worden gebruikt om grafisch een trend in de tijd weer te geven, zoals het bruto binnenlands product in de tijd, de wisselkoersen (USD naar EUR) gedurende een decennium, of de ontvangsten en uitgaven van de federale overheid in de afgelopen eeuw.

Hoe kunnen numerieke gegevens grafisch worden weergegeven?

Er zijn verschillende manieren om numerieke variabelen grafisch te beschrijven.

Net als categorische variabelen kan men een frequentieverdeling voor numerieke variabelen creëren. De klassen (intervallen) voor een frequentieverdeling voor numerieke gegevens zijn echter niet zo gemakkelijk te identificeren als voor categorische gegevens. Om een frequentieverdeling voor numerieke gegevens te construeren, moeten drie regels worden gevolgd:

  1. Bepaal k, dat is het aantal klassen. Om dit te doen, kan men de volgende snelgids (in het Engels: quick guide) gebruiken om het aantal klassen te schatten:

    Steekproefgrootte (n)Aantal klassen (k)
    Minder dan 505 - 7
    50 - 1007 - 8
    101 - 5008 - 10
    501 - 100010 - 11
    1001 - 500011 - 14
    Meer dan 500014 - 20

    Hoewel deze korte handleiding een vuistregel biedt, blijft deze enigszins willekeurig. Vaak bieden oefening en ervaring de beste richtlijnen. Over het algemeen vereisen grotere gegevenssets meer klassen dan kleinere gegevenssets. Als er te weinig klassen zijn geselecteerd, kunnen patronen en kenmerken van de gegevens verborgen zijn. Wanneer te veel klassen zijn geselecteerd, bevatten sommige intervallen mogelijk geen waarnemingen of hebben ze zeer kleine frequenties.
     

  2. Elke klasse moet dezelfde breedte hebben, aangegeven met w. De breedte wordt bepaald door:
    w = Klassebreedte = (grootste waarneming - kleinste waarneming) / aantal klassen
    Merk op dat w altijd naar boven moet worden afgerond.
     
  3. Klassen moeten inclusief en niet overlappend zijn.
    Met andere woorden, elke observatie moet tot één en slechts één klasse behoren. Stel dat de frequentieverdeling de volgende klassen bevat: "leeftijd 20 - 30", "leeftijd 30 - 40" en "leeftijd 40+". Tot welke categorie behoort een persoon van 30 jaar? Het is daarom belangrijk om de grenzen of eindpunten van elke klasse duidelijk te identificeren. Om overlapping te voorkomen, zou men bijvoorbeeld de klassen als volgt kunnen herdefiniëren: "leeftijd 20, maar minder dan 30 jaar", "leeftijd 30 maar minder dan 40 jaar", "leeftijd 40 jaar en ouder".

Een cumulatieve frequentieverdeling bevat het totale aantal observaties waarvan de waarden lager zijn dan de bovengrens voor een bepaalde klasse. De cumulatieve frequenties kunnen worden geconstrueerd door de frequenties van alle frequentieverdelingsklassen tot en met de huidige klasse toe te voegen. In een relatieve cumulatieve frequentieverdeling worden deze cumulatieve frequenties uitgedrukt als cumulatieve verhoudingen of procent.

Een histogram is een grafische weergave, bestaande uit verticale balken opgebouwd op een horizontale lijn die intervallen oplevert voor de variabele die wordt weergegeven. Deze intervallen komen overeen met de klassen in een frequentieverdelingstabel. De hoogte van elke balk is evenredig met het aantal waarnemingen (de frequentie) in dat interval. Het aantal observaties kan (maar hoeft niet) boven de balken te worden weergegeven.

Een ogive (ook bekend als cumulatieve lijngrafiek) is een lijn die punten verbindt die het cumulatieve percentage waarnemingen zijn onder de bovengrens van elk interval in een cumulatieve frequentieverdeling.

De vorm van een verdeling kan onder andere worden gemeten via symmetrie en scheefheid. Een verdeling wordt symmetrisch genoemd wanneer de waarnemingen in evenwicht zijn of ongeveer gelijk verdeeld over het midden. Er wordt gezegd dat een verdeling scheef is wanneer de waarnemingen niet symmetrisch aan weerszijden van het midden zijn verdeeld. Een verdeling is scheef naar rechts (ook bekend als positief scheef) wanneer het een staart heeft die zich verder naar rechts uitstrekt. Een verdeling is scheef naar links (negatief scheef) wanneer de staart zich verder naar links uitstrekt. Inkomen is bijvoorbeeld scheef, omdat er een relatief klein aantal mensen met een hoog inkomen is. Een groot deel van de bevolking ontvangt een bescheiden inkomen en slechts een klein deel ontvangt een (zeer) hoog inkomen.

Een stam-en-blad-weergave is een grafiek die wordt gebruikt voor verkennende gegevensanalyse. Het biedt een alternatief voor een histogram. De "leidende" (eerste) cijfers worden weergegeven in de stelen. De laatste cijfers worden bladeren genoemd. De bladeren worden afzonderlijk vermeld voor elk lid van een klas. Ze worden in oplopende volgorde na elk van de stelen afgeleverd.

Hoe kunnen twee numerieke variabelen grafisch worden weergegeven?

Tot nu toe hebben we vooral de grafische weergave van een enkele variabele besproken. Grafische weergaven kunnen echter ook worden gebruikt om twee variabelen weer te geven. Een dergelijke mogelijkheid wordt geboden door een spreidingsplot. Een spreidingsplot (in het Engels: scatter plot) is een grafische weergave van twee numerieke variabelen, vaak een onafhankelijke variabele (op de x-as) en een afhankelijke variabele (op de y-as). De spreidingsplots bevatten de volgende informatie: het bereik van beide variabelen, het waardenpatroon over het bereik, een suggestie voor een mogelijk verband tussen de twee variabelen en een indicatie van uitbijters (extreme punten). Een voorbeeld van een eenvoudig spreidingsdiagram tussen variabele X en Y wordt hieronder weergegeven.

Wat zijn veelvoorkomende fouten bij het presenteren van gegevens?

Helaas kunnen bij het grafisch weergeven van gegevens fouten worden gemaakt. Slecht ontworpen grafieken kunnen de waarheid gemakkelijk vervormen. Daarom is nauwkeurig grafisch ontwerp van het grootste belang. Grafieken moeten overtuigend, duidelijk en waarheidsgetrouw zijn. In deze sectie worden enkele veelvoorkomende voorbeelden van misleidende grafieken besproken.

Histogrammen kunnen misleidend zijn. We weten dat de breedte van alle intervallen hetzelfde moet zijn. Maar soms komen onderzoekers in de verleiding om een ​​frequentieverdeling met enkele smalle intervallen te construeren waar het grootste deel van de waarnemingen zich bevindt, en bredere waarnemingen elders. Dergelijke ongelijke intervallen kunnen leiden tot een onjuiste interpretatie van de weergegeven gegevens. Over het algemeen kunnen we stellen dat we onder geen enkele omstandigheid ooit een histogram met ongelijke fouten moeten construeren. Dit wordt alleen beschouwd als een waarschuwing tegen misleidende grafieken.

Een tijdreeksplot kan misleidend zijn door een bepaalde meetschaal te selecteren. Deze schaal kan namelijk zodanig worden gekozen dat deze de indruk kan wekken van relatieve stabiliteit of aanzienlijke fluctuaties in de tijd (afhankelijk van wat men wil benadrukken). Hoewel er geen "juiste" schaalkeuze is voor een bepaalde tijdreeksplot, moet u rekening houden met de schaal waarop de metingen worden uitgevoerd. De lezer moet zich dus bewust zijn van deze potentiële invloed bij het interpreteren van de grafiek.

Bullet points

  • Een populatie is de complete set van alle items (waarnemingen) waarin men geïnteresseerd is. De populatiegrootte wordt aangegeven met N en kan zeer groot zijn, soms zelfs oneindig. Een steekproef is een waargenomen subset van de populatie. De steekproefgrootte wordt aangegeven met n.
  • Een parameter is als een maat die een populatiekarakteristiek beschrijft. Een statistiek wordt gedefinieerd als een numerieke maat die een steekproefkarakteristiek beschrijft. Als we bijvoorbeeld het gemiddelde IQ van 500 geregistreerde kiezers meten, wordt dit gemiddelde een statistiek genoemd. Als we om de een of andere reden het gemiddelde IQ van de gehele populatie kunnen berekenen, wordt dit resulterende gemiddelde een parameter genoemd.
  • Variabelen kunnen op verschillende manieren worden gemeten. Het belangrijkste onderscheid is tussen kwantitatief (waarin er een meetbare betekenis is voor het verschil in getallen) en kwalitatief (waarbij er geen meetbare betekenis is voor het verschil in getallen). Kwalitatieve gegevens kunnen verder worden onderverdeeld in nominale en ordinale gegevens. Nominale variabelen worden als het laagste meetniveau beschouwd. De numerieke identificatie wordt strikt voor uw gemak gekozen en houdt geen rangorde in van antwoorden (bijvoorbeeld: land van nationaliteit of geslacht). Ordinale variabelen impliceren een rangorde van de gegevens (bijvoorbeeld productkwaliteit, met 1 = slecht, 2 = gemiddeld, 3 = goed). Kwantitatieve gegevens kunnen verder worden onderverdeeld in interval (willekeurige nul) en ratio (absolute nul). Temperatuur wordt bijvoorbeeld beschouwd als een intervalvariabele (het heeft een willekeurig nulpunt). Gewicht wordt beschouwd als een verhoudingsvariabele (het heeft een absoluut nulpunt).
  • De vorm van een verdeling kan onder andere worden gemeten via symmetrie en scheefheid. Een verdeling wordt symmetrisch genoemd wanneer de waarnemingen in evenwicht zijn of ongeveer gelijk verdeeld over het midden. Er wordt gezegd dat een verdeling scheef is wanneer de waarnemingen niet symmetrisch aan weerszijden van het midden zijn verdeeld. Een verdeling is scheef naar rechts (ook bekend als positief scheef) wanneer het een staart heeft die zich verder naar rechts uitstrekt. Een verdeling is scheef naar links (negatief scheef) wanneer de staart zich verder naar links uitstrekt. Inkomen is bijvoorbeeld scheef, omdat er een relatief klein aantal mensen met een hoog inkomen is. Een groot deel van de bevolking ontvangt een bescheiden inkomen en slechts een klein deel ontvangt een (zeer) hoog inkomen.
  • Er zijn vuistregels om de breedte van een interval te bepalen. De breedte wordt bepaald door: w = Klassebreedte = (grootste waarneming - kleinste waarneming) / aantal klassen. Merk op dat w altijd naar boven moet worden afgerond. Het aantal klassen kan geschat worden middels een aantal vuistregels, samengevat in de snelguids (quick guide).

Oefenvragen

Geef bij vragen 1-4 aan of elk van de volgende variabelen categorisch of numeriek is. Als de variabele categorisch is, geef dan het meetniveau op. Als de variabele numeriek is, geeft u het meetniveau op en geeft aan of de variabele discreet of continu is.

  1. Het aantal aandelen van een aandeel gekocht door een makelaar
  2. De nationaliteit van een student
  3. Het gemiddelde cijfer van een student
  4. De temperatuur in graden Celsius
     
  5. Bij een bezoek aan een nieuw geopende H&M winkel kregen klanten een kort onderzoek. Is het antwoord op elk van de volgende vragen categorisch of numeriek? Geef, indien categorisch, het meetniveau op. Indien numeriek, is het discreet of continu?
    1. Is dit je eerste bezoek aan deze H&M winkel?
    2. Op een schaal van 1 (zeer ontevreden) tot 5 (zeer tevreden), hoe tevreden bent u met de aankoop (en) van vandaag?
    3. Wat waren de kosten van uw aankoop (en)?

Toeristen die Kroatië bezoeken, worden gevraagd een enquête in te vullen. Het onderzoek bestaat uit verschillende vragen over hoe zij hun vakantie hebben ervaren. De vragen worden hieronder gegeven (vraag 6 - 10). Beschrijf voor elke vraag het type verkregen gegevens.

  1. Welke van de volgende gebieden heb je bezocht?
    - Kust
    - Eilanden
    - Bergen
    - De hoofdstad (Zagreb).
  2. Heb je een zeilboot gehuurd?
    - Ja
    - Nee
  3. Wat was het gemiddelde bedrag dat u per dag aan eten uitgeeft?
  4. Wat zou u aanbevelen als het optimale aantal dagen voor toeristen om in Kroatië door te brengen?
  5. Hoe vaak zou u aanbevelen om Kroatië te bezoeken?
    - Elk jaar
    - Eens in de vijf jaar
    - Een keer in het leven
    - Nooit 
     
  6. Een beheerder onderzoekt de reiskosten van faculteitsleden die verschillende congressen hebben bijgewoond. Hij ontdekte dat 36% van de reiskosten werd besteed aan transportkosten, 17% werd besteed aan accommodatie, 13% werd uitgegeven aan voedsel; 9% werd besteed aan vergaderkosten, 10% aan registratiekosten en de rest werd besteed aan diverse kosten.

    a. Maak een cirkeldiagram voor deze gegevens
    b. een staafdiagram voor deze gegevens

  7. Een bedrijf heeft zeven codes gedefinieerd voor mogelijke defecten voor een van zijn producten. Construeer een Pareto-diagram voor de volgende frequenties:
    Defect codeABCDEFG
    Frequentie10701590843
  8. Maak een tijdreeksplot voor de volgende gegevens van klanten die in een nieuw winkelcentrum in een bepaalde week winkelen.
    DagAantal klanten
    Maandag516
    Dinsdag534
    Woensdag451
    Donderdag487
    Vrijdag558
    Zaterdag641
    Zondag830
  9. Bepaal een geschikte intervalbreedte voor een willekeurige steekproef van 370 waarnemingen met scores die tussen 40 en 200 liggen.
  10. Maak een stam-en-bladweergave voor de volgende gegevens.
    1716151717
    2030252514
    1218312626
    1215161628
  11. Beschouw de gegevens van vraag 15. Maak een histogram voor deze gegevens.
  12. Beschouw de gegevens van vraag 15. Is de verdeling van deze gegevens symmetrisch, links scheef of rechts scheef?
  13. Maak een spreidingsplot bij de volgende gegevens.
    (3, 10)
    (2, 8)
    (3, 12)
    (4, 15)
    (6, 20)
    (5, 15)
    (4, 12)
  14. De volgende tabel toont de leeftijd van faculteitsleden die zijn gepromoveerd aan de grootste universiteit van Nederland.
    LeeftijdPercentage
    26 - 2818.00
    29 - 3223.50
    33 - 4030.51
    41 - 5512.99
    56+15.00

    Hoeveel procent van de faculteitsleden die zijn gepromoveerd, is 46 jaar of ouder?

  15. Beschouw de gegevens van vraag 19. Welk percentage van het faculteitslid dat promoveerde, is jonger dan 33 jaar?
  16. Maak een relatieve cumulatieve frequentieverdeling van de gegevens beschreven bij vraag 19.
  17. Stel dat we 200 observaties hebben. Wat zijn de cumulatieve frequenties voor de gegevens die bij vraag 18 zijn beschreven?
  18. Interpreteer de cumulatieve frequenties van vraag 22.
  19. De volgende gegevens worden gepresenteerd:
    Leeftijd30 -4040 -5050 - 6060 - 70
    Number12132234

    Beschrijf de mogelijke fouten in deze tabel.

  20. Stel dat het bedrag dat iemand per maand aan filmtickets uitgeeft (in euro's) is:
    6.0, 5.3, 4.0, 5.7, 10.0, 8.4, 2.5, 10.0, 9.5, 0.0, 5.0, 10.0
    Welke grafische weergave is geschikt om deze gegevens visueel weer te geven?
  21. Uit een survey blijkt dat 32% van de shoppers in Duitsland met een inkomen van minder dan 50.000 online winkelt. Van de resterende 68% winkelt de helft van de particulieren nooit, en de andere helft winkelt door naar de eigenlijke winkel te gaan. Gebruik een cirkeldiagram om deze gegevens te plotten.
  22. Vier soorten betaalrekeningen worden aangeboden door een bank. Stel dat een willekeurige steekproef van 300 klanten werd ondervraagd en enkele vragen stelde. Het bleek dat 60% van de respondenten de voorkeur gaf aan "Easy Checking", 12% aan "Intelligent Checking", 18% aan "Super Checking" en de rest aan "Ultimate Checking". Van de deelnemers die Easy Checking hebben gekozen, waren er 100 vrouwen. Van degenen die voor Intelligent Checking hebben gekozen, was een derde vrouw. Van degenen die Super Checking verkozen, was de helft vrouwelijk. Ten slotte was 80% van degenen die voor Ultimate Checking hebben gekozen, vrouw. Beschrijf de gegevens met een kruistabel.Beschouw de gegevens van vraag 27. Hoeveel vrouwen zijn er in totaal en hoeveel mannen?
  23. Beschouw de gegevens van vraag 27. Hoeveel vrouwen zijn er in totaal en hoeveel mannen?
  24. Beschouw de gegevens van vraag 27. Welk type grafische weergave is geschikt voor deze gegevens?
    1. Histogram
    2. Spreidingsplot
    3. Tijdreeksplot
    4. Staafdiagram
  25. Welk type grafische weergave is geschikt voor twee numerieke variabelen?

Antwoorden op de oefenvragen

  1. numeriek; interval; discreet
  2. categorisch; nominaal
  3. numeriek; ratio; continu
  4. numeriek; interval; continu
  5. a = categorisch; nominaal
    b = categorisch; ordinaal
    c = numeriek; continu
  6. Zowel categorisch (nominale gegevens, binair gecodeerd: ja / nee) als numeriek (discreet) door het aantal gebieden dat men heeft bezocht.
  7. categorisch; nominaal; binair gecodeerd.
  8. numeriek; interval; continu.
  9. numeriek; interval; discreet.
  10. categorisch; ordinale.
  11. a:
    b:
    Merk op dat niet alle categorieën worden vermeld (vanwege de beperkte ruimte). Het algemene idee van een staafdiagram blijft echter duidelijk uit deze plot.
  12. Een Pareto-diagram is geordend van de hoogste naar de laagste frequentie.

  13. Merk op dat de tijdpunten op de horizontale as uit getallen bestaan. Dit kan natuurlijk ook worden vervangen door de dagen (maandag - zondag).
  14. Volgens de beknopte handleiding kan een steekproef van 370 worden geschat door acht tot tien klassen.
    Met behulp van de formule voor opbrengsten met intervalbreedte:
    w = (200 - 40) / 8 = 20; of
    w = (200 - 40) / 10 = 16
    Een geschikte intervalbreedte ligt dus ergens tussen 16 en 20.
  15. 1 | 2, 2, 4, 5, 5, 6, 6, 6, 7, 7, 7, 8
    2 | 0, 5, 5, 6, 6, 8
    3| 0, 1
  16. Rechts-scheef verdeeld (positief scheef); the staart ligt aan de rechterkant van de distributie.
  17. 12.99 + 15.00 = 27.99%
  18. 18.00 + 23.50 = 41.50%
  19. LeeftijdPercentage
    26 - 2818.00
    29 - 3241.50
    33 - 4072.01
    41 - 5585.00
    56+100.00
  20. De cumulatieve frequenties voor 200 waarnemingen zijn: 36, 82, 144, 170, 200.
  21. Voor steekproefgrootte n = 200 zijn er 36 personen die zijn gepromoveerd tussen de leeftijd van 26 en 28. Er zijn 82 personen die zijn gepromoveerd vóór de leeftijd van 33. Er zijn 144 personen die zijn gepromoveerd vóór de leeftijd van 41 , enzovoorts.
  22. Een mogelijke fout ligt in de grenzen van de frequentieklassen. Ten eerste is er geen boven- en ondergrens, waardoor (mogelijk) sommige observaties worden uitgesloten. Ten tweede is het onduidelijk uit deze frequentieverdeling, tot welke klasseobservaties zoals 30 en 40 behoren.
  23. Een tijdreeksplot zou hier geschikt zijn. Gegevens worden gegeven voor t aantal tijdpunten, met t = 12.
  24. Type rekeningVrouwManTotaal
    Easy Checking10080180
    Intelligent Checking122436
    Super checking272754
    Ultimate Checking24630
    Totaal163137300
  25. Er zijn 163 vrouwen en 137 mannen in de steekproef van 300 deelnemers.
  26. D, een staafdiagram. De andere grafieken zijn geschikt in het geval van numerieke variabelen. Hier hebben we frequenties voor twee categorische variabelen. Dit wordt het best weergegeven door een staafdiagram (of cirkeldiagram).
  27. Een spreidingsplot.
Selected Categories
This Summary is part of the following bundle(s)
Contributions, Comments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
Summaries & Study Note of HannekevanderHoef
Join World Supporter
Join World Supporter
Log in or create your free account

Why create an account?

  • Your WorldSupporter account gives you access to all functionalities of the platform
  • Once you are logged in, you can:
    • Save pages to your favorites
    • Give feedback or share contributions
    • participate in discussions
    • share your own contributions through the 11 WorldSupporter tools
Content
Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
20
Promotions
Image

Op zoek naar een uitdagende job die past bij je studie? Word studentmanager bij JoHo !

Werkzaamheden: o.a.

  • Het werven, aansturen en contact onderhouden met auteurs, studie-assistenten en het lokale studentennetwerk.
  • Het helpen bij samenstellen van de studiematerialen
  • PR & communicatie werkzaamheden

Interesse? Reageer of informeer