Waag jij binnenkort de sprong naar het buitenland? Verzeker jezelf van een goede ervaring met de JoHo Special ISIS verzekering
Deze samenvatting is geschreven in collegejaar 2012-2013.
Hoofdstuk 1
Soorten variabelen
Kwantitatieve variabelen gebruik je bij vragen in de trant van 'hoe veel', categorische bij vragen in de trant van 'welk type'. Bij kwantitatieve heb je continue data, die alle aantallen binnen een bepaalde range kunnen aannemen, zoals lengte. Ook zijn er discrete data, deze kunnen alleen hele getallen zijn. Voorbeelden hiervan zijn aantal kinderen, aantal astma-aanvallen per week. Categorische data zijn ordinaal (geordend) of nominaal (ongeordend). Een voorbeeld van ordinaal is een schaal waarop je de mate van borstkanker aangeeft, een voorbeeld van nominaal is geslacht (man/vrouw). Door andere verwoordingen kan je van datasoort wisselen (continue data bloeddruk wordt nominaal als je t definieert als wel of geen hypertensie). Omdat categorisch veel overzichtelijker is, wordt veel data omgezet in categorische data. Zo kan je gelijk zien of een waarde 'normaal' is, zonder de precieze waarde te weten. Voor analyses is juist kwantitatieve data beter.
Noteren van gegevens
Bij een stam-blad-diagram noteer je data overzichtelijk door iets wat meerdere data gemeen hebben, zoals het getal voor de komma, als stam te nemen en dan wat verschilt, in dit geval het getal achter de komma, als blad. Ook gaat het ordenen van je data op deze manier sneller.
De mediaan is de middelste waarde van je data. Deze bepaal je door alle data op een rij te zetten en dan de middelste te nemen. Als je een even aantal hebt, neem je het gemiddelde van de twee middelste waardes. De mediaan is minder gevoelig voor uitbijters dan het gemiddelde. Je kan de data ook opdelen in kwartielen (25%, 50% en 75% van de data ligt onder dat punt). De mediaan is het tweede kwartiel (dus 50%). De data tussen het eerste kwartiel (25%) en het derde kwartiel (75%) noemen we de interkwartielafstand.
Met een dot plot kan je twee testen met elkaar vergelijken door de gevonden waardes naast elkaar te zetten en naar de hoogtes van de mediaan te kijken. Een box-whisker plot is nog duidelijker, omdat hier ook de kwartielen en uitbijters duidelijk te zien zijn.
Bij een histogram maak je groepen van data die dicht bij elkaar liggen. Je maakt hier een staafdiagram van. Doordat je eerst de groepen hebt gemaakt, heb je minder staven (meestal tussen de 5 en 15) dan bij een normaal staafdiagram en vallen verschillen beter op. Hierbij moeten het interval dat elke groep beslaat wel even groot zijn.
Bij een bar chart kan je meerdere variabelen naast elkaar zetten en twee groepen met elkaar vergelijken op die variabelen.
Hoofdstuk 2
Gemiddelde en standaarddeviatie
De mediaan gebruikt niet alle data die gegeven is; als de hoogste waarde hoger zou zijn, of de laagste lager, dan zou de mediaan niet veranderen. Dit betekent dat de mediaan minder gevoelig is voor uitbijters, maar ook minder nauwkeurig is dan het gemiddelde. De kwartielen zeggen niet veel over de verspreiding van de gegevens, dit doet de standaarddeviatie wel. Een normale verdeling wordt dan ook gekenmerkt door het gemiddelde en de standaarddeviatie. Het heeft de vorm van een bel, de lengte en breedte van de uitlopers van deze bel worden bepaald door de standaarddeviatie. Ook andere verdelingen kunnen de vorm van een bel hebben. Veel biologische factoren, zoals hoogte en bloeddruk, hebben zo'n normaal verdeling
Berekenen van de standaarddeviatie
De standaarddeviatie bereken je uit de afstand tot het gemiddelde van alle data, als je deze zou optellen zou je 0 krijgen. Daarom kwadrateer je ze voordat je optelt. Dit getal deel je door het totale aantal data -1. Nu heb je het kwadraat van de standaarddeviatie, als je hiervan de wortel neemt krijg je de standaarddeviatie. We doen het totale aantal data -1 omdat je dan rekening houdt met 'degrees of freedom'.
Als de mediaan en het gemiddelde niet bij elkaar in de buurt liggen, wijst dat op asymmetrie. Ook moet erop gelet worden dat de standaarddeviatie zowel + als - is.
Soms helpt het om data om te zetten (worteltrekken, logaritmes toepassen) om afwijkende resultaten mee te kunnen nemen in de studie. De mediaan verandert dan niet, het gemiddelde wel.
Intersubjectvariatie
Ook per proefpersoon kunnen de gevonden data verschillen, bijvoorbeeld door meetfouten, maar ook door het tijdstip of de omgeving tijdens de tests. Per proefpersoon kan je dan ook een gemiddelde en een standaarddeviatie bepalen. De CV% (coëfficient van variatie) is een maat van herhaalbaarheid, maar wordt vrijwel nooit gebruikt.
Hoofdstuk 3
Steekproeven
Bij statistiek betekent een populatie niet altijd een groep mensen of dieren, het kan ook om gebeurtenissen of gevonden waardes gaan. Wees altijd zeer specifiek over welke populatie het gaat om verwarring te voorkomen. Het gemiddelde van een populatie noteer je als μ (mu), de standaarddeviatie van een populatie als ς. Omdat een populatie te groot is om te testen, neem je een steekproef. Deze moet random zijn: iedereen moet evenveel kans hebben om erin te komen. Voordat de steekproef gekozen wordt, moet eerst goed worden vastgesteld wie er wel en wie er niet tot de populatie behoren. Er zijn veel manieren om een steekproef te selecteren, meestal wordt een tabel gebruikt. Hier kunnen random getallen uit worden gehaald, maar er kan ook met blokken worden gewerkt. Voor de zekerheid moet je zelf even kijken of alles wel is vertegenwoordigd. Als een steekproef unbiased is, is hij vergelijkbaar met de echte populatie. Als de studie precies is, is hij herhaalbaar. Let op: herhaalde studies zullen vergelijkbare resultaten hebben, maar deze hoeven niet altijd vergelijkbaar te zijn met de populatie. Bedenk je wel dat een steekproef vaak niet geheel random is, omdat alleen mensen die mee willen en kunnen doen, meedoen. Ook krijg je vaak biases doordat mensen in het ziekenhuis niet vergelijkbaar zijn met de gehele populatie.
Variatie
De variatie tussen proefpersonen ligt ook aan de mate van variatie tussen mensen/dingen onderling. De variatie in lichaamstemperatuur is bijvoorbeeld veel kleiner dan die in bloeddruk. Daarnaast is de grootte van de steekproef van grote invloed, hoe groter de steekproef hoe representatiever de resultaten. Twee grote steekproeven zullen dus ook minder van elkaar verschillen dan twee kleine.
De centrale limietstelling
De centrale limietstelling geeft aan dat meerdere steekproeven een normale verdeling vormen, zelfs als ze dat op zichzelf niet doen. De standaarderror zegt hoeveel steekproeven van elkaar variëren. Deze bereken je door de standaarddeviatie te delen door de wortel van het aantal verzamelde data, dus σ/wortel n. Dit zegt dus in hoeverre we verwachten dat het gemiddelde van een steekproef varieert.
De standaarderror is ook uit te rekenen van een percentage of proportie. Hierbij ben je niet afhankelijk van de standaarddeviatie. Bij een percentage deel je eerst een percentage door (100-dat percentage). Dit deel je vervolgens door n. Hiervan neem je de wortel.
Hoofdstuk 4
Intervallen
De standaarddeviatie geeft bepaalde grenzen aan, zo valt 95% van de data binnen -1.96 maal de standaarddeviatie en 1.96 (ongeveer 2) maal de standaarddeviatie. Dit betekent dus dat 5% van alle gevonden data buiten de grenzen valt. Met de standaarddeviatie kan je ook berekenen hoe groot de kans is op een bepaalde waarde. Dit doe je door de afstand van de waarde tot de mean (het gemiddelde) te delen door de standaarddeviatie. Het getal dat hieruit komt geeft je een indicatie van de p-waarde. Naast de 95% grens heb je ook een 99,73% grens, dit is bij drie standaarddeviaties. Hierbij heb je dus minder afwijkende gevallen. Bij de meeste tests wordt voor de grens van twee standaarddeviaties gekozen, waarbij 2,5% aan de bovenkant en 2,5% aan de onderkant afvalt.
Het betrouwbaarheidsinterval bereken je door de mean + twee keer de standaarderror en min twee keer de standaarderror te doen. Er is 95% kans dat de mean van de populatie binnen deze grenzen nodig. Als de steekproef kleiner is, wil je vaak verdere grenzen hebben om zeker te zijn dat de mean van de populatie binnen de grenzen ligt. Daarom neem je dan 3 maal de standaarddeviatie. Om meer zekerheid te krijgen welke steekproeven bij de 95% horen die op de populatie lijkt, en welke bij de afwijkende 5%, hebben we dus betrouwbaarheidsintervallen nodig.
Hoofdstuk 5
Steekproeven vergelijken
Omdat we vaak niet weten wat de mean van de populatie is, gaan we ervan uit dat tenminste een van onze steekproeven een vergelijkbare mean heeft. Deze zal niet precies hetzelfde zijn, maar er is per steekproef 95% dat de mean binnen 2 standaarddeviaties van de populatie ligt.
Om de standaarderror tussen de means van twee steekproeven uit te rekenen, neem je eerst het kwadraat van de standaarddeviatie van de eerste steekproef. Deze deel je door het aantal data van die steekproef. Daarna neem je het kwadraat van de standaarddeviatie van de tweede steekproef en deel je die door het aantal data van de tweede steekproef. Deze getallen tel je bij elkaar op en daarvan neem je de wortel om de standaarderror tussen de means van de steekproeven te krijgen.
Om het betrouwbaarheidsinterval te krijgen, neem je het verschil tussen de means van de twee steekproeven en doe je - en + tweemaal de standaarderror.
Nulhypothese en type I fout
De nulhypothese is altijd dat er geen verschil tussen twee groepen is. Met geen verschil bedoelen we niet dat ze identiek zijn, maar dat ze binnen twee standaarddeviaties liggen (dus binnen de 95%). Gemiddeld zal dus 1/20 nulhypotheses verworpen worden. Het kan natuurlijk gebeuren dat je toevallig een rare steekproef had, die niet in 95% van de standaarddeviatie valt. Dan verwerp je een hypothese terwijl deze eigenlijk waar was. Dit noemen we een type I fout. Let dus op dat een verschil boven de 95% de nulhypothese niet automatisch als 'niet waar' bestempeld, maar wel minder waarschijnlijk maakt.
Z-waarde
Om te kijken hoeveel standaarddeviaties twee steekproeven verschillen, kijken we naar het verschil tussen de gemiddelden en delen we dit door de standaarddeviatie. De uitkomst noemen we z. In tabellen is op te zoeken wat de p-waarde is bij bepaalde z-waardes.
P-waarde
Als 0 binnen twee standaardvariaties van twee steekproeven ligt, gaan we ervan uit dat ze van dezelfde populatie zijn (95% kans). Als 0 niet binnen deze grenzen ligt, gaan we ervan uit dat de steekproeven uit andere populaties komen. De p waarde geeft aan hoeveel kans je hebt om boven/onder een bepaalde waarde te komen. Als deze kleiner dan 5% is, dan zit je gevonden waarde buiten 2 standaarddeviaties. We gebruiken hier 5% in plaats van de 2,5% die aan beide kanten afwijkt, omdat de p-waarde voor te lage en te hoge waardes hetzelfde getal geeft.
In een grote steekproef kan je ervan uitgaan dat de standaarderror tussen twee steekproeven, waardoor de standaarderror van de steekproef hetzelfde is als die van het gemiddelde, namelijk de standaarddeviatie gedeeld door de wortel van het aantal data (SD/wortel n).
Alternatieve hypothese en type II fout
Het is ook belangrijk om te beseffen dat een hypothese niet meteen aangenomen moet worden als er geen significant verschil wordt gevonden. Als de nulhypothese wordt aangenomen terwijl deze eigenlijk verworpen had moeten worden, spreken we van een fout type II of een β. De kracht van een studie wordt aangegeven als 1-β, dit gebruik je bij het plannen van een studie (hoeveel testpersonen heb ik nodig?). β-fouten komen voornamelijk voor als de steekproef te klein is.
Hoofdstuk 13
Soorten studies
Dat de studie goed gaat is belangrijker dan dat de analyse goed gaat, omdat de analyse makkelijker opnieuw te doen is dan de studie. Prospective studies zijn het efficiëntst. Hierbij wordt vaak gebruik gemaakt van een controle groep,. Door de controle placebo's te geven sluit je uit dat het gevonden effect een resultaat is van het geven van een behandeling (dit kan op zichzelf namelijk ook al helpen). Soms is dit onmogelijk, zoals wanneer de behandeling bestaat uit het volgen van cursussen. Bij dubbelblind onderzoek weet ook de onderzoeker niet welke patiënt welke behandeling krijgt. Een groot probleem is dat de behandeling niet altijd (goed) wordt opgevolgd: mensen nemen bijvoorbeeld hun medicatie niet (goed) in. Bij een quasi experimenteel design zijn de groepen niet random ingedeeld, hierbij speelt bias een rol. Bij een cohort studie volg je een groep aanvankelijk gezonde mensen. Je kijkt welke risicofactoren zij tegenkomen (zoals roken) en wat voor gevolgen dit heeft. Deze studies gaan over lange tijd.
Bij retrospective studies kijk je naar mensen met een ziekte, en kijk je waar dat door zou kunnen komen (je kijkt dus terug). Hierbij zijn er veel confounders (variabelen die zorgen dat twee groepen niet vergelijkbaar zijn). Ook recall bias, bijvoorbeeld wanneer mensen met een ziekte zich meer nare periodes herinneren dan gezonde mensen. Een cross-sectionele studie is observationeel en bestudeert de populatie op één bepaald ogenblik.
Grote van de steekproef
De gewenste grote van de steekproef hangt af van error rates type I en II (α en β), de variabiliteit van de data (σ2) en de effectgrote (d). Meestal staat α vast op 5% en β op 20%. Om de gewenste steekproef uit te rekenen, doe je n=16σ2/d2. Als d 5 is en σ 10, dan kom je dus uit op 16*100/25=64 proefpersonen. Te weinig proefpersonen is niet nauwkeurig, te veel is geldverspilling.
Hypotheses
Sommige studies hebben geen hypothese, zoals het kijken naar prevalenties. Andere hebben een confirmatory hypothesis (bevestigd een eerder voorgesteld verband) of een exploratory hypothesis (wordt gesuggereerd door data). Als je bij confirmatory hypothesis jouw studie vergelijkt met een andere, onafhankelijke hypothese, wordt de nulhypothese niet bij p<0,05 maar bij p<0,025 verworpen, en wordt hij dus meestal niet verworpen.
Afhankelijkheid
Twee hypotheses zijn afhankelijk als de proefpersonen hetzelfde of gerelateerd zijn. Cross-over en case control waarbij de groepen ingedeeld zijn op leeftijd, geslacht en sociale status zijn dus afhankelijk. Als delen van een studie afhankelijk zijn, reken je deze vaak als één uitkomst, niet als twee. Afhankelijk van je in- en output kies je een test.
- for free to follow other supporters, see more content and use the tools
- for €10,- by becoming a member to see all content
Why create an account?
- Your WorldSupporter account gives you access to all functionalities of the platform
- Once you are logged in, you can:
- Save pages to your favorites
- Give feedback or share contributions
- participate in discussions
- share your own contributions through the 7 WorldSupporter tools
- 1 of 2161
- next ›
Add new contribution