Correlatie versus regressie
Correlatie en regressie zijn twee onderwerpen die sterk verweven zijn, maar toch anders zijn. Bij simpele correlatie en regressie kijken we naar N participanten die voor twee variabelen geobserveerd of getest zijn. Stel dat we kijken naar rensnelheid van een muis in een doolhof (Y). Dit is een willekeurige variabele waarover we geen controle hebben. Wanneer we de relatie van Y bekijken met het aantal keer dat de muis op een knopje drukt voordat het uiteindelijk lukt (X), hebben we twee willekeurige, niet te beïnvloeden variabelen. In dat geval gebruiken we de term correlatie. Beide variabelen zullen variëren per experiment (het zijn random variabelen) en hebben een steekproef error. In het geval waar X een van tevoren bepaalde variabele is, gespecificeerd door de onderzoeker (bijvoorbeeld: het aantal voedselkorrels dat de muis krijgt per goed gelukte poging), spreken we van regressie.
Correlaties
Een correlatie meet drie eigenschappen van de relatie tussen X en Y:
- De richting van een relatie. Een positieve correlatie (+) ontstaat wanneer twee variabelen zich bewegen in dezelfde richting. Als de waarde van X stijgt (de lengte van een persoon), stijgt de waarde van Y ook (het gewicht van een persoon). Van een negatieve correlatie (-) is sprake wanneer de twee variabelen zich in verschillende richtingen bewegen. Als X stijgt, daalt Y (of omgekeerd).
- De vorm van een relatie. Deze vorm kan lineair zijn, maar dat hoeft niet.
- De mate van een relatie. Een perfecte correlatie heeft een waarde van 1 of -1. Een correlatie van 0 stelt dat er helemaal geen verband tussen twee variabelen bestaat. Een correlatie van 0.8 is daarom sterker dan een correlatie van bijvoorbeeld 0.5.
Pearson correlatie
De meest bekende maat voor correlatie is de Pearson-correlatie. Deze correlatie meet de mate en de richting van een lineaire relatie tussen twee variabelen. De Pearson-correlatie wordt aangegeven met de letter r. Deze wordt als volgt berekend: Pearson r = de covariantie van X en Y/ de variabiliteit van X en Y apart. Om de Pearson r te kunnen berekenen is het nodig om een nieuw concept te introduceren, namelijk de som van producten van afwijkingen (SP). In eerdere delen hebben we de som van afwijkingen (SS) gebruikt om de variabiliteit van één variabele te meten. Nu zullen we SP gebruiken om de mate van covariantie tussen twee variabelen te berekenen. Er zijn twee formules die gebruikt kunnen worden om SP uit te rekenen. Bij de ene formule moeten echter van te voren de gemiddelde waarden van X en Y berekend worden.
- De formule waarbij eerst gemiddelden berekend moeten worden is: SP = Σ(X-MX)( Y-MY).
- Een andere formule (waarbij de gemiddelden niet eerst berekend hoeven te worden) is: SP = ΣXY – (ΣXΣY)/n.
- Ook kan de formule r= (SP/ √SSxSSy) gebruikt worden als de som van afwijkingen berekend moeten worden.
- Tot slot kan de Pearson-correlatie ook berekend worden voor z-scores. In dat geval wordt het: r=Σ(zXzy)/n.
De proportieverklaarde variantie
Met de pearson correlatie op zichzelf kun je niet zoveel, omdat deze niet op ratioschaal ligt en je er dus geen berekeningen mee kan doen. Daarom moet deze gekwadrateerd worden. De waarde r² wordt de bepalingscoëfficiënt (coëfficiënt of determination) genoemd. Deze waarde meet de proportie van spreiding in één variabele, die verklaard kan worden door de relatie die deze variabele heeft met de andere variabele. Een correlatie van 0.80 (r=0.80) betekent bijvoorbeeld dat 0.64 (r²), oftewel 64%, van de spreiding in Y-scores verklaard kan worden door variabele X. Een r² van 0.01 staat voor een kleine correlatie en een r² van 0.09 staat voor een gemiddelde correlatie. Een grote correlatie wordt gekenmerkt door een r² van 0.25 of hoger.
Spearman correlatie
De Pearson-correlatie meet wat de lineaire relatie tussen twee variabelen is. Deze maat voor correlatie wordt vooral gebruikt wanneer de data van interval- of rationiveau zijn. Andere correlatiematen zijn ontwikkeld voor niet-lineaire relaties en voor andere meetschalen. De Spearman-correlatie meet de relatie tussen variabelen die gemeten zijn op ordinaal niveau. Ook kan de Spearman-correlatie gebruikt worden wanneer data op interval- of rationiveau gemeten is en er geen lineaire relatie tussen X en Y bestaat.
De Spearman-correlatie gaat op zoek naar een consistente relatie tussen X en Y, welke vorm deze ook heeft. De oorspronkelijke scores moeten in dat geval wel eerst op volgorde (van klein naar groot) gezet worden. De Spearman-correlatie kan berekend worden op de volgende manier: rs = 1- 6ΣD²/ n(n²-1). In deze formule staat n voor het aantal scores en D staat voor difference: het verschil tussen elke volgorde voor een X- en Y-waarde. Met je X-waarde kun je bijvoorbeeld op de tweede plaats staan, terwijl je met de Y-waarde op de negende plaats staat.
De punt-biseriële correlatie
Een speciale variant van de Pearson-correlatie wordt de punt-biseriële correlatie genoemd. Deze correlatie wordt gebruikt als de ene variabele getallen bevat, maar de andere variabele alleen maar twee waarden heeft. Een variabele met slechts twee waarden wordt een dichotome variabele genoemd. Een voorbeeld is sekse. Om de punt-biseriële correlatie uit te rekenen, moet de dichotome variabele eerst omgezet worden naar een variabele met numerieke waarden. De ene waarde (bijvoorbeeld vrouw) krijgt een nul en de andere waarde (bijvoorbeeld man) krijgt een één. Vervolgens wordt de bekende formule voor Pearson r gebruikt. De punt-biseriële correlatie kan ook omschreven worden als: r= SP/ √(SSx)(SSy). Het kwadrateren van de punt-biseriële correlatie leidt tot de proportieverklaarde variantie. Dit is een maat voor effectgrootte. Er is een relatie tussen de proportieverklaarde variantie en een t-test voor onafhankelijke steekproeven: r² = t²/(t²+df). Ook kan het volgende gezegd worden: t²= r²/(1/ r²)/df.
De phi-coëfficiënt (Φ)
De phi-coëfficiënt (Φ) meet de relatie tussen twee variabelen die beide dichotoom zijn. Om dit te doen moet eerst aan de dichotome waarden van beide variabelen een 0 en 1 toegekend worden. Vervolgens moet de Pearson r formule toegepast worden.
Sterke en zwakke correlaties
Bij grote steekproeven is het zo dat zelfs zeer kleine correlaties snel statistisch significant worden. Een significante correlatie zegt ons alleen dat de kans zeer klein is dat de correlatie nul is in de populatie. De aanwezigheid van significantie vertelt ons dus niet of de relatie tussen de variabelen sterk is. Hoe sterk een correlatie is, hangt namelijk samen met de grootte van de correlatie en niet met de statistische significantie van de correlatie. De vuistregel is dat een correlatie van .10 als zwak, een correlatie van .30 als gemiddeld en een correlatie van .50 en hoger als sterk wordt beschouwd.
Scatterplot
Een handige manier om de relatie tussen twee kwantitatieve variabelen te onderzoeken is met een scatterplot. Elke proefpersoon wordt daarbij weergegeven door een stip met coördinaten, die de waarden op variabelen X en Y aangeven. Normaliter staat de voorspellende variabele op de X-as en de criterium variabele op de Y-as. De criterium variabele wordt voorspeld vanuit de voorspellende variabele. Als het echter om een correlatie coëfficiënt gaat, is het niet altijd duidelijk welke variabele X en welke variabele Y is. In dit geval maakt het niet uit hoe de variabelen gelabeld worden. In een scatterplot wordt zo goed mogelijk een lijn door de puntenwolk getrokken. Die lijn heet de regressielijn van Y voorspeld door X (oftewel Y op X) en geeft de beste voorspelling van Yi voor een Xi-waarde. Wanneer de regressielijn recht is, heet de relatie tussen de variabelen een lineaire relatie. Is de lijn krom, dan is er sprake van een curvilineaire relatie.
De mate waarin de punten in de puntenwolk om deze regressielijn liggen is gerelateerd aan de correlatie (r) tussen X en Y. Hoe dichter de punten (de behaalde resultaten) bij de regressielijn liggen (de voorspelde waarde), hoe hoger de correlatie. Het correlatie coëfficiënt kan vorm aannemen tussen de -1 en 1, waarbij een perfecte correlatie 1.00 is (en alle punten op de lijn liggen). + of - geeft de richting van de relatie aan en beïnvloedt niet de mate van de relatie.
Simpele regressie
MVDA werkboek De algemene formule voor een simpele regressie is Y = b0 + b1X + e, waarbij Y staat voor de afhankelijke variabele en X voor de onafhankelijke variabele. De parameters die geschat moeten worden heten de intercept (b0) en het regressiegewicht (b1). De error (e) is het verschil tussen de geschatte en daadwerkelijke waarde van Y. Een voorbeeld is dat je bij een tennisclub vijf euro per uur moet betalen bovenop een startprijs van 30 euro. In dit geval ziet de formule er zo uit: Y=5X+30. b1wordt de regressiecoëfficiënt (slope) genoemd. Deze laat zien hoe Y verandert als X toeneemt met één punt. Bij de tennisclub is 5 euro de regressiecoëfficiënt, want de totale kosten nemen steeds met 5 euro per uur toe. De waarde van b0 wordt het intercept genoemd, omdat deze laat zien wat de waarde van Y is als X nul is. Als de regressiecoëfficiënt gelijk is aan nul, is de regressielijn horizontaal.
De relatie tussen X en Y kan ook grafisch worden weergegeven. De meest gebruikte methode om een optimale voorspelling te kunnen maken is de least squares methode. Bij deze methoden worden de parameters gekozen op zo’n manier dat de som van de gekwadrateerde voorspelde errors zo klein mogelijk is.
Assumpties voor regressie
Er zijn een aantal assumpties waaraan moet worden voldaan. Ten eerste moet er sprake zijn van homogeniteit van varianties. Dit houdt in, dat de variantie van Y bij elke waarde van X even groot is (in de populatie). Daarnaast moeten de waarden van Y overeenkomend met de bijbehorende X-waarden normaal verdeeld zijn rondom 0.
Wanneer we op zoek zijn naar de steekproefcorrelatie, vervangen we de regressie model assumpties met de assumptie dat we een steekproef trekken van een bivariate normaal verdeling. De conditionele verdelingen in deze verdeling zijn de verdelingen van Y en X gegeven een specifieke waarde van X of Y. Wanneer we kijken naar alle Y-waarden, onafhankelijk van X, spreken we van de marginale verdeling van Y. Als laatste gaan we er vanuit dat de relatie tussen X en Y lineair is.
Voorspelde waarden
Om te bepalen hoe goed een lijn bij de data past, moet eerst de afstand tussen de lijn en elk datapunt berekend worden. Voor elke X-waarde bepaalt de lineaire regressielijn een waarde voor de Y-variabele. Deze waarde wordt de voorspelde waarde genoemd (Ŷ). De afstand tussen deze voorspelde waarde en de werkelijke Y-waarde wordt bepaald met de volgende stappen:
- Afstand = Y- Ŷ. Deze afstand meet de error tussen de lijn en de werkelijke data.
- Omdat sommige afstanden negatief en anderen weer positief zullen zijn, is de volgende stap het kwadrateren van elke afstand, zodat er alleen maar positieve waarden overblijven.
- Tot slot moet de totale afstand tussen de lijn en data uitgerekend worden. De gekwadrateerde waarden uit stap twee tellen we allemaal bij elkaar op: Σ(Y- Ŷ)². Dit noemen we de totale gekwadrateerde fout.
Een voorbeeld
Stel dat we de relatie tussen stress en mentale gezondheid onderzoeken. Dit laatste meten we met een checklist.
De eerste stap voor het berekenen van de correlatie is het berekenen van de covariantie (covxyof sXY), die de mate weergeeft waarin twee variabelen samen variëren.
Het lijkt erg op de variantie, want als de Y’s vervangen worden door X’en (of de X’en vervangen door Y’s) krijgen we s2X (of s2Y). De formule wordt ook wel gegeven door: (∑XY - ∑X∑Y/N) / (N-1)
We verwachten een sterk positieve relatie: grotere waarden van X (stress) geven grotere waarden van Y (mentale gezondheid). Dit zal een grote covariantie-waarde geven. Als er sprake geweest was van een sterke negatieve relatie, zou de som van de producten van de afwijkingen van gemiddelden groot en negatief zijn. Als er geen relatie is tussen de variabelen zal de som uitkomen rond de nul. De covariantie van het voorbeeld is 1,336.
Om de correlatiecoëfficiënt te berekenen, moeten we nog rekening houden met de standaarddeviaties van X en Y.
r = covxy / sxsy
De correlatie loopt van -1,00 tot 1,00.
Uit het voorbeeld komt een correlatie van r = .529. Dit betekent niet dat er 53% relatie is tussen stress en symptomen. Het geeft alleen de sterkte van de relatie aan tussen de twee variabelen; hoe dichterbij de ± 1,00, hoe sterker de relatie. De + en - geven de richting van de relatie aan, waarbij een positieve correlatie aangeeft dat als X hoger is, Y ook hoger is.
Gestandaardiseerde regressie coëfficiënten
Wanneer de data gestandaardiseerd wordt geeft een verschil van één eenheid in X een verschil van één standaarddeviatie weer. Als de helling bijv. 0,75 is (voor gestandaardiseerde data) zal voor elke standaarddeviatie toename in X, Aanduiding 10 (zie formuleblad) drie kwart standaarddeviaties toenemen. De helling bij gestandaardiseerde data wordt gestandaardiseerde regressie coëfficiënt of β genoemd.
Bij gestandaardiseerde data geldt sx = sy = s2x = 1, waarbij de helling en correlatiecoëfficiënt gelijk zijn. Een correlatie van r = .80 geeft dus aan dat één standaarddeviatie verhoging van X is geassocieerd met achttienden standaarddeviatie verhoging van Y. Er wordt echter nooit gesproken van oorzaak en gevolg. Het is een correlationeel verband.
Hypothesetesten voor regressie
De significantie van b
Wanneer X en Y correleren, en er een lineaire relatie is, dan zal de helling van de regressielijn niet gelijk zijn aan nul en b een bepaalde waarde anders dan nul hebben. Dit is het geval bij één voorspellende variabele, maar wanneer er meerdere voorspellende variabelen zijn, hoeft de helling niet voor elk van deze variabelen significant te zijn.
b* is het parametrische equivalent van b, namelijk de helling als we X en Y metingen op de hele populatie hadden.
De standaardfout is: $s_b$ = $\frac{^sY-X}{^sX\sqrt{N-1}}$
Om te testen dat de populatiehelling nul is, gebruiken we de volgende formule voor t: t = (b-b*)/sb = b / (sY∙X / sX $\sqrt{N-1}$) = (b)(sX)($\sqrt{N-1}$)/sY∙X met N-2 vrijheidsgraden.
Het betrouwbaarheidsinterval van b* is: CI(b*) = b ± (tα/2)($\frac{^sY-X}{^sX\sqrt{N-1}}$)
Verschil tussen twee onafhankelijke b’s
Het kan zijn dat je bij een onderzoek twee onderzoeksgroepen hebt met beide een andere helling. Met de volgende manier kan je testen of dit verschil in helling significant is.
H0 = b*1 = b*2 en de steekproefverdeling van b1 - b2 is normaal met een gemiddelde van nul en standaardfout van sb1-b2 = $\sqrt{s^2_{b1}+s^2_{b2}}$ met t=(b_1-b_2) / $\sqrt{ s^2_{b1} + s^2_{b2} }$ met N1 + N2 - 4 vrijheidsgraden.
De standaardfout van b is in de vorige alinea behandeld en maakt de formule dus tot:
sb1-b2 = $\sqrt{ \frac{ s^2_{Y-X_1} } { s^2_{X_1}(N_1-1) } + \frac{ s^2_{Y-X_2} } { s^2_{X_2}(N_1-1) } }$
Wanneer we uitgaan van homogeniteit van error varianties kunnen we de twee schattingen samennemen, gewogen naar vrijheidsgraden:
\[s^2 Y∙X = ((N_1-2)s^{2Y} ∙X1 + (N_2 - 2)s^2 Y∙X2 / (N_1 + N_2 – 4)\]
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
Contributions: posts
Spotlight: topics
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, notes and practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the summaries home pages for your study or field of study
- Use the check and search pages for summaries and study aids by field of study, subject or faculty
- Use and follow your (study) organization
- by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
- this option is only available through partner organizations
- Check or follow authors or other WorldSupporters
- Use the menu above each page to go to the main theme pages for summaries
- Theme pages can be found for international studies as well as Dutch studies
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Main summaries home pages:
- Business organization and economics - Communication and marketing -International relations and international organizations - IT, logistics and technology - Law and administration - Leisure, sports and tourism - Medicine and healthcare - Pedagogy and educational science - Psychology and behavioral sciences - Society, culture and arts - Statistics and research
- Summaries: the best textbooks summarized per field of study
- Summaries: the best scientific articles summarized per field of study
- Summaries: the best definitions, descriptions and lists of terms per field of study
- Exams: home page for exams, exam tips and study tips
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
- Studies: Bedrijfskunde en economie, communicatie en marketing, geneeskunde en gezondheidszorg, internationale studies en betrekkingen, IT, Logistiek en technologie, maatschappij, cultuur en sociale studies, pedagogiek en onderwijskunde, rechten en bestuurskunde, statistiek, onderzoeksmethoden en SPSS
- Studie instellingen: Maatschappij: ISW in Utrecht - Pedagogiek: Groningen, Leiden , Utrecht - Psychologie: Amsterdam, Leiden, Nijmegen, Twente, Utrecht - Recht: Arresten en jurisprudentie, Groningen, Leiden
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
856 |
Add new contribution