CORRELATIE & REGRESSIE
Correlatie en regressie zijn twee statistische technieken die gebruikt worden om een verband tussen variabelen te analyseren. Een lineair verband tussen de variabelen wordt verondersteld.
Bij het berekenen van correlatie en regressie moeten alle variabelen interval/ratio-variabelen zijn. Ordinale data die lijken op intervaal data (ten minste 5 categorieen, en meer of minder dezelde “afstand” tussen categorieen) kunnen ook worden gebruikt.
Correlatie
Correlatie geeft de sterkte en de richting van het verband tussen twee (of meer) interval- of ratiovariabelen weer.
--Correlaties worden uitgedrukt in Pearson ‘s Product-moment correlatiecoëfficiënt r (kort: correlatiecoëfficiënt).
De waarde van de correlatiecoëfficiënt r ligt altijd tussen –l en +1. Hoe hoger de absolute waarde van de correlatiecoëfficiënt, des te sterker is het verband. ‘Verband’ kan zowel positief als negatief zijn.
- Voor een positief verband: bij een toename van de x-variabele, neemt ook de y-variabele toe.
- Voor een negatief verband: bij toename van x neemt y af.
Als je een spreidingsdiagram maakt, kun je het verband controleren.
correlatiecoëfficiënt r: vooronderstellingen
- Het verband tussen de variabelen is lineair.
- Voor elke waarde van de ene variabele wordt een normale verdeling van de andere variabele verondersteld (en vice versa).
******correlatie is NIET causaliteit.
Correlatie: correlatiecoëfficiënt berekenen
Als je de enkelvoudige correlatiecoëfficiënt (Pearson Correlation) in SPSS berekent, krijg je een correlatiematrix als output.
In de matrix worden worden voor elke combinatie van twee variabelen de volgende getoond:
- de correlatiecoefficiënten (Pearson Correlation)
- de tweezijdige significanties en
- het aantal valide cases
Standaard staan achter de significante correlatiecoëfficiënten asterisken: ** bij 99% betrouwbaarheid (alpha = 0,01) en * bij 95% betrouwbaarheid (alpha = 0,05).
Partiële correlatie
Wanneer je met de correlatiecoëfficiënt het verband tussen twee variabelen hebt gevonden, bestaat de kans dat dit verband wordt beïnvloed door een derde (en vierde etc.) variabele, die ook samenhangt met de beide variabelen in de analyse. Met partiële correlatie wordt het lineaire verband tussen twee variabelen gecorrigeerd voor het effect van een derde (en vierde etc.) variabele. Op deze wijze kunnen indirecte relaties worden opgespoord.
REGRESSIE
Bij regressie-analyse wordt een causale relatie tussen een afhankelijke variabele Y en één of meerdere onafhankelijke variabele(n) Xs verondersteld. Met regressieanalyse is het dus mogelijk om waarden van een afhankelijke variabele te voorspellen aan de hand van één (of meerdere) onafhankelijke variabele(n).
Enkelvoudige regressie
Enkelvoudige regressie heeft één afhankelijke en één onafhankelijke variabele.
De best passende lijn wordt door de puntenwolk berekend (voor matematica-fans: Dit is de lijn, waarvoor geldt dat de som van de gekwadrateerde afstanden van alle punten tot die regressielijn minimaal is (least-square method)).
Enkelvoudige Regressie: Vooronderstellingen
- Het verband tussen de variabelen is lineair.
- Het verband tussen de variabelen is causaal.
Er is hierbij sprake van een asymmetrische relatie tussen de variabelen, waarbij de onafhankelijke variabele de afhankelijke variabele beïnvloedt. De onafhankelijke variabele wordt factor (of regressor of predictor) genoemd.
residuen & outliers
De verschillen tussen de door de regressielijn voorspelde waarden en de ‘echte’ waarden (van de afhankelijke variabele) worden de residuen genoemd. De cases met de grootste residuen – en dus met de grootste afwijkingen – heten outliers. Outliers zijn vaak van invloed op de uiteindelijke regressievergelijking. Je kunt ouliers opsporen en ze nader analyseren.
Residuen
De vooronderstelling van lineariteit kan aan de hand van de residuen worden gecontroleerd.
De afstanden van de punten tot de regressielijn zijn de afwijkingen van de feitelijke Y-waarden ten opzichte van de door X voorspelde Y-waarden (de lijn).
Dit is het deel van de variantie van Y dat niet door X wordt ‘verklaard’. We noemen deze afwijkingen de residuen (of: onverklaarde variantie).
Hoe dichter de punten bij de lijn liggen, des te kleiner zijn de residuen.
Regressielijn & regressievergelijking
Met enkelvoudige regressie wordt de best passende rechte lijn (fit line) door een puntenwolk berekend. (Matematica fans: Dit is de lijn waarvoor geldt dat de som van de gekwadrateerde verticale afstanden van alle punten tot die lijn minimaal is (lïnear leastsquare method)). De vergelijking van de enkelvoudige regressielijn is:
Y = A + B*X
Hier is A de intercept (of constant).
Dit is het snijpunt van de lijn met de Y-as, ofwel de waarde van Y als X=0.
De parameter B wordt de regressiecoëfficiënt genoemd en is de hellingshoek (slope) van de lijn. B geeft aan met hoeveel eenheden de afhankelijke variabele Y verandert, als de onafhankelijke variabele X met één eenheid toeneemt.
Lineariteit controleren en regressielijn tonen
Het is een goed idee voordat je de eigenlijke regressie-analyse uitvoert, eerst een spreidingsdiagram te maken van de relevante variabelen. In dat spreidingsdiagram kun je in één keer zien of aan de vooronderstelling van lineariteit is voldaan.
In het spreidingsdiagram kun je meteen bij het maken (of achteraf) een regressielijn zetten die de regressie toont.
Output regressie-analyse
De output van de regressie-opdracht bestaat uit vier tabellen.
a. De tabel Variables Entered/Removed – gebruikte variabelen.
b. De tabel Model Summary – met informatie over de regressie.
c. De tabel ANOVA – met een variantie-analyse.
d. De tabel Coefficients – met de eigenlijke regressievergelijking.
Model Summary
De R in de tabel Model Summary heet de multiple correlatiecoëfficiënt.
R geeft de correlatie aan van de afhankelijke variabele met alle onafhankelijke variabelen tezamen. Omdat er bij enkelvoudige regressie maar één onafhankelijke variabele is, is de waarde van R dus gelijk aan de enkelvoudige correlatiecoëfficiënt.
De richting van het verband kan niet uit de multiple R worden afgeleid. Hiervoor moet de regressiecoëfficiënt B worden gebruikt (tabel Coeffïcients).
De R Square (ofwel: R2) is de gekwadrateerde multiple R en heet de determinatiecoëfficiënt (in English the “coefficient of determination”).
De determinatiecoëfficiënt geeft het percentage verklaarde variantie in Y door X aan. Hoe groter de waarde van R2, des te beter ‘past’ het model (the better the “fit”), en des te geringer is het aandeel onverklaarde variantie of residu (= l –R2).
Bij (kleinere) steekproeven wordt R2 vaak te hoog geschat. Het model lijkt daardoor beter te passen dan het geval is. Daarom kan bij steekproefgegevens vaak beter de Adjusted R Square worden gebruikt. Dit is R2, gecorrigeerd voor het aantal cases (N) en het aantal onafhankelijke variabelen (k) in het model.
Std. Error of the Estimate is de standaarddeviatie van de residuen en is gelijk aan de wortel uit de variantie (Mean Square) van de residuen.
ANOVA
In de tabel ANOVA staat de variantie-analyse. De totale variantie van de afhankelijke variabele is opgesplitst in twee componenten: de verklaarde variantie en de onverklaarde variantie (Residual).
Het aantal vrijheidsgraden (df) van de verklaarde variantie is gelijk aan het aantal onafhankelijke variabelen (=1 voor enkelvoudige regressie).
Het aantal vrijheidsgraden van de residuen is gelijk aan het aantal cases min het aantal onafhankelijke variabelen min l . Uit de kwadraatsommen (Sum of Squares) kan de totale variatie van de afhankelijke variabele worden berekend.
[voor matematica fans: De Mean Square (variantie) is de Sum of Squares gedeeld door het aantal vrijheidsgraden].
Coefficients: de regressievergelijking
In de tabel Coefficients staat de regressievergelijking. De parameters A en B van de regressievergelijking worden, samen met hun standaardfouten (Std Error), weergegeven in de kolom Unstandardized Coeffïcients.
De intercept A wordt aangeduid met de term (Constant). De intercept kan bijvoorbeeld een waarde hebben van 3,051 en de regressiecoëfficiënt B van de onafhankelijke variabele ‘LITERACY’ bedraagt bijvoorbeeld .125.
De richting van het verband is positief. Een toename van LITERACY met een percentagepunt betekent dus een toename van het aantal WOMEN IN PARLIAMENT met .125 van een percentagepunt.
SPSS Studiehulp gde regressievergelijking ziet er dus als volgt uit:
% seats held by women = 3,051 + .125*LITERACY + E
In de tabel Model Summary staat dat de R square .114 is, en de adjusted R sqaure .108. Dus: het model verklaart ongeveer 11% van de variatie in de afhankelijke variable.
Coefficients: Bèta, t-waarde en significantie
In de tabel Coefficients staat ook de gestandaardiseerde regressiecoëfficiënt Bèta (Standardized Coefficients) en de toetsingsgrootheid met significantie (Sig.).
De variabele LITERACY is significant (p<.001). SPSS berekent of de t-waarde significant is. Soms zie je in oudere artikelen/boeken, echter dat een onderzoeker niet aangeeft met sterren of een t-waarde significant is, maar nu is dit standaard. Bijvoorveeld het artikel van Huber, Ragin en Stephens geeft de regressiecoefficienten en t-waarden aan, maar de lezer moet zelf uitzoeken of de t-waarde significant is. Dat doe je aan de hand van statistical tables (er zijn ook websites).
De Bèta wordt bij multiple regressie gebruikt om het relatieve belang van de verschillende onafhankelijke variabelen te bepalen. In het voorbeeld is Beta .337.
VOORBEELD:
Afhankelijke Variabele: “WOMPARL” (Seats in parliament held by women (as % of total), 2001) Seats in parliament held by women (as % of total), 2001 Source: Table 22. Gender empowerment measure: Seats in parliament held by women (as % of total)
Note: According to , seats in parliament held by women “Refers to seats held by women in a lower or single house or an upper house or senate, where relevant.” Also, “Data are as of 8 March 2001.”
Onafhankelijke Variable: “LITERACY” (Literacy as percent of total population, various years) Literacy as percent of total population, various definitions, various years Source: Table: Literacy
|
Bij enkelvoudige regressie is Bèta niet van belang en is Bèta altijd gelijk aan de correlatiecoëfficiënt R.
Multiple regressie
Bij multiple regressie (meervoudige regressie) wordt op vergelijkbare wijze als bij enkelvoudige regressie een lineair model berekend tussen een afhankelijke variabele Y en meerdere onafhankelijke variabelen x.
De vergelijking van een multiple regressiemodel met k onafhankelijke variabelen ziet er als volgt uit:
Y + A + B1*X1 + B2*X2 +........+ E
Intercept & partiële regressiecoëfficiënt B
De intercept A is het snijpunt met de Y-as. Dit is de waarde van Y als de waarde van alle onafhankelijke variabelen X gelijk is aan 0.
Elke partiële regressiecoëfficiënt geeft de invloed van de betreffende onafhankelijke variabele op Y aan, waarbij tevens gecontroleerd wordt op de invloed van alle overige onafhankelijke variabelen.
Multicollineariteit
Bij multiple regressie gelden dezelfde vooronderstellingen als bij enkelvoudige regressie. Daarbij komt de eis dat de onafhankelijke variabelen onderling niet te sterk mogen correleren, anders is er sprake van multicoltineariteit.
In dat geval meten de onafhankelijke variabelen ongeveer hetzelfde en is het niet mogelijk om het effect van iedere variabele afzonderlijk te bepalen. Hierdoor komt de validiteit van het model in gevaar.
Het is een goed idee om eerst een correlatiematrix van de onafhankelijke variabelen te maken, om sterke correlaties op te sporen. Indien er correlaties van r > 0,9 voorkomen is het aan te raden om een van beide onafhankelijke variabelen buiten het model te laten.
Multiple regressie: standaard methode (Enter)
Opdracht voor multiple regressie-analyse volgens de standaard methode (Enter)
l Analyze>>> Regression >>> Linear.
2. Geef in het venster Linear Regression bij Dependent de afhankelijke variabele
op en bij Independent(s) de onafhankelijke variabelen.
3. Kies bij Method voor Enter. Bevestig met OK.
De default settings bij SPSS produceren de nodige output. Meer is niet nodig---dus het is niet nodig op andere opties te klicken.
Uitvoer multiple regressie (bij de methode Enter)
De uitvoer bij multiple regressie (methode: Enter) bestaat uit vier tabellen:
a. De tabel Model Summary – met informatie over de perfectie van het model.
b. De tabel ANOVA – met de uitkomsten van de variantie-analyse.
c. De tabel Coefficients – met de eigenlijke regressievergelijking.
d. De tabel Variables Entered/Removed – met een overzicht van alle variabelen. (Deze tabel is bij multiple regressie volgens de standaard methode niet van belang, omdat alle variabelen tegelijk in het model, woraen opgenomen).
VOORBEELD:
afhankelijke variabele: . “POLRIGHT” (Political Rights score, 1999-2000) Seven-point scale measuring political rights, 1999-2000. Sources: Table: Table of Countries: Comparative Measures of Freedom and Table: Table of Related Territories: Comparative Measures of Freedom
Note: According to , “1 represents the most free and 7 the least free category”
onafhankelijke variabelen: 1. “GINI” (Gini index, calculated based on data from various years) Gini index, calculated based on data from various years Source: Table 12. Inequality in income or consumption: Inequality measures: Gini index
Note: According to , the Gini index “Measures the extent to which the distribution of income (or consumption) among individuals or households within a country deviates from a perfectly equal distribution. A value of 0 represents perfect equality, a value of 100 perfect inequality.
2. “LITERACY” (Literacy as percent of total population, various years) Literacy as percent of total population, various definitions, various years Source: Table: Literacy
|
Model Summary
De Model Summary bevat R. Deze multiple R is de correlatiecoëfficiënt van de afhankelijke variabele met alle onafhankelijke variabelen tezamen.
De determinatiecoëfficiënt R Square geeft aan dat ruim 26% van de variantie van POLRIGHTS wordt verklaard door de twee onafhankelijke variabelen (maar je ziet beneden dat een van de variabelen geen invloed heeft).
ANOVA
De tabel ANOVA bevat een variantie-analyse. Met variantie-analyse kunnen we toetsen of het model significant is. Aan de hand van de toetsingsgrootheid F wordt de nulhypothese verworpen (Sig =,000). Het model is dus significant met een betrouwbaarheid van 99,9%.
Coefficients: de multiple regressievergelijking
In de tabel Coefficients wordt de eigenlijke regressievergelijking weergegeven. De intercept A wordt aangeduid met (Constant) en is in ons voorbeeld 6,144.
De partiële regressiecoëfficiënten Bs staan in kolom B. Ze geven de hoeveelheid verandering in Y aan, wanneer de betreffende onafhankelijke variabele met een eenheid toeneemt, terwijl de invloed van alle overige onafhankelijke variabele constant wordt gehouden.
Bij multiple regressie moet elke partiële regressiecoëfficiënt afzonderlijk worden getoetst op significantie (H0: Bi=0). Hiervoor worden de t-waarden (t=B/Std. Error) gebruikt.
Bèta-coëfficiënten
De waarde van de partiële regressiecoëfficiënten wordt beïnvloed door de eenheden waarin de variabelen zijn gemeten. Bijvoorbeeld een variabele ‘afstand’ kan worden in meters gemeten, terwijl andere variabele, bbijvoorbeeld uitgaven worden in euros gemeten. Het is dus lastig om de regressiecoëfficiënten te vergelijken (omdat hun meeteenheden gewoonlijk verschillende zijn).
Vergelijking is wel mogelijk aan de hand van de gestandaardiseerde coëfficiënten Bèta. SPSS berekent deze zijn berekend op basis van gestandaardiseerde variabelen.
De Bèta-coëfficiënten geven een indicatie van het relatieve belang van iedere onafhankelijke variabele, maar hun nut is vaak klein.
***Verwar de gestandaardiseerde regressiecoëfficienten Bèta niet met de regressiecoëfficiënten ß van de populatie!
--In ons voorbeeld is de verklaarde variatie ongeveer 25% (R square).
--Allen de variabele LITERACY is significant (kijk in de coefficients tabel, ‘Sig.” column). LITERACY is “significant at the p< .001 level.”---->probabality that the result occurred by chance is less than one percent.
--de variabele GINI is niet significant.
Dus: een toename van LITERACY met een percentagepunt betekent een afname van de POLRIGHTS score met .125 (7 punt schaal).
******een afname hier is goed: 1 is de “beste” score voor POLRIGHTS. Dus betekent een afnemende score een toename in POLRIGHTS.
- 1 of 6
- next ›
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
Online access to all summaries, study notes en practice exams
- Check out: Register with JoHo WorldSupporter: starting page (EN)
- Check out: Aanmelden bij JoHo WorldSupporter - startpagina (NL)
How and why would you use WorldSupporter.org for your summaries and study assistance?
- For free use of many of the summaries and study aids provided or collected by your fellow students.
- For free use of many of the lecture and study group notes, exam questions and practice questions.
- For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
- For compiling your own materials and contributions with relevant study help
- For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.
Using and finding summaries, study notes en practice exams on JoHo WorldSupporter
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
- Use the menu above every page to go to one of the main starting pages
- Starting pages: for some fields of study and some university curricula editors have created (start) magazines where customised selections of summaries are put together to smoothen navigation. When you have found a magazine of your likings, add that page to your favorites so you can easily go to that starting point directly from your profile during future visits. Below you will find some start magazines per field of study
- Use the topics and taxonomy terms
- The topics and taxonomy of the study and working fields gives you insight in the amount of summaries that are tagged by authors on specific subjects. This type of navigation can help find summaries that you could have missed when just using the search tools. Tags are organised per field of study and per study institution. Note: not all content is tagged thoroughly, so when this approach doesn't give the results you were looking for, please check the search tool as back up
- Check or follow your (study) organizations:
- by checking or using your study organizations you are likely to discover all relevant study materials.
- this option is only available trough partner organizations
- Check or follow authors or other WorldSupporters
- by following individual users, authors you are likely to discover more relevant study materials.
- Use the Search tools
- 'Quick & Easy'- not very elegant but the fastest way to find a specific summary of a book or study assistance with a specific course or subject.
- The search tool is also available at the bottom of most pages
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
- Check out: Why and how to add a WorldSupporter contributions
- JoHo members: JoHo WorldSupporter members can share content directly and have access to all content: Join JoHo and become a JoHo member
- Non-members: When you are not a member you do not have full access, but if you want to share your own content with others you can fill out the contact form
Quicklinks to fields of study for summaries and study assistance
Field of study
- All studies for summaries, study assistance and working fields
- Communication & Media sciences
- Corporate & Organizational Sciences
- Cultural Studies & Humanities
- Economy & Economical sciences
- Education & Pedagogic Sciences
- Health & Medical Sciences
- IT & Exact sciences
- Law & Justice
- Nature & Environmental Sciences
- Psychology & Behavioral Sciences
- Public Administration & Social Sciences
- Science & Research
- Technical Sciences
Add new contribution