Statistische Modellen 2 - Collegeaantekeningen
- 968 reads
College 1
Regressieanalyse
In veel onderzoekssituaties zijn er intervalvariabelen (INT)
Voorbeelden:
Vanuit een wetenschappelijke theorie hebben we vaak verwachtingen over hoe variabelen gerelateerd zijn. Hoe kan je een relatie uitdrukken?
Voorbeeld:
Onderzoek naar depressie en coping
Steekproef van N = 84 random geselecteerde RUG-studenten
Twee variabelen
0 − 9 weinig, 10 − 18 mild, 19 − 29 matig, 30 − 63 zware depressie
0 = geen coping, 10 = goed kunnen omgaan met tegenslag
Onderzoeksvraag
Is er een relatie tussen BDI en coping (in de populatie)? Grotere groep dan je steekproef
Je ziet dat er een verband is (links boven naar rechts onder). Toename in coping is proportioneel t.o.v afname BDI. Lineair model werkt goed in de praktijk.
De lijn wordt beschreven door een helling. Dit getal (=parameter) geeft de richting van de relatie weer en de interpretatie aan de relatie.
De lijn die je neemt is de lijn met de kleinste kwadratensom van de residuen.
Residuen = afstand punten tot lijn
Voorbeeld
Met kleinste kwadratenlijn kunnen we nu een aantal vragen beantwoorden
Onderzoeksvraag 1: Is er een lineaire relatie tussen BDI en coping in de populatie?
Onderzoeksvraag 2: Hoe sterk is de lineaire relatie tussen BDI en coping?
1 en 2 à Pearson correlatie (of enkelvoudige regressie)
Onderzoeksvraag 3 (1 + 2): Kan BDI voorspeld worden door coping?
à Enkelvoudige regressieanalyse (= regressieanalyse met één voorspeller)
Pearson correlatie (lineaire relatie)
Onderzoeksvraag 1: Is er een relatie tussen BDI en coping in de populatie?
H0: r = 0 (geen relatie)
tussen BDI en coping
meer coping gaat samen met minder depressie
Onderzoeksvraag 2: Hoe sterk is de relatie tussen BDI en coping?
Pearson correlatie
variantie tussen variabelen
Enkelvoudige regressieanalyse
Onderzoeksvraag 3 :Kan BDI voorspeld worden door coping?
Afhankelijke variabele (Y)
0 − 9 weinig, 10 − 18 mild, 19 − 29 matig, 30 − 63 zware depressie
Onafhankelijke variabele (X) (= voorspeller)
0 = geen coping, 10 = goed kunnen omgaan met tegenslag
Relatie tussen variabelen in de populatie:
yi = β0 + β1xi + ei
Regressiecoëfficiënten (beta)
De regressiecoëfficiënten moeten geschat worden (uit de steekproef, met SPSS)
Statistisch model heeft de vorm
data (y)= model (b) + error (€)
waarbij
error = eI (normaal verdeeld met gemiddelde 0)
Geschatte regressielijn
Coëfficiënten
zijn niet direct observeerbaar (populatielijn)
Geschatte regressielijn is dan
y = ax +b
a = helling (slope): geeft steilheid van de lijn
BDI = b0 + b1*coping
b0 = intercept (54,3): waarde van BDI als coping = 0
b1 = helling (slope): geeft steilheid van de lijn (b1 = –5.2 (dalend))
Model staat spreiding rond de lijn toe (punten hoeven niet exact op lijn)
Het is niet nodig dat alle punten op de regressielijn liggen
Restrictie: homoscedasticiteit
= verticale spreiding (van onder naar boven) is voor ongeveer alle waarden van X gelijk
Hoe dichter de punten bij de lijn liggen, hoe sterker het verband
Analyse / Regression / Lineair
Coëfficiëntentabel
Unstandardized coefficients:
Invullen in BDI = b0 + b1*coping
geeft de geschatte regressievergelijking: BDI = 54.3 – 5.2*coping
Standaard error geeft de onzekerheid van de toets aan in hoeverre het geldt voor de populatie.
t-toets voor populatie-intercept
Toets of populatie-intercept ongelijk 0 is
Als toets niet significant, niet een probleem (intercept is dan heel klein)
t-toets voor populatie regressiecoëfficiënt van coping
Toets of coping een voorspeller is van BDI in populatie
à coping zeer waarschijnlijk een voorspeller van BDI
Onderzoeksvraag 3
Kan BDI voorspeld worden door coping?
Ja, uit t = –16.7, p < 0.001 volgt dat coping zeer waarschijnlijk een voorspeller is van BDI in de populatie
Constante heeft geen Beta waarde.
Beta
Als één voorspeller
Regressievergelijking
BDI = 54.3 – 5.2*coping
Interpretatie
Vergelijking kan gebruikt worden om voorspellingen te doen
heeft een voorspelde waarde
BDI = 54.3 – 5.2*5 = 28.3
heeft een voorspelde waarde
BDI = 54.3 – 5.2*8 = 12.7
Hoe sterk is het model?
Bekijk de tabel
R = multipele correlatie (altijd naar R square kijken)
Hier: één voorspeller (= coping)
Hoge R2: Als punten allemaal dicht bij regressielijn
Assumpties (= aannames) nodig om iets te kunnen zeggen over populatie
Als assumpties niet lijken op te gaan
Assumpties betreffen de populatie, niet de steekproef
Als assumpties niet lijken op te gaan
Bij lichte tot gemiddelde schendingen van de assumpties:
De vier assumpties:
1. Relatie y en x1, x2, x3 en x4 is lineair - model veronderstelt een lineaire
relatie (regressievergelijking)
2. Residuen normaal verdeeld met gemiddelde 0
3. Homoscedasticiteit - variantie van residuen is constant voor alle combinaties
van waarden voorspellers
(Boek: 2 + 3 conditionele verdelingen op waarden voorspellers normaal
verdeeld met zelfde standaarddeviatie)
4. Residuen zijn onafhankelijk - scores van participanten zijn onafhankelijk
(Boek: random sample)
Homoscedasticiteit
Variantie van residuen is constant voor alle waarden voorspeller
Voor alle waarden van x hebben de punten verticaal dezelfde spreiding
In alle data wel lichte vorm van heteroscedasticiteit aanwezig
(als het maar niet te ernstig is).
Visueel. Hoef je geen SPSS bij te gebruiken
Residuen normaal verdeeld (normal probability plot)
Lineariteit en homoscedasticiteit
Spreidingsdiagram van voorspelde waarden tegen gestandaardiseerde residuen
Gebruik voor checken van
Lineariteit: OK als gemiddelde
van de punten van links naar
rechts rond lijn ei = 0 ligt
Homoscedasticiteit: OK als
spreiding (van onder-boven)
gelijk is voor alle voorspelde
waarden
Voorbeeld
Spreidingsdiagram voorspelde
waarden versus residuen
Links, stukje midden en rechts iets minder spreiding dan ertussen
gemiddelde links en rechts bovenlijn, in het midden eronder
à afwijkingen benoemen, en minder stellig conclusies trekken
Onderzoek naar schoolprestatie: N = 234 groep 8ers (random Groningen)
Afhankelijke variabele Y (INT)
Onafhankelijke variabelen X1, X2, X3 en X4 (INT)
Onderzoeksvraag: Kan rapportcijfer worden voorspeld door motivatie, discipline en interesse?
Deelvragen
Hoe goed is voorspelling?
Welke voorspellers dragen bij aan het model?
Wat zijn sterke voorspellers?
Relatie tussen variabelen in de populatie: yi = β0 + β1x1i + β2x2i + β3x3i + β4x4i + ei
Regressiecoëfficiënten
De regressiecoëfficiënten moeten geschat worden (uit de steekproef)
Regressievlak
Correlatie
Lineaire regressieanalyse gebaseerd op correlaties
Bekijk eerst alle correlaties
à voldoende grote correlaties om regressieanalyse te doen
Spreidingsdiagrammen
Hoe zien de relaties eruit?
ANOVA tabel
SPSS:
Hypotheses bij F-toets: Je toets alle voorspellers tegelijk (bij t-toets apart)
H0: alle populatie regressiecoëfficiënten van voorspellers gelijk 0 (H0: R2 = 0)
Ha: minstens één populatie regressiecoëfficiënt ongelijk 0 (Ha: R2 > 0)
Hier: p < 0.001
à Zeer waarschijnlijk is R2 > 0 in de populatie
à Zeer waarschijnlijk is er een relatie tussen rapportcijfer en de voorspellers
à Zeer waarschijnlijk kan cijfer voorspeld worden door de variabelen
Determinatie coëfficiënt
SPSS:
R2 = 0.601
60% variantie van rapportcijfer
wordt verklaard door motivatie, discipline en interesse
Regressie coëfficiënten
Tweede kolom (B)
bevat de waarden
van b0, b1, b2, b3, b4
Dit zijn de schatters
van β0, β1, β2, β3 en β4
(populatiecoëfficiënten)
Regressievergelijking
cijfer = b0 + b1*pres + b2*disc + b3*int_kind + b4*int_oud
= 2.8 + 0.18*pres + 0.11*disc + 0.043*int_kind + 0.028*int_oud
Beta coëfficiënten
De vierde kolom
(Beta) bevat de
gestandaardiseerde
coëfficiënten
Beta
Volgorde van
belangrijkheid
voorspellers
Gestandaardiseerde regressievergelijking
cijfer = 0.42*pres + 0.36*disc + 0.13*int_kind + 0.088*int_oud
Significante voorspellers
Iedere voorspeller heeft bijbehorende t- toets
Nulhypothese H0: βi = 0
Intercept, prestatiemotivatie, zelfdiscipline (3x p < 0.001) en interesse kind (p = 0.003)
Interesse ouders (p = 0.054) à niet significant
Voorspellers
Voorspellers beïnvloeden elkaar
Voorspeller significant
Voorspeller niet-significant
Voorspellers Niet significant
Interesse ouders niet significant
voorspellers in model
door prestatiemotivatie, discipline en interesse kind
Onderzoeksvraag
à Nee. Rapporteren in paper/thesis
Vinden populatiemodel: analyse opnieuw zonder variabele
7. Afwijkingen in data + mogelijke oplossingen
Uitbijters = datapunten met afwijkende waarden
Regressielijn wordt met uitbijters niet altijd goed geschat
Onderzoeken door analyse met en zonder uitbijters te doen
> 4/N, iets aan de hand
> 1 of < -1, iets aan de hand
Relatie = niet-lineair
Een rechte lijn beschrijft de relatie tussen X en Y niet goed
(is één alternatief)
Meerdere groepen
Mogelijk valt de data uiteen in twee of meer groepen
Een analyse van de gehele groep geeft mogelijk niet een goed beeld van de werkelijke relatie tussen Y en X. Dan kan je de groepen apart analyseren.
Heteroscedasticiteit
Als verticale spreiding anders is voor verschillende waarden van X
Schending van homoscedasticiteit. Dan kan je regressieanalyse doen op basis van weighted least squares
Multicollineairiteit
Twee of meer voorspellers in regressiemodel zijn sterk gecorreleerd à (eventueel) onbetrouwbare schatting van parameters
Komt niet vaak voor in sociale wetenschappen
Statistiek: Variance Inflaction Factor (VIF)
VIF < 2,5: geen zorgen, VIF > 10: echt een probleem.
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Main summaries home pages:
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
848 |
Add new contribution