Statistische Modellen 2 - College 1

College 1

Regressieanalyse

  1. Lineaire relaties

In veel onderzoekssituaties zijn er intervalvariabelen (INT)

Voorbeelden:

  • Lengte, gewicht, leeftijd
  • Schoolscores voor introversie, depressie, coping, attitude
  • Vaardigheidsscores voor taal, rekenen

Vanuit een wetenschappelijke theorie hebben we vaak verwachtingen over hoe variabelen gerelateerd zijn. Hoe kan je een relatie uitdrukken?

Voorbeeld:

Onderzoek naar depressie en coping

Steekproef van N = 84 random geselecteerde RUG-studenten

Twee variabelen

    • BDI (Beck Depression Inventory)

     0 − 9 weinig, 10 − 18 mild, 19 − 29 matig, 30 − 63 zware depressie

    • Coping score

     0 = geen coping, 10 = goed kunnen omgaan met tegenslag

Onderzoeksvraag

Is er een relatie tussen BDI en coping (in de populatie)? Grotere groep dan je steekproef

Je ziet dat er een verband is (links boven naar rechts onder). Toename in coping is proportioneel t.o.v afname BDI. Lineair model werkt goed in de praktijk.

De lijn wordt beschreven door een helling. Dit getal (=parameter) geeft de richting van de relatie weer en de interpretatie aan de relatie.

De lijn die je neemt is de lijn met de kleinste kwadratensom van de residuen.

Residuen = afstand punten tot lijn

Voorbeeld

Met kleinste kwadratenlijn kunnen we nu een aantal vragen beantwoorden

Onderzoeksvraag 1: Is er een lineaire relatie tussen BDI en coping in de populatie?

Onderzoeksvraag 2: Hoe sterk is de lineaire relatie tussen BDI en coping?

1 en 2 à Pearson correlatie (of enkelvoudige regressie)

Onderzoeksvraag 3 (1 + 2): Kan BDI voorspeld worden door coping?

à Enkelvoudige regressieanalyse          (= regressieanalyse met één voorspeller)

Pearson correlatie (lineaire relatie)

Onderzoeksvraag 1: Is er een relatie tussen BDI en coping in de populatie?

                                   

  • Maat voor sterkte lineaire relatie
  • Nulhypothese bij t-toets

     H0: r = 0 (geen relatie)

  • p < 0.001  à significante relatie (0.05)

     tussen BDI en coping

  • Relatie negatief (er staat een min):

     meer coping gaat samen met minder depressie

Onderzoeksvraag 2: Hoe sterk is de relatie tussen BDI en coping?

Pearson correlatie

  • maat voor sterkte van een lineaire relatie
  • kwadraat van de correlatie is de gemeenschappelijke

     variantie tussen variabelen

  • (–0.88)2 = 0.774 àBDI en coping hebben dus 77% variantie gemeenschappelijk

Enkelvoudige regressieanalyse

Onderzoeksvraag 3 :Kan BDI voorspeld worden door coping?

Afhankelijke variabele (Y)

    • BDI (Beck Depression Inventory)

     0 − 9 weinig, 10 − 18 mild, 19 − 29 matig, 30 − 63 zware depressie

Onafhankelijke variabele (X) (= voorspeller)

    • Coping score

     0 = geen coping, 10 = goed kunnen omgaan met tegenslag

 

  1. Statistisch model

Relatie tussen variabelen in de populatie:

yi = β0 + β1xi + ei

  • y= score op afhankelijke variabele y voor persoon i
  • xi = score onafhankelijke variabele x voor persoon i
  • ei = residu (error, afwijking)

Regressiecoëfficiënten (beta)

    • β0 = intercept
    • β1 = helling (slope)

De regressiecoëfficiënten moeten geschat worden (uit de steekproef, met SPSS)

Statistisch model heeft de vorm

                                   data (y)= model (b) + error (€)

waarbij

  • data        = y
  • model = β0 + β1xi  (regressielijn)

error  = eI  (normaal verdeeld met gemiddelde 0)

Geschatte regressielijn

Coëfficiënten

    • β0 = intercept
    • β1 = helling (slope)

zijn niet direct observeerbaar (populatielijn)

    • moeten geschat worden
    • gebeurt met kleinste kwadratenmethode

Geschatte regressielijn is dan

    • b0 = schatter van β0
    • b1 = schatter van β1
    • Voor gemak schrijven we: BDI = b0 + b1*coping
    • BDI is voorspelde waarde
  • Vergelijking voor een lijn

y = ax +b

  • waarbij b = intercept
  • waarde van y als x = 0
  • (snijpunt y-as)

a = helling (slope): geeft steilheid van de lijn

BDI = b0 + b1*coping

b0 = intercept (54,3): waarde van BDI als coping = 0

b1 = helling (slope): geeft steilheid van de lijn (b1 = –5.2 (dalend))

Model staat spreiding rond de lijn toe (punten hoeven niet exact op lijn)

Het is niet nodig dat alle punten op de regressielijn liggen

Restrictie: homoscedasticiteit

= verticale spreiding (van onder naar boven) is voor ongeveer alle waarden van X gelijk

Hoe dichter de punten bij de lijn liggen, hoe sterker het verband

 

 

 

 

 

 

 

 

 

  1. SPSS analyse

Analyse / Regression / Lineair

Coëfficiëntentabel

 

Unstandardized coefficients:

    • waarde van b0 (= 54.3) bij Constant
    • waarde van b1 (= – 5.2) bij coping

Invullen in BDI = b0 + b1*coping

geeft de geschatte regressievergelijking:    BDI = 54.3 – 5.2*coping

Standaard error geeft de onzekerheid van de toets aan in hoeverre het geldt voor de populatie.

t-toets voor populatie-intercept

    • H0: β0 = 0  

Toets of populatie-intercept ongelijk 0 is

    • t = 30.3, p < 0.001 à intercept waarschijnlijk ongelijk aan 0 in populatie

Als toets niet significant, niet een probleem (intercept is dan heel klein)

t-toets voor populatie regressiecoëfficiënt van coping

    • H0: β1 = 0

Toets of coping een voorspeller is van BDI in populatie

    • t = –16.7, p < 0.001

à coping zeer waarschijnlijk een voorspeller van BDI

Onderzoeksvraag 3

Kan BDI voorspeld worden door coping?

Ja, uit t = –16.7, p < 0.001 volgt dat coping zeer waarschijnlijk een voorspeller is van BDI in de populatie

Constante heeft geen Beta waarde.

Beta

    • Waarden van coëfficiënten als alle variabelen gestandaardiseerd zijn
    • (Gestandaardiseerd: gemiddelde = 0 en standaarddeviatie = 1)

Als één voorspeller

    • Beta = correlatie = –0.880 tussen BDI en coping

 

Regressievergelijking

BDI = 54.3 – 5.2*coping

Interpretatie

    • Intercept: als helemaal geen coping (= 0) dan score BDI = 54.3
    • 1 punt hogere score op coping dan afname van BDI met 5.2 punten

 

 

Vergelijking kan gebruikt worden om voorspellingen te doen

  • Een persoon met coping score x = 5

heeft een voorspelde waarde

BDI = 54.3 – 5.2*5 = 28.3

  • Een persoon met coping score x = 8

heeft een voorspelde waarde

BDI = 54.3 – 5.2*8 = 12.7

 

  1. Verklaarde variantie

Hoe sterk is het model?

Bekijk de tabel

R = multipele correlatie (altijd naar R square kijken)

    • Correlatie tussen Y en alle voorspellers X1, X2, X3
    • R2 is de verklaarde variantie van Y door model met X1, X2, X3

Hier: één voorspeller (= coping)

    • R = 0.880 is positieve correlatie tussen BDI en coping
    • R2 = 77.4% is variantie van BDI verklaard door coping

Hoge R2: Als punten allemaal dicht bij regressielijn

  • Veel kleine residuen:
  • Hoge correlatie tussen variabelen (BDI en coping)
  • Hoge R2
  • Veel verklaarde variantie
  • Sterk model: Attidude 20/30% al prima. Toetsscores 70/80% nodig

 

 

 

  1. Assumpties

Assumpties (= aannames) nodig om iets te kunnen zeggen over populatie

    • toetsen coëfficiënten: H0: β0 = 0, H0: β1 = 0
    • kunnen uitgedrukt worden in residuen ei

Als assumpties niet lijken op te gaan

  • geen effect op schattingen regressiecoëfficiënten
  • beïnvloedt p-waardes (en eventueel conclusies)

Assumpties betreffen de populatie, niet de steekproef

  • gebruik steekproef om te checken of ze enigszins opgaan
  • gebruik plaatjes

Als assumpties niet lijken op te gaan

  • beïnvloedt standaardfouten van coëfficiënten
  • beïnvloedt waarde van statistieken (F-waarde, t-waarde)
  • beïnvloedt p-waarden
  • mogelijk verkeerde conclusies t.a.v. H0 en significantie

Bij lichte tot gemiddelde schendingen van de assumpties:

  • p < 0.001betekent nog steeds dat er waarschijnlijk een populatie-effect is
  • p = 0.046 kan leiden tot ten onrechte verwerping van H0 (Type I fout)

 

De vier assumpties:

1. Relatie y en x1, x2, x3 en x4 is lineair - model veronderstelt een lineaire

    relatie (regressievergelijking)

2. Residuen normaal verdeeld met gemiddelde 0

3. Homoscedasticiteit - variantie van residuen is constant voor alle combinaties

   van waarden voorspellers

   (Boek: 2 + 3 conditionele verdelingen op waarden voorspellers normaal

    verdeeld met zelfde standaarddeviatie)

4. Residuen zijn onafhankelijk - scores van participanten zijn onafhankelijk

    (Boek: random sample)

 

Homoscedasticiteit

Variantie van residuen is constant voor alle waarden voorspeller

Voor alle waarden van x hebben de punten verticaal dezelfde spreiding

In alle data wel lichte vorm van heteroscedasticiteit aanwezig

(als het maar niet te ernstig is).

Visueel. Hoef je geen SPSS bij te gebruiken

 

 

Residuen normaal verdeeld (normal probability plot)

 

Lineariteit en homoscedasticiteit

Spreidingsdiagram van voorspelde waarden tegen gestandaardiseerde residuen

Gebruik voor checken van

  • lineariteit
  • homoscedasticiteit

Lineariteit: OK als gemiddelde

van de punten van links naar

rechts rond lijn ei = 0 ligt

Homoscedasticiteit: OK als

spreiding (van onder-boven)

gelijk is voor alle voorspelde

waarden

Voorbeeld

Spreidingsdiagram voorspelde

waarden versus residuen

  • Lichte heteroscedasticiteit

Links, stukje midden en rechts iets minder spreiding dan ertussen

  • Lichte niet-lineariteit:

gemiddelde links en rechts bovenlijn, in het midden eronder

à afwijkingen benoemen, en minder stellig conclusies trekken

 

  1. Voorbeeld met 4 voorspellers

Onderzoek naar schoolprestatie: N = 234  groep 8ers (random Groningen)

Afhankelijke variabele Y (INT)

  • Rapportcijfer (1 – 10)

Onafhankelijke variabelen X1, X2, X3 en X4 (INT)

    • Prestatiemotivatie (1 – 20)
    • Zelfdiscipline (1 – 20)
    • Interesse voor school kind (1 – 20)
    • Interesse voor school ouders (1 – 20)   

Onderzoeksvraag: Kan rapportcijfer worden voorspeld door motivatie, discipline en interesse?

  • F-toets, ANOVA-tabel (is er überhaupt een voorspeller die er toe doet)

Deelvragen

Hoe goed is voorspelling?

  • Determinatiecoëfficiënt R2

Welke voorspellers dragen bij aan het model?

    • t-toetsen voor H0: βi = 0

Wat zijn sterke voorspellers?

  • Beta coëfficiënt (gestandaardiseerde regressievergelijking)

Relatie tussen variabelen in de populatie: yi = β0 + β1x1i + β2x2i + β3x3i + β4x4i + ei

  • yi   = score op afhankelijke variabele y voor persoon i
  • x1i = score onafhankelijke variabele x1 voor persoon i
    1. i  = residu (error)

Regressiecoëfficiënten

    • β0 = intercept

De regressiecoëfficiënten moeten geschat worden (uit de steekproef)

Regressievlak

Correlatie

Lineaire regressieanalyse gebaseerd op correlaties

Bekijk eerst alle correlaties

à voldoende grote correlaties om regressieanalyse te doen

 

 

Spreidingsdiagrammen

Hoe zien de relaties eruit?

  • lineaire relaties
  • correlaties groot genoeg
  • lineaire regressieanalyse geschikt

 

 

 

 

ANOVA tabel

SPSS:

Hypotheses bij F-toets: Je toets alle voorspellers tegelijk (bij t-toets apart)

H0: alle populatie regressiecoëfficiënten van voorspellers gelijk 0 (H0: R2 = 0)

Ha: minstens één populatie regressiecoëfficiënt ongelijk 0 (Ha: R2 > 0)

Hier: p < 0.001

à Zeer waarschijnlijk is R2 > 0 in de populatie

à Zeer waarschijnlijk is er een relatie tussen rapportcijfer en de voorspellers

à Zeer waarschijnlijk kan cijfer voorspeld worden door de variabelen

Determinatie coëfficiënt

SPSS:

R2 = 0.601

60% variantie van rapportcijfer

wordt verklaard door motivatie, discipline en interesse

Regressie coëfficiënten

Tweede kolom (B)

bevat de waarden

van b0, b1, b2, b3, b4

Dit zijn de schatters

van β0, β1, β2, β3 en β4

(populatiecoëfficiënten)

Regressievergelijking

cijfer = b0 + b1*pres + b2*disc + b3*int_kind + b4*int_oud

         = 2.8 + 0.18*pres + 0.11*disc + 0.043*int_kind + 0.028*int_oud

 

Beta coëfficiënten

De vierde kolom

(Beta) bevat de

gestandaardiseerde

coëfficiënten

Beta

  • waarde van regressiecoëfficiënt als alle variabelen (afhankelijke variabele + voorspellers) gestandaardiseerd zijn
  • Gestandaardiseerd: gemiddelde = 0 en standaarddeviatie = 1
  • Beta’s zijn onderling vergelijkbaar, niet afhankelijk van schaal
  • als gemiddelde = 0 dan intercept = 0

Volgorde van

belangrijkheid

voorspellers

  1. Prestatiemotivatie
  2. Zelfdiscipline
  3. Interesse kind
  4. Interesse ouders

Gestandaardiseerde regressievergelijking

cijfer = 0.42*pres + 0.36*disc + 0.13*int_kind + 0.088*int_oud

Significante voorspellers

Iedere voorspeller heeft bijbehorende t- toets

Nulhypothese H0: βi = 0

Intercept, prestatiemotivatie, zelfdiscipline (3x p < 0.001) en interesse kind (p = 0.003)

    • Populatiecoëfficiënten verschillen waarschijnlijk van 0

Interesse ouders (p = 0.054) à niet significant

Voorspellers

Voorspellers beïnvloeden elkaar

  • regressievlak zo gekozen dat variantie van Y maximaal verklaard wordt
  • zelfde voorspeller heeft andere regressiecoëfficiënt als model bestaat uit andere voorspellers

Voorspeller significant

  • verklaard een deel variantie van afhankelijke variabele
  • belangrijk als veel uniek verklaarde variantie à hoge beta

Voorspeller niet-significant

    • verklaard een te klein deel van afhankelijke variabele
    • variantie voorspeller overlapt met variantie andere voorspellers

Voorspellers Niet significant

Interesse ouders niet significant

    • Geen goede voorspeller met andere

     voorspellers in model

    • Variantie van interesse ouders al verklaard

     door prestatiemotivatie, discipline en interesse kind

Onderzoeksvraag

    • Is interesse ouders goede voorspeller rapportcijfer als andere voorspellers ook in model?

à Nee. Rapporteren in paper/thesis

Vinden populatiemodel: analyse opnieuw zonder variabele

 

7. Afwijkingen in data + mogelijke oplossingen

Uitbijters = datapunten met afwijkende waarden

Regressielijn wordt met uitbijters niet altijd goed geschat

Onderzoeken door analyse met en zonder uitbijters te doen

    • groot verschil
    • uitbijter = invloedrijk punt
    • reden om punt weg te laten
  • Invloed van een uitbijter op regressieanalyse kan uitgedrukt worden in een getal

 

 

 

 

 

 

 

  • Cook’s distance (Cook, 1977)

> 4/N, iets aan de hand

  • Gest. DfFit (Belsey et al., 1980)

> 1 of < -1, iets aan de hand

Relatie = niet-lineair

Een rechte lijn beschrijft de relatie tussen X en Y niet goed

    • regressieanalyse met kwadratische term

     (is één alternatief)

 

 

 

Meerdere groepen

Mogelijk valt de data uiteen in twee of meer groepen

Een analyse van de gehele groep geeft mogelijk niet een goed beeld van de werkelijke relatie tussen Y en X. Dan kan je de groepen apart analyseren.

 

 

Heteroscedasticiteit

Als verticale spreiding anders is voor verschillende waarden van X

Schending van homoscedasticiteit. Dan kan je regressieanalyse doen op basis van weighted least squares

Multicollineairiteit

Twee of meer voorspellers in regressiemodel zijn sterk gecorreleerd à (eventueel) onbetrouwbare schatting van parameters

Komt niet vaak voor in sociale wetenschappen

Statistiek: Variance Inflaction Factor (VIF)

VIF < 2,5: geen zorgen, VIF > 10: echt een probleem.

Image

Access: 
Public

Image

Join WorldSupporter!
This content is related to:
Statistische Modellen 2 - Collegeaantekeningen

Image

 

 

Contributions: posts

Help other WorldSupporters with additions, improvements and tips

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.

Image

Spotlight: topics

Check the related and most recent topics and summaries:
Institutions, jobs and organizations:

Image

Check how to use summaries on WorldSupporter.org

Online access to all summaries, study notes en practice exams

How and why use WorldSupporter.org for your summaries and study assistance?

  • For free use of many of the summaries and study aids provided or collected by your fellow students.
  • For free use of many of the lecture and study group notes, exam questions and practice questions.
  • For use of all exclusive summaries and study assistance for those who are member with JoHo WorldSupporter with online access
  • For compiling your own materials and contributions with relevant study help
  • For sharing and finding relevant and interesting summaries, documents, notes, blogs, tips, videos, discussions, activities, recipes, side jobs and more.

Using and finding summaries, notes and practice exams on JoHo WorldSupporter

There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.

  1. Use the summaries home pages for your study or field of study
  2. Use the check and search pages for summaries and study aids by field of study, subject or faculty
  3. Use and follow your (study) organization
    • by using your own student organization as a starting point, and continuing to follow it, easily discover which study materials are relevant to you
    • this option is only available through partner organizations
  4. Check or follow authors or other WorldSupporters
  5. Use the menu above each page to go to the main theme pages for summaries
    • Theme pages can be found for international studies as well as Dutch studies

Do you want to share your summaries with JoHo WorldSupporter and its visitors?

Quicklinks to fields of study for summaries and study assistance

Main summaries home pages:

Main study fields:

Main study fields NL:

Submenu: Summaries & Activities
Follow the author: LavaVanDrooge
Work for WorldSupporter

Image

JoHo can really use your help!  Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world

Working for JoHo as a student in Leyden

Parttime werken voor JoHo

Statistics
848
Search a summary, study help or student organization