Statistische Modellen 2 - Collegeaantekeningen
- 907 reads
College 2
Model staat spreiding rond lijn toe
Het is niet nodig dat alle punten op de regressielijn liggen
Restrictie: homoscedasticiteit
= verticale spreiding (van onder naar boven) is voor ongeveer alle waarden van X gelijk
Lineariteit en homoscedasticiteit kan je met deze plot beoordelen
Lineariteit en homoscedasticiteit
Spreidingsdiagram van voorspelde waarden tegen gestandaardiseerde residuen. Dit kan ook als er meerdere voorspellende waarden zijn.
Gebruik voor checken van
Assumpties houdbaar als de
residuen random gespreid
rond lijn ei = 0 liggen
Terminologie
Populatie en steekproef
Parameter en statistiek
Beschrijvende en inferentiële (toetsende) statistiek
Toetsen en p-waarde
Populatie en steekproef
Onderzoeksvraag: Is er verschil in de gemiddelde leestijd tussen 7-jarige kinderen
van het platteland en kinderen uit de stad?
Onderzoeker wil iets weten over
Populatie 1: alle 7-jarige kinderen van Groningse platteland
Populatie 2: alle 7-jarige kinderen uit de stad Groningen
Steekproef is dan een selectie van 7-jarige kinderen van platteland en uit stad
Representatieve steekproef
Populatie: alle 7-jarige kinderen uit de stad Groningen
Welke steekproef is representatief? Hoe kom je aan je data?
Bijv. data van
1. Alle 7-jarige leerlingen van vier Groningse basisscholen
(omdat je hier contacten mee hebt)
2. 350 random 7-jarige leerlingen van acht Groningse basisscholen
3. 200 random 7-jarige leerlingen van alle Groningse basisscholen
Random = beter
Meer = niet altijd beter (het gaat om representativiteit)
Representativiteit steekproef
wetenschappelijk artikel bevat een beschrijving van de steekproef/data
over welke populatie zegt de steekproef wat? Dat staat in artikelen niet altijd erbij.
vb: 200 random 7-jarige leerlingen van alle Groningse basisscholen
1. Populatie van 7-jarige kinderen in Groningen
2. als Groningen = een typerende noordelijke stad
Friesland, Drenthe?
Parameter en statistiek
onderzoeksvraag:
is er verschil in de gemiddelde leestijd van 7-jarige kinderen
van het platteland en kinderen uit de stad?
parameter (bijv. mp)
numerieke samenvatting van een eigenschap in de populatie (niet direct te meten)
statistiek (bijv. yp) (= schatter)
numerieke samenvatting van eigenschap in de steekproef (te berekenen)
à wordt gebruikt om parameter van populatie te schatten
Beschrijvende statistiek
alle statistieken waarmee je de steekproef (data) samenvat
gemiddelde, SD, mediaan, minimum, maximum, IQR
histogram, boxplot, spreidingsdiagram, QQ-plot, etc.
voordat je toetst kan je altijd eerst de steekproef beschrijven
uitspraken over alleen de steekproef hebben geen toets nodig
Bijv. yp = 27 is hoger dan ys = 25 in steekproef
Inferentiële statistiek (toetsend)
gebruiken we om kansuitspraken te doen over parameters (populatie)
vb:
het gemiddelde in de steekproef kun je gebruiken om
Twee methoden voor inferentie
toetsen van hypotheses
“de kans op deze steekproefuitkomst is zo klein, gegeven de nulhypothese, dat het onwaarschijnlijk is dat de populatiegrootheid een bepaalde waarde heeft”
betrouwbaarheidsintervallen
“met zoveel % zekerheid ligt een onbekende populatiegrootheid tussen twee getallen”
Toetsen van hypotheses
nulhypothese: een populatiegrootheid heeft een bepaalde waarde
alternatieve hypothese: de populatie-grootheid heeft die waarde niet (groter, kleiner, ongelijk)
Bijv. H0: m = 0 versus Ha: m ≠ 0
p-waarde
Hoe kleiner p des te sterker is het bewijs tegen de nulhypothese, d.w.z. hoe onwaarschijnlijker de nulhypothese is
Hoe klein is p?
Vergelijk met significantieniveau a.
Bijv. a = 0.05
Interpretatie uitkomst significantietoets
p < α à significant effect
“Er is waarschijnlijk een populatie-effect.”
p > α à geen significant effect
“Niet voldoende bewijs om nulhypothese te verwerpen” (je kan niet zeggen dat er geen-effect is)
We kunnen altijd fouten maken > Daarom zeggen we niet H0 is waar of Ha is waar
Betrouwbaarheidsinterval (BHI)
BHI gebaseerd op verdeling rond parameter (bijv. µ, p)
Onderzoeksvraag bepaalt statistisch model
twee typen onderzoeksvragen
1. vb.: is er een gemiddeld verschil tussen jongens en meisjes m.b.t. leessnelheid of rekenprestatie?
groepsverschillen: t-toetsen, variantieanalyse,
2. vb.: is IQ een goede voorspeller van de Citoscore?
voorspellen: lineaire regressieanalyse, logistische regressieanalyse
Twee rollen variabelen
afhankelijke variabele (Y)
variabele waar we iets over willen zeggen (voorspellen)
verschillen groepen gemiddeld op een variabele?
kan een variabele voorspeld worden door een aantal andere variabelen?
onafhankelijke variabele (X)
voorspeller of groepen waar we verschillen tussen zoeken
verschillen groepen gemiddeld op een variabele?
kan een variabele voorspeld worden door een aantal andere variabelen?
Aantal onafhankelijke variabelen
bij alle modellen is er precies één afhankelijke variabele
modellen met één onafhankelijke variabele
modellen met meerdere onafhankelijke variabelen
Meetniveau
keuze model wordt verder bepaald door meetniveau van de variabelen
drie niveaus relevant in deze cursus
vb.: hechtingstijl, leiderschapsstijl
vb.: gewicht, lengte, Citoscore, BDI score, IQ score
vb.: geslacht, wel/niet slagen, wel/niet behandeling
Wanneer welk model?
onafh. afh.
X1 X2 Y model
DUM INT t-toets voor onafhankelijke groepen
NOM INT éénwegvariantieanalyse
NOM NOM INT tweewegvariantieanalyse
INT INT enkelvoudige regressieanalyse
INT INT INT multipele regressieanalyse
INT NOM INT covariantieanalyse
INT DUM DUM logistische regressieanalyse
Modellen
Week 1: regressieanalyse
1 afhankelijke variabele Y (INT)
meerdere onafhankelijke variabelen X1, X2, X3 (INT)
(vb.: Y = depressie, X1 = affectieve coping, X2 = cognitieve coping)
(lineaire) regressievergelijking:
depressie = 4.3 + .38*affectieve coping + .65*cognitieve coping
Causaliteit
diagram met pijlen suggereert causaliteit
drie criteria voor causaliteit
Met modellen in Statistische Modellen 2 kunnen we
onderzoeken
(tijds)volgorde worden vastgesteld
Multivariate relaties
met 1 onafhankelijke variabele
Twee onafhankelijke variabelen
met 2 onafhankelijke variabelen 5 soorten relaties (interessanter)
deze week is meetniveau van X1, X2 en Y alleen INT
focus eerst op de soorten relaties, niet op meetniveau’s
Spurieuze relatie
Welk model klopt kan je uitzoeken met mediatieanalyse.
Kettingrelatie
Bij kettingrelatie is er een indirect effect van X1 op Y via X2. Het effect wordt volledig gemedieerd.
Interactie
de bijdrage van X1 en X2 op Y kan verschillen voor verschillende waarden van X1 en X2
onderzoeken met een (gewone) regressieanalyse met X1 en X2 en
product X1*X2 als drie voorspellers
Meerdere voorspellers
de bijdrage van X1, X2 en X3 op Y in hetzelfde regressiemodel zijn allemaal (statistisch) significant
iedere voorspeller draagt iets unieks bij
à onderzoeken met een gewone
regressieanalyse
Direct en indirect effect
Kettingrelatie plus een direct effect.
associatie tussen X1 en Y is complexer dan
onderzoeken met mediatieanalyse
Week 1: regressieanalyse
1 afhankelijke variabele Y (INT)
meerdere onafhankelijke variabelen X1, X2, X3 (INT) (voorspellers)
onderzoeksvraag
door X1, X2 en/of X3?
dezelfde status
Eenvoudige mediatie (3 variabelen)
zowel direct effect van X1 op Y
als een indirect effect van van X1 op Y via X2
onderzoeksvraag
(afhankelijke t.o.v. X1 en onafhankelijke variabele t.o.v. Y)
Mediatie voorbeeld
Onderzoeksvraag: Wordt de relatie tussen leeftijd en bloeddruk gemedieerd door gewicht?
variabelen: Y = bloeddruk, X1 = leeftijd, X2 = gewicht
Volledige mediatie
we onderscheiden drie situaties
volledige mediatie (kettingrelatie)
Gedeeltelijke of geen mediatie
gedeeltelijke mediatie
geen mediatie
Klassieke benadering
Baron en Kenny (1986)
ongemedieerde model mediatiemodel
aantal regressieanalyses om coëfficiënten te schatten
à probleem geen goede standaardfout voor indirecte effect ab
Moderne benadering
Hayes (2013)
ongemedieerde model mediatiemodel
Ab wordt in één keer geschat, ipv apart. Met één regressieanalyse.
direct schatten van hele mediatiemodel
bootstrap methode voor standaardfout van indirecte effect ab
Mediatie voorbeeld
onderzoeksvraag
SPSS
Vb: totale effect
Vb: directe effect
LLCI-ULCI = 95%-BHI
Vb: indirecte effect
Sterkte (in)directe effect
coëfficiënt ab = .367
als een mediatiemodel opgaat (= gedeeltelijk mediatie)
totale effect (= c) kan opgesplitst worden in 2 delen
dus c = c' + ab
Pdir = direct / totaal = c' / c
Pindir = indirect / totaal = ab / c
Pdir + Pindir = 1
totale effect = c = .822
directe effect = c' = .455
indirecte effect = ab = .367
Pdir = c' / c = .455 / .822 = .554
Pindir = ab / c = .367 / .822 = .446 à directe effect iets sterker
Join with a free account for more service, or become a member for full access to exclusives and extra support of WorldSupporter >>
There are several ways to navigate the large amount of summaries, study notes en practice exams on JoHo WorldSupporter.
Do you want to share your summaries with JoHo WorldSupporter and its visitors?
Main summaries home pages:
Main study fields:
Business organization and economics, Communication & Marketing, Education & Pedagogic Sciences, International Relations and Politics, IT and Technology, Law & Administration, Medicine & Health Care, Nature & Environmental Sciences, Psychology and behavioral sciences, Science and academic Research, Society & Culture, Tourisme & Sports
Main study fields NL:
JoHo can really use your help! Check out the various student jobs here that match your studies, improve your competencies, strengthen your CV and contribute to a more tolerant world
1038 |
Add new contribution