Deze week gaat over MRA, omdat er meerdere X’en van interval niveau zijn en een Y van interval niveau. Binair is tegelijk ook interval, omdat alle intervallen gelijk zijn, gezien er maar één interval is. Alle variabelen zijn van interval niveau. In een scatterplot kan er gekeken worden naar of er een patroon aanwezig is dat op non-lineariteit duidt of op heteroscedasticiteit. In dit geval is er sprake van lineairiteit en homoscedasticiteit. De normaliteit van residuen of error wordt gecheckt met standardized residual. De punten moeten dicht bij de lijn liggen en in dit geval klopt dat. Hieruit valt te concluderen dat dit model geschikt is voor de data. H0: β1 = β2 = 0.Ha: minstens 1 βj is niet gelijk aan 0.Er wordt gebruikt gemaakt van β in plaats van b, omdat het gestandaardiseerd is. In dit geval kan H0 worden verworpen, omdat het effect significant is (p<0,001). Voorspelde RA = -1,5 + 1 (Language Skill) + 0,5 (Motor Skill). Dit is opgesteld uit ŷ = b0 +b1X1 + b2X2.Interpretatie: als er bij Language Skill 1 punt omhoog gegaan wordt, betekent dit dat er bij RA ook een punt bij komt. Als er bij Motor Skill en punt bij komt, komt er bij RA een halve punt bij.ŷj = -1,5 + (1x3) + (0,5x4)= 3,5 Gestandaardiseerd: (Voorspelde RA)st = 0,471 (LS)st + 0,373(MS)st. deze is opgesteld vanuit ŷst = β1X1st + β2X2st. Hier is b0 gelijk aan 0, dus staat deze niet in de formule. Interpretatie: Language Skill + 1 sd, zorgt...


Access options

The full content is only visible for JoHo WorldSupporter members with full online access.

  • For information about international JoHo WorldSupporter memberships, read more here.
  • Are you already a member?
    • During the account creation you can select 'I am a JoHo WorldSupporter Member with full online access'.
    • Became a member after you've created the account, or you upgraded your membership, then you can change the settings of your account on your WorldSupporter user page
  • or fill out the contact form

 

For Dutch visitors

Toegang tot pagina of document:

Word JoHo donateur voor online toegang

Je bent al donateur, maar je hebt geen toegang?

  • Log in, of maak een account aan als je dat nog niet eerder hebt gedaan op worldsupporter.org.
  • Bij het aanmaken van je account kan je direct aangeven dat je JoHo WorldSupporter donateur bent (met danwel zonder 'full online access', of je past dit later aan op de user page van je account
  • Kom je er niet uit, neem dan even contact op! Of check de veel gestelde vragen

Kom je er niet helemaal uit of heb je problemen met inloggen?

  • Lees de antwoorden op de meest gestelde vragen.
  • Of laat je helpen door één van de JoHo medewerkers door het online contactformulier in te vullen

-----------------------------------------------


JoHo WorldSupporter donateur worden

JoHo membership zonder extra services (donateurschap) = €5 per kalenderjaar

  • Voor steun aan de JoHo WorldSupporter en Smokey projecten en een bijdrage aan alle activiteiten op het gebied van internationale samenwerking en talentontwikkeling
  • Voor gebruik van de basisfuncties van JoHo WorldSupporter.org
  • Voor het gebruik van de kortingen en voordelen bij partners
  • Voor gebruik van de voordelen bij verzekeringen en reisverzekeringen zonder assurantiebelasting

JoHo membership met extra services (abonnee services) = €10 per kalenderjaar

€10 per kalenderjaar: Online toegang Only

  • Voor volledige online toegang en gebruik van alle online boeksamenvattingen en studietools op WorldSupporter.org en JoHo.org
  • voor online toegang tot de tools en services voor werk in het buitenland, lange reizen, vrijwilligerswerk, stages en studie in het buitenland
  • voor online toegang tot de tools en services voor emigratie of lang verblijf in het buitenland
  • voor online toegang tot de tools en services voor competentieverbetering en kwaliteitenonderzoek
  • Voor extra steun aan JoHo, WorldSupporter en Smokey projecten

Steun JoHo en steun jezelf door JoHo WorldSupporter donateur te worden

Direct Donateur Worden

Join World Supporter
Join World Supporter
Log in or create your free account

Why create an account?

  • Your WorldSupporter account gives you access to all functionalities of the platform
  • Once you are logged in, you can:
    • Save pages to your favorites
    • Give feedback or share contributions
    • participate in discussions
    • share your own contributions through the 7 WorldSupporter tools
Follow the author: Psychology Supporter
Promotions
Image

Op zoek naar een uitdagende job die past bij je studie? Word studentmanager bij JoHo !

Werkzaamheden: o.a.

  • Het werven, aansturen en contact onderhouden met auteurs, studie-assistenten en het lokale studentennetwerk.
  • Het helpen bij samenstellen van de studiematerialen
  • PR & communicatie werkzaamheden

Interesse? Reageer of informeer

verzekering studeren in het buitenland

Ga jij binnenkort studeren in het buitenland?
Regel je zorg- en reisverzekering via JoHo!

Access level of this page
  • Public
  • WorldSupporters only
  • JoHo members
  • Private
Statistics
[totalcount] 1 1
Comments, Compliments & Kudos

Add new contribution

CAPTCHA
This question is for testing whether or not you are a human visitor and to prevent automated spam submissions.
Image CAPTCHA
Enter the characters shown in the image.
WorldSupporter Resources
Multivariate Data Analyse: Samenvattingen, uittreksels, aantekeningen en oefenvragen - UL
Collegeaantekeningen MVDA 2015-2016 - Universiteit Leiden

Collegeaantekeningen MVDA 2015-2016 - Universiteit Leiden

Deze aantekeningen zijn gebaseerd op het vak MVDA


College 1: Multipele regressie analyse

MVDA gaat over onderzoeksvragen. Bijvoorbeeld: kun je depressie voorspellen uit life events en coping? En: heeft een lesmethode effect op het rekenvermogen van middle class kinderen? Onderzoeksvragen hebben twee aspecten: de relatie tussen constructen en de populatie (steekproef = sample van de populatie). Geteste constructen noemen we variabelen. Om de data te analyseren moeten de juiste statistische technieken gebruikt worden bij de juiste onderzoeksvraag.

Er zijn 7 technieken verdeeld over 7 weken. Elke techniek kijkt naar 3 of meer variabelen. We gaan kijken welke methode we voor welk probleem kunnen gebruiken, we gaan data analyseren, we gaan naar de output kijken en we dieper naar de theorieën en of de interpretaties kloppend zijn.

We beginnen met MRA, dit is multipele regressie analyse. De technieken van de eerste vier weken hebben gemeen dat er één afhankelijke variabele is. Dit is de variabele die we willen voorspellen (Y). De onafhankelijke variabelen zijn de voorspellers, bij ANOVA worden ze factoren genoemd. Bij deze vier technieken is de vraag ‘kan ik Y voorspellen uit de onafhankelijke variabelen?’

Welke techniek je gebruikt hangt af van het meetniveau van de variabelen. Tijdens deze cursus zijn er drie meetniveaus die er toe doen:

  • Categorisch/nominaal: mensen worden in groepen ingedeeld

  • Interval: intervallen tussen scores hebben betekenis - afstand tussen de meetpunten heeft betekenis; vb.) depressiescore

  • Binair: Een categorische variabele die 2 categorieën heeft en interval eigenschappen heeft – er zijn twee niveaus en twee categorieën; vb.) man/vrouw, geslaagd/gezakt

De eerste week staat in het teken van Multipele Regressie Analyse (MRA). Bij multipele regressie analyse proberen we op basis van een aantal onafhankelijke variabelen (X1, X2….Xp) de afhankelijke variabele (Ypred) te voorspellen.

Belangrijk bij MRA:

  1. Er zijn meerdere onafhankelijke variabelen en er is steeds slechts één afhankelijke variabele.

  2. Zowel de onafhankelijke variabelen als de afhankelijke variabelen zijn van interval niveau.

Hieronder staat een overzicht van welke techniek je moet gebruiken bij verschillende niveaus van de variabelen (deze technieken worden in week 1 tot en met 4 behandeld).

X1, X2 … Xp

Y

Techniek

Interval

Interval

Multipele regressie analyse (MRA)

Nominaal

Interval

Variantie analyse (ANOVA)

Nominaal + interval

Interval

Covariantie analyse (ANCOVA)

Interval

Binair

Logistische regressie analyse (LRA)

Let op!

X1 en X2 kunnen ook binair zijn
En: als Y binair is, dan LRA gebruiken

Voorbeeld

Kan depressie (Y) worden voorspeld aan de hand van negatieve levensgebeurtenissen (X1) en/of coping (X2)?

  • vraag naar negatieve levensgebeurtenissen

  • test coping

  • BDI-test

Dit zijn alle intervalvariabelen. Je kan nu het regressiemodel toepassen.
Formules: (enkelvoudige regressie) Ŷi = b0 + b1X1i + ei en (meervoudige regressie) Ŷi = b0 + b1X1i + b2X2i + … + bkXki.

Op deze manier kan je voor elke proefpersoon, gegeven welke coping je hebt, de BDI waarde voorspellen.

Intercept = beginpunt (0, …)

Slope = hoe hoog, de hoek (richtingscoëfficiënt)

Ŷi = geschatte waarde

Regressie model

Als je een Y wil voorspellen uit X1 en X2 doe je dit met het volgende model: Y is een lineaire functie van X1 en X2. Y is een sommatie van X waar een regressiecoëfficiënt voor staat, een regressie constante en een residu. Het gaat om enkelvoudige regressie wanneer er 1 onafhankelijke is, en het gaat om multipele regressie wanneer er meerdere onafhankelijken zijn. Om de parameters uit te rekenen wordt de least squares estimation gebruikt in SPSS.

De beste voorspelling wordt gedaan als het verschil van de sum of squares (SSResidual) minimaal is, dus als alle residuen op 1 lijn liggen en 0 zijn. Dan ga je kwadrateren. Als de residuen het kleinst zijn dan heb je eigenlijk de best passende lijn.

Waarom gebruiken we een regressiemodel? Het voordeel van een regressiemodel is dat de relatie tussen de variabelen Y en X1 en X2 beschreven kan worden, zoals dit ook in de populatie het geval is. Ook is het mogelijk voorspellingen te doen voor personen die niet in onze sample hebben gezeten. Dit is bijvoorbeeld het geval als je iemand in de praktijk krijgt bij wie je depressie wil voorspellen. Je kan dan zijn/haar scores in de vergelijking invullen en kijken hoe groot het depressierisico voor deze persoon is.

Als b1 (, je rico) = 0 dan kan je eigenlijk niks voorspellen, want bij elk getal dat je invult, krijg je er 0 uit en je houdt een rechte lijn over. Om te testen of er een relatie is tussen Y en X1 en X2 (H0 testen) wordt een F-toets gebruikt. De F-toets laat zien of er een regressiecoëfficiënt ongelijk is aan nul, en of er dus een relatie is tussen Y en X1 of X2 of met allebei. De F-toets laat dus zien of het mogelijk is om Y te voorspellen uit X1 of X2. Om te
testen hoe sterk de voorspelling is wordt de R2 ofwel VAF gebruikt. Dit geeft weer hoeveel variantie van Y verklaart wordt door X1 en X2, oftewel hoe goed het lineaire model de geobserveerde data beschrijft.

Formules

SSTotal = SSRegression + SSResidual

Data = Model + Error

F = MSRegression / MSResidual = (SSRegression / dfRegression) / (SSResidual / dfResidual)

p < 0,001 dan significantie

R2 = VAF = SSRegresssion / Sstotal

Stel je krijgt R2 = 0,5 (p = 0,5) dan betekent dit dat 50% van de variantie van negatieve levensgebeurtenissen en coping depressie verklaren.

Je kan B’s (bèta’s) vergelijken aan de hand van een t-test.

In SPSS output is (Constant) de regressie constante (b0). Onder de kolom ‘B’ vind je b1 en b2 bij de bijbehorende onafhankelijke variabele. Als sommige coëfficiënten niet significant zijn doe je de regressie analyse opnieuw zonder deze predictoren.

Je kunt ook de gestandaardiseerde regressie vergelijking (z) gebruiken. Hiermee kun je de B’s vergelijken. In dit geval worden de scores van de predictoren gestandaardiseerd, dus het gemiddelde wordt op 0 gelegd en de spreiding op 1. Met deze regressie vergelijking zijn er geen constanten want die liggen op 0. De B’s zijn vervangen door bèta’s. Het voordeel van deze bèta’s is dat je ze nu kunt vergelijken omdat ze op dezelfde schaal liggen. Als de ene bèta groter is in absolute waarde dan de andere kun je stellen dat deze predictor belangrijker is dan de andere.

Formule

  • b wordt B(èta), verder is de formule hetzelfde (zie regressieformules)

  • z = (X – u) / o

De voorkeur ligt bij het gebruiken van de semi-partiële correlatie. In SPSS wordt hij de ‘part’ correlatie genoemd. De waarden liggen tussen 1 en -1. Deze wordt gebruikt om de uniek verklaarde variantie te berekenen. Deze semi-partiële correlatie is de correlatie van Y en X1 gecorrigeerd voor X2. ry(1∙2)2 geeft weer hoeveel variantie van Y uniek wordt verklaard door X1.

V1 is unieke verklaarde variantie verklaard door X1, V2 door X2, W wordt verklaard door X1 en X2 en U is het onverklaarde deel van Y.

Formules

  • r2Y(1·2) = V1 / (V1 + V2 + W + U)

  • r2Y1·2 = V1 / (V1 + U)

Voordat je een model kan gebruiken als voorspellend model, moeten er assumpties worden gecheckt. De variabelen moeten van interval niveau zijn. Het model moet lineair zijn: het gemiddelde van de afhankelijke variabele is een lineaire combinatie van voorspellers, de voorspellers zijn gemeten zonder errors. Daarnaast moet het model homoscedasticiteit hebben: de variantie van de residuen is constant voor de voorspelde waarden. Je kan dit testen aan de hand van plots in SPSS. Je kan een PP-/QQ-plot of histogram maken van de residuen en ze moeten dan allemaal op een rechte lijn liggen. Je kan ook een scatterplot maken. Hier kan je lineariteit en homoscedasticiteit mee checken. Ook hier moet weer een rechte lijn te zien zijn. De residuen moeten onafhankelijk zijn: individuen moeten onafhankelijk van elkaar reageren. Het model moet normaal verdeeld zijn. Tevens moet er geen multicollineariteit in de voorspellers zijn: geen gemiddelde tot hoge intercorrelaties tussen de voorspellers.

Als assumpties geschonden worden doordat een voorspeller voor afwijkingen zorgt kan je hem (1.) weglaten, (2.) de variabelen tranformeren en (3.) robuustere regressietechnieken gebruiken.

Als er sprake is van multicollineariteit zijn er gemiddelde tot hoge inter-correlaties tussen de predictoren. In de slides zijn enkele grafische weergaven te zien van deze assumpties. Om te checken of de multicollineariteit goed is, moet je (in SPSS) naar de VIF en de Tolerance kijken. De Tolerance bereken je door Tj = 1- Rj2, en de VIF bereken je door VIFj = 1/Tj = 1/(1-Rj2). De VIF moet groot zijn (onder de 5) en de Tolerance moet klein zijn (onder de 0,1).

De verklaarde variantie van Y in de steekproef wordt weergeven door R2. De adjusted R2 is om te meten hoeveel variantie van Y zou worden verklaard als we het model hadden afgeleid uit het regressiemodel van de populatie. De meest gebruikte formule voor de adjusted R2 is Wherry’s adjusted R2.

Formule

R2a = 1 – ((N – 1)/ ( N − k – 1)) (1 − R 2 )

Als de verhouding tussen het aantal ppn (N) en het aantal predictoren (k) klein is dan is een regressievergelijking eigenlijk niet zinvol.

College 2: ANOVA

ANOVA hoort bij de verschillende mogelijkheden om een afhankelijke variabele te voorspellen uit een aantal onafhankelijke variabelen (week 1 tot en met 4). Bij ANOVA zijn de onafhankelijke variabelen ( = predictoren) van nominaal niveau. Dit houdt in dat elke categorie een willekeurig nummer krijgt, aan deze nummers is dus geen volgorde af te lezen. De onafhankelijke variabelen (X1, X2, enzovoorts) worden bij ANOVA factoren genoemd in plaats van variabelen. De afhankelijke variabele is bij ANOVA op intervalniveau. ANOVA kan je opdelen in twee soorten: eenweg ANOVA en meerweg ANOVA (bijvoorbeeld tweeweg ANOVA). Afhankelijk van het aantal factoren wordt een ANOVA gekozen.

Bij ANOVA is de onderzoeksvraag meestal: welk effect hebben X1 en X2 op de afhankelijke variabele Y? Dus: kunnen we met X1 en X2 Y voorspellen?

Formule

  • Yij = µ + αj + eij,- tusse

  • groepsvariantie (αj variantie rondom het gemiddelde µ)

  • binnengroepsvariantie (eij variantie rondom elk groepsgemiddelde αj).

Om hier achter te komen moet je eerst voor elke factor afzonderlijk het effect op Y bekeken.

Als de factor verdeeld is in 2 groepen, dan kan je een t-test uitvoeren waarin de gemiddelden van de 2 groepen worden vergeleken.

Als de factor is verdeeld in 3 of meer groepen, kan je een eenweg ANOVA uitvoeren. H0 stelt dat alle gemiddelden aan elkaar gelijk zijn, en Ha stelt dat minimaal 2 gemiddelden niet aan elkaar gelijk zijn. ANOVA vergelijkt de between-groep variantie (de variantie tussen de verschillende groepen) en de within-groep variantie (de variantie binnen één groep). Het verwerpen van H0 is waarschijnlijker als er een groter verschil is tussen de groepsgemiddelden (grotere between-groep variantie), als er kleinere verschillen zijn binnen de groepen (kleinere within-groep variantie) en als er een grote steekproefgrootte (N) is.

De formule van de F-toets van de eenweg ANOVA ziet er als volgt uit: Met de vrijheidsgraden df(between) = k-1 en df(within) = N-k. Formules van de verschillende varianties zijn tevens in de PowerPoint weergeven.

Om erachter te komen welke van de 3 groepen verschil maken, kan er een post-hoc toets (multiple comparisons) worden uitgevoerd.

Factoriële ANOVA

Tweeweg ANOVA: ‘twee’ geeft het aantal factoren aan.

Meestal wordt het factoriele ANOVA genoemd, maar er kan ook sprake zijn van een alternatieve benaming, zoals in het volgende geval; een 3 x 2 tussengroepen ANOVA:

  • Er zijn 3 categorieën van leiderschapsstijl;

  • Er zijn 2 categorieën van baantype;

  • Tussen groepen: elke participant heeft z’n eigen groep waar hij/zij deel van uitmaakt;

  • Binnen groepen.

Tweeweg ANOVA

Na het afzonderlijk checken van de effecten van de factoren op Y, moet het effect van de factoren samen worden bekeken; het interactie-effect. Hiervoor is de tweeweg ANOVA (twee staat voor het aantal factoren).

De voordelen van tweeweg ANOVA ten opzichte van eenweg ANOVA:

  1. Eenweg ANOVA biedt enkel hoofdeffecten. Tweeweg ANOVA biedt de mogelijkheid tot het onderzoeken van een gecombineerd effect van twee factoren: er kan zo gekeken worden naar het interactie-effect en dit geeft meer inzicht in individuele factoren;

  2. Er zijn meer factoren en het is een complexer model: dit is efficiënter/biedt meer informatie bij hetzelfde aantal proefpersonen (N), maakt vermindering van errorvariantie mogelijk (en verklaard hierdoor meer variantie) en zorgt voor meer statistische power en als er factoren worden toegevoegd, wordt hier rekening mee gehouden en wordt de analyse voor deze factoren gecorrigeerd.

Formule

  • Yijk = µ + αj + βk + φjk + eijk

  • Yijk is de score van persoon i in groep j van X1 en groep k van X2

  • µ is het gemiddelde

  • αj is het groepseffect van groep j van X1

  • βk is het groepseffect van groep k van X2

  • φjk is het interactie-effect

  • eijk is het residu (= error)

  • µ, αj, βk en φjk moeten worden geschat door middel van de data.

In SPSS vind je ANOVA onder Analyze > general linear model > univariate.

In de SPSS output wordt ook het Corrected Model en het Corrected Total weergeven. Het Corrected model is het model zonder het intercept. Hierin worden de effecten van de verschillende factoren en de interactiefactoren gecombineerd. Het Corrected Total is het totaal zonder het intercept.

Tweeweg ANOVA geeft 4 verschillende F-toetsen. Het Corrected Model, de 2 factoren hoofdeffecten en het interactie effect.

Formule

  • F = MSeffect MSError = (SSeffect/dfeffect) / (SSError/dfError)

  • SSeffect is de sum of squares van het effect

  • dfeffect is het aantal vrijheidsgraden van het effect

  • MSeffect = SSeffect/dfeffect is het gemiddelde sum of squares van he effect.

Om H0 te testen wordt het Corrected Model gebruikt. Om te bekijken hoe sterk de relatie is, gebruiken we de determinatiecoëfficiënt R2 (VAF). Goed om hierbij te weten is dat ANOVA vaak minder VAF heeft dan MRA (week 1). Dit komt omdat de voorspellers in ANOVA nominaal zijn in plaats van interval, waardoor ze minder informatie geven.

Eta squared (ƞ2) is vergelijkbaar met de semi-partiële correlatie van week 1. Het reflecteert hoeveel variantie van Y uniek wordt verklaard. Eta squared wordt niet gegeven in SPSS en moet je dus zelf uitrekenen. De eta squared van het Corrected Model is gelijk aan R2 (VAF).

Formule

  • ƞ2Effect = SSEffect / SSCorrected Total

  • Dit moet met de hand worden berekend.

  • Het geeft een percentage aan; vb) Zoveel procent van de variantie in arbeidstevredenheid kan worden verklaard door leiderschapsstijl.

  • Voor het totaal gebruik je: ƞ2Corrected Model = SSCorrected Model / SSCorrected Total

  • Voor de interactie gebruik je: ƞ2Interactie = SSInteractie / SSCorrected Total

  • De waarde moet tussen de 0 en 1 zijn (tot 100%).

Om de effecten te interpreteren gebruiken we de estimated marginal means. Dit zijn de geschatte gemiddelden volgens het ANOVA-model, oftewel de geobserveerde groepsgemiddelden gecorrigeerd voor ongelijke groepsgroottes (ongebalanceerd model) en covarianties in het model. Wanneer het design gebalanceerd is (gelijke groepsgroottes) en er zijn geen covarianties, dan is het estimated marginal means gelijk aan het geobserveerde gemiddelde.

Om te kijken of er significante verschillen zijn in de groepen, moet er naar het 95% betrouwbaarheidsinterval worden gekeken. Als er geen overlap is, dan is er een significant verschil.

Een alternatief is een multiple comparisons (post hoc tests). Hier worden alle gemiddelden gepaard weergegeven, inclusief 95% betrouwbaarheidsinterval. Deze test heet Tukey HSD. In de multiple comparisons tabel uit SPSS kan je de significanties aflezen en met elkaar vergelijken.

Bij de interpretatie van het interactie-effect gaat het erom dat er wordt gekeken of het effect van de ene factor afhankelijk is van een groep van de andere factor/variabele. Je kijkt naar de verschillen tussen hoofdeffecten en/of het verschil tussen de verschillen; vb) Is het hoofdeffect van leiderschapsstijl hetzelfde voor dat van baantype? Ter ondersteuning van deze interpretatie kan er een plot gebruikt worden. In zo’n plot is kun je zien dat er geen sprake is van een interactie-effect als de trendlijnen parallel aan elkaar lopen. Als er wel een interactie-effect is dan zie je bijvoorbeeld gekruiste lijnen (twee lijnen door elkaar) in het plot. In dit laatste plot (kruis) zijn er geen hoofdeffecten, maar is er wel een interactie-effect.

Een gebalanceerd design betekent dat elke groep gelijke groepsgroottes (N) heeft. Als het design gebalanceerd is, bestaan er geen onderlinge correlaties, dus: iedere factor grijpt een apart stukje variantie van de afhankelijke variabele. Dit kan je zien/weergeven in een Venndiagram. Dit model is simpeler en de power is groter dan bij een ongebalanceerd design.

Formule

SSCorrected Model =SSA + SSB + SSA*B

De assumpties van ANOVA zijn de volgende. De residuen moeten onafhankelijk zijn, er moet groepsnormaliteit zijn, kijk hiervoor naar de histogrammen per groep of doe een Kolmogorov-Smirnov test, en er moet sprake zijn van homoscedasticiteit (= gelijkheid van de groepsvarianties) en dit wordt getest met een Levene’s toets. Tests zijn gevoelig voorRead more