Sociologiskforum.dk var aktivt fra 2004-2012, men eksisterer i dag kun som arkiv.

God/dårlig multikollinearitet

Skrevet d. 15.04.2009 af Iga
Hej

Jeg ville høre, om nogen kan hjælpe med, hvornår korrelationer mellem uafhængige variabler er så stort et problem, at der er tale om dårlig multikollinearitet - altså hvor høj må den numeriske værdi være?

Jeg sidder med nogle korrelationer, jeg umiddelbart synes er høje (0,369), men teoretisk kan ingen a variablerne udelades.
Hvis jeg fjerner en af variablerne mister jeg melem 5 % og 10 % i forklaringskraft, hvilket vel burde indikere, at variablerne ikke er så højt korreleret, at de ikke tilører ny forklaringskraft - kan jeg bruge det som indikator?

Endelig - hvis korrelationerne er for høje, er der da ikke andet at gøre, end at udelade en eller flere variabler (og hvad sker der så - for hvis de er korrelerede burde der jo kontrolleres for den anden!)

Jeg håber mit spørgsmål er tydeligt og at I kan hjælpe!

Vh Ida
Skrevet d. 16.04.2009 af Mads_Jaeger
Hej Ida

Der findes ikke "dårlig" multikollinearitet som sådan :-) Det er klart, at hvis to forklarende variable i en regressionsmodel er højt korrelerede kan det være svært at adskille den enes forklaringskraft fra den andens. En korrelation på omkring 0.35 burde ikke være noget større problem med mindre du a) har et meget lille datasæt eller b) har en meget kompliceret model med mange forklarende variable. Så kan det godt være, at der ikke er information nok i dine data til kunne gøre det du vil. Estimerer du lineær regression eller noget ikke-lineært som fx logistisk regression? Det kan også betyde noget. Men, i udgangspunktet tror jeg sagtens du kan have begge forklarende variable med.

Mvh.

Mads
Skrevet d. 26.04.2009 af Iga
Hej Mads
Tak for dt svar. Jeg estimerer en logistisk model, og grunden til, jeg gik ud fra, der var tale om "dårlig" mltikollinearitet er, at mine p-værier på én af de forklarende variabler i modellen (social klasse som ordinal variabel i 6 kategoier) er 1,000 og flere af kategorierne >0,900. Det må de vel ikke, eller hvordan?
Vh Ida
Skrevet d. 27.04.2009 af Mads_Jaeger
Hej Ida

Det lyder bare som om at klassevariablen bare ikke har en signifikant effekt (overhovedet) på din afhængige variabel. Bliver klasse signifikant hvis du udelader den variabel, som klasse er korreleret med (omkring 0.35)?

Mads
Skrevet d. 27.04.2009 af Iga
Hej Mads,

Nu har jeg lige kigget lidt mere på data, og problemet ser ud til at være, at jeg faktisk har tomme celler, hvis jeg laver en krydstabel mellem min afhængige (risikoaversion) og uafhængige variabel (social klasse). Kan jeg anvende social klasse som en kvantitativ variabel eller løser det ikke problemet, når der er tomme celler?

/Ida
Skrevet d. 28.04.2009 af Mads_Jaeger
Hej Ida

Det kan godt være noget af forklaringen. Du bør nok kollapse nogle af klassekategorierne så du ikke har tomme celler i regressionen (bruger du Goldthorpe`s klasseopdeling?), især hvs du har klasse med som kvalitativ variabel (dummykodning). Socialklasse og risikoaversion - det lydet lidt som Breens/Goldthorpe`s teori om relativ risikoaversion - spænende; lige min kop te :-)

Mvh.

Mads
Skrevet d. 28.04.2009 af Iga
Hej Mads,

Jeg stiller risikoaversionsteorien op mod reproduktionsteori (rep. ved Bourdieu) som teoretiske bud på forklaringen af elevpræstationer i PISA Etnisk.
Jeg bruger ikke Goldthorpes klasseopdeling, da PISA Etnisk kun indeholder forældrenes uddannelse og intet andet. Derfor er min social klasse variabel den højeste af mors og fars uddannelse.
Jeg er ikke helt sikker på, at jeg forstår, hvad du mener, jeg skal gøre. Som det er nu, har jeg prøvet at estimere den logistiske model (RRA) med social klasse som en kontinuert variabel, hvilket umiddelbart ser ud til at løse problemet (ikke noget med dummies). Jeg kan ikke slå kategorier sammen, idet jeg så vil få meget store grupper som fx. ingen uddannelse og KVU i én kategoi;-)
Hvis social klasse er kontinuert og ser ud til at give de rigtige resultater, kan jeg så ikke bare sådan?
Skrevet d. 28.04.2009 af Mads_Jaeger
Hej Ida

Ok - nu er jeg med. Det er fint at bruge forældres uddannelse som mål for familiebaggrund (effekten af uddannelse er også nemmere at fortolke end effekten af socialklasse). Det er også fint at bruge forældres uddannelse som kontinuert forklarende variabel - det er mindre problematisk end at bruge socialklasse som kontinuert variabel. Alles gut. Har du læst van de Werfhorst/Hofstede`s artikel i British Journal of Sociology (2007) der også sammenligner kulturel kapital og RRA - den minder meget om det du gør?

Mads
Skrevet d. 28.04.2009 af Iga
Jep, den har jeg - de har BÅDE en RRA-variabel og en forventningsvariabel, hvor der i PISA Etnisk desværre kun kan konstrueres én indikator;-)
Tusind tak for din hjælp - det har virkelig været brugbart!
Skrevet d. 28.04.2009 af Mads_Jaeger
Happy to be of assistance - lad mig høre hvis jeg kan hjælpe mere :-)
Skrevet d. 29.04.2009 af Iga
Hej Mads,
Jeg tillader mig lige at skrive en gang til, da du skrev, du er på hjemmebane i forhold til mit emne.
Som jeg evt. skrev til dig, opstiller jeg to teoretiske forklaringsmodeller (Bourdieu og Goldthorpe) til at skulle kunne sige noget om danske/etniske unges præstationer i PISA Etnisk. Jeg er dog pludselig blevet lidt i tvivl om, hvorvidt risikoaversionsteorien giver nogen mening mht at skulle forklare testscore, idet der jo ikke ligger nogen form for rationelt valg i hvordan man præsterer i en test (altså selve secondary effecten)? RRA er dog den mest positive faktor for testscoren, hvilket jo er lidt interessant.
Hvad mener du?
Skrevet d. 29.04.2009 af Mads_Jaeger
Hej Ida

God pointe. RRA-teorien handler eksplicit om sekundære effekter, dvs. effekten af familiebaggrund på uddannelsesvalget EFTER der er kontrolleret for præstationer/færdigheder. Derfor er RRA måske ikke så velegnet til at udtale sig om primære effekter: Dvs. effekten af familiebaggrund på unges kognitive færdigheder/præstationer. Det er derimod Bourdieu, kulturel kapital og andre lignende teorier (det medgiver selv Goldthorpe!). Du bør nok derfor overveje om det er meningsfuldt at sammenligne RRA (sekundære effekter) og Bourdieu (primære & sekundære effekter) teoretisk når du udelukkende analyserer primære effekter. Ellers bliver det måske som at sammenligne æbler og pærer. Jeg kan ikke helt huske hvad Werfhorst/Hofstede gør, men jeg mener at de ser på uddannelsesvalg (dvs. sekundære effekter). Værd at overveje anyways.

Empirisk: Nu ved jeg ikke hvordan du har operationaliseret RRA (er det noget med forventninger til hvor langt man når i uddannelsessystemet?), men der er altid en risiko for, at forventningsvariable måler - ja netop - forventninger GENERELT og ikke RRA SPECIFIKT (som er relativ og klassespecifik). Det problem har Werfhorst/Hofstede i hvert fald. RRA er svært at operationsere. Har du læst min og Anders Holms artikel om RRA (skal jo reklamere lidt for egne produkter)?

Holm, A. & Jæger, M.M. (2008): "Does Relative Risk Aversion Explain Educational Inequality? A Dynamic Approach". Research in Social Stratification and Mobility, 26(3): 199-219.

Ellers kan jeg sende den til dig i pdf.

Mvh.

Mads
Skrevet d. 29.04.2009 af Iga
Hej Mads

Jeg vil gerne have artiklen, du taler om - jeg har to andre af jer, men ikke den der.
Jeg måler RRA ved at se på elevens uddannelsesforventning ift. den højeste af mors og fars uddannelse. Det vil sige, at hvis elevens forventning er lig med eller større end den højeste af mors og fars udd. så er man risikoavers og ellers ikke. Jeg har været meget i tvivl om, hvorvidt det gav mening at måle den som en binær variabel, men da der ikke er andre variabler som kan måle RRA, er det enten sådan eller slet ikke.
Werfhorst/Hofsteede estimere faktisk to forskellige modeller; en som er primæreffekter (testscore tror jeg) og en som er sekundæreffekter (forventninger). Det kan jeg ikke gøre eftersom min RRA variabel er konstrueret på baggrund af forventninger og derfor langt hen ad vejen er den samme variabel.
Som det er nu (i mangel på det rette udvalg af variabler, desværre) estimerer jeg 3 modeller:
1) RRA (for at se om social klasse er signifikant, det må den jo ikke)
2) Hvorvidt eleven laver lektier mere end 3 timer om ugen (da dette kan være en indikator for rationel adfærd hvis man gerne vil optimere sin udd. chancer)
3) Testscoren (for at finde ud af effekten af kulturel kapital, social klasse og så lektier)

Jeg tænker at lektie-variablen vel kan være et udtryk for sekundære effekter og testscoren for primære effekter?
Kausaliten ville da være således

Kulturel kapital ->Lektier -> Testscore (primær)
Social Klasse -> RRA -> Lektier -> Testscore (sekundære)
Etnicitet ->Lektier -> Testscore (primære)

Hvis det bliver for specifikt må du sige til;-)

/Ida



Skrevet d. 01.05.2009 af Mads_Jaeger
Hej Ida

Det lyder rigtigt spændende - og som en fornuftig tilgang du har valgt.

Kan du ikke lige sende mig en mail (min mailaddresse står under mine brugerindstillinger)? Så kan jeg sende dig artiklen.

Mads

Andre læser også

Sociologiskforum.dk benytter cookies til blandt andet statistik og marketing. Ved at benytte hjemmesiden accepterer du vores brug af cookies. Okay