Sociologiskforum.dk var aktivt fra 2004-2012, men eksisterer i dag kun som arkiv.
annonce

Independence of Irrelevant Alternatives i mlogit

Skrevet d. 30.12.2007 af KristianKarlson
Kære Alle,

Det nye år skal fejres med et tricky kvantitativt spørgsmål. Jeg sidder med en diskret hazardmodel med tre udfald i en eksamensopgave. Jeg bruger multinomial logistisk regression (mlogit). Opgaven går ud på at se på risikoen for opbrud i parforholdet givet en række faktorer. Referencekategorien er de højrecensurerede observationer, mens de to andre alternativer er: afgang til enlig, afgang til ny partner. Disse to alternativer er altså to måder, man kan afslutte forholdet på.

I mlogit arbejdes der, så vidt jeg har forstået, med antagelsen om Independence of Irrelevant Alternatives (IIA), dvs. at valget mellem to alternativer ikke må afhænge af andre alternativer. Dvs. det relative odds mellem A1 og A2 ikke må afhænge af andre tilgængelige alternativer, altså: andre alternativer er irrelevante. Antagelsen baserer sig således på, at fejlleddene bør være uafhængigt fordelte over alle alternativer.

Er der nogen, der ud fra ovenstående beskrivelse af min model, kan lure, om antagelsen om IIA kan siges at holde? Personligt mener jeg, at det ikke er sagen. Et eksempel: Valget mellem at blive i et forhold og afgå til enlig kan vel sagtens afhænge af, om man har muligheden for at afgå til ny partner.

Samtidig forholder det vel sig også sådan i den population, vi med samplet prøver at udtale os om, at går A fra B til fordel for fx en ny partner, så har B ikke længere muligheden for at "vælge" mellem alle alternativer. B skal nu vælge mellem de to afgange - tosomhed eller ensomhed - og har dermed ikke et valg mellem at fortsætte forholdet eller afslutte det (med enten afgang til ny partner eller enlig). Men har det noget at gøre med IIA - eller har det at gøre med en anden afhængighed mellem observationer, som man bør tage højde for i estimationen af modellen?

Mvh. Kristian
Skrevet d. 30.12.2007 af KristianKarlson
Jeg fik vist vrøvlet lidt oven for: Referencen må af gode grunde være, at man bliver i forholdet, altså de folk, der "overlever" til tiden [i]t[/i] og dermed forbliver i risksettet til tiden [i]t + 1[/i]. De højrecensurerede og dem, der oplever en hændelse til tiden [i]t[/i], går selvfølgelig ud af risksettet i alle efterfølgende perioder.
Skrevet d. 30.12.2007 af Mads_Jaeger
Hej Kristian

Du har forstået IIA rigtigt: Antagelsen betyder, at de relative odds for to alternativer ikke afhænger af et tredje eller andre alternativer i choice settet. I praksis betyder det, at odds for at forlade parforhold til single-tilværelse er upåvirket af, at man også kan finde en ny kæreste.

IIA er selvfølgelig dybest set en fjollet antagelse, men den gør, at logitspecifikationen/likelihood`en har en enkel og lukket form. Alternativet er, at du skal specificere din competing risk som en multinomial probit i stedet for logit. Det kan lade sig gøre men kan være besværlig at estimere i praksis (har aldrig selv prøvet). Den mest almindelige måde at omgå IIA på når man har paneldata (har du det?) er at specificere competing risk logit`en med en random effect, der korrigerer for uobserverede individuelle faktorer, som er korrelerede over alternativer/afgange (dvs. en mixed logit). I stata kan du bare køre xtlogit for en almindelig binær afgang og gllamm for competing risk med random effects. I SAS kan du køre nlmixed.

Mvh. og godt nytår!

Mads
Skrevet d. 30.12.2007 af KristianKarlson
Hej Mads,

Super! Eksamen har det med at drive en ud i sære problemer. Og ja, jeg har paneldata. Jeg prøver med STATA. Jeg er dog ikke helt med på, hvad der skal være min "cluster" for random effecten, dvs. mit subject eller id (eller hvad man nu vil kalde det). Er det individet, eller? Såfremt jeg bruger GLLAMM går det så bare på, at jeg tillader varianskomponenterne for niveau-2 at være korrelerede mellem alternativerne?

mvh Kristian
Skrevet d. 31.12.2007 af Mads_Jaeger
Hej Kristian

Jeg går ud fra at det er individet, som er clustered. Sådan må det være! Jeg tror også sagtens, at du kan have en random effect for hver kontrast/alternativ og at de kan være korrelerede. Du kan jo bare teste om der er brug for flere random effects og om alternativerne er korrelerede. Occam`s razor you know.

Det eneste jeg tænker på er, at i logikken i varighedsmodeller er afgangene er "absorbing states", så man kan vel ikke - i hvert fald ikke i den almindelige model - observere at individet afgår til en anden tilstand flere gange? Og hvordan identificerer man så random effecten. Anyway, er ikke helt sikker på hvordan den slags håndteres ...

Mvh.

Mads
Skrevet d. 31.12.2007 af KristianKarlson
Hej Mads,

Ja, netop. Har allerede prøvet at lave en mellem-strata korreleret random-intercept model, som viser, at de to er stærkt negativt korreleret. Det giver dog et mærkeligt resultat, så skal vist lige ha` set på programmet igen.

Måske kan det skyldes, at såfremt individet afslutter sit forløb, så får vedkommende jo blot en værdi for enten afgang til enlig eller afgang til ny partner i sidste observationsperiode. De forudgående observationer vil således være 0, altså at man har "overlevet". Det er således [i]ikke[/i] individuelle udviklingskurver, men derimod betingede sandsynligheder til de givne tidspunkter.

Nu er det faktisk sådan, at det samme individ godt kan indgå to eller flere gange. Folk er med, hvis de starter et spell i perioden. Dvs. hvis du afgår til ny partner, og du stadig er med i datavinduet, så indgår du to gange. Principielt kan du også afgå til enlig ét år, og så nogle år efter finde en ny partner, dvs. du er med igen. Så er du også registreret. Så "enheden" er ikke individer, men individforløb.

Det løser nu alligevel ikke problemet. Pointen er vel dog stadigvæk, at jeg skal have bygget en model, der tillader en form for korrelation mellem restledsvarianserne for de to alternativer. Spørgsmålet er blot, hvad det er, vi måler med en random effect på individniveau. Jeg prøver at tænke lidt mere over det.

Og godt nytår!

vh Kristian
Skrevet d. 06.01.2008 af KristianKarlson
Hej igen,

Nu har jeg endelig fundet noget, der lader til at du. GLLAMM-tricket lod ikke rigtig til at virke, selvom jeg stadig roder med det. Derimod har jeg prøvet en anden mere lige til metode, nemlig en Shared Unmeasured Risk Factors competing risks model (SURF, fedt navn ikke? ;)). Jeg kan ikke helt lure, om jeg gør det rigtigt, men resultaterne virker ok. Det er Hill et al. (1993), der står bag idéen. Det fikse er, at forfatterne har udviklet en 2trinsmetode, hvor man kun skal bruge binær logistisk regression.

Problematikken går selvfølgelig på, at der kan være fælles uobserverede faktorer, der kan forklare variationen i begge alternativer. Under IIA tillader vi ikke dette, dvs. kontrasterne er uafhængige af hinanden. Grundidéen i SURF-metoden er, sådan som jeg forstår det, at vi laver en afart af en nested logit model, altså at alternativer kan være indlejrede, fx i mit tilfælde de to processor, der gør, at folk enten afgår til enlig eller afgår til ny partner.

Tricket er, at man estimerer en alm. binær logitmodel for de observationer, hvor en af de to hændelser indtræffer, dvs. man ser på sandsynligheden for at afgå til enlig i forhold til ny partner (trin 1). Man inkluderer teoretisk relevante faktorer. Denne model estimeres således ikke i person-period datasættet, men kun for de cases, hvor en af hændelserne indtræffer. Denne model anvendes til at konstruere en størrelse, [i]I[/i], for hver case i person-period datasættet. Derefter kører man en almindelig binær logitmodel på, om man afgår eller ej (ikke til hvilken tilstand) (trin 2). I modellen inkluderer man de forklarende variable, man regner med, har effekt og herudover inkluderer man logaritmen til [i]I[/i]. Estimatet for [i]ln(I)[/i] giver, hvad vi kalder [i]index of dissimilarity[/i]. Det kan vises, at korrelationen mellem de uobserverede komponenter er givet ved [i]1-(ln(I))^2[/i]. Under IIA vil denne korrelation være 1, dvs. [i]ln(I)[/i] vil være 0.

I mit tilfælde er [i]ln(I)[/i] ikke signifikant, hvorfor det lige så godt kunne være 0. Det vil sige, sådan som jeg har forstået det, at min antagelse om IIA i mlogit-modellen ikke er videre problematisk. Dog kan det imidlertid sagtens være, at jeg ikke har gjort mit arbejde godt nok i trin 1 – altså identificeret de risikofaktorer, som kan være ”delte”. Herudover er der problemet med, at SURF-metoden antager, at de uobserverede risikofaktorer ikke afhænger af tid.

Uanset hvad, så kan man med metoden teste, om nu ens mlogit IIA-antagelse også i virkeligheden holder. Så vidt jeg har forstået det kan man gøre det samme med en random effect mlogit model, hvor man tillader korrelationer mellem fejlkomponenterne mellem alternativer, dvs. tillader for delte uobserverede risikofaktorer. Imidlertid kan jeg ikke lure det i GLLAMM, hvorfor den anden metode er nemmere at gå til. Se i øvrigt referencen for at se den konkrete procedure, da jeg kun har skitseret den i få, knapt så stringente termer.

Mvh. Kristian


REF.
[i]Hill, D.H., W.G. Axinn, & A. Thornton 1993: “Competing Hazards with Shared Unmeasured Risk Factors”, in: Sociological Methodology, vol. 23: pp. 245-277. [/i]
Skrevet d. 07.01.2008 af Mads_Jaeger
Hej Kristian

Tak for feedback.

Men, er det ikke lidt er høkermetode de foreslår? Du beregner en slags vægt på baggrund af observerede variable og antager at den fanger de væsentlige uobserverede forhold. Metoden introducerer også nye parametriske antagelser og ikke-testbare hypoteser. Artiklen er fra 1993 (jeg kender udmærket forfatterne) og fra før man (dvs. ikke-økonomer) for alvor begyndte at modellere uobserveret heterogeneitet i varighedsmodeller. Findes der ikke noget nyere og mere funky du kan bruge. Mit umiddelbare bud er at en multinomial gllamm med alternativspecifikke random effects (den har du fået til at køre ikke) og med tidsdummier for en fleksibel modellering af varighedseffekten (det må så være en mixed discrete time hazard model) burde virke. Kan du få sådan en fætter til at køre?

Mvh.

Mads

Skrevet d. 07.01.2008 af KristianKarlson
Hej Mads,

Ja, det er en lidt ad hoc tilgang, men for at få sig en idé om, hvad der foregår, er den fin nok. I forhold til en mixed discrete time hazard model, så kan jeg sagtens køre den i GLLAMM - det tager blot en krig. Principielt skulle den også måle shared unobserved risk factors (det skriver sådan som Singer og Goldstein i hvert fald). Der er ikke nok data til at lave tidsdummyer, hvorfor jeg - efter tests - vælger en kubisk afhængighed som funktionel form for tiden. Den passer bedst i den almindelige mlogt.

I mixed-modellen har jeg overvejet, hvilke random effects, jeg skal have med. Jeg kan lave en random intercept model, fx, hvor varianskomponenterne for de to alternativer er korrelerede. Hvis man imidlertid også vil have varigheden med ind i spillet, har jeg overvejet at inkludere tid lineært for begge alternativer, dvs. 4 random effects. Det er imidlertid noget af en fætter at estimere i GLLAMM. Måske ville det være nemmere i nlmixed i SAS.

Du har ikke nogle "tutorial"-lignende artikler/dokumenter liggende om snilde estimationer i mixed discrete time hazard modeller med competing risks? Uanset hvad, så prøver jeg at lade GLLAMM køre natten over for at se, om det giver pote.

vh. Kristian

Andre læser også

annonce
Sociologiskforum.dk benytter cookies til blandt andet statistik og marketing. Ved at benytte hjemmesiden accepterer du vores brug af cookies. Okay