Independence of Irrelevant Alternatives i mlogit

Skrevet d. 30.12.2007 af KristianKarlson

KÃ¦re Alle,

Det nye Ã¥r skal fejres med et tricky kvantitativt spÃ¸rgsmÃ¥l. Jeg sidder med en diskret hazardmodel med tre udfald i en eksamensopgave. Jeg bruger multinomial logistisk regression (mlogit). Opgaven gÃ¥r ud pÃ¥ at se pÃ¥ risikoen for opbrud i parforholdet givet en rÃ¦kke faktorer. Referencekategorien er de hÃ¸jrecensurerede observationer, mens de to andre alternativer er: afgang til enlig, afgang til ny partner. Disse to alternativer er altsÃ¥ to mÃ¥der, man kan afslutte forholdet pÃ¥.

I mlogit arbejdes der, sÃ¥ vidt jeg har forstÃ¥et, med antagelsen om Independence of Irrelevant Alternatives (IIA), dvs. at valget mellem to alternativer ikke mÃ¥ afhÃ¦nge af andre alternativer. Dvs. det relative odds mellem A1 og A2 ikke mÃ¥ afhÃ¦nge af andre tilgÃ¦ngelige alternativer, altsÃ¥: andre alternativer er irrelevante. Antagelsen baserer sig sÃ¥ledes pÃ¥, at fejlleddene bÃ¸r vÃ¦re uafhÃ¦ngigt fordelte over alle alternativer.

Er der nogen, der ud fra ovenstÃ¥ende beskrivelse af min model, kan lure, om antagelsen om IIA kan siges at holde? Personligt mener jeg, at det ikke er sagen. Et eksempel: Valget mellem at blive i et forhold og afgÃ¥ til enlig kan vel sagtens afhÃ¦nge af, om man har muligheden for at afgÃ¥ til ny partner.

Samtidig forholder det vel sig ogsÃ¥ sÃ¥dan i den population, vi med samplet prÃ¸ver at udtale os om, at gÃ¥r A fra B til fordel for fx en ny partner, sÃ¥ har B ikke lÃ¦ngere muligheden for at "vÃ¦lge" mellem alle alternativer. B skal nu vÃ¦lge mellem de to afgange - tosomhed eller ensomhed - og har dermed ikke et valg mellem at fortsÃ¦tte forholdet eller afslutte det (med enten afgang til ny partner eller enlig). Men har det noget at gÃ¸re med IIA - eller har det at gÃ¸re med en anden afhÃ¦ngighed mellem observationer, som man bÃ¸r tage hÃ¸jde for i estimationen af modellen?

Mvh. Kristian

Skrevet d. 30.12.2007 af KristianKarlson

Jeg fik vist vrÃ¸vlet lidt oven for: Referencen mÃ¥ af gode grunde vÃ¦re, at man bliver i forholdet, altsÃ¥ de folk, der "overlever" til tiden [i]t[/i] og dermed forbliver i risksettet til tiden [i]t + 1[/i]. De hÃ¸jrecensurerede og dem, der oplever en hÃ¦ndelse til tiden [i]t[/i], gÃ¥r selvfÃ¸lgelig ud af risksettet i alle efterfÃ¸lgende perioder.

Skrevet d. 30.12.2007 af Mads_Jaeger

Hej Kristian

Du har forstÃ¥et IIA rigtigt: Antagelsen betyder, at de relative odds for to alternativer ikke afhÃ¦nger af et tredje eller andre alternativer i choice settet. I praksis betyder det, at odds for at forlade parforhold til single-tilvÃ¦relse er upÃ¥virket af, at man ogsÃ¥ kan finde en ny kÃ¦reste.

IIA er selvfÃ¸lgelig dybest set en fjollet antagelse, men den gÃ¸r, at logitspecifikationen/likelihood`en har en enkel og lukket form. Alternativet er, at du skal specificere din competing risk som en multinomial probit i stedet for logit. Det kan lade sig gÃ¸re men kan vÃ¦re besvÃ¦rlig at estimere i praksis (har aldrig selv prÃ¸vet). Den mest almindelige mÃ¥de at omgÃ¥ IIA pÃ¥ nÃ¥r man har paneldata (har du det?) er at specificere competing risk logit`en med en random effect, der korrigerer for uobserverede individuelle faktorer, som er korrelerede over alternativer/afgange (dvs. en mixed logit). I stata kan du bare kÃ¸re xtlogit for en almindelig binÃ¦r afgang og gllamm for competing risk med random effects. I SAS kan du kÃ¸re nlmixed.

Mvh. og godt nytÃ¥r!

Mads

Skrevet d. 30.12.2007 af KristianKarlson

Hej Mads,

Super! Eksamen har det med at drive en ud i sÃ¦re problemer. Og ja, jeg har paneldata. Jeg prÃ¸ver med STATA. Jeg er dog ikke helt med pÃ¥, hvad der skal vÃ¦re min "cluster" for random effecten, dvs. mit subject eller id (eller hvad man nu vil kalde det). Er det individet, eller? SÃ¥fremt jeg bruger GLLAMM gÃ¥r det sÃ¥ bare pÃ¥, at jeg tillader varianskomponenterne for niveau-2 at vÃ¦re korrelerede mellem alternativerne?

mvh Kristian

Skrevet d. 31.12.2007 af Mads_Jaeger

Hej Kristian

Jeg gÃ¥r ud fra at det er individet, som er clustered. SÃ¥dan mÃ¥ det vÃ¦re! Jeg tror ogsÃ¥ sagtens, at du kan have en random effect for hver kontrast/alternativ og at de kan vÃ¦re korrelerede. Du kan jo bare teste om der er brug for flere random effects og om alternativerne er korrelerede. Occam`s razor you know.

Det eneste jeg tÃ¦nker pÃ¥ er, at i logikken i varighedsmodeller er afgangene er "absorbing states", sÃ¥ man kan vel ikke - i hvert fald ikke i den almindelige model - observere at individet afgÃ¥r til en anden tilstand flere gange? Og hvordan identificerer man sÃ¥ random effecten. Anyway, er ikke helt sikker pÃ¥ hvordan den slags hÃ¥ndteres ...

Mvh.

Mads

Skrevet d. 31.12.2007 af KristianKarlson

Hej Mads,

Ja, netop. Har allerede prÃ¸vet at lave en mellem-strata korreleret random-intercept model, som viser, at de to er stÃ¦rkt negativt korreleret. Det giver dog et mÃ¦rkeligt resultat, sÃ¥ skal vist lige ha` set pÃ¥ programmet igen.

MÃ¥ske kan det skyldes, at sÃ¥fremt individet afslutter sit forlÃ¸b, sÃ¥ fÃ¥r vedkommende jo blot en vÃ¦rdi for enten afgang til enlig eller afgang til ny partner i sidste observationsperiode. De forudgÃ¥ende observationer vil sÃ¥ledes vÃ¦re 0, altsÃ¥ at man har "overlevet". Det er sÃ¥ledes [i]ikke[/i] individuelle udviklingskurver, men derimod betingede sandsynligheder til de givne tidspunkter.

Nu er det faktisk sÃ¥dan, at det samme individ godt kan indgÃ¥ to eller flere gange. Folk er med, hvis de starter et spell i perioden. Dvs. hvis du afgÃ¥r til ny partner, og du stadig er med i datavinduet, sÃ¥ indgÃ¥r du to gange. Principielt kan du ogsÃ¥ afgÃ¥ til enlig Ã©t Ã¥r, og sÃ¥ nogle Ã¥r efter finde en ny partner, dvs. du er med igen. SÃ¥ er du ogsÃ¥ registreret. SÃ¥ "enheden" er ikke individer, men individforlÃ¸b.

Det lÃ¸ser nu alligevel ikke problemet. Pointen er vel dog stadigvÃ¦k, at jeg skal have bygget en model, der tillader en form for korrelation mellem restledsvarianserne for de to alternativer. SpÃ¸rgsmÃ¥let er blot, hvad det er, vi mÃ¥ler med en random effect pÃ¥ individniveau. Jeg prÃ¸ver at tÃ¦nke lidt mere over det.

Og godt nytÃ¥r!

vh Kristian

Skrevet d. 06.01.2008 af KristianKarlson

Hej igen,

Nu har jeg endelig fundet noget, der lader til at du. GLLAMM-tricket lod ikke rigtig til at virke, selvom jeg stadig roder med det. Derimod har jeg prÃ¸vet en anden mere lige til metode, nemlig en Shared Unmeasured Risk Factors competing risks model (SURF, fedt navn ikke? ;)). Jeg kan ikke helt lure, om jeg gÃ¸r det rigtigt, men resultaterne virker ok. Det er Hill et al. (1993), der stÃ¥r bag idÃ©en. Det fikse er, at forfatterne har udviklet en 2trinsmetode, hvor man kun skal bruge binÃ¦r logistisk regression.

Problematikken gÃ¥r selvfÃ¸lgelig pÃ¥, at der kan vÃ¦re fÃ¦lles uobserverede faktorer, der kan forklare variationen i begge alternativer. Under IIA tillader vi ikke dette, dvs. kontrasterne er uafhÃ¦ngige af hinanden. GrundidÃ©en i SURF-metoden er, sÃ¥dan som jeg forstÃ¥r det, at vi laver en afart af en nested logit model, altsÃ¥ at alternativer kan vÃ¦re indlejrede, fx i mit tilfÃ¦lde de to processor, der gÃ¸r, at folk enten afgÃ¥r til enlig eller afgÃ¥r til ny partner.

Tricket er, at man estimerer en alm. binÃ¦r logitmodel for de observationer, hvor en af de to hÃ¦ndelser indtrÃ¦ffer, dvs. man ser pÃ¥ sandsynligheden for at afgÃ¥ til enlig i forhold til ny partner (trin 1). Man inkluderer teoretisk relevante faktorer. Denne model estimeres sÃ¥ledes ikke i person-period datasÃ¦ttet, men kun for de cases, hvor en af hÃ¦ndelserne indtrÃ¦ffer. Denne model anvendes til at konstruere en stÃ¸rrelse, [i]I[/i], for hver case i person-period datasÃ¦ttet. Derefter kÃ¸rer man en almindelig binÃ¦r logitmodel pÃ¥, om man afgÃ¥r eller ej (ikke til hvilken tilstand) (trin 2). I modellen inkluderer man de forklarende variable, man regner med, har effekt og herudover inkluderer man logaritmen til [i]I[/i]. Estimatet for [i]ln(I)[/i] giver, hvad vi kalder [i]index of dissimilarity[/i]. Det kan vises, at korrelationen mellem de uobserverede komponenter er givet ved [i]1-(ln(I))^2[/i]. Under IIA vil denne korrelation vÃ¦re 1, dvs. [i]ln(I)[/i] vil vÃ¦re 0.

I mit tilfÃ¦lde er [i]ln(I)[/i] ikke signifikant, hvorfor det lige sÃ¥ godt kunne vÃ¦re 0. Det vil sige, sÃ¥dan som jeg har forstÃ¥et det, at min antagelse om IIA i mlogit-modellen ikke er videre problematisk. Dog kan det imidlertid sagtens vÃ¦re, at jeg ikke har gjort mit arbejde godt nok i trin 1 â€“ altsÃ¥ identificeret de risikofaktorer, som kan vÃ¦re â€delteâ€. Herudover er der problemet med, at SURF-metoden antager, at de uobserverede risikofaktorer ikke afhÃ¦nger af tid.

Uanset hvad, sÃ¥ kan man med metoden teste, om nu ens mlogit IIA-antagelse ogsÃ¥ i virkeligheden holder. SÃ¥ vidt jeg har forstÃ¥et det kan man gÃ¸re det samme med en random effect mlogit model, hvor man tillader korrelationer mellem fejlkomponenterne mellem alternativer, dvs. tillader for delte uobserverede risikofaktorer. Imidlertid kan jeg ikke lure det i GLLAMM, hvorfor den anden metode er nemmere at gÃ¥ til. Se i Ã¸vrigt referencen for at se den konkrete procedure, da jeg kun har skitseret den i fÃ¥, knapt sÃ¥ stringente termer.

Mvh. Kristian

REF.
[i]Hill, D.H., W.G. Axinn, & A. Thornton 1993: â€œCompeting Hazards with Shared Unmeasured Risk Factorsâ€, in: Sociological Methodology, vol. 23: pp. 245-277. [/i]

Skrevet d. 07.01.2008 af Mads_Jaeger

Hej Kristian

Tak for feedback.

Men, er det ikke lidt er hÃ¸kermetode de foreslÃ¥r? Du beregner en slags vÃ¦gt pÃ¥ baggrund af observerede variable og antager at den fanger de vÃ¦sentlige uobserverede forhold. Metoden introducerer ogsÃ¥ nye parametriske antagelser og ikke-testbare hypoteser. Artiklen er fra 1993 (jeg kender udmÃ¦rket forfatterne) og fra fÃ¸r man (dvs. ikke-Ã¸konomer) for alvor begyndte at modellere uobserveret heterogeneitet i varighedsmodeller. Findes der ikke noget nyere og mere funky du kan bruge. Mit umiddelbare bud er at en multinomial gllamm med alternativspecifikke random effects (den har du fÃ¥et til at kÃ¸re ikke) og med tidsdummier for en fleksibel modellering af varighedseffekten (det mÃ¥ sÃ¥ vÃ¦re en mixed discrete time hazard model) burde virke. Kan du fÃ¥ sÃ¥dan en fÃ¦tter til at kÃ¸re?

Mvh.

Mads

Skrevet d. 07.01.2008 af KristianKarlson

Hej Mads,

Ja, det er en lidt ad hoc tilgang, men for at fÃ¥ sig en idÃ© om, hvad der foregÃ¥r, er den fin nok. I forhold til en mixed discrete time hazard model, sÃ¥ kan jeg sagtens kÃ¸re den i GLLAMM - det tager blot en krig. Principielt skulle den ogsÃ¥ mÃ¥le shared unobserved risk factors (det skriver sÃ¥dan som Singer og Goldstein i hvert fald). Der er ikke nok data til at lave tidsdummyer, hvorfor jeg - efter tests - vÃ¦lger en kubisk afhÃ¦ngighed som funktionel form for tiden. Den passer bedst i den almindelige mlogt.

I mixed-modellen har jeg overvejet, hvilke random effects, jeg skal have med. Jeg kan lave en random intercept model, fx, hvor varianskomponenterne for de to alternativer er korrelerede. Hvis man imidlertid ogsÃ¥ vil have varigheden med ind i spillet, har jeg overvejet at inkludere tid lineÃ¦rt for begge alternativer, dvs. 4 random effects. Det er imidlertid noget af en fÃ¦tter at estimere i GLLAMM. MÃ¥ske ville det vÃ¦re nemmere i nlmixed i SAS.

Du har ikke nogle "tutorial"-lignende artikler/dokumenter liggende om snilde estimationer i mixed discrete time hazard modeller med competing risks? Uanset hvad, sÃ¥ prÃ¸ver jeg at lade GLLAMM kÃ¸re natten over for at se, om det giver pote.

vh. Kristian

Independence of Irrelevant Alternatives i mlogit

Andre læser også