Sociologiskforum.dk var aktivt fra 2004-2012, men eksisterer i dag kun som arkiv.
annonce

Deskriptiv statistik - kryds og chi og det der

Skrevet d. 19.02.2009 af Julie
Hej!
OK - jeg indrømmer.. Min statistiske hukommelse (det betyder sikkert noget helt andet på et ukendt fagsprog) er fyldt med store sorte huller.Og måske især den del, der blev proppet først ind - det deskriptive...

Jeg kan huske så langt, at man ved chi^2-tests nødvendigvis må have nok observationer og min. 5 i hver celle.
Men hvad når der ikke er det? Hvad når datasættet er tilpas lille, eller det ikke giver mening at slå kategorier mere sammen, hvad kan man så gøre?
Kan man ikke bruge chi-værdien til noget som helst (og skal man så helst lade være med at krydse det, man nu vil krydse), eller er den bare meget usikker? skal man hellere gøre noget helt andet?

- Og et sidespørgsmål: Når man lægger kategorier sammen, er der så en smart test til at se, hvad man kan/må/bør slå sammen, og hvad der ikke kan slås sammen, eller er det op til teoretiske overvejelser og kiggen på tallene? Jeg synes på et tidspunkt at have brugt en bonferronitest til det, men kan ikke helt huske om det var korrekt (og kan da overhovedet ikke finde ud af, hvordan man skal gøre det i stata.)


Så: nogen af jer kloge hoveder derude: Det her er en nem én.. ;-)

-Julie (ja, jeg er ikke meget for at indrømme det, men jeg kan sgu ikke huske det - heller ikke når jeg prøver..)
Skrevet d. 24.02.2009 af Socia
Hej Julie

Hvis du har flere celler i din tabel med under 5 individer bliver Chi2 testets resultater upålidelige. Du kan evt. supplere med et Gamma test, men husk at dine variable så mindst skal være på ordinalt niveau for at det kan bruges. Selvom din Chi2 test viser at en evt sammenhæng ikke er statistisk signifikant kan du jo i princippet satdig bruge krydstabellen til at sige noget om [i]tendenser [/i]i din stikprøve.

Angående dit sidespørgsmål så vil jeg mene at det langt hen ad vjen er op til dig selv og teoretiske overvejerlser hvad du lægger sammen. Det skal jo give mening og ikke resultere i alt for kunstige kategorier du alligevel ikke kan sige noget ud fra.

Jeg kan anbefale bogen `Introduktion til statistik med SPSS` (Andersen & Jacobsen, 2004, Samfundslitteratur). Den er god til lige at opfriske det grundlæggende :-)
Skrevet d. 26.02.2009 af Julie
Ja, jeg tænkte jo nok det var noget i den retning... Tak for svaret.

Men det var jo nemlig også det- kan man stadig sige noget om tendenser i stikprøven? eller siger chi-testet nemlig, at man ikke kan sige noget (og er det ifht. populationen, eller ifht sammenhængen, at chi`et bliver upålidelig?)
Det var vist mere mig, der lige prøvede at vende det i hovedet på mig selv
- men tak, og jeg vil kigge en gang på bogen - det kunne godt være, det ville være rart til at få tingene rigtigt på plads..
Skrevet d. 05.03.2009 af KristianKarlson
Hej,

Socia, hvad mener du med, at man stadig kan se på "tendenser" i strikprøven? Tænker du på korrelationer?

Chi-testet tester to fordelinger op mod hinanden. Den ene fordeling er din observerede fordeling, mens den anden er den forventede fordeling (ud fra den marginale fordeling på dine variable, der indgår i krydstabellen). Nulhypotesen siger, at der er statistisk uafhængighed, dvs. den forventede er lig den observerede, mens alternativhypotesen er, at der ikke er uafhængighed.

Ang. det med tommelfinger-regler, så er den med mindst 5 i hver celle rigtig fin. Men igen, der findes ingen gyldne standarder, og der findes også andre tommelfingerregler. Sagen er jo den (som I ved), at jo færre observationer, vi har, des større usikkerhed har vi i forhold til populationen. Derfor vil jeg - som Socia også siger - ikke slå kategorier sammen, som er meningsløse. Herudover er det sådan, at chi-størrelsen afhænger af antallet af observationer - og derfor er det særligt sensitivt, hvis der er få observationer.

Og i forhold til Julies spørgsmål: "Hvad når datasættet er tilpas lille, eller det ikke giver mening at slå kategorier mere sammen, hvad kan man så gøre." Her man på dybt vand. Har du lidt data, så har du (som oftest) en lavere udsigelseskraft. Dog er der en mulighed (se fx http://faculty.chass.ncsu.edu/garson/PA765/chisq.htm), der hedder Yates` korrektion, som på en eller anden måde kan korrigere for få data (se http://en.wikipedia.org/wiki/Yates%27_correction_for_continuity). Men stadig: få data, lidt udsigelseskraft. Uanset om man kan bruge fancy korrektioner.

Og sidst, så handler bonferroni vist om sammenligning af gennemsnit i ensidet variansanalyse, og har dermed ikke noget at gøre med diskrete krydstabeller.

vh Kristian
Skrevet d. 20.03.2009 af Sørland
Et statistisk test er en beslutning under usikkerhed. Valget må afveje to fejlmuligheder. På den ene side en risiko for at forkaste en sand nulhypotesen og på den anden side ikke forkaste en falsk nulhypotese. Normalt anvender man en falsifikationsstrategi, og vælger et signifikansniveau som maksi8mal risiko for den første type af fejl. Hvis det forventede antal i cellerne er for lille, bliver signifikansniveauet misvisende, men hvis man skruer kravet om den forventede værdi op øges risikoen for fejl af den anden type. Ved et goodness-of-fit-test med mange celler accepterer man gerne at der er lave forventede værdier i nogle få celler - men i en krydstabel med 4 eller 6 er det sikrere at holde sig til et minimum på 10. Hvis den forventede værdi er under 5 i en sådan krydstabel kan du ikke konkludere med statistisk sikkerhed.
Skrevet d. 20.03.2009 af Sørland
Det gik for hurtigt:
I en krydstabel med 4 eller 6 celler er det sikrere at holde sig til et minimum på 5 som forventet værdi. Hvis den forventede værdi ligger under 5 i en eller flere celler, kan man ikke konkludere med den statistiske sikkerhed, som signifikansniveauet anfører.

Andre læser også

annonce
Sociologiskforum.dk benytter cookies til blandt andet statistik og marketing. Ved at benytte hjemmesiden accepterer du vores brug af cookies. Okay