Sociologiskforum.dk var aktivt fra 2004-2012, men eksisterer i dag kun som arkiv.
annonce

Om forventede frekvenser i chi^2-tests

Skrevet d. 28.05.2007 af Ncw
Hej,

Jeg har efterhånden set en række forskellige bud på, hvornår der er for lav forventet frekvens (ff)i en celle i et goodness-of-likelihood-test (chi^2):
- min. 5 ff
- min 10 ff
- max 20 % med mindre end 5 ff + ingen med mindre end 1 ff
- ingen celler med mindre end 1 ff + mindst 5 ff i gennemsnit
Desuden er jeg stødt på følgende regel-forslag for 2*2-tabeller:
- min. 10 ff

Mine spørgsmål er nu:
1) Hvad er rigtigt?
og ikke mindst:
2) Hvordan er dette vurderet (og/eller hvor kan jeg læse mere om det)?

Til mit spørgsmål nr. to kan jeg sige, at selvom mange (alle) forfattere kommer med et råd (mest udbredt er vist "min 5 ff"), så har jeg ikke kunnet finde [i]nogen[/i], som fortæller hvorfor...

Mvh + pft.
Nils
Skrevet d. 28.05.2007 af Ncw
Tak skæbne, hvor stenet: Der menes naturligvis "goodness-of-fit-test" og ikke "goodness-of-likelihood-test"!

(Mon man faktisk kan teste goodness-of-likelihood??)

/Nils
Skrevet d. 28.05.2007 af KristianKarlson
Hej Nils,

Jeg plejer også at arbejde med reglen på de min. 5 ff.
Jeg tænker, at rådet har noget at gøre med den måde, man udregner den forventede fordeling på. Så vidt jeg husker er det lige til: X.i*Xj./n, hvor X`erne er de marginale frekvenser (for række i og søjle j), og n betegner stikprøvens størrelse (antal i alt i tabellen).

Chi2-størrelsen pr. celle udregnes, som (OBSERVERET-FORVENTET)^2/FORVENTET. Man deler altså med det forventede antal. Min formodning er så, at når man deler med et for lille tal (fx under 5) kan man ikke helt stole på den enkelte celles chi2-størrelse. Hvorfor så lige 5 frem for
4 eller 10? - Det er svært at sige. Det er sikkert noget man har fundet ud af gennem empirisk efterprøvning (= en forklaring). Det er nok også her, at man har fundet ud af, at celler med mindre end 1 er lige til at lukke op at skide i - for at bruge et godt, dansk udtryk. Der er for meget [i]usikkerhed[/i] så at sige.

Jeg kan lige nævne i tillæg hertil, at jeg har læst i forbindelse med forskellige målemodeller, at chi2-størrelsen er for afhængig af stikprøvestørrelsen, hvorfor den ikke altid er den bedste størrelse at måle fit med. Det afspejler lidt problematikken ovenfor. Den er altså en følsom teststørrelse.

Så jeg tror, det er forklaringen. Mer data er godt. Altid. Vi får bedre estimater - mindre usikkerhed. I tilfældet med chi2-størrelsen må det afhænge af den måde, man udregner chi2-størrelsen.

Litteratur? Jeg ved at Agresti har arbejdet meget med kvalitative sammenhænge - så måske skal du prøve at finde noget litteratur af ham. Ellers er der "Teoretisk statistik for økonomer", som gennemgår chi2-testet på de mulige fortolkningsmåder, der er. Her kan du også selv inspicere udregningen af chi2-størrelserne.

Mvh. Kristian
Skrevet d. 06.06.2007 af KristianKarlson
Hej igen Nils,

Jeg har i denne smukke, dog sene, morgenstund siddet med den gode gamle introduktion til statistik, Agresti & Finlays "Statistical Methods for the Social Sciences". Og lur mig, om de ikke giver en forklaring! Chi2 er afhængig af antallet af observationer. Du kan se det under kapitel 8.4, hvor der et glimrende eksempel øverst på side 268 (såfremt du sidder med samme udgave som jeg).

vh Kristian
Skrevet d. 06.06.2007 af Sørland
Antallet af forventede observationer kan ikke fastlægges objektivt. Det handler om balance mellem risiko for type 1-fejl og type 2-fejl. Det afhænger også af antallet af frihedsgrader. I gamle dage regnede man med 10 som forventet antal i en 2x2 tabel, men i dag sættes grænsen typisk ved 5. I en goodness-of-fit-test med mange celler accepterer man forventede værdier på 1 i nogle få celler.
Skrevet d. 15.10.2007 af Maximillian
Hejsa

Er der nogen tommelfingerregel for, hvor lille/stor en andel af cellerne, der må have færre end 5 forventede observationer?

Mvh

Maximillian
Skrevet d. 20.10.2007 af Ncw
Hej Maximillian,

Som du kan se af mit oprindelige indlæg, så er der flere forskellige tommelfingerregler. Den mest udbredte (og dermed er man på den sikre side) er, at forventet frekvens ikke må være under 5 i nogen celle.

Mvh Nils

Andre læser også

annonce
Sociologiskforum.dk benytter cookies til blandt andet statistik og marketing. Ved at benytte hjemmesiden accepterer du vores brug af cookies. Okay