Domanda:
Come dovresti gestire i valori delle celle uguali a zero in una tabella di contingenza?
DrWho
2011-02-13 19:14:55 UTC
view on stackexchange narkive permalink

Come dovresti gestire il valore di una cella in una tabella di contingenza che è uguale a zero nei calcoli statistici? (Nota che tale valore può essere strutturale , cioè deve essere zero per definizione, o casuale , cioè potrebbe essere un altro valore, ma è stato osservato zero .)

Sono necessarie maggiori informazioni qui, per zero intendi mancare? Perché pensi di dover fare qualcosa di speciale perché il valore è zero?
Lo chiuderei come duplicato http://stats.stackexchange.com/questions/1444/how-should-i-transform-non-negative-data-including-zeros/1445#1445
Quella domanda faceva delle trasformazioni piuttosto che dei problemi inferenziali.
Tre risposte:
#1
+17
DWin
2011-02-13 23:16:00 UTC
view on stackexchange narkive permalink

Gli zeri nelle tabelle sono talvolta classificati come strutturali, ovvero zero per progettazione o per definizione, o come casuali, ovvero un possibile valore osservato. Nel caso di uno studio in cui non sono stati osservati casi nonostante sia possibile, spesso sorge la domanda: qual è l'intervallo di confidenza unilaterale del 95% sopra lo zero? Questo può essere risolto in modo sensato. Ad esempio, è indirizzato in "Se niente va storto, va tutto bene? Interpretare i numeratori zero" Hanley e Lippman-Hand. JAMA. 1983; 249 (13): 1743-45. La loro conclusione era che il limite superiore dell'intervallo di confidenza intorno al valore osservato di zero era 3 / n dove n era il numero di osservazioni. Questa "regola del 3" è stata ulteriormente affrontata nelle analisi successive e con mia sorpresa ho scoperto che ha anche una pagina Wikipedia. La migliore discussione che ho trovato è stata di Jovanovic e Levy su American Statistician. Questo non sembra essere disponibile in full-text nelle ricerche, ma può riferire dopo averlo esaminato una seconda volta che hanno modificato la formula in 3 / (n + 1) dopo ragionevoli considerazioni bayesiane, che rafforzano il CI a po. C'è una revisione più recente in International Statistical Review (2009), 77, 2, 266-275.

Addenda: dopo aver esaminato più da vicino l'ultima citazione, sopra ho anche Ricordo di aver trovato l'ampia discussione in Agresti & Coull "The American Statistician", vol. 52, n. 2 (maggio 1998), pp. 119-126 informativo. Gli intervalli "Agresti-Coull" sono incorporati in varie funzioni SAS e R. Una funzione R con esso è binom.confint {package: binom} di Sundar Dorai-Raj.

Esistono diversi metodi per affrontare situazioni in cui un accumulo di osservazioni "zero" distorce una distribuzione altrimenti piacevole e trattabile, ad esempio, dei costi o dei modelli di utilizzo dell'assistenza sanitaria. Questi includono modelli con inflazione zero e ostacoli come descritto da Zeileis in "Modelli di regressione per dati di conteggio in R". La ricerca su Google dimostra anche che Stata e SAS dispongono di strutture per gestire tali modelli.

Dopo aver visto la citazione a Browne (e corretto la modifica di Jovanovic e Levy), aggiungo questo frammento della replica ancora più divertente a Browne:

"Ma man mano che la dimensione del campione si riduce, le informazioni precedenti diventano ancora più importanti poiché ci sono così pochi punti dati per" parlare da soli ". In effetti, campioni di piccole dimensioni offrono non solo l'opportunità più convincente per riflettere a fondo sul precedente, ma anche l'obbligo di farlo. "Più in generale, vorremmo cogliere l'occasione per parlare contro l'uso insensato e acritico di formule semplici o regole. "

E aggiungo la citazione al documento di Winkler e altri che era in discussione.

Grazie per la risposta apprezzabilmente dettagliata con riferimenti.
Jovanovic e Levy raccomandano 3 / (n + 1) - vedi tabella 1, pagina 138 per conferma. C'è anche un suggerimento di Browne per 3 / (n + 1.7). http://faculty.fuqua.duke.edu/~jes9/bio/The_Role_of_Informative_Priors_in_Zero_Numerator_Problems_Comments_and_Replies.pdf
Questa è una bella risposta. Potete migliorare la formattazione nel penultimo paragrafo (ad esempio, w / `>`)? Le virgolette non corrispondono; l'intero paragrafo è una citazione? Inoltre, il quarto all'ultimo paragrafo sembra iniziare con i due punti per qualche motivo.
Thks. Come hai suggerito. Ho più familiarità con la formattazione SO. CV è un po 'più "letterario".
Prego. Credo che la formattazione sia la stessa, tranne per il fatto che CV supporta anche $ \ LaTeX $ tramite mathjax. L'intero paragrafo è una citazione, però (b / c ci sono virgolette senza corrispondenza w / i)?
Penso che l'intera cosa sia una citazione.
#2
+8
Rick
2011-02-22 03:01:11 UTC
view on stackexchange narkive permalink

Una discussione molto interessante sugli zeri strutturali nelle tabelle di contingenza è fornita da West, L. e Hankin, R. (2008), "Exact Tests for Two-Way Contingency Tables with Structural Zeros", Journal of Statistical Software, 28 ( 11), 1–19.URL http://www.jstatsoft.org/v28/i11

Come suggerisce il titolo, implementano il test esatto di Fisher per la contingenza a due vie tabelle nel caso in cui alcune delle voci della tabella sono vincolate a zero.

Agresti e Finlay affermano che generalizzare il test esatto di Fisher ha senso anche quando il conteggio delle cellule scende al di sotto di 5 in qualsiasi tabella di contingenza.
#3
+3
Mike Hunter
2017-01-20 01:35:17 UTC
view on stackexchange narkive permalink

Thomas Wickens, nel suo eccellente libro Multiway Contingency Table Analysis for the Social Sciences , offre un suggerimento diverso da quelli già proposti. Egli distingue tra zeri casuali, "che sono accidenti di campionamento e il cui trattamento consiste in gran parte in aggiustamenti ai gradi di libertà (capitolo 5, p. 120," Celle vuote ")," da vuoti o zeri strutturali ", che mancano di una completa struttura fattoriale e la cui analisi richiede una modifica del concetto di indipendenza "(capitolo 10, p. 246).

Il capitolo 10 è intitolato "Tabelle strutturalmente incomplete" e considera il trattamento dei dati in cui determinate celle sono a priori escluse dalla considerazione. "Esempi di ciò includono i ricoveri ospedalieri per sesso: sebbene le donne incinte possano avere una cella nella tabella di contingenza, nessuna viene osservata", (p. 247).

Soprattutto, "Se si trattano le cellule impossibili (zeri strutturali) come frequenze di zero, si affermano come dipendenze in un test di indipendenza (p. 246). "

Ciò che si vuole fare è ignorare le celle impossibili in qualsiasi test di indipendenza o associazione . Il modo per farlo è stimare il modello appropriato sulla tabella di contingenza completa (inclusi gli zeri strutturali) e quindi sottrarre la somma dei valori chi quadrato associati alle celle zero dal test chi quadrato totale. Ciò genera un test di indipendenza chi-quadrato ridotto solo per la tabella di contingenza ridotta.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 2.0 con cui è distribuito.
Loading...