Domanda:
Il metodo di sostituzione della media per sostituire i dati mancanti è obsoleto?
Melissa Duncombe
2011-05-23 16:34:00 UTC
view on stackexchange narkive permalink

Il metodo di sostituzione della media per sostituire i dati mancanti è obsoleto? Esistono modelli più sofisticati da utilizzare? In caso affermativo, cosa sono?

[questo sito] (http://www.multiple-imputation.com/) potrebbe rispondere alla tua domanda. Il collegamento "Cos'è MI" fornisce un elenco di varie risorse.
Quattro risposte:
#1
+14
Nick Sabbe
2011-05-23 16:53:59 UTC
view on stackexchange narkive permalink

Salvo il fatto che non è necessario sparare alle zanzare con un cannone (cioè se hai un valore mancante su un milione di punti dati, lascialo cadere), usare la media potrebbe essere a dir poco subottimale: il risultato può essere parziale e dovresti almeno correggere il risultato per l'incertezza.

Ci sono alcune altre opzioni, ma quella più facile da spiegare è l'imputazione multipla. Il concetto è semplice: basato su un modello per i tuoi dati stessi (ad es. Ottenuto dai casi completi, sebbene siano disponibili altre opzioni, come MICE), disegna i valori dalla distribuzione associata per 'completare' il tuo set di dati. Quindi in questo set di dati completato non hai più dati mancanti e puoi eseguire la tua analisi di interesse.

Se l'hai fatto solo una volta (in effetti, sostituire i valori mancanti con la media è molto forma contorta di questo), sarebbe chiamata imputazione singola e non c'è motivo per cui avrebbe un rendimento migliore della sostituzione media.

Tuttavia: il trucco è farlo ripetutamente (da qui assegnazione multipla), e ogni volta fai la tua analisi su ogni set di dati completato (= imputato). Il risultato è in genere un insieme di stime dei parametri o simili per ogni set di dati completato. In condizioni relativamente libere, è corretto fare la media delle stime dei parametri su tutti questi set di dati assegnati.

Il vantaggio è che esiste anche una semplice formula per regolare l'errore standard per l'incertezza causata dai dati mancanti.

Se vuoi saperne di più, probabilmente vorrai leggere "Statistical Analysis with Missing Data" di Little e Rubin. Questo contiene anche altri metodi (EM, ...) e ulteriori spiegazioni su come / perché / quando funzionano.

+1 Presumo che la singola imputazione abbia un rendimento leggermente migliore della sostituzione media perché si incorporano informazioni aggiuntive (predittori $ 0 $ vs predittori $ p $). Tuttavia, sono pienamente d'accordo sul fatto che MI sia la strada da percorrere.
#2
+11
Bernd Weiss
2011-05-23 16:54:42 UTC
view on stackexchange narkive permalink

Non ci hai detto molto sulla natura dei tuoi dati mancanti. Hai controllato la presenza di MCAR ( Missing Completely at Random)? Dato che non puoi assumere MCAR, la sostituzione media può portare a stimatori distorti.

Come punto di partenza non matematico, posso consigliare i seguenti due riferimenti:

  1. Graham, Hohn W. (2009): Missing Data Analysis: Making Funziona nel mondo reale.
  2. Allison, Paul (2002): Missing data. (vedere la sezione "Imputation", p. 11)
@ Bernd il riferimento a Graham è estremamente buono, mi ha aiutato molto a capire come imputazioni multiple.
#3
+2
Ralph Winters
2011-05-23 20:03:30 UTC
view on stackexchange narkive permalink

Se i valori mancanti sono distribuiti in modo casuale o la dimensione del campione è piccola, potrebbe essere meglio utilizzare solo la media. Per prima cosa dividerei i dati in due parti: 1 con i valori mancanti e l'altra senza e quindi testerei la differenza nelle medie di alcune variabili chiave tra i due campioni. Se non ci sono differenze, hai qualche supporto per sostituire la media o semplicemente eliminare completamente le osservazioni.

-Ralph Winters

Ma usare la media implica che stai prevedendo il valore a quel punto. Non è quello che sta succedendo, quello che sta succedendo è un tentativo di recuperare un valore casuale. Sembra che dal momento che hai anche una stima della varianza dovresti usare entrambi (cioè un'estrazione casuale dalla distribuzione).
Inoltre, la sostituzione media ridurrà la varianza delle stime che genererà tutti gli errori standard e gli intervalli di confidenza per il resto dell'analisi.
Sì. Stavo semplicemente suggerendo di esaminare le popolazioni dei dati mancanti rispetto a quelli non mancanti prima di immergersi ciecamente nell'IM, che può assorbire molta potenza di calcolo a scapito di guadagni minimi.
#4
  0
ayush biyani
2011-05-24 15:59:40 UTC
view on stackexchange narkive permalink

La mancanza di dati è un grosso problema ovunque. Vorrei che prima rispondessi alla seguente domanda. 1) quale% di età dei dati manca? - se è più del 10% dei dati non rischieresti di imputarlo con media. Perché imputare tale mancanza con la media equivale a dire alla scatola LR che sembra .. questa variabile ha significato la maggior parte dei posti (quindi trai qualche conclusione) e non vuoi che la scatola LR tragga conclusioni sui tuoi suggerimenti. Ora, il minimo che puoi fare se non vuoi molto è provare a mettere in relazione i valori disponibili di queste variabili con valori predittivi diversi o utilizzare un senso degli affari dove possibile..esempio..se mi manca un matrimonio_ind, uno dei modi potrebbero essere vedere l'età media delle persone sposate, (diciamo che risulta essere 29), posso presumere che generalmente le persone (in India) si sposano entro i 30 anni e 29 suggerisce così. PROC MI fa anche cose internamente per te ma in un modo molto più sofisticato .. quindi i miei 2 centesimi .. vedi almeno 4-5 variabili che sono legate ai tuoi mancati e cerca di formare una correlazione .. Questo può essere meglio della media.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...