Domanda:
Posso eliminare un numero eccessivo di valori anomali multivariati, ad esempio oltre il 10% nel campione?
Emily Jones
2011-09-04 09:20:03 UTC
view on stackexchange narkive permalink

Ho un set di dati con circa 9000 casi, sto eseguendo un'analisi fattoriale e ho scoperto che 1100 casi sono identificati come valori anomali multivariati. Va bene per me andare avanti ed eliminarlo?

Intendevo oltre il 10%!
Dato che hai etichettato questa domanda con "analisi fattoriale", potresti espandere un po 'di più lo scopo / contesto del tuo studio? In particolare, le tue unità statistiche sono considerate "valori anomali" rispetto a cosa?
quale metodo hai utilizzato per classificarli come valori anomali?
Tre risposte:
#1
+10
Karl
2011-09-04 09:38:29 UTC
view on stackexchange narkive permalink

È difficile vedere come il 10% dei dati possa essere chiamato fuori sede.

Non c'è niente che ti dica che non puoi ometterli, a patto che tu dica chiaramente esattamente quello che hai fatto. Ma questa particolare istanza sembra un po 'estrema.

Quando si tratta di valori anomali, prima chiedo: sono errori? Se sono errori, vorrei risolverli; se non potessi risolverli, sarei ragionevolmente a mio agio a ometterli (anche se mi preoccuperei dei bias).

Se sembrano non essere errori (o non c'è modo di dirlo), io chiedo: influenzano i risultati? Se omettendoli dà la stessa risposta, sarei felice e andrei avanti. Se è importante, cercherò un metodo di analisi più robusto.

Osserverei più da vicino il tuo metodo per identificare i valori anomali: sta facendo una sorta di presupposto che è chiaramente sbagliato?

Soprattutto, esaminerei molti e molti grafici diversi dei dati, per vedere cosa sta portando quel 10% di punti a essere chiamati valori anomali e se sembra ragionevole (sebbene io non vedo come potrebbe essere).

Ho usato mahalanobis per rilevare i valori anomali multivariati e in realtà oltre il 10% dei dati sono valori anomali. Ho controllato per vedere se ci sono stati inseriti in modo errato ma è andato tutto bene. Ho esaminato i valori anomali univariati e questo andava bene, ma quando ho eseguito l'analisi multivariata, è risultato che oltre il 10% dei dati erano valori anomali. Quindi posso procedere con la cancellazione purché lo dichiari?
Gli errori di trascrizione dei dati di @Emily, non sono l'unica forma di errore di misurazione. Più in generale, Karl si riferiva probabilmente anche a errori nell'apparato di misurazione stesso. Se al tuo strumento di misurazione è stato aggiunto in modo casuale un valore zero medio molto grande, potresti voler eliminare i casi estremi dal set di dati. Il punto in cui ti metti nei guai è quando, ad esempio, il tuo strumento di misurazione riporta solo valori alti in modo impreciso (nel qual caso avresti pregiudizi).
Non sono sicuro di come sia stato definito il valore limite della distanza di Mahalanobis, ma la mia ipotesi è che sia stato derivato sotto l'ipotesi di normalità multivariata. E probabilmente è l'ipotesi MVN che è sospetta, non i punti. Dai un'occhiata a un istogramma delle distanze di Mahalanobis.
Vado a guardare l'istogramma del mahalanobis. Non ci avevo pensato. Grazie!
#2
+4
Peter Flom
2011-09-04 16:29:19 UTC
view on stackexchange narkive permalink

Oltre all'eccellente punto di @karl broman, sono curioso di sapere quante variabili ci sono. Potresti imbatterti nella "maledizione della dimensionalità".

Inoltre, NON eliminerei i valori anomali solo a causa di una soglia arbitraria. Non hai detto cosa stai studiando, ma, spesso, i valori anomali sono dove l'interesse è.

E sono assolutamente d'accordo con il punto di vista di @Karl sul guardare prima i grafici - MOLTI grafici .

Ho 171 variabili. Sto cercando di scoprire la struttura fattoriale dell'indagine. È così lungo, stiamo cercando di accorciarlo, quindi lo sto eseguendo attraverso l'analisi fattoriale ed è allora che incontro questo enorme numero di valori anomali. Quando intendi grafici, intendi tracciare ciascuna due variabili?
Sono d'accordo con Peter: non mi piace buttare via i dati perché non sono conformi alle aspettative.
OK, quindi impariamo gradualmente i dati. Il sondaggio è nuovo o esistente? Cosa avrebbe dovuto fare? Perché ci sono 171 domande nel sondaggio? In che modo l'analisi fattoriale aiuterà ad accorciarlo? L'analisi fattoriale trova le variabili latenti, ma le variabili latenti sono * latenti *.
è già esistente ma abbiamo incluso anche alcuni 56 articoli più recenti. L'obiettivo è fare una misura più forte poiché abbiamo un fattore che ha 14 elementi. Stiamo anche esplorando come abbiamo aggiunto in quei 56 elementi. Ho eseguito gli istogrammi per il mahalanobis e la sua curva a u quasi piatta. Non so cosa significhi !!!!
@emily Non capisco perché hai bisogno di una misura più forte perché "un fattore ha 14 elementi". Avresti bisogno di una misura più forte se avessi prove di mancanza di affidabilità o mancanza di validità. Quali erano le proprietà psicometriche della scala originale?
#3
+4
rolando2
2011-09-05 20:53:58 UTC
view on stackexchange narkive permalink

Sebbene gli argomenti di cui sopra siano interessanti, con 171 elementi penso che la validità sarà una preoccupazione che prevale su quelli statistici. C'è il rischio reale che le persone rispondano meccanicamente, risultando in straightlining o in un fattore iniziale molto grande che rappresenta un effetto alone o corno. Penso che il tuo team dovrebbe essere in grado di utilizzare criteri non statistici per ridurre il sondaggio a un livello più gestibile che lo renderà più degno delle analisi statistiche che desideri eseguire.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...