Domanda:
È appropriato identificare e rimuovere i valori anomali perché causano problemi?
Sarah Brcan
2011-09-13 07:14:05 UTC
view on stackexchange narkive permalink

Tutto ciò riguarda la mia tesi di laurea in psicologia.

Ho due gruppi (autismo e controllo) e tutti i partecipanti hanno completato quattro compiti. È molto importante per il mio studio che i gruppi non differiscano sul tempo di reazione in ciascuno dei compiti. Tuttavia, lo fanno. Il gruppo autistico ha risposto più velocemente del gruppo di controllo. Questo confonde i risultati per il costrutto che vogliamo effettivamente investigare.

Ho pensato di poter correggere la differenza escludendo i valori anomali dallo studio. Ho cercato di identificare i valori anomali sia a livello univariato (Boxplots, SD = +/- 2,5, per ciascuna delle quattro attività) che a livello multivariato (Mahalanobis Dsq). Nessun partecipante si presenta come un valore anomalo. Poi ho pensato di escludere i partecipanti che hanno tempi di reazione medi bassi ("basso" è un valore arbitrario), ma anche così la differenza tra i due gruppi era significativa.

  • C'è qualcos'altro che posso fare?
  • E come segnalerei un simile processo nella mia tesi?
Potresti descrivere un po 'perché avere RT veloci in queste attività confonde i tuoi risultati?
Per quanto possa sembrare difficile: supponendo che la tua analisi sia corretta, non c'è molto che puoi fare senza modificare i tuoi dati ... Tuttavia, forse prima controlla le ipotesi. Qual è la dimensione del tuo campione? Che test hai usato? In caso di test con ipotesi, le hai verificate (es. Normalità se è stato utilizzato il test t)? Qual è il valore p risultante? Con un po 'di fortuna potrebbe essere possibile discutere contro i risultati del tuo studio;)
È già noto che i soggetti con autismo che eseguono questo test hanno tempi di reazione più rapidi - hai cercato una cosa e ne hai trovata un'altra? E se hanno un tempo di reazione più veloce è degno di nota?
Come sono stati raccolti i dati? Sei sicuro che sia accurato? C'è un errore di immissione dei dati / comunicazione errata che sta sporcando le cose? Le unità di misura sono coerenti tra gli intervistati per le variabili di interesse? Mi rendo conto che alcuni di questi potrebbero non essere rilevanti, ma il punto è farti pensare ai dati stessi e cercare di capire perché potrebbero non adattarsi al resto dei dati. Forse la risposta è che il fenomeno che stai osservando è più complesso di quanto inizialmente pensato e sei alla ricerca di una ricerca rivoluzionaria!
Sembra che tu abbia scoperto qualcosa :-). Perché non studiare i "valori anomali" piuttosto che buttarli via (e quindi perdere il diritto di generalizzare le tue conclusioni a qualcuno al di là delle materie che hai effettivamente studiato)?
Tre risposte:
#1
+14
Michael Lew
2011-09-13 09:43:48 UTC
view on stackexchange narkive permalink

È molto importante considerare la possibilità che le categorie di soggetti abbiano una reale differenza nei tempi di reazione. In tal caso, tutto ciò che fa andare via la differenza porterà a risultati potenzialmente artefatti. Non dare per scontato che un effetto scomodo sia il risultato della presenza di valori anomali.

Forse potresti cercare una relazione tra il tempo di reazione e un'altra misura del risultato. La forma della relazione può differire tra soggetti autistici e soggetti normali.

#2
+8
Peter Flom
2011-09-13 14:55:55 UTC
view on stackexchange narkive permalink

Non dovresti escludere valori anomali solo perché causano problemi, né dovresti utilizzare un sottoinsieme dei tuoi dati perché i dati completi causano problemi. Nessuno di questi ha risolto il "problema" nel tuo caso, ma anche se lo facessero, non sarebbe corretto.

Non hai fornito molti dettagli su ciò che stai cercando di fare o su come lo stai facendo, ma puoi aggiungere il tempo di reazione come covariata?

Aggiungerlo come covariata era anche il mio pensiero iniziale, ma vedo un problema con questo, uno che è concettuale / logico piuttosto che puramente statistico. Prendere quella strada significherebbe testare le differenze di gruppo come se ogni gruppo possedesse un livello medio di tempo di reazione. Poiché questo è qualcosa che chiaramente non è vero nelle popolazioni, non ha senso provare questo angolo? ... Probabilmente otterrai ulteriori risposte utili se spieghi perché ritieni che un tempo di reazione paragonabile sia fondamentale nel tuo studio.
#3
-1
Wake2Sleep
2011-09-14 20:28:16 UTC
view on stackexchange narkive permalink

Sembra che tu debba esplorare un po 'di più i tuoi dati. Perché non provi alcune tecniche senza supervisione come il clustering. I valori anomali si sarebbero presentati nei propri gruppi. E penseresti che ci sarebbe una sorta di raggruppamento dei tuoi controlli.

Indipendentemente da ciò, puoi ancora avere una tesi sul non vedere un effetto che ti aspettavi di vedere. Dovresti spiegare come i tuoi dati / metodo non erano difettosi. E aggiungi una sezione sulle variabili che potresti aggiungere per spiegare perché i soggetti del test e i controlli si stanno raggruppando. Questo lavoro aiuta ancora i futuri ricercatori.

Trovo spiacevole che questa domanda abbia ricevuto due voti negativi (al momento della stesura di questo commento). Anche se non sono necessariamente d'accordo con l'intervistato in questo contesto, merita sicuramente alcuni commenti sul motivo per cui è abbastanza inappropriato per un voto negativo.
Andy W : Well Said !


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...