La regressione funziona su dati che non sono normalmente distribuiti?

Domanda:

La regressione funziona su dati che non sono normalmente distribuiti?

Sasha Brown

2016-11-26 18:06:55 UTC

view on stackexchange narkive permalink

histogram of my data

Sto cercando di vedere se le variabili xey insieme o separatamente influenzano in modo significativo Q_7 (l'istogramma per il quale è sopra).Ho eseguito un test di normalità Shapiro-Wilk e ho ottenuto quanto segue

  shapiro.test (Q_7) ## data: Q_7 ## W = 0.68439, valore p < 2.2e-16

Con questa distribuzione, funzionerà la seguente regressione?O c'è un altro test che dovrei fare?

  lm (Q_7 ~ x * y)

Cerca il teorema di Gauss Markov.

Prova a trasformare il log "Q_7".Al momento è fortemente inclinato a destra.Controlla anche le distribuzioni dei predittori.

controllare i residui, non i dati

Prova con la trasformazione della radice quadrata.Se hai molti zeri, la trasformazione logaritmica potrebbe non funzionare bene.Inoltre, poiché hai a che fare con i conteggi, la regressione binomiale negativa di Poisson è una scelta più naturale.

Cosa significa "non dati"?

@SiIverfish Spero che sia un randagio, rimanente da una modifica di "dati non normali" sulla strada per "dati che non sono distribuiti normalmente".Se non è così, allora sono perplesso e curioso come te.

Poiché sembra che tu stia utilizzando R per la tua analisi, ti suggerirei di eseguire la regressione e quindi la suite diagnostica standard.Una guida di base può essere trovata qui: http://data.library.virginia.edu/diagnostic-plots/

può essere interessante notare che AIC e Cp sono in un certo senso robusti all'assunzione di normalità: vedi ad es.https://arxiv.org/pdf/1308.2766.pdf

Due risposte:

Ruben van Bergen

2016-11-26 20:22:40 UTC

view on stackexchange narkive permalink

Un'analisi di regressione presuppone che i dati siano normalmente distribuiti condizionati alle variabili nel modello di regressione . Cioè, se questo è il modello di regressione: $$ y = X \ beta + \ varepsilon $$ dove $ X $ è la tua matrice di variabili regressive, $ y $ è il (vettore di) dati da spiegare, $ \ beta $ è un vettore di coefficienti sui regressori e $ \ varepsilon $ è la variabilità casuale (tipicamente considerata rumore), quindi l'ipotesi di Normalità si applica strettamente a $ \ varepsilon $, non a $ y $ (modifica: beh, in senso stretto si applica alla distribuzione condizionale $ y | X $ (che è la stessa della distribuzione di $ \ varepsilon $), ma non alla distribuzione marginale di $ y $). In altre parole, i dati dovrebbero essere normalmente distribuiti una volta che gli effetti dei regressori sono stati considerati, ma non (necessariamente) prima.

Ciò che stai testando qui è la distribuzione di $ y $, dove quello che vuoi testare è la distribuzione di $ \ varepsilon $. Ovviamente non conosci $ \ varepsilon $, ma puoi stimarlo eseguendo la regressione ed esaminando la distribuzione dei residui $ \ hat \ varepsilon = yX \ hat \ beta $ (dove $ \ hat \ beta $ sono i coefficienti stimati dalla regressione). Questi residui $ \ hat \ varepsilon $ sono una stima di $ \ varepsilon $, quindi la loro distribuzione sarà un'approssimazione della distribuzione di $ \ varepsilon $.

Questo è un buon sommario veloce di cose standard, ma sembra mancare una caratteristica chiave di questa domanda, ovvero che con una risposta distorta ma diversa da zero è improbabile che questa forma funzionale sia una buona idea.Per evitare previsioni negative, e per altri motivi, la regressione di Poisson sembra un punto di partenza migliore.

thomas

2016-11-26 21:12:46 UTC

view on stackexchange narkive permalink

La risposta breve è sì.

Prima di tutto (come sottolineato da Ruben van Bergen), la distribuzione di $ y $ (o $ X $, se è per questo) non è rilevante. Se dovessi fare un'ipotesi distributiva, sarebbe sui tuoi residui $ \ varepsilon $, quindi questo è ciò che dovresti controllare.

Ma, cosa più importante, non hai affatto bisogno dell'assunzione di normalità per la tua stima per funzionare. Stai utilizzando la funzione lm di R, che stima il tuo modello utilizzando i minimi quadrati ordinari (OLS). Questo metodo fornirà una stima corretta dell'aspettativa di $ Y $ condizionata a $ X $ fintanto che:

$ \ mathbb {E} [\ varepsilon | X] = 0 $ ( non ci sono fattori esterni che influenzano sia il tuo risultato che le tue variabili esplicative).
$ \ mathrm {Var} (\ varepsilon) < \ infty $ (i tuoi residui hanno varianza finita).

Se assumi ulteriormente che i tuoi residui non sono correlati e che hanno tutti la stessa varianza, allora si applica il teorema di Gauss-Markov e l'OLS è il miglior stimatore imparziale lineare (BLU ).

Se i tuoi residui sono correlati o hanno varianze diverse, OLS funziona ancora ma può essere meno preciso, il che deve riflettersi nel modo in cui segnali gli intervalli di confidenza delle tue stime (usando, diciamo errori standard robusti).

Se si assume anche che i residui siano normalmente distribuiti, OLS diventa asintoticamente efficiente perché è equivalente alla massima verosimiglianza .

Allora la regressione potrebbe funzionare meglio se i tuoi dati sono distribuiti normalmente, ma funzionerà comunque se non lo sono.

ⓘ

Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.

a proposito - legalese

Loading...