La risposta breve è sì.
Prima di tutto (come sottolineato da Ruben van Bergen), la distribuzione di $ y $ (o $ X $, se è per questo) non è rilevante. Se dovessi fare un'ipotesi distributiva, sarebbe sui tuoi residui $ \ varepsilon $, quindi questo è ciò che dovresti controllare.
Ma, cosa più importante, non hai affatto bisogno dell'assunzione di normalità per la tua stima per funzionare. Stai utilizzando la funzione lm
di R, che stima il tuo modello utilizzando i minimi quadrati ordinari (OLS). Questo metodo fornirà una stima corretta dell'aspettativa di $ Y $ condizionata a $ X $ fintanto che:
- $ \ mathbb {E} [\ varepsilon | X] = 0 $ ( non ci sono fattori esterni che influenzano sia il tuo risultato che le tue variabili esplicative).
- $ \ mathrm {Var} (\ varepsilon) < \ infty $ (i tuoi residui hanno varianza finita).
Se assumi ulteriormente che i tuoi residui non sono correlati e che hanno tutti la stessa varianza, allora si applica il teorema di Gauss-Markov e l'OLS è il miglior stimatore imparziale lineare (BLU ).
Se i tuoi residui sono correlati o hanno varianze diverse, OLS funziona ancora ma può essere meno preciso, il che deve riflettersi nel modo in cui segnali gli intervalli di confidenza delle tue stime (usando, diciamo errori standard robusti).
Se si assume anche che i residui siano normalmente distribuiti, OLS diventa asintoticamente efficiente perché è equivalente alla massima verosimiglianza .
Allora la regressione potrebbe funzionare meglio se i tuoi dati sono distribuiti normalmente, ma funzionerà comunque se non lo sono.