Somma dei quadrati dei residui invece della somma dei residui

Peter Flom

2013-01-27 20:23:40 UTC

view on stackexchange narkive permalink

Le somme dei residui saranno sempre 0, quindi non funzionerà.

Una domanda più interessante è perché utilizzare la somma dei residui al quadrato rispetto alla somma del valore assoluto dei residui. Ciò penalizza i residui grandi più di quelli piccoli. Credo che il motivo per cui questo viene fatto è perché la matematica funziona più facilmente e, prima dei computer, era molto più facile stimare la regressione utilizzando i quadrati dei residui. Al giorno d'oggi, questo motivo non si applica più significa che la regressione della deviazione assoluta è effettivamente possibile. È una forma di regressione robusta.

@Peter Flom, ho pensato che la penalizzazione extra di grandi residui fosse un ** vantaggio ** dell'utilizzo dei valori al quadrato? Poiché è meno probabile che residui più grandi siano deviazioni casuali. Ti sembra di pensare che sia uno ** svantaggio **? Conosci qualche motivo per questo?

@kwanti Se si hanno valori anomali, l'utilizzo dei valori al quadrato in genere fa sì che l'adattamento si adegui maggiormente ai valori anomali rispetto a quando si utilizza il valore assoluto dei residui. Quindi minimizzare la somma dei residui assoluti potrebbe essere visto come più resistente ai valori anomali.

La somma dei residui non è necessariamente zero. Affinché ciò sia vero, in generale, deve essere presente un'intercetta nel modello.

@cardinal buon punto. Me ne sono dimenticato. Un'intercetta è standard, ovviamente, ma non universale

@kwanti Non è necessariamente un vantaggio o uno svantaggio; è una differenza. La regressione MAD è più resistente ai valori anomali. Può essere un bene o un male.

Un'altra differenza tra i minimi quadrati e MAD è che i minimi quadrati danno una singola risposta univoca mentre ci sono casi che utilizzano MAD che risulteranno in un numero infinito di linee che risulteranno nello stesso valore MAD minimo.

@GregSnow Non lo sapevo. Puoi spiegarci questo? O hai un riferimento? Quali tipi di casi provocano questo problema?

@PeterFlom, vedi la risposta che ho aggiunto (c'è più di quanto ci starebbe in un commento).

Lucas

2013-01-27 23:04:12 UTC

view on stackexchange narkive permalink

Un altro modo per motivare i residui al quadrato è assumere l'ipotesi spesso ragionevole che i residui siano distribuiti gaussiano. In altre parole, assumiamo che $$ y = ax + b + \ varepsilon $$ per il rumore gaussiano $ \ varepsilon $. In questo caso, la verosimiglianza dei parametri $ a, b $ è data da $$ \ log p (y \ mid x, a, b) = \ log \ mathcal {N} (y; ax + b, 1 ) = - \ frac {1} {2} (y - [a + bx]) ^ 2 + \ text {const}, $$ così che massimizzare la verosimiglianza equivale a minimizzare i quadrati dei residui.

Se il rumore $ \ varepsilon $ fosse distribuito da Laplace, il valore assoluto dei residui sarebbe più appropriato. Ma a causa del teorema del limite centrale, il rumore gaussiano è molto più comune.

Questo è corretto ma è interessante che da un punto di vista storico si tratti di un argomento perfettamente circolare: la distribuzione gaussiana è nata per prima perché Gauss ha scoperto che è la distribuzione per cui la MLE minimizza la somma dei quadrati dei residui!

@whuber, sì, ma poiché la distribuzione gaussiana ha chiaramente il suo posto in natura (cioè ha molte altre "proprietà naturali"), puoi costruire su di essa se racconti la storia in un altro modo :-) ("proprietà naturali" -> Gaussian distr . -> residui quadrati)

Mike Dunlavey

2013-01-29 03:45:09 UTC

view on stackexchange narkive permalink

Buone risposte, ma forse posso dare una risposta più intuitiva. Supponiamo che tu stia adattando un modello lineare, rappresentato qui da una linea retta parametrizzata da una pendenza e intercetta.

Ogni residuo è una molla tra ogni punto dati e la linea, e sta cercando di tirare la linea su se stessa. enter image description here
Una cosa sensata da fare è trovare la pendenza e l'intercetta che riducono al minimo l'energia del sistema. L'energia in ogni molla (cioè residua) è proporzionale alla sua lunghezza al quadrato, quindi ciò che fa il sistema è minimizzare la somma dei residui al quadrato, cioè minimizzare la somma di energia nelle molle.

Adam Bailey

2013-01-29 01:13:12 UTC

view on stackexchange narkive permalink

Oltre ai punti esposti da Peter Flom e Lucas, una ragione per ridurre al minimo la somma dei quadrati dei residui è il teorema di Gauss-Markov. Questo dice che se vengono soddisfatte le ipotesi della regressione lineare classica, lo stimatore dei minimi quadrati ordinario è più efficiente di qualsiasi altro stimatore lineare imparziale. "Più efficiente" implica che le varianze dei coefficienti stimati sono inferiori; in altre parole, i coefficienti stimati sono più precisi. Il teorema vale anche se i residui non hanno una distribuzione normale o gaussiana.

Tuttavia, il teorema non è rilevante per il confronto specifico tra minimizzare la somma dei valori assoluti e minimizzare la somma dei quadrati dal primo non è uno stimatore lineare . Visualizza questa tabella che mette in contrasto le loro proprietà, che mostra i vantaggi dei minimi quadrati come stabilità in risposta a piccole modifiche nei dati e dispone sempre di un'unica soluzione.

* "Più efficiente implica che le varianze sono inferiori" * - Penso che tu stia andando in circolo, perché la varianza è basata sulla somma dei quadrati. Se invece avessi utilizzato qualche altra misura basata su valori assoluti, probabilmente favorirebbe i valori assoluti.

@Tomas Grazie, capisco il punto, riconduce alla domanda perché, o dovremmo, desiderare che le stime dei coefficienti siano precise misurate dalla varianza minima, piuttosto che da qualche altra misura di precisione. Detto questo, la varianza minima è una misura popolare di precisione, quindi il teorema G-M aiuta a spiegare perché la regressione OLS è ampiamente utilizzata.

C'è molto buon materiale su questi problemi in http://stats.stackexchange.com/questions/46019/why-squared-residuals-instead-of-absolute-residuals-in-ols-estimation?rq=1 e http : //stats.stackexchange.com/questions/118/why-square-the-difference-instead-of-taking-the-absolute-value-in-standard-devia.

Gaus-Markov implica che nessun altro metodo ha una varianza minore. Se vuoi minimizzare la varianza, usa i minimi quadrati. Non vedo dove sta "andando in tondo" quanto una cosa che abbia senso. Per completare la risposta alla domanda posta, si direbbe "Usiamo i quadrati, invece degli assoluti, perché vogliamo minimizzare la varianza. Il Teorema GM ci mostra che usare i quadrati (facendo OLS) è effettivamente il metodo che minimizza la varianza ". È una spiegazione perfettamente valida per l'utilizzo dei quadrati (modifica: date tutte le ipotesi, ecc.)

Questi commenti sembrano utilizzare la "varianza" in due sensi: la varianza dei * residui * e la varianza delle * stime. * Tra gli stimatori * lineari * (non "tutti" gli stimatori, * ritmo * IMA), i minimi quadrati minimizza la varianza della stima. È un teorema che la varianza della stima è "basata sulla somma dei quadrati" * dei residui *, * ammesso * che lo stimatore sia lineare. @Tomas Se lo stimatore non è lineare, allora la varianza della stima non è proporzionale alla somma dei quadrati dei residui, quindi non c'è niente di circolare nell'affermazione di Adam - ed è chiaro sulle ipotesi.

Greg Snow

2013-01-31 01:11:15 UTC

view on stackexchange narkive permalink

Questa è più una risposta al commento di @ PeterFlom sul mio commento, ma è troppo grande per entrare in un commento (e si riferisce alla domanda originale).

Ecco un po 'di codice R da mostrare un caso in cui ci sono più righe che danno tutti gli stessi valori MAD / SAD minimi.

La prima parte dell'esempio è chiaramente un dato inventato per dimostrare, ma la fine include più di un elemento casuale per dimostrare che il concetto generale sarà ancora valido in alcuni casi più realistici.

  x <- rep (1:10, each = 2) y <- x / 10 + 0: 1plot (x, y) sad <- funzione (x, y, coef) {# mad is sad / n yhat <- coef [1] + coef [2] * x resid <- y - yhat sum (abs (resid))} libreria (quantreg) fit0 <- rq (y ~ x) abline (fit0) fit1 <- lm (y ~ x, subset = c (1,20)) fit2 <- lm (y ~ x, subset = c (2,19)) fit3 <- lm (y ~ x, subset = c (2,20)) fit4 <- lm (y ~ x, subset = c (1,19)) fit5.coef <- c (0,5, 1/10) abline ( fit1) ablin e (fit2) abline (fit3) abline (fit4) abline (fit5.coef) for (i in seq (-0.5, 0.5, by = 0.1)) {abline (fit5.coef + c (i, 0))} tmp1 <- seq (coef (fit1) [1], coef (fit2) [1], len = 10) tmp2 <- seq (coef (fit1) [2], coef (fit2) [2], len = 10) per (i in seq_along (tmp1)) {abline (tmp1 [i], tmp2 [i])} sad (x, y, coef (fit0)) sad (x, y, coef (fit1)) sad (x, y, coef (fit2)) sad (x, y, coef (fit3)) sad (x, y, coef (fit4)) sad (x, y, fit5.coef) for (i in seq (-0.5, 0.5, by = 0.1)) {print (sad (x, y, fit5.coef + c (i, 0)))} for (i in seq_along (tmp1)) {print (sad (x, y, c (tmp1 [i], tmp2 [i])))} set.seed (1) y2 <- y + rnorm (20,0,0.25) plot (x, y2) fitnew <- rq (y2 ~ x) # nota il warningabline ancora non univoco (fitnew) abline (coef (fitnew) + c (.1,0)) abline (coef (fitnew) + c (0, 0.01)) sad (x, y2, coef (fitnew)) sad (x, y2, coef (fitnew) + c (.1,0)) sad (x, y2, coef (fitnew) + c (0,0.01))