La regressione lineare non si adatta bene

Timothée HENRY

2014-01-28 12:59:12 UTC

view on stackexchange narkive permalink

Faccio una regressione lineare utilizzando la funzione R lm:

  x = log (errors) plot (x, y) lm.result = lm (formula = y ~ x) abline (lm .result, col = "blue") # mostra "fit" in blu

enter image description here

ma non si adatta bene. Sfortunatamente non riesco a dare un senso al manuale.

Qualcuno può indicarmi la giusta direzione per adattarlo meglio?

Per adattamento intendo che voglio ridurre al minimo il Root Mean Squared Errore (RMSE).

Modifica : ho pubblicato una domanda correlata (è lo stesso problema) qui: Posso ridurre ulteriormente l'RMSE in base a questo caratteristica?

e i dati grezzi qui:

http://tny.cz/c320180d

tranne quello su quel link x è quello che viene chiamato errori nella presente pagina qui, e ci sono meno esempi (1000 vs 3000 nel grafico della pagina attuale). Volevo rendere le cose più semplici nell'altra domanda.

R lm funziona come previsto, il problema è con i tuoi dati, ovvero la relazione lineare non è appropriata in questo caso.

Potresti tracciare quale linea pensi di dover prendere e perché pensi che la tua linea abbia un MSE più piccolo? Ho notato che la tua y è compresa tra 0 e 1, quindi sembra che la regressione lineare non sia adatta a questi dati. Quali sono i valori?

@Glen_b La linea rossa nella risposta di pkofod di seguito sembra adattarsi meglio ai miei occhi. Quella linea non diminuirebbe il MSE? È solo la mia intuizione.

@Glen_b I valori y sono probabilità di appartenere a una certa classe. Il valore x è una caratteristica (basata su una stima, x = log (errore)).

Bene, allora come hai ottenuto i valori y? Non importa cosa, OLS non è adatto per questo tipo di modelli. Guarda la tua linea blu. Quale sarà la probabilità prevista per x = 10? È una probabilità?

@pkofod I valori y sono le probabilità di appartenere a una certa classe, ottenute dalla media delle classificazioni effettuate manualmente dalle persone. Il valore x è una caratteristica (basata su una stima, x = log (errore)).

@tucson Ho visto che la prima volta che l'hai scritto, ma per capire il tuo problema è utile sapere da dove provengono i dati.

Se i valori y sono probabilità, non vuoi affatto la regressione OLS.

@PeterFlom Cosa consiglieresti?

Ciò che nessuno sembra sottolineare è che quando la variabile di risposta è una proporzione delimitata da 0 e 1, qualsiasi tipo di adattamento in linea retta è problematico in quanto prevede valori al di fuori di tale intervallo per alcuni valori del predittore. Dal grafico, la relazione sembra piuttosto debole, a prescindere, ma se sei deciso a modellarla, una sorta di modello logit o probit che rispetti i limiti mi sembra una chiamata migliore. Spesso il ragionamento sostanziale o scientifico aiuta qui. Cosa ti aspetti che accada per valori estremi di $ x $?

(scusate potrei postarlo prima) Quello che vi sembra "un adattamento migliore" di seguito è (approssimativamente) minimizzare le somme dei quadrati delle distanze ortogonali, non le distanze verticali 'la vostra intuizione è sbagliata. Puoi controllare l'MSE approssimativo abbastanza facilmente! Se i valori y sono probabilità, saresti meglio servito da un modello che non va al di fuori dell'intervallo da 0 a 1.

@Glen_b Grazie. Ah, hai ragione, pensavo di dover ridurre al minimo le distanze ortogonali, non quelle verticali.

Potrebbe essere che questa regressione soffra della presenza di alcuni valori anomali. Potrebbe essere un caso per una regressione robusta. http://en.wikipedia.org/wiki/Robust_regression

Questo è più un commento che una risposta. Ti dispiacerebbe espanderlo per renderlo più una risposta? In alternativa, potremmo convertirlo in un commento.

Puoi convertire.

@Yves Grazie, il tuo è un suggerimento degno che integra piacevolmente molte delle risposte. Spero che anche altri votino positivamente il tuo commento in modo che appaia in primo piano in questo thread. Oppure, se ti senti così commosso, considera di amplificarlo in una risposta completa.

## Leggi i dati da una tabella di (X, Y) = (X, probabilità) coppie. # x <- read.table ("F: /temp/data.csv", sep = ",", col.names = c ("X", " Y ")) ## Definisce le funzioni per convertire tra probabilità` p` e log odds `z`. # (Quando alcune probabilità effettivamente sono uguali a 0 o 1, un piccolo aggiustamento - dato da un valore # positivo di" e` - deve essere applicato per evitare quote logaritmiche infinite.) # logit <- funzione (p, e = 0) {x <- (p-1/2) * (1-e) + 1/2; log (x) - log (1-x)} logistica <- funzione (z, e = 0) {y <- exp (z) / (1 + exp (z)); (y-1/2) / (1-e) + 1/2} ## Misura le probabilità logaritmiche usando i minimi quadrati. # b <- coef (misura <- lm (logit (x $ Y) ~ x $ X) ) ## Traccia i risultati in due modi. # Par (mfrow = c (1,2)) plot (x $ X, logit (x $ Y), cex = 0.5, col = "Gray", main = "Least Squares Fit ", xlab =" X ", ylab =" Log odds ") abline (b, col =" Red ", lwd = 2) plot (x $ X, x $ Y, cex = 0.5, col =" Gray ", main = "LS Fit Re-espresso", xlab = "X", ylab = "Probability") curva (logistica (b [1] + b [2] * x), col = "Red", lwd = 2, aggiungi = TRUE)

# la relazione 'reale' dove y viene interpretata come probabilità di successo = runif (400) x = -2 * (log (y / (1-y)) - 2 ) + rnorm (400, sd = 2) glm.logit = glm (y ~ x, famiglia = binomiale); diagramma di riepilogo (glm.logit) (y ~ x); richiedono (lontano); grid () points (x, ilogit (coef (glm.logit)% *% rbind (1.0, x)), col = "red") tt = runif (400) # un esempio della tua regressione non trasformatanewy = ifelse (tt < y, 1, 0) glm.logit = glm (newy ~ x, family = binomial); riepilogo (glm.logit) # se non c'è una buona corrispondenza nelle probabilità della coda prova una funzione di collegamento diversa o un sovracampionamento con correzione (sarà peggio qui, ma forse non nei tuoi dati) glm.probit = glm (y ~ x, famiglia = binomiale (link = probit)); riepilogo (glm.probit) glm.cloglog = glm (y ~ x, family = binomial (link = cloglog)); riepilogo (glm.cloglog)

require (faraway) people = c ("Jill", "Jack") proposer = sample (people, 1000, replace = T) incentive = runif (1000, min = 0, max = 10) noise = rnorm (1000, sd = 2) # la probabilità base di concordare è di circa il 12% (ilogit (-2)) concorda = ilogit (-2 + 1 * incentivo + ifelse (proposer == "Jill", 0, -0,75) + rumore) tt = runif (1000) viewedAgrees = ifelse (tt < concorda, 1,0) glm.logit = glm (viewedAgrees ~ incentivo + proposer, family = binomial); riepilogo (glm.logit)

xs = coef (glm.logit)% *% rbind (1, incentive, as.factor (proposer)) ys = as.vector (unlist (ilogit (xs))) plot (ys ~ incentive, type = "n"); richiedono (lontano); grid () points (incentive [proposer == "Jill"], ys [proposer == "Jill"], col = "red") points (incentive [proposer == "Jack"], ys [proposer == "Jack "], col =" blue ")