Domanda:
Perché $ R ^ 2 $ cresce quando più variabili predittive vengono aggiunte a un modello?
CarlMarx
2016-04-16 23:22:29 UTC
view on stackexchange narkive permalink

Capisco che $ R ^ 2 = \ frac {\ text {SSR}} {\ text {SST}} = 1- \ frac {SSE} {SST} $, tuttavia, non capisco cosa cambia quando vengono aggiunte più variabili predittore e in che modo $ R ^ 2 $ viene influenzato di conseguenza. Qualcuno può chiarire?

$ R ^ 2 = 1 - \ frac {SSR} {SST} $.
@Antoni dipende se si utilizza "R" per "regressione" o "residuo".Dato che è stato definito in termini di SSE (il che implica che SSR + SSE = SST), chiaramente è il primo piuttosto che il secondo che è inteso.
@Glen_b Grazie, Glen!Ho visto arrivare che c'era una spiegazione in questo senso, il modo in cui ero l'unico interessato.
@Antoni purtroppo abbondano di abbreviazioni incompatibili.Dato quanto sono ampiamente utilizzate le statistiche e che le persone provenienti da una varietà di aree non leggono tutti i testi degli altri, una grande quantità di gergo incompatibile è una conseguenza non sorprendente ma sfortunata.Da qui le continue domande dei commentatori attivi che chiedono alle persone di chiarire cosa intendono, anche quando potrebbe sembrare ovvio.
Due risposte:
jld
2016-04-17 00:05:59 UTC
view on stackexchange narkive permalink

Supponiamo di avere due modelli: $$ Y = \ beta_0 + \ beta_1 X_1 + \ varepsilon \ tag {M1} $$ e $$ Y = \ beta_0 + \ beta_1 X_1 + \ beta_2 X_2 + \ varepsilon \ tag {M2} $$ Ciò significa che abbiamo

$$ RSS_1 = \ sum_ {i = 1} ^ n (Y_i - \ hat \ beta_0 - \ hat \ beta_1 ^ {(1) } X_1) ^ 2 $$

e

$$ RSS_2 = \ sum_ {i = 1} ^ n (Y_i - \ hat \ beta_0 - \ hat \ beta_1 ^ {( 2)} X_1 - \ hat \ beta_2 X_2) ^ 2. $$

Il modello $ M2 $ contiene il modello $ M1 $ come un caso speciale, quindi non è possibile che $ RSS_1 < RSS_2 $: noi puoi semplicemente impostare $ \ hat \ beta_2 = 0 $ e $ \ hat \ beta_1 ^ {(1)} = \ hat \ beta_1 ^ {(2)} $ per ottenere $ RSS_1 = RSS_2 $. È molto più probabile che $ RSS_2 < RSS_1 $ perché abbiamo un parametro extra in modo da poter adattare i dati più da vicino.

Questo rivela il grosso problema con $ R ^ 2 $ non aggiustato: non c'è penalità per la complessità del modello. Un modello più complicato si adatterà quasi sempre meglio ai dati, quindi $ R ^ 2 $ preferirà questo modello, anche se la complessità aggiuntiva è solo il rumore di modellazione. Ecco perché altri metodi come $ R ^ 2 $ aggiustati (come menzionato nella risposta di Antoni Parellada) e $ AIC $ sono popolari, poiché tengono conto sia dell'adattamento del modello ai dati, penalizzando anche la complessità del modello.

C'è un errore di battitura in $ RSS_2 = \ sum_ {i = 1} ^ n (Y_i - \ hat \ beta_0 - \ hat \ beta_1 ^ {(2)} X_1 - \ hat \ beta_2 X_2) ^ 2? $ Intendi$ \ beta_2 ^ {(2)} $ invece di $ \ beta_2 $?
Antoni Parellada
2016-04-17 00:01:17 UTC
view on stackexchange narkive permalink

È il risultato del processo di adattamento che ha luogo nella regressione OLS. Ogni variabile viene regredita rispetto a tutte le altre e ciò che rimane inspiegabile (residui) viene riportato. In un certo senso, il processo di regressione cerca spiegazioni nella varianza dei dati, ma in realtà non eccelle nel dire cos'è il segnale e cos'è il rumore.

In effetti, se dovessi includere solo variabili composte da rumore casuale, si poteva ancora vedere come ci sarebbe stato un sovradattamento progressivo di questo rumore in un tentativo fuorviante di spiegare la variabilità nella variabile "dipendente".

Ho eseguito questo test qui e ho tracciato l'effetto risultante su $ RSS $ all'aumentare del numero di variabili non sensibili:

enter image description here

Questo è il motivo per cui è consigliabile utilizzare $ R ^ 2 $ aggiustato invece di $ R ^ 2 $ per giudicare se sia una buona idea includere più variabili in un modello.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...