Capisco che $ R ^ 2 = \ frac {\ text {SSR}} {\ text {SST}} = 1- \ frac {SSE} {SST} $, tuttavia, non capisco cosa cambia quando vengono aggiunte più variabili predittore e in che modo $ R ^ 2 $ viene influenzato di conseguenza. Qualcuno può chiarire?
Capisco che $ R ^ 2 = \ frac {\ text {SSR}} {\ text {SST}} = 1- \ frac {SSE} {SST} $, tuttavia, non capisco cosa cambia quando vengono aggiunte più variabili predittore e in che modo $ R ^ 2 $ viene influenzato di conseguenza. Qualcuno può chiarire?
Supponiamo di avere due modelli: $$ Y = \ beta_0 + \ beta_1 X_1 + \ varepsilon \ tag {M1} $$ e $$ Y = \ beta_0 + \ beta_1 X_1 + \ beta_2 X_2 + \ varepsilon \ tag {M2} $$ Ciò significa che abbiamo
$$ RSS_1 = \ sum_ {i = 1} ^ n (Y_i - \ hat \ beta_0 - \ hat \ beta_1 ^ {(1) } X_1) ^ 2 $$
e
$$ RSS_2 = \ sum_ {i = 1} ^ n (Y_i - \ hat \ beta_0 - \ hat \ beta_1 ^ {( 2)} X_1 - \ hat \ beta_2 X_2) ^ 2. $$
Il modello $ M2 $ contiene il modello $ M1 $ come un caso speciale, quindi non è possibile che $ RSS_1 < RSS_2 $: noi puoi semplicemente impostare $ \ hat \ beta_2 = 0 $ e $ \ hat \ beta_1 ^ {(1)} = \ hat \ beta_1 ^ {(2)} $ per ottenere $ RSS_1 = RSS_2 $. È molto più probabile che $ RSS_2 < RSS_1 $ perché abbiamo un parametro extra in modo da poter adattare i dati più da vicino.
Questo rivela il grosso problema con $ R ^ 2 $ non aggiustato: non c'è penalità per la complessità del modello. Un modello più complicato si adatterà quasi sempre meglio ai dati, quindi $ R ^ 2 $ preferirà questo modello, anche se la complessità aggiuntiva è solo il rumore di modellazione. Ecco perché altri metodi come $ R ^ 2 $ aggiustati (come menzionato nella risposta di Antoni Parellada) e $ AIC $ sono popolari, poiché tengono conto sia dell'adattamento del modello ai dati, penalizzando anche la complessità del modello.
È il risultato del processo di adattamento che ha luogo nella regressione OLS. Ogni variabile viene regredita rispetto a tutte le altre e ciò che rimane inspiegabile (residui) viene riportato. In un certo senso, il processo di regressione cerca spiegazioni nella varianza dei dati, ma in realtà non eccelle nel dire cos'è il segnale e cos'è il rumore.
In effetti, se dovessi includere solo variabili composte da rumore casuale, si poteva ancora vedere come ci sarebbe stato un sovradattamento progressivo di questo rumore in un tentativo fuorviante di spiegare la variabilità nella variabile "dipendente".
Ho eseguito questo test qui e ho tracciato l'effetto risultante su $ RSS $ all'aumentare del numero di variabili non sensibili:
Questo è il motivo per cui è consigliabile utilizzare $ R ^ 2 $ aggiustato invece di $ R ^ 2 $ per giudicare se sia una buona idea includere più variabili in un modello.