Ok, ho pensato di dare seguito a questo. Ho lottato un po 'con le risposte qui e sono arrivato a una migliore comprensione del problema. Per i posteri, penso anche che una spiegazione completa del perché ci sono due diverse forme di questa equazione per R ^ 2 sarebbe vantaggiosa per chiunque si imbattesse in questo filo. Non so se questa sia conoscenza comune, o cosa - nessuno sembra spiegare (forse molte persone semplicemente non lo sanno, o forse è così semplice che ci si aspetta che le persone `` sappiano '') PERCHÉ ci sono due forme per R ^ 2. Ciò include diverse serie di dispense di professori delle principali università: forse non sto solo cercando nei posti giusti.
Il motivo delle due diverse equazioni di cui sopra deriva dal fatto che stai confrontando modello contro l'ipotesi nulla. L'ipotesi nulla è "esiste una relazione zero tra le variabili dipendenti e indipendenti". Ciò significa che stai assumendo che la pendenza sia zero. Un altro modo per dirlo è che stai confrontando il modello di regressione che costruisci con un modello nidificato con un parametro in meno.
Ora, supponiamo di avere un insieme di dati con uno variabile indipendente (x) e una variabile dipendente (y). Abbiamo due scelte:
- Scegliamo di modellare la relazione tra x e y con un modello lineare a due parametri (cioè $ \ hat {y} _i = a_0 + a_1 \ hat {x} _i + \ epsilon_i $). L'ipotesi nulla è $ \ hat {y} _i = a_0 + \ epsilon_i $ e $ \ bar {y} \ neq 0 $ in generale. Quindi la forma appropriata di $ R ^ 2 $ da usare è: $$ R ^ 2 = 1- \ frac {\ sum_i (y_i - \ hat {y} _i) ^ 2} {\ sum_i (y_i - \ bar {y }) ^ 2} $$
- Scegliamo di modellare la relazione tra x e y con un modello lineare a un parametro , ovvero $ \ hat {y} _i = a_1 \ hat {x} _i + \ epsilon_i $. L'ipotesi nulla è che non vi sia alcuna relazione tra x e y, quindi l'ipotesi nulla corretta è $ \ hat {y} _i = \ epsilon_i $. In altre parole, l'ipotesi nulla è solo rumore bianco. Chiaramente, $ \ mathbb {E} (y) = 0 $, quindi la forma corretta di $ R ^ 2 $ è $$
R ^ 2 = 1- \ frac {\ sum_i (y_i - \ hat {y} _i) ^ 2} {\ sum_i y_i ^ 2} $$
Un buon modo di pensare questa è la seguente: supponiamo che l'ipotesi nulla fosse corretta (100%) e che non ci fosse davvero alcuna relazione tra x e y. Cosa ci aspetteremmo? Se qualcosa è giusto, la risposta è "Ci aspettiamo $ R ^ 2 = 0 $."
- Nel caso in cui scegliamo un modello a due parametri, ci aspettiamo che $ \ bar {y} = \ hat {y} _i = a_0 $. Se questo non è ovvio, prova a disegnare l'immagine con il valore del modello sotto l'ipotesi nulla $ \ hat {y} _i $, il punto dati come $ y_i $ e la media $ \ bar {y} $. Se il modello è corretto (cioè, numero di punti dati -> infinito), dovresti essere in grado di vedere graficamente che $ \ bar {y} = \ hat {y} _i = a_0 $, nel caso in cui l'ipotesi nulla è vera .
- Al contrario, usando la stessa immagine di sopra, $ \ hat {y} _i = \ bar {y} = 0 $. C'è un leggero fastidio qui, perché devi preoccuparti di come queste cose vanno a zero. L'Hopital ti dirà che, almeno in questo caso, $ \ lim 0/0 = 0 $, e va tutto bene.
Puoi capire perché succedono cose divertenti con $ R ^ 2 $ (come i valori negativi) se usi la forma sbagliata dell'equazione. L'ho notato per primo perché il pacchetto statsmodels
in Python fa una cosa e R
fa qualcos'altro: mi fa male dirlo, ma R
lo è giusto e statsmodels
è sbagliato. (Beh, non proprio "dolori" ...)
Mi piacerebbe avere un feedback su questa intuizione. Ho trovato solo un riferimento in cui questo è spiegato esplicitamente. Vedere questo file pdf ( scarica qui), Sezione 5.3.6. Inoltre, l'altra risposta collegata su stackexchange allude a questo fatto, ma il ragionamento non mi era del tutto chiaro (senza offesa per la persona che ha risposto alla domanda, è una risposta molto ben scritta , e posso essere ottuso a volte!).
Di nuovo, correggi il mio ragionamento nei commenti e modificherò il post finché non sarà accettabile.