Domanda:
Valore r-quadrato accettabile per il modello di regressione lineare multipla
Steffi
2011-08-21 20:25:18 UTC
view on stackexchange narkive permalink

Attualmente sto lavorando alla mia tesi, più specificamente sto analizzando alcuni dati raccolti dai ricercatori sul progetto su cui stanno lavorando.

Alla fine, ho eseguito una regressione lineare multipla verificare quali determinanti (budget, dimensione del team, ...) influenzano in modo significativo l'impatto esterno di un progetto di ricerca. Mentre la variabile dipendente (impatto del progetto) è stata valutata da un sondaggio (condotto tra i ricercatori dell'istituto), le variabili indipendenti si basano su misure oggettive.

In uno scenario del genere, quale sarebbe un percentuale r-quadrato accettabile? Una percentuale bassa potrebbe essere giustificata dalla "soggettività" della variabile dipendente? Ho sentito che l'area scientifica è importante ... cioè in fisica è piuttosto necessario avere un quadrato r> 95% mentre in sociologia> 5% potrebbe essere già interessante ...

eventuali riferimenti a riguardo?

(1) Potresti trovare [R al quadrato: utile o pericoloso?] (Http://stats.stackexchange.com/q/13314) informativo. (2) Per quanto riguarda la frase "influenza significativa", dovresti anche leggere alcuni dei thread trovati cercando in questo sito "causalità", tra cui [Statistiche e inferenza causale?] (Http://stats.stackexchange.com/q/ 2245).
@whuber: (+1) questa domanda ha avuto origine su math.SE, e ho indicato l'OP alla stessa domanda a cui ti sei collegato. Penso che ciò abbia spinto la cancellazione della domanda da quelle parti e il trasferimento qui.
Sei risposte:
#1
+12
Frank Harrell
2011-08-21 22:04:19 UTC
view on stackexchange narkive permalink

Non ci sono assoluti. Problemi diversi hanno difficoltà diverse. L'unica cosa che farebbe rifiutare un determinato $ R ^ 2 $ è un altro approccio che ottiene un $ R ^ 2 $ molto più grande dallo stesso set di dati, utilizzando un modello pre-specificato o corretto per l'overfitting.

#2
+9
rolando2
2011-08-21 23:02:31 UTC
view on stackexchange narkive permalink

Il fatto che la variabile di risultato sia soggettiva suggerisce che verrà misurata con un'affidabilità piuttosto imperfetta. Più bassa è l'affidabilità, più le correlazioni con altre variabili tenderanno ad essere smorzate, quindi è necessario abbassare i propri standard.

Cercherò di darti una reazione più concreta. Conoscendo solo la piccola quantità che conosco, immagino che un RSQ vicino a .35 mi interesserebbe molto come revisore o altro lettore, e abbastanza ben impressionato dal potere esplicativo di questo modello; quello vicino a .20 mi interesserebbe leggermente; e quello vicino a .10 sembrerebbe al confine tra l'indicazione di un modello utile e quello inutile.

quindi ... il mio r ^ 2 di circa 0,38 andrebbe bene allora :) btw, ti capita di avere a portata di mano dei documenti che in qualche modo affermano che tale r ^ 2 potrebbe andare bene per il tipo di studio che sto conducendo ?? È solo che potrei fare riferimento a qualcosa di "ufficiale"
Non lo so, ma come suggerisce @Frank Harrell, non c'è molto bisogno o uso dell'imprimateur di qualcuno che dice "questo rsq è sufficiente". Normalmente c'è molto di più che si vuole ottenere con tale ricerca, come la stima dei coefficienti, la specifica degli errori standard di stima e così via.
#3
+3
Dave Owen
2011-08-22 21:00:03 UTC
view on stackexchange narkive permalink

Presumo che la tua variabile dipendente sia una sorta di punteggio discreto in stile Likert. In tal caso, mi assicurerei che l'R quadrato non fosse vicino a nessuno dei due estremi e presterei maggiore attenzione ai coefficienti di regressione.

A proposito, che tipo di modello di regressione hai utilizzato? I minimi quadrati ordinari possono essere disapprovati per la presentazione dei risultati finali, ma possono fornire un buon primo indicatore di una relazione. Per un articolo finale sceglierei un probit o un logit ordinato. Vuoi essere molto chiaro sulla distribuzione che stai imponendo alla variabile dipendente - ad esempio, l'uso dei minimi quadrati presuppone che i numeri sulla scala siano equidistanti, quando in realtà le persone sono piuttosto incoerenti quando forniscono punteggi soggettivi.

Giusto per chiarire: non userei OLS per una variabile dipendente discreta e ordinata. Va bene in molte altre applicazioni.
Benvenuto nel nostro sito, Dave! Grazie per aver valutato i tuoi pensieri.
#4
+2
Sympa
2011-08-21 22:47:33 UTC
view on stackexchange narkive permalink

Come te, ho spesso sentito dire che in sociologia un R quadrato di 0,05 è accettabile. A volte mi chiedo se questo possa essere veramente corretto, o se rifletta il poco brillante rigore scientifico all'interno della sociologia (almeno sulla base di questo punto di riferimento). Ammesso che un R quadrato di 0,05 corrisponda a un livello R assoluto di 0,22, che sembrerebbe dirti qualcosa.

Tuttavia, prima di mettermi a mio agio con un quadrato R così basso, avrei fatto un paio di cose. Esegui il tuo modello utilizzando diversi set di dati. Usa i punti di controllo dei dati all'interno dei tuoi dati e guarda quanto bene il tuo modello prevede la variabile dipendente. In altre parole, i risultati del modello possono essere replicati con diversi set di dati? Il tuo modello è predittivo? Questo definirà se il tuo modello ha un minimo di robustezza direzionale per essere utile molto più di quanto ti direbbe una soglia R Square arbitraria.

Intuirei che con un R Square di 0,05 i risultati di un modello correlato sono sopraffatti dall'errore standard del modello. Inoltre, i semplici metodi usati sopra potrebbero aiutarti a documentare questo fenomeno.

A volte è meno importante prevedere che capire l'effetto complessivo del coefficiente. Questo è molto vero per modelli come questo.
Non credo che questo abbia a che fare con il rigore scientifico, ma piuttosto con la difficoltà del compito. Se si predice quanti giorni deve vivere qualcuno, il $ R ^ 2 $ sarà piuttosto basso (grazie al cielo).
+1 @Frank, ma non posso resistere a sottolineare che $ R ^ 2 $ sarà piuttosto alto per semplici previsioni di date di morte (basate su tabelle attuariali), * a meno che non controlli l'età *! Questo mostra bene perché $ R ^ 2 $ di per sé è una misura quasi inutile della qualità o dell '"accettabilità" di un modello.
Stai pensando a previsioni di gruppo, che sono facili rispetto alla previsione dei risultati individuali.
#5
+1
user34889
2013-11-16 19:34:27 UTC
view on stackexchange narkive permalink

Sembra esserci molta confusione sull'importanza di RQS. RSQ non implica che tu abbia un modello valido, piuttosto che ci sia un po 'di "bontà di adattamento".

Vedi il mio blog per una breve panoramica.

http: / /www.excel-with-data.co.uk/blog-1

Ti farebbe rispondere in modo autonomo se riassumessi i punti principali del tuo post sul blog che si riferiscono alla domanda dei PO. Inoltre, per RQS e RSQ intendi la stessa cosa e cosa significano esattamente le abbreviazioni?
#6
-1
Jordache
2012-08-14 02:05:02 UTC
view on stackexchange narkive permalink

Non è assolutamente possibile utilizzare la regressione lineare multipla per l'analisi di una variabile di risposta categoriale. In questo caso dovresti piuttosto usare il modello logistico con un collegamento logit o probit (importa anche se la risposta è ordinale o nominale). Tuttavia, questa potrebbe essere una risposta molto tardiva.

Sì, puoi, ad esempio, il modello di probabilità lineare per qualsiasi variabile categoriale a 2 stati che assume 1 o 0
O per variabili categoriali ordinate con qualche ipotesi di linearità
Questo si riferisce a http://stats.stackexchange.com/questions/29469/ols-vs-logistic-regression-for-exploratory-analysis-with-a-binary-outcome. Spesso un'affermazione "non puoi assolutamente" può essere soddisfatta con "forse non posso farlo e soddisfare tutti i presupposti che sono importanti per te; ma posso farlo e imparare qualcosa di valore per me".


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...