Domanda:
Numero minimo di osservazioni per la regressione logistica?
user333
2011-06-08 23:33:54 UTC
view on stackexchange narkive permalink

Sto eseguendo una regressione logistica binaria con 3 variabili numeriche. Sto sopprimendo l'intercetta nei miei modelli poiché la probabilità dovrebbe essere zero se tutte le variabili di input sono zero.

Qual è il numero minimo di osservazioni che dovrei usare?

Avresti bisogno di un'intercettazione di $ - \ infty $ per farlo! Un'intercetta di 0 corrisponde a una probabilità di $ \ frac {1} {1 + \ exp (-0)} = 1/2 $, non $ 0 $, quando tutte le variabili indipendenti sono zero.
C'è una discussione correlata qui: [sample-size-for-logistic-regression] (http://stats.stackexchange.com/questions/26016/).
Quattro risposte:
#1
+19
Frank Harrell
2011-06-09 07:45:11 UTC
view on stackexchange narkive permalink

C'è un modo per arrivare a un solido punto di partenza. Supponiamo che non ci fossero covariate, quindi l'unico parametro nel modello fosse l'intercetta. Qual è la dimensione del campione richiesta per consentire alla stima dell'intercetta di essere sufficientemente precisa in modo che la probabilità prevista sia entro 0,1 della probabilità reale con una confidenza del 95%, quando la vera intercetta è intorno allo zero? La risposta è n = 96. E se ci fosse una covariata e fosse binaria con una prevalenza di 0,5? Sarebbero necessari 96 soggetti con x = 0 e 96 con x = 1 per avere un limite superiore sul margine di errore per stimare Prob [Y = 1 | X = x] non superare 0,1. La formula generale per la dimensione del campione richiesta per ottenere un margine di errore di $ \ delta $ nella stima di una probabilità reale di $ p $ con un livello di confidenza di 0,95 è $ n = (\ frac {1.96} {\ delta}) ^ { 2} \ times p (1-p) $. Imposta $ p = 0,5 $ per il caso peggiore.

Apprezzo il tuo aiuto in questo forum.Ho ~ 90000 eventi e ~ 2000000 non eventi.Ho bisogno di un modello logistico con 65 predittori.Ora come e quanti campioni posso prendere.infatti la mia domanda è relativa a http://stats.stackexchange.com/questions/268201/how-to-increase-mcfadden-score-and-choose-proper-predictor-for-binary-logistic-r
Nessun problema con l'adattamento di 65 contemporaneamente alla dimensione effettiva del campione.
ma mi è stato suggerito che troppi campioni possono causare problemi poiché stavo ottenendo psudo r al quadrato più basso.
Stai scherzando?Se $ R ^ 2 $ è basso utilizzando un campione ampio, questa è la stima più accurata del $ R ^ 2 $ vero e la caduta delle osservazioni non migliorerà le prestazioni del modello;non farà che peggiorare le cose.Integra $ R ^ 2 $ con altre metriche più facili da capire come $ c $ -index (probabilità di concordanza; area ROC).E soprattutto, ignora qualsiasi consiglio per "bilanciare" le frequenze delle categorie di risultati.
È necessario utilizzare "glmnet" per trovare il predittore più utile in questa fase?
#2
+9
Dikran Marsupial
2011-06-09 00:10:59 UTC
view on stackexchange narkive permalink

Non esiste un numero minimo di osservazioni. In sostanza, più osservazioni hai, più i parametri del tuo modello sono vincolati dai dati e più il modello diventa sicuro. Di quante osservazioni hai bisogno dipende dalla natura del problema e dalla tua fiducia nel tuo modello. Non penso che sia una buona idea fare troppo affidamento su "regole pratiche" su questo genere di cose, ma usa tutti i dati che puoi ottenere e controlla gli intervalli di fiducia / credibili sui parametri del tuo modello e sulle previsioni.

nessun numero minimo!Ho ~ 90000 eventi e ~ 2000000 non eventi.Ho bisogno di un modello logistico con 65 regressori.Mi è stato detto che si tratta di troppi campioni, dal momento che sto prendendo questo intero ~ 90000 eventi e ~ 90000 non eventi selezionati casualmente da ~ 2000000, prova a ridurre il campione mentre i campioni sono rappresentativi.a questo punto quanti campioni posso prelevare e come.In effetti mi riferisco a http://stats.stackexchange.com/questions/268201/how-to-increase-mcfadden-score-and-choose-proper-predictor-for-binary-logistic-r
No, non farlo
Sono d'accordo con @FrankHarrell (forse per un motivo diverso?).Il problema dello "squilibrio di classe" tende a scomparire quanto più dati raccogli, e se bilanci artificialmente i dati di addestramento stai dicendo al modello che le frequenze di classe operativa sono 50-50, il che probabilmente non è vero, e lo faraiclassificare la classe di minoranza in uso operativo.Se si esegue questa operazione, elaborare successivamente le probabilità di output per regolare la differenza nella frequenza di formazione e di classe operativa (a quel punto si otterrà probabilmente essenzialmente lo stesso risultato dell'addestramento con tutti i dati).
#3
  0
Manoel Galdino
2011-06-09 03:03:32 UTC
view on stackexchange narkive permalink

Aggiornamento: non ho visto il commento sopra, di @David Harris, che è più o meno come il mio. Perdonami per quello. Voi ragazzi potete cancellare la mia risposta se è troppo simile.

Secondo il post di Dikran Marsupail aggiungo i miei due centesimi.

Prendi in considerazione la tua conoscenza precedente degli effetti che tu aspettati dalle tue variabili indipendenti. Se ti aspetti piccoli effetti, allora avrai bisogno di un enorme campione. Se ci si aspetta che gli effetti siano grandi, allora un piccolo campione può fare il lavoro.

Come forse saprai, gli errori standard sono una funzione della dimensione del campione, quindi maggiore è la dimensione del campione, minore è lo standard errori. Pertanto, se gli effetti sono piccoli, cioè vicini allo zero, solo un piccolo errore standard sarà in grado di rilevare questo effetto, cioè di mostrare che è significativamente diverso da zero. D'altra parte, se l'effetto è grande (lontano da zero), anche un errore standard di grandi dimensioni produrrà risultati significativi.

Se hai bisogno di qualche riferimento, dai un'occhiata al blog di Andrew Gelmans.

Il blog di Gelman sta diventando piuttosto grande :-). Hai in mente un post in particolare?
@Whuber, hai ragione, avrei dovuto indicare qualcosa di più specifico. Ha alcune recenti presentazioni di talk su piccoli effetti e confronti multipli, ma penso che il seguente link sia sufficiente: http://www.stat.columbia.edu/~gelman/research/published/power4r.pdf
quel link nei commenti è morto e non c'è alcun riferimento a un particolare post del blog citato
#4
  0
Ahmad
2013-07-20 15:12:22 UTC
view on stackexchange narkive permalink

Sembra che per ottenere una stima accettabile dobbiamo applicare le regole che sono state esaminate da altri ricercatori. Sono d'accordo con le due regole pratiche sopra (10 oss per ogni var. E la formula di Harrell). Qui, c'è un'altra domanda che i dati sono rivelati o la preferenza dichiarata. Hosmer e Lemeshow nel loro libro hanno fornito una regola per il rivelato e Louviere e Hensher nel loro libro (I metodi della preferenza dichiarata) hanno fornito una regola per i dati sulle preferenze dichiarate

Ciò trarrebbe vantaggio da una spiegazione più completa e anche da riferimenti completi e precisi.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...