Domanda:
Come utilizzare le variabili derivate dall'analisi fattoriale come predittori nella regressione logistica?
user3358
2011-02-22 09:24:55 UTC
view on stackexchange narkive permalink

Contesto

Ho un sondaggio che pone 11 domande sull'autoefficacia. Ogni domanda ha 3 opzioni di risposta (in disaccordo, d'accordo, fortemente d'accordo). Nove domande pongono sull'autostima. Ho utilizzato un'analisi fattoriale degli 11 elementi di autoefficacia ed estratto due fattori.

da $ x_1 $ a $ x_ {11} $ denotano le 11 domande sull'autoefficacia nel sondaggio e $ f_1 $ (da $ x_1 $ a $ x_6 $), $ f_2 $ ($ x_7 $ a $ x_ {11} $) denotano i due fattori che ho ottenuto dall'analisi fattoriale. $ y $ è una variabile dipendente.

Poi ho creato due nuove variabili:

  f1 = mean (x1 to x6); f2 = media (x7-x11). 

Quindi la regressione logistica sarebbe simile a questa:

  y = a + bf1 + cf2 + ....  

La mia domanda:

  • Posso utilizzare questi due fattori come variabili predittive nel mio modello di regressione logistica multivariata?
  • Devo calcolare la media di ogni elemento in ogni fattore e utilizzare questa media come variabile continua nel mio modello di regressione logistica?
  • È un uso appropriato dell'analisi fattoriale?
Alcune domande: $ y $ è univariato? Quindi si ha una regressione logistica multipla, non una regressione logistica multivariata. Come stai facendo l'analisi fattoriale? Sebbene ci siano metodi applicabili alle variabili ordinali che sono analoghi all'analisi fattoriale per variabili manifest continue, non mi è chiaro cosa stai usando. Infine, cosa considereresti un uso inappropriato dell'analisi fattoriale? Se la consideri una tecnica di riduzione delle dimensioni (trasformare 11 variabili in 2), allora non c'è nulla di intrinsecamente sbagliato in essa. Che sia una buona idea o meno è un'altra domanda.
Quattro risposte:
#1
+11
chl
2011-02-22 17:23:45 UTC
view on stackexchange narkive permalink

Se ti ho capito bene, stai usando FA per estrarre due sottoscale dal tuo questionario di 11 elementi. Si suppone che riflettano alcune dimensioni specifiche dell'autoefficacia (ad esempio, autoregolamentazione contro efficacia autoaffermativa).

Quindi, sei libero di usare mezzi individuali (o somma) punteggi calcolati sulle due sottoscale come predittori in un modello di regressione. In altre parole, invece di considerare i punteggi di 11 elementi, ora stai lavorando con 2 punteggi parziali, calcolati come descritto sopra per ogni individuo. L'unica ipotesi che viene fatta è che quei punteggi riflettano la propria posizione su un "costrutto ipotetico" o variabile latente, definita come una scala continua.

Come ha detto @JMS, ci sono altre questioni che potresti chiarire ulteriormente , soprattutto quale tipo di FA è stato fatto. Un problema sottile è che l'errore di misurazione non sarà tenuto in considerazione da un approccio di regressione standard. Un'alternativa è usare i modelli di equazioni strutturali o qualsiasi modello di variabili latenti (ad esempio quelli provenienti dalla letteratura IRT), ma qui l'approccio di regressione dovrebbe fornire una buona approssimazione. L'analisi delle variabili ordinali (elemento di tipo Likert) è stata discussa altrove in questo sito.

Tuttavia, nella pratica corrente, il tuo approccio è quello che si trova comunemente quando si convalida un questionario o si costruiscono regole di punteggio: usiamo una combinazione ponderata o non ponderata di punteggi degli elementi (quindi, sono trattati come variabili numeriche) posizione individuale sui tratti latenti presi in considerazione.

#2
+10
Jeromy Anglim
2011-02-22 17:24:19 UTC
view on stackexchange narkive permalink

Utilizzo dei punteggi dei fattori come predittori

Sì, è possibile utilizzare variabili derivate da un'analisi fattoriale come predittori nelle analisi successive.

Altre opzioni includono l'esecuzione di una qualche forma di modello di equazione strutturale in cui si pone una variabile latente con gli elementi o gruppi di elementi come variabili osservate.

Media come punteggio di scala

Sì, nel tuo caso, la media sarebbe un'opzione tipica per calcolare un punteggio di scala. Se hai elementi invertiti, devi occupartene.

Puoi anche usare i punteggi salvati con i fattori invece di prendere la media. Sebbene quando tutti gli elementi si caricano ragionevolmente bene su ciascun fattore e tutti gli elementi sono sulla stessa scala e tutti gli elementi sono formulati in modo positivo, raramente c'è molta differenza tra i punteggi salvati medi e fattoriali.

Puoi anche guardare metodi che riconoscono la natura ordinale della scala e quindi non trattano le opzioni di scala come ugualmente distanti.

(+1) È positivo che tu abbia menzionato direttamente l'uso dei punteggi dei fattori (e la loro corrispondenza con i punteggi grezzi in determinate condizioni).
#3
+1
pbneau
2011-02-22 17:37:13 UTC
view on stackexchange narkive permalink

Tutto è stato detto da chl e Jeromy per la parte teorica ... Se non si utilizza la somma / media delle variabili identificate con FA, è possibile utilizzare punteggi di FA.

Per quanto riguarda il sintassi che usi probabilmente stai usando SAS. Quindi per fare un uso corretto dell'analisi fattoriale devi usare il punteggio delle osservazioni e non la media delle variabili.

Di seguito trovi il codice per ottenere il punteggio per 2 fattori con un FA. I punteggi che dovrai utilizzare saranno chiamati Factor1, Factor2, ... da SAS.

Questo è un 2 passaggi ... 1) Prima FA poi 2) chiama il punteggio proc per calcolare i punteggi.

  proc factor data = Data method = ml rotate = promax outstat = FAstats n = 3 punteggio msa di heywood residui; var x:; run; proc score data = Data score = FAstats out = MyScores; var x:; run; 

Le variabili da utilizzare sono Factor1, Factor2, ... nei set di dati MyScores.

#4
+1
Andrej
2011-02-23 00:06:08 UTC
view on stackexchange narkive permalink

Le variabili latenti continue con variabili manifest discrete (politomiche nel tuo caso) fa parte dell'analisi della risposta dell'elemento. Il pacchetto "ltm" in R copre una varietà di questi modelli. Ti rimando a questo documento, che tratta esattamente lo stesso problema.

(+1) Ho (ri) letto il tuo articolo, che sembra piuttosto interessante, anche se ho trovato sorprendente l'uso di un modello Rasch in gruppi di geni. Hai confrontato i tuoi risultati con un approccio PLS-DA sparse?
@chl Non ancora; lavorando su quello.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 2.0 con cui è distribuito.
Loading...