Domanda:
Quando trasformare i predittori in regressione quando la risposta può essere quadratica?
David LeBauer
2011-05-14 01:21:45 UTC
view on stackexchange narkive permalink

Sto analizzando i dati di un esperimento in cui i livelli di trattamento aumentano quadraticamente, ad es. i livelli di trattamento sono $ 0, 1, 4, 9 $.

Quando si analizza la risposta utilizzando la regressione, avrebbe senso utilizzare la radice quadrata del livello di trattamento come predittore?

In tal caso, come influirebbe sull'interpretazione?

Due risposte:
#1
+8
Frank Harrell
2011-05-14 02:43:50 UTC
view on stackexchange narkive permalink

Quando non conosci la forma funzionale in anticipo (che è un'impostazione comune) e non hai motivo di presumere che sia lineare, è meglio essere flessibili. Se ci fossero più livelli di trattamento potresti adattare una forma a spline cubica quadratica o ristretta, per esempio. Solo per 4 livelli potrebbe essere meglio assegnare 3 gradi di libertà al trattamento utilizzando 3 variabili fittizie.

grazie per la tua risposta. Potresti spiegare cosa intendi per "assegnare 3 gradi di libertà al trattamento utilizzando 3 variabili fittizie"?
è lo stesso che eseguire un'ANOVA?
Sì, questo è ANOVA se non ci sono covariate per cui adeguarsi e se si è disposti ad assumere la normalità e le varianze di gruppo uguali. Se ci fossero stati più livelli, sarebbe stato meglio modellare il profilo su livelli utilizzando un adattamento regolare (ad esempio, quadratico).
questo è un buon punto. invece di usare 6 ripetizioni a ciascuno dei quattro livelli, 3 ripetizioni a ciascuno degli otto livelli ... lo terremo a mente per il futuro. È necessariamente inappropriato adattare un modello quadratico o altri due parametri non lineari attraverso quattro punti?
No, non è inappropriato, assume solo una forma quadratica. Richiede 3 parametri mentre il modello medio più flessibile con 4 trattamenti richiede lo stesso numero.
#2
+8
rolando2
2011-05-14 04:12:11 UTC
view on stackexchange narkive permalink

Perché non guardare uno scatterplot X-Y bivariato prima di eseguire una regressione. Questo ti mostrerà la forma della linea o della curva, specialmente se disponi di un software in grado di fornire un adattamento lowess / loess (adattamento levigato ponderato localmente).

Per quanto riguarda l'interpretazione, sarà senza dubbio più facile per te che per il tuo pubblico, ma se hai un adattamento quadratico, allora per ogni incremento di uno sul sq. rt. di X, Y cambierà di b, il tuo coefficiente.

Se davvero hai solo 4 livelli di X, sono d'accordo con il punto di @ Frank e aggiungerei che potresti semplificare il tuo lavoro eseguendo invece un'ANOVA di regressione. Oppure, alcuni software semplificano la combinazione di predittori continui e categoriali, fondendo regressione e anova in un modello lineare generale senza la necessità di variabili fittizie (se si utilizza SPSS, cercare "Unianova").

Eseguendo un primo sguardo alla relazione al di fuori dell'analisi formale si otterrà la d.f. errato, con conseguente copertura dell'intervallo di confidenza imprecisa. Un buon testo di regressione descriverà come vengono costruite le variabili fittizie. I buoni pacchetti software lo fanno automaticamente se si fa in modo che il trattamento sia una variabile categorica.
@Frank Harrell, d.f. cos'è la funzione di densità? Mi è piaciuta la risposta di @rolando2 e vorrei aggiungere una domanda a te, @David: Hai scelto i valori del trattamento (per ragioni teoriche, ad esempio) o in qualche modo il trattamento è prodotto da un processo al di fuori del tuo controllo?
@Frank - La preoccupazione per gli intervalli di confidenza dei coefficienti precisi non verrebbe dopo la costruzione del modello e quindi dopo aver determinato se una particolare relazione X-Y è lineare?
Affatto. Deve essere una parte esplicita della costruzione del modello. In caso contrario, un semplice bootstrap o una simulazione Monte Carlo mostrerebbe che quando si dichiara una copertura dell'intervallo di confidenza di 0,95 (o si calcolano i valori P) la copertura effettiva è molto inferiore. Un articolo classico su questo argomento è @ARTICLE {gra91, author = {Grambsch, PM and {O'Brien}, PC}, year = 1991, title = {The effects of transformations and preliminari test for non-linearity in regression}, journal = Stat in Med, volume = 10, pages = {697-709}} df = gradi di libertà.
@rolando Se ho capito bene ANOVA, è necessario che i quattro trattamenti siano fattori indipendenti, mentre in questo caso i trattamenti sono punti lungo una variabile continua.
@David - 0, 1, 4 e 9 sono ciascuno un livello della singola variabile di trattamento. In ANOVA verifichi se la media è la stessa in ciascuno di questi 4 livelli. Il tuo commento sembra applicarsi a una situazione che non si applica qui, in cui avevi 4 diverse variabili predittive (ad es. Sesso, etnia, reddito e regione).
@rolando, Immagino che la mia domanda fosse se fosse appropriato confrontare i livelli usando ANOVA invece della regressione
Sì, nel tuo caso credo che sia la stessa cosa. La regressione con variabili fittizie può essere equivalente a ANOVA. Sono entrambi inclusi nel cosiddetto modello lineare generale.
@David quindi, per favore, ribadisci la domanda, diventa più poco chiara più leggo questo.Ho provato a sistemare il titolo, ma è un bersaglio mobile.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...