Le misurazioni effettuate sullo stesso paziente sono indipendenti?

Domanda:

Le misurazioni effettuate sullo stesso paziente sono indipendenti?

Jorge Amaral

2012-10-29 19:16:07 UTC

view on stackexchange narkive permalink

Attualmente sto lavorando alla classificazione delle malattie polmonari mediante spirometria. Questa è una procedura in cui il paziente soffia aria in un tubo e noi raccogliamo volume d'aria, pressione, ecc., Per ottenere i parametri spirometrici.

La mia domanda è: se eseguo la spirometria nello stesso paziente tre volte, posso considerare questi tre esami, nello stesso giorno, come tre diversi punti dati nel mio training di set di test o è meglio fare la media dei risultati e considerare un solo punto dati? Se il paziente arriva in un giorno diverso, posso considerare questo esame come indipendente?

Penso che sia giusto considerare gli esami come punti di dati diversi, ma vorrei sentire altre opinioni.

FWIW, per la spirometria lo standard industriale è quello di eseguire ogni paziente 3 volte. Se le misure variano di <10%, è considerato un buon test. La maggior parte sostiene la media delle misurazioni, ma una minoranza sostiene che utilizza il meglio secondo la teoria è una misurazione più accurata di ciò che i loro polmoni possono fare. Da un punto di vista statistico, una delle due è una buona misurazione purché lo stesso metodo venga utilizzato per tutti e l'utilizzo della media produce una riduzione del 58% dell'errore di misurazione rispetto al migliore. Non c'è una tendenza apprezzabile tranne che per i pazienti con BPCO b / c il soffio e il soffio li portano a liberare le loro vie aeree.

@gung: Wow. Questa è una conoscenza molto impressionante e molto inaspettata.

Cinque risposte:

Peter Flom

2012-10-29 19:21:54 UTC

view on stackexchange narkive permalink

Sono sicuramente tre punti dati diversi, ma sono anche decisamente non indipendenti (che siano lo stesso giorno o un giorno diverso). Quello che dovresti fare al riguardo dipende dagli obiettivi della tua analisi, ma è probabile che un modello multi-livello sia una buona scelta. È anche possibile calcolare la media dei punti, ma riduce la variabilità ed elimina la capacità di osservare le tendenze nel tempo.

Stephan Kolassa

2012-10-29 20:14:19 UTC

view on stackexchange narkive permalink

Sono per lo più d'accordo con la risposta di @ PeterFlom. Secondo me, non dovresti fare la media dei tuoi dati (stai sostanzialmente buttando via 2/3 delle tue informazioni, perché dovresti farlo?), Ma dovresti assolutamente tenere conto del fatto che le misurazioni sullo stesso paziente tenderanno a essere più vicini tra loro rispetto alle misurazioni su pazienti diversi. In una situazione del genere, di solito raccomando modelli lineari misti, che sono una semplice istanza dei modelli multi-livello consigliati da @PeterFlom.

In particolare, useresti un modello misto lineare generalizzato. La funzione di collegamento sarebbe logistica, come nella regressione logistica "ordinaria". Tuttavia, la forma funzionale includerebbe più osservazioni su ciascun partecipante, modellate da un effetto casuale, proprio come nei modelli misti lineari "ordinari", $ y∼F (Xβ + Zγ) $. In R, puoi inserirlo con glmer () nel pacchetto lme4, utilizzando la famiglia binomiale. Per la previsione, potresti utilizzare una singola misurazione.

Se un modello misto predice o meno meglio di un modello non misto in una particolare impostazione è difficile da dire, ovviamente. Ciò che fa il modello misto è tenere conto della variabilità intra-persona. Se fai semplicemente la media dei tre punti dati originali, perdi tutta la variabilità tra le misurazioni, quindi sarai troppo ottimista sulla tua capacità di prevedere da una singola nuova osservazione.

Se, d'altra parte, tu inserisci semplicemente tutte le osservazioni senza tenere conto del raggruppamento, sarai di nuovo troppo ottimista, poiché tutti gli errori standard si ridurranno. Pensa a cosa accadrebbe se iniziassi con una singola osservazione per partecipante, diciamo 100 punti dati ... e poi copiassi semplicemente ogni osservazione 100 volte. Ti ritroveresti con 10.000 "osservazioni" ed errori standard molto più piccoli rispetto ai dati originali, anche se non hai inserito alcuna nuova informazione.

Inoltre, i modelli misti consentono di modellare altri fattori di raggruppamento, come la posizione, i dati demografici specifici, il personale, le caratteristiche dei diagnostici e così via, quindi sono molto più generali della media.

(-1) L'OP ha scritto che il suo obiettivo è "la classificazione delle malattie polmonari mediante spirometria". La tua risposta riguarda la modellazione dei risultati della spirometria come DV, ma ciò che OP voleva è usare i risultati della spirometria come IV per classificare le malattie ...

@amoeba: Penso che potresti aver frainteso la mia risposta (e forse anche gli altri che hai svalutato). Non ho parlato della modellazione dei risultati spirometrici come DV, ma come IV, con la sfida che le misurazioni siano correlate per ogni partecipante. Il mio suggerimento è stato che l'OP non dovrebbe calcolare la media delle tre misurazioni e utilizzare la media come IV, ma utilizzare tutte e tre le misurazioni come IV e tenere conto della dipendenza tra le misurazioni multiple di ciascun partecipante utilizzando modelli misti. Per favore riconsidera il tuo voto negativo sulla mia e sulle altre risposte.

Sarò felice di annullare il mio voto negativo, ma fammi vedere se ho capito. Supponiamo di voler prevedere un singolo $ y $ categoriale (sano / malato) mediante un insieme di osservazioni spirometriche $ \ mathbf {X} $ (volume d'aria, pressione, ecc.). Immagino tu stia parlando di un modello di regressione logistica (vero?), $ Y \ sim F (\ boldsymbol {\ beta} \ mathbf {X}) $. Ora per ogni partecipante abbiamo tre serie di misure spirometriche, $ \ mathbf {X} ^ {(i)} $ con $ i $ da 1 a 3. Come includerle nel glm? Non ho familiarità con i modelli misti per la classificazione, ecco perché (probabilmente) mi sono confuso. Se è così, mi scuso.

(segue) Ho dimenticato di aggiungere che al momento del test vogliamo prevedere $ y $ per un nuovo paziente avendo solo un'istanza di $ \ mathbf {X} $, non tre.

Usereste un modello misto lineare generalizzato. La funzione di collegamento sarebbe logistica, come nella regressione logistica "ordinaria". Tuttavia, la forma funzionale includerebbe più osservazioni su ciascun partecipante, modellate da un effetto casuale, proprio come nei modelli misti lineari "ordinari", $$ y \ sim F (X \ beta + Z \ gamma) $$. In R, puoi inserirlo con glmer () nel pacchetto lme4, utilizzando la famiglia binomiale: http://cran.rstudio.com/web/packages/lme4/lme4.pdf E sì, per la previsione, potresti usare un misura singola.

Quindi ora includi tutte e tre le misurazioni per soggetto come righe + un effetto casuale del soggetto: $ Z $ codifica l'id del soggetto e $ \ gamma $ è un coefficiente di effetto casuale - ho capito correttamente? Ma quando arriva un nuovo soggetto, cosa usiamo come $ Z \ gamma $? Immagino che senza alcuna informazione su questo argomento abbiamo semplicemente inserito $ 0 $, giusto? Quindi al momento del test, finiamo per calcolare $ F (X \ beta) $? Se è così, stai dicendo che questo modello verrà classificato meglio di un semplice modello $ y \ sim F (X \ tilde \ beta) $ senza un effetto casuale? C'è un'intuizione perché? Molte grazie.

Si, esattamente. È difficile dire se un modello misto preveda o meno meglio di un modello non misto in un contesto particolare, ovviamente. Ciò che fa il modello misto è tenere conto della variabilità intra-persona. Se fai la media dei tre punti dati originali, perdi tutta la variabilità tra le misurazioni, quindi sarai troppo ottimista sulla tua capacità di prevedere da una singola nuova osservazione. Inoltre, i modelli misti consentono di modellare altri fattori di raggruppamento, come la posizione, i dati demografici specifici, il personale, le caratteristiche dei diagnostici, ecc. Quindi sono molto più generali della media.

Non penso che suggerirei di fare la media, vorrei solo mettere insieme le osservazioni senza raggrupparle. Quindi il problema dell'essere eccessivamente ottimisti non dovrebbe sorgere. Sarebbe molto interessante vedere esempi su quando un modello del genere avrebbe prestazioni notevolmente diverse da quelle che hai suggerito! Ma in ogni caso, ora vedo che la mia critica originale era sbagliata, quindi rimuovo il voto negativo. Grazie ancora.

Mi dispiace, ma risulta che i voti possono essere modificati solo durante i primi 5 minuti, dopodiché vengono bloccati a meno che la risposta non venga aggiornata. Non ero conscio di ciò. Quindi sarei felice di rimuovere per downvote (e in realtà upvote), ma dovresti prima aggiornare la tua risposta. Se vuoi, potresti ad es. aggiungi quello di cui stavamo discutendo nei commenti ...

Ho inserito la maggior parte dei miei commenti nell'articolo originale e ho anche discusso il tuo suggerimento di inserire semplicemente tutte le osservazioni nel modello.

FairMiles

2013-04-05 00:59:06 UTC

view on stackexchange narkive permalink

I tre esami sono diversi punti dati. Sebbene siano chiaramente osservazioni non indipendenti (né casuali) di tutti i possibili esami nella tua popolazione di interesse, almeno per qualsiasi analisi io possa immaginare.

Altri hanno sottolineato che potresti fai bene a includere quei punti dati nella tua analisi (dato che li hai già), come semplici repliche all'interno del paziente [un disegno annidato] o includendo "tempo / visita" come variabile assoluta (ad es. data) o relativa (numero di visite) di interesse [qualche forma di disegno a misure ripetute], se interessante. Sono d'accordo che questo sia lo scenario più interessante (e probabile).

Tuttavia , potrebbe non essere necessario, pagare per una maggiore complessità o migliorare le tue conclusioni se sono interessati solo alle variabili tra soggetti. Supponiamo che ti interessi solo delle differenze tra maschi e femmine o che tu voglia spiegare il volume d'aria in base all'età del paziente. Poiché sai che non puoi caratterizzare correttamente un paziente in un colpo solo (perché il risultato delle misurazioni è variabile anche per lo stesso paziente nello stesso momento), allora prendi diverse misure e le media. Non ti interessa quella variazione, è solo inevitabile; vuoi solo avvicinarti il più possibile al valore "vero" (medio) per quel paziente (in / in quel momento). Questa potrebbe essere l'analisi più ragionevole.

[Consulta questo documento per una buona lettura della semplicità e della complessità nelle analisi statistiche.]

Grazie per il link a un bel giornale, è un ottimo punto!

D L Dahly

2013-04-05 20:43:11 UTC

view on stackexchange narkive permalink

In accordo con le altre risposte (no, queste osservazioni non sono certamente indipendenti, quindi cosa fai al riguardo) ....

Ma vuoi usare queste informazioni per prevedere altre variabili ? Molti dei suggerimenti finora sembrano presupporre che si desideri utilizzare la spirometria come variabile dipendente, quindi la modellazione dell'errore è più semplice (utilizzando un modello multilivello). Se invece si desidera utilizzare le misure spirometriche come una variabile indipendente, sarebbe utile utilizzare un modello di analisi fattoriale di conferma con le 3 misure ripetute modellate come indicatori di una singola variabile latente sottostante. La varianza della variabile latente sottostante è quella condivisa da tutte e tre le misure, e quindi un migliore riflesso di ciò che stai realmente cercando (rispetto a prendere la media, per esempio).

Non sono sicuro che l'analisi fattoriale sarebbe utile qui: immagino che OP volesse usare il classificatore per classificare la malattia data una singola misurazione spirometrica di un nuovo paziente, senza aspettare di raccogliere prima tre misurazioni (quindi non sarebbe stato possibile applicare FA sui dati di test reali).

Aksakal

2014-03-06 21:58:44 UTC

view on stackexchange narkive permalink

le misurazioni possono essere indipendenti o meno. se descrivi il valore misurato come $ y_t = x_t + \ varepsilon_t $, dove $ x_t $ - valore vero e $ \ varepsilon_t $ - errore di misura, l'indipendenza significa che $ cov (\ varepsilon_t, \ varepsilon_ {ti}) = 0 $ per tutti i tempi. questo può o non può essere vero. se hai due misurazioni una immediatamente dopo l'altra, molto probabilmente non è vero. se due misurazioni fossero separate nel tempo ma eseguite, acquistare di nuovo lo stesso tecnico questo potrebbe non essere vero. ecc.

d'altra parte deve essere possibile impostare la misura in modo che $ \ varepsilon_t $ sia indipendente l'uno dall'altro e da $ x_t $.

I $ y_t $ non sono decisamente indipendenti attraverso le correlazioni di $ x_t $, ma non è questo che si intende per indipendenza

ⓘ

Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.

a proposito - legalese

Loading...