L'inferenza causale è possibile solo dai dati?

Domanda:

L'inferenza causale è possibile solo dai dati?

DiveIntoML

2018-12-24 10:34:03 UTC

view on stackexchange narkive permalink

Supponiamo che ci venga fornito un set di dati ma non la capacità di eseguire alcuni test AB.Facciamo un po 'di regressione usando X come predittore e Y come risposta e otteniamo un modello.Possiamo davvero dire qualcosa sulla relazione causale tra X e Y?O è semplicemente impossibile dire qualcosa sulla relazione causale?

Ad esempio, supponiamo che i dati che abbiamo sono semplicemente l'altezza del padre e l'altezza dei figli, e supponiamo anche che l'altezza della madre non abbia alcuna influenza su quella del figlio.Possiamo ottenere una buona relazione lineare utilizzando l'altezza dei figli come X e l'altezza dei padri come Y. Tuttavia, non possiamo dire che l'altezza dei figli inferiori fa sì che l'altezza dei padri sia inferiore.

In altre parole, credo che l'inferenza causale debba ricorrere a qualche meccanismo fisico / meccanico invece di limitarsi a guardare i dati.Mi manca qualcosa qui?

Ebbene sì, semplicemente non puoi fare argomenti causali come "l'azione dell'utente ha causato la variante dell'annuncio".Non ho molta familiarità con la letteratura sui modelli causali, ma nella mia limitata esposizione, la maggior parte dei modelli causali si basa su una sorta di argomenti meccanicistici o ben informati.

Chiaramente non su un tale modello di correlazione / regressione da solo.Per esempio.Mi aspetto che in un modello prevedere se una nave affonda in un dato giorno di utilizzo di una scialuppa di salvataggio nello stesso giorno sarebbe un buon predittore, ma sospetto che l'utilizzo di una scialuppa di salvataggio non causi l'affondamento della nave.

Tre risposte:

Carlos Cinelli

2018-12-26 04:06:37 UTC

view on stackexchange narkive permalink

Supponiamo che ci venga fornito un set di dati ma non la capacità di eseguire alcuni test AB. Facciamo un po 'di regressione usando X come predittore e Y come risposta e ottenere un modello. Possiamo effettivamente dire qualcosa sul relazione causale tra X e Y?

No, non puoi, anche quando tutte le variabili sono osservate, vedi qui per esempio. Se ti vengono fornite solo informazioni distribuzionali sui dati (cioè, conosci la distribuzione congiunta dei dati osservati variabili), ma nessuna informazione su come i dati sono stati generati ( un modello causale), l'inferenza causale è impossibile. In breve, hai bisogno di ipotesi causali per ottenere conclusioni causali. Puoi iniziare a imparare l'inferenza causale con i riferimenti qui.

È facile capire perché è così costruendo un esempio in cui diversi modelli causali comportano la stessa distribuzione di probabilità congiunta osservata . Considera di aver osservato la distribuzione di probabilità congiunta $ P (x, y) $ di due variabili casuali. Qui, immagina di non avere incertezza nel campionamento --- quindi hai una conoscenza perfetta di $ P (x, y) $ , che implica una perfetta conoscenza della funzione di regressione e così sopra. Per semplificare le cose, considera che, nei tuoi dati, $ P (x, y) $ è risultato essere congiuntamente normale con mean $ 0 $ , varianza 1 e covarianza $ \ sigma_ {xy} $ (questo senza perdita di generalità, puoi sempre standardizzare i dati). Che cosa puoi dire dell'effetto causale di $ x $ su $ y $ o viceversa?

Con solo queste informazioni, niente . La ragione qui è che ci sono diversi modelli causali che creerebbero la stessa distribuzione osservata, ma hanno differenti distribuzioni interventistiche (e controfattuali). Qui mostrerò tre di questi modelli. Nota che tutti ti danno lo stesso $ \ sigma_ {xy} $ osservato, ma le loro conclusioni causali sono diverse: nel primo modello $ X $ causa $ Y $ , nel secondo modello $ Y $ causa $ X $ e, nel terzo modello, nessuno dei due si causa l'un l'altro --- $ X $ e $ Y $ sono entrambe cause comuni della variabile non osservata $ Z $ .

Model 1

$$ X = u_ {x} \\ Y = \ sigma_ {yx} x + u_ {y} $$

Dove $ U_ {x} \ sim \ mathcal {N} (0, 1) $ e $ U_ { y} = \ mathcal {N} (0, 1 - \ sigma_ {xy} ^ 2) $ .

Model 2

$$ Y = u_ {y} \\ X = \ sigma_ {yx} y + u_ {x} $$

Dove $ U_ {x} \ sim \ mathcal {N} (0, 1 - \ sigma_ {xy} ^ 2) $ e $ U_ {y} = \ mathcal {N} (0, 1) $ .

Model 3

$$ Z = U_ {z} \\ X = \ alpha Z + U_ {x} \\ Y = \ beta Z + U_ {y} $$

Dove $ \ alpha \ beta = \ sigma_ {xy} $ , $ U_ {z} = \ mathcal { N} (0, 1) $ , $ U_ {x} = \ mathcal {N (0, 1- \ alpha ^ 2)} $ e $ U_ {y} = \ mathcal {N (0, 1- \ beta ^ 2)} $ .

+1 perché questi sono esempi utili, ma penso che questo approccio sia un po 'inutilmente rigido e quindi un po' pessimistico.Esiste un lavoro di scoperta causale (ad esempio Peters et al. 2014);Cerco di essere un po 'più ottimista nella mia risposta!:) (Vedo il mio post come complementare al tuo).

Gli algoritmi di scoperta causale di @usεr11852 si basano su ipotesi causali, quindi si riducono allo stesso motto: nessuna causa dentro, nessuna causa fuori.

Ehm ... In linea di principio sì, non sto ignorando i tuoi punti.In pratica, però, se possiamo ragionevolmente stimare gli ATE / ITE, la questione della scoperta causale non diventa ridondante?

@usεr11852 per stimare l'ATE è necessario un modello causale: il modello più comune è presumere l'ignorabilità dell'assegnazione del trattamento condizionata agli osservabili, vedere qui https://stats.stackexchange.com/questions/381467/what-does-randomly-assigned-condizionale-su-qualche-osservabile-media-intuitiva / 381590 # 381590 e qui https://stats.stackexchange.com/questions/182222/unconfoundedness-in-rubins-causal-model-laymans-explanation/299107#299107

Non sono sicuro della necessità di un modello causale.Sembra essere come la conversazione pre-ML in cui le persone cercavano di definire i modelli generativi come l'unico modo valido per modellare perché sono interpretabili.E poi ML (RF / GBM / NN) è arrivato e ha cancellato queste domande dominando la maggior parte delle attività di analisi predittiva.E l'inconsapevolezza di cui parli è un presupposto, non un modello a sé stante.Non determina alcuna relazione causale o un percorso su un SCM.

@usεr11852 Queste cose hanno definizioni formali precise, modello = ipotesi, modello causale = ipotesi causali.Le ipotesi causali sono vincoli sul DGP che non possono essere espressi come vincoli sulla distribuzione congiunta delle variabili osservate.L'inconsapevolezza è un presupposto causale e impone vincoli a diverse relazioni causali tra le variabili - per esempio, non ci sono cause comuni omesse, l'insieme per cui stai aggiustando non contiene mediatori o, in breve, che l'insieme di covariate seiadeguamento per soddisfare il criterio backdoor.

@usεr11852 tldr: assumendo unconfoundedness = modellazione causale.Sebbene sia un modello semplice e ingenuo, se lo si assume senza dare alcuna giustificazione del motivo per cui ci si aspetta che l'inconfondibilità valga (approssimativamente).

Probabilmente interpreto ancora in modo errato l'affermazione: "* Le ipotesi causali sono vincoli sul DGP che non possono essere espressi come vincoli sulla distribuzione congiunta delle variabili osservate *".Non lo vedo come un presupposto necessario per stimare ATE / ITE ma piuttosto come un'affermazione tautologica (stesse cose per "inconfondibilità").Grazie per il tuo tempo a commentare.

Anna Efron

2018-12-24 12:46:45 UTC

view on stackexchange narkive permalink

Dai soli dati, è impossibile.Potrebbe sempre esserci qualche fattore al di fuori del modello che potrebbe influenzare sia $ X $ e $ Y $ (ouno di loro).È impossibile controllare letteralmente tutto.

Il più vicino che abbiamo è un esperimento di controllo randomizzato, ma anche questo ha problemi con la validità esterna (ad esempio, supponiamo che ciò che è accaduto e le condizioni durante il periodo dell'esperimento persisteranno nel futuro indefinito).

Esiste la "causalità Granger" (che non è la vera causalità), che fondamentalmente dice se i parametri sulle variabili $ X $ ritardate in una regressione di $ Y (t) $ su $ X (t-1), ..., X (tm), Y (t-1), ..., Y (tm) $ sono congiuntamente significativi, quindi $ X $ "Granger cause" $ Y $ .Vedi Granger (1969).

usεr11852

2018-12-26 08:39:59 UTC

view on stackexchange narkive permalink

Potenzialmente . La tua intuizione sulla necessità di " ricorrere a qualche meccanismo fisico / meccanico " è corretta, ma ciò non significa che sia necessaria la definizione esplicita di tale meccanismo. Possiamo rilassare questo problema.

C'è molto lavoro sull'inferenza causale da dati osservativi in cui non formuliamo esplicitamente il modello causale sotto forma di una chiara equazione parametrica. Esistono approcci "basati sul ML" come: " Rappresentazioni di apprendimento per l'inferenza controfattuale " di Johansson et al. ", Inferenza causale utilizzando la previsione invariante "di Peters et al.," Foreste causali "di Athey e vari collaboratori che fanno passi da gigante. Sia chiaro: questi approcci richiedono notevoli quantità di dati e sono tutt'altro che pronti per la prima serata. Tuttavia, offrono la prova che mentre utilizzare i dati osservativi per rispondere a domande causali è rischioso, ottenere risposte non è impossibile.

Nota finale: solo di recente abbiamo iniziato a creare "set di dati causali" - set di dati, in cui abbiamo annotato attentamente gli effetti causali. La grande rivoluzione in Computer Vision è arrivata attraverso l'abbondanza di dati di formazione sulle etichette disponibili. Finora il lavoro di inferenza causale non sta godendo di un ambiente così ricco di dati per lavorare. Iniziative come il workbench di causalità, le sfide di inferenza causale, i campioni di osservazione dei set di dati di Tubingen ci forniscono banchi di prova che semplicemente non erano disponibili solo 10 anni fa .

Alcuni di questi metodi si basano su ipotesi molto forti.Ad esempio, le foreste causali presumono l'inconfondibilità del trattamento dati osservabili, che è improbabile che si mantenga nella maggior parte dei contesti non sperimentali.

@DimitriyV.Masterov: Sono pienamente d'accordo.Detto questo, non ho visto un metodo che non utilizzi ipotesi molto forti.Quale potrebbe essere un metodo che non "presume l'inconfondibilità del trattamento dati osservabili" e sia ragionevolmente applicabile in un contesto non sperimentale?

(E per affermare l'ovvio: alcune teorie potrebbero fare ipotesi non realistiche, ma alla fine ciò che conta sono le previsioni / inferenza fatte dalla teoria. Tutte le ipotesi non sono create uguali; per esempio, la normalità delle ipotesi dei residui per Lin. La regressione è sempre lìma realisticamente lievi violazioni di esso non hanno mai invalidato un'analisi altrimenti coerente. Lo stesso non si può dire per l'omoschedasticità o l'indipendenza seriale dei residui.)

La previsione dei controfattuali è difficile poiché non si osserva l'altro risultato, quindi la maggior parte di queste ipotesi forti non è verificabile.

@DimitriyV.Masterov Aspetta.A bruciapelo hai detto che "* è improbabile che l'incongruenza del trattamento dati osservabili si mantenga nella maggior parte delle impostazioni sperimentali *" ma critichi la giunzione dello spazio di covarianza in base all'eterogeneità nel campione di costruzione di alberi (in CF) o con invarianza predittiva nella performance sotto ilSCM corretto (Peters et al.)?Non sto dicendo che la previsione controfattuale sia "facile", ma non vedo alcun compito di modellazione causale che la tua critica non applicherebbe.

Ci sono discontinuità di regressione, variabili strumentali, metodi panel come differenze nelle differenze, metodi di coorte sintetici che non fanno questa ipotesi, sebbene ne facciano altri.Volevo solo dire che non puoi usare i CF nel problema dell'OP senza fare altre ipotesi.

RD / ITS / DiD non sopravviverà alle violazioni di non confondibilità anche se non lo utilizzano esplicitamente.Per citare direttamente Morgan & WInship: "* Purtroppo questi metodi non risolvono il problema della selezione sugli inosservabili *".Cap.11 su "* Osservazioni ripetute e stima degli effetti causali *".(In realtà continuano a commentare che questi potrebbero fallire anche quando l'inconsapevolezza è rispettata) E OK, gli IV sono incarichi di trattamento sfocati;certo, se riusciamo a convincere la natura / fisica a fare il test A / B per noi, funzionerà.MrGreen

@usεr11852 Ho fatto una rapida lettura di "Inferenza causale utilizzando la previsione invariante: identificazione e intervalli di confidenza", la mia comprensione è che gli autori considerano un modello che cattura la corretta relazione causale che estrapolerà per esperimento / intervento meglio di altri modelli, è corretto?

Sì.Dopo tutto questo perché vogliamo un modello consapevole della causalità.

ⓘ

Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 4.0 con cui è distribuito.

a proposito - legalese

Loading...