Supponiamo che ci venga fornito un set di dati ma non la capacità di eseguire
alcuni test AB. Facciamo un po 'di regressione usando X come predittore e Y come
risposta e ottenere un modello. Possiamo effettivamente dire qualcosa sul
relazione causale tra X e Y?
No, non puoi, anche quando tutte le variabili sono osservate, vedi qui per esempio. Se ti vengono fornite solo informazioni distribuzionali sui dati (cioè, conosci la distribuzione congiunta dei dati osservati variabili), ma nessuna informazione su come i dati sono stati generati ( un modello causale), l'inferenza causale è impossibile. In breve, hai bisogno di ipotesi causali per ottenere conclusioni causali. Puoi iniziare a imparare l'inferenza causale con i riferimenti qui.
È facile capire perché è così costruendo un esempio in cui diversi modelli causali comportano la stessa distribuzione di probabilità congiunta osservata . Considera di aver osservato la distribuzione di probabilità congiunta $ P (x, y) $ di due variabili casuali. Qui, immagina di non avere incertezza nel campionamento --- quindi hai una conoscenza perfetta di $ P (x, y) $ , che implica una perfetta conoscenza della funzione di regressione e così sopra. Per semplificare le cose, considera che, nei tuoi dati, $ P (x, y) $ è risultato essere congiuntamente normale con mean $ 0 $ , varianza 1 e covarianza $ \ sigma_ {xy} $ (questo senza perdita di generalità, puoi sempre standardizzare i dati). Che cosa puoi dire dell'effetto causale di $ x $ su $ y $ o viceversa?
Con solo queste informazioni, niente . La ragione qui è che ci sono diversi modelli causali che creerebbero la stessa distribuzione osservata, ma hanno differenti distribuzioni interventistiche (e controfattuali). Qui mostrerò tre di questi modelli. Nota che tutti ti danno lo stesso $ \ sigma_ {xy} $ osservato, ma le loro conclusioni causali sono diverse: nel primo modello $ X $ causa $ Y $ , nel secondo modello $ Y $ causa $ X $ e, nel terzo modello, nessuno dei due si causa l'un l'altro --- $ X $ e $ Y $ sono entrambe cause comuni della variabile non osservata $ Z $ .
Model 1
$$
X = u_ {x} \\
Y = \ sigma_ {yx} x + u_ {y}
$$
Dove $ U_ {x} \ sim \ mathcal {N} (0, 1) $ e $ U_ { y} = \ mathcal {N} (0, 1 - \ sigma_ {xy} ^ 2) $ .
Model 2
$$
Y = u_ {y} \\
X = \ sigma_ {yx} y + u_ {x}
$$
Dove $ U_ {x} \ sim \ mathcal {N} (0, 1 - \ sigma_ {xy} ^ 2) $ e $ U_ {y} = \ mathcal {N} (0, 1) $ .
Model 3
$$
Z = U_ {z} \\
X = \ alpha Z + U_ {x} \\
Y = \ beta Z + U_ {y}
$$
Dove $ \ alpha \ beta = \ sigma_ {xy} $ , $ U_ {z} = \ mathcal { N} (0, 1) $ , $ U_ {x} = \ mathcal {N (0, 1- \ alpha ^ 2)} $ e $ U_ {y} = \ mathcal {N (0, 1- \ beta ^ 2)} $ .