Domanda:
Differenze tra distribuzione precedente e distribuzione predittiva precedente?
Changhee Kang
2019-02-27 15:36:18 UTC
view on stackexchange narkive permalink

Durante lo studio delle statistiche bayesiane, in qualche modo mi trovo di fronte a un problema per comprendere le differenze tra la distribuzione precedente e la distribuzione predittiva precedente.La distribuzione preventiva va bene da capire, ma ho trovato vago capire l'uso della distribuzione predittiva precedente e il motivo per cui è diversa dalla distribuzione precedente.

Due risposte:
winperikle
2019-02-27 18:07:00 UTC
view on stackexchange narkive permalink

Predittivo qui significa predittivo per le osservazioni. La distribuzione a priori è una distribuzione per i parametri mentre la distribuzione predittiva a priori è una distribuzione per le osservazioni.

Se $ X $ denota le osservazioni e usiamo il modello (o verosimiglianza) $ p (x \ mid \ theta) $ per $ \ theta \ in \ Theta $ quindi una distribuzione precedente è una distribuzione per $ \ theta $ , ad esempio $ p_ \ beta (\ theta) $ dove $ \ beta $ span > è un insieme di iperparametri. Nota che non ci sono condizionamenti su $ \ beta $ , e quindi gli iperparametri sono considerati fissi, il che non è il caso nei modelli gerarchici, ma non è questo il punto qui. p>

La distribuzione predittiva precedente è la distribuzione di $ X $ "media" su tutti i possibili valori di $ \ theta $ :

\ begin {align *} p_ \ beta (x) & = \ int_ \ Theta p (x, \ theta) d \ theta \\ & = \ int_ \ Theta p (x \ mid \ theta) p_ \ beta (\ theta) d \ theta \ end {align *}

Questa distribuzione è precedente in quanto non si basa su alcuna osservazione.

Possiamo anche definire allo stesso modo la distribuzione predittiva a posteriori , cioè se abbiamo un campione $ X = (X_1, \ dots, X_n ) $ , la distribuzione predittiva a posteriori è:

\ begin {align *} p_ \ beta (x \ mid X) & = \ int_ \ Theta p (x, \ theta \ mid X) d \ theta \\ & = \ int_ \ Theta p (x \ mid \ theta, X) p_ \ beta (\ theta \ mid X) d \ theta \\ & = \ int_ \ Theta p (x \ mid \ theta) p_ \ beta (\ theta \ mid X) d \ theta. \ end {align *} L'ultima riga si basa sul presupposto che l'osservazione imminente sia indipendente da $ X $ dato $ \ theta $ span >.

Pertanto la distribuzione predittiva a posteriori è costruita allo stesso modo della distribuzione predittiva precedente, ma mentre in quest'ultima ponderiamo con $ p_ \ beta (\ theta) $ in il primo ponderiamo con $ p_ \ beta (\ theta \ mid X) $ cioè con la nostra conoscenza "aggiornata" di $ \ theta $ .

Esempio: Beta-Binomial

Supponiamo che il nostro modello sia $ X \ mid \ theta \ sim {\ rm Bin} (n, \ theta) $ ie $ P (X = x \ mid \ theta) = \ theta ^ x (1- \ theta) ^ {nx} $ .
Qui $ \ Theta = [0,1] $ .

Si presume anche una distribuzione precedente beta per $ \ theta $ , $ \ beta (a, b) $ , dove $ (a, b) $ è l'insieme di iperparametri.

La distribuzione predittiva precedente , $ p_ {a, b} (x) $ , è il binomio beta distribuzione con parametri $ (n, a, b) $ .

Questa distribuzione discreta fornisce la probabilità di ottenere $ k $ successi da $ n $ prove fornite gli iperparametri $ (a, b) $ sulla probabilità di successo.

Supponiamo ora di osservare $ n_1 $ disegna $ (x_1, \ dots, x_ {n_1}) $ span> con $ m $ successi.

Poiché le distribuzioni binomiale e beta sono distribuzioni coniugate, abbiamo: \ begin {align *} p (\ theta \ metà X = m) & \ propto \ theta ^ m (1 - \ theta) ^ {n_1-m} \ times \ theta ^ {a-1} (1- \ theta) ^ {b-1} \\ & \ propto \ theta ^ {a + m-1} (1- \ theta) ^ {n_1 + b-m-1} \\ & \ propto \ beta (a + m, n_1 + b-m) \ end {align *}

Quindi $ \ theta \ mid X $ segue una distribuzione beta con parametri $ (a + m, n_1 + bm ) $ .

Quindi, $ p_ {a, b} (x \ mid X = m) $ è anche una distribuzione beta-binomiale ma questa volta con parametri $ (n_2, a + m, b + n_1-m) $ anziché $ (n_2, a, b) $ span >.

Dopo una $ \ beta (a, b) $ distribuzione precedente e un $ {\ rm Bin} (n , \ theta) $ probabilità, se osserviamo $ m $ successi su $ n_1 $ span > prove, la distribuzione predittiva a posteriori è un binomio beta con parametri $ (n_2, a + x, b + n_1-x) $ . Tieni presente che $ n_2 $ e $ n_1 $ svolgono ruoli diversi qui, poiché la distribuzione predittiva a posteriori riguarda:

Date le mie attuali conoscenze su $ \ theta $ dopo aver osservato $ m $ successi su $ n_1 $ prove, ovvero $ \ beta (n_1, a + x, n + bx) $ , quale probabilità devo osservare $ k $ successi in $ n_2 $ prove aggiuntive?

Spero che questo sia utile e chiaro.

Sì, credo di aver capito quello che hai spiegato qui.Grazie mille.
buona risposta, ma le tue espressioni integrali non sembrano corrette e chiaramente hanno ipotesi non dichiarate sulla probabilità / precedente incorporata. L'integrale generale è $ p (x | X) = \ int p (x, \ theta | X) d\ theta $ (cioè integrare la distribuzione congiunta per ottenere marginale)
@probabilityislogic Grazie per averlo sottolineato.Ho modificato la mia risposta, spero che sia meglio ora.
kjetil b halvorsen
2019-02-27 17:55:08 UTC
view on stackexchange narkive permalink

Sia $ Y $ una variabile casuale che rappresenta i dati (forse futuri). Abbiamo un modello (parametrico) per $ Y $ con $ Y \ sim f (y \ mid \ theta), \ theta \ in \ Theta $ , $ \ Theta $ lo spazio dei parametri. Quindi abbiamo una distribuzione precedente rappresentata da $ \ pi (\ theta) $ . Data un'osservazione di $ Y $ , la distribuzione a posteriori di $ \ theta $ è $$ f (\ theta \ mid y) = \ frac {f (y \ mid \ theta) \ pi (\ theta)} {\ int_ \ Theta f (y \ mid \ theta) \ pi (\ theta) \; d \ theta} $$ La distribuzione predittiva precedente di $ Y $ è quindi la distribuzione (modellata) di $ Y $ marginalizzato rispetto al precedente , ovvero integrato su $ \ pi (\ theta) $ : $$ f (y) = \ int_ \ Theta f (y \ mid \ theta) \ pi (\ theta) \; d \ theta $$ cioè il denominatore nel teorema di Bayes sopra. Questa è anche chiamata distribuzione preposteriore di $ Y $ . Questo ti dice quali dati (ovvero $ Y $ ) ti aspetti di vedere prima di saperne di più su $ \ theta $ span>. Questo ha molti usi, ad esempio nella progettazione di esperimenti, per un esempio, vedere Progettazione sperimentale su proporzioni di test o Intersezioni di chimica e statistica.

Un altro utilizzo è come un modo per comprendere meglio la distribuzione precedente. Supponiamo che tu sia interessato a modellare la variazione del peso degli elefanti e che la tua distribuzione precedente porti a una previsione precedente con una probabilità sostanziale superiore a 20 tonnellate. Allora potresti voler ripensare, il peso tipico degli elefanti più grandi è raramente superiore a 6 tonnellate, quindi una probabilità sostanziale oltre 20 tonnellate sembra sbagliata. Un documento interessante in questa direzione è Gelman (che non usa la terminologia ...)

Infine, i concetti preposteriore in genere non sono utili con i priori non informativi, richiedono una modellazione preventiva presa sul serio. Un esempio è il seguente: Lascia che $ Y \ sim \ mathcal {N} (\ theta, 1) $ con un $ \ pi (\ theta) = 1 $ . Quindi il predittivo precedente di $ Y $ è $$ f (y) = \ int _ {- \ infty} ^ \ infty \ frac1 {\ sqrt {2 \ pi}} e ^ {- \ frac12 (y- \ theta) ^ 2} \; d \ theta = 1 $$ quindi è esso stesso uniforme, quindi non molto utile.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 4.0 con cui è distribuito.
Loading...