$ \ beta $ span > è un insieme di iperparametri. Nota che non ci sono condizionamenti su $ \ beta $ , e quindi gli iperparametri sono considerati fissi, il che non è il caso nei modelli gerarchici, ma non è questo il punto qui. p>
La distribuzione predittiva precedente è la distribuzione di $ X $ "media" su tutti i possibili valori di $ \ theta $ :
\ begin {align *}
p_ \ beta (x) & = \ int_ \ Theta p (x, \ theta) d \ theta \\
& = \ int_ \ Theta p (x \ mid \ theta) p_ \ beta (\ theta) d \ theta
\ end {align *}
Questa distribuzione è precedente in quanto non si basa su alcuna osservazione.
Possiamo anche definire allo stesso modo la distribuzione predittiva a posteriori , cioè se abbiamo un campione $ X = (X_1, \ dots, X_n ) $ , la distribuzione predittiva a posteriori è:
\ begin {align *}
p_ \ beta (x \ mid X) & = \ int_ \ Theta p (x, \ theta \ mid X) d \ theta \\
& = \ int_ \ Theta p (x \ mid \ theta, X) p_ \ beta (\ theta \ mid X) d \ theta \\
& = \ int_ \ Theta p (x \ mid \ theta) p_ \ beta (\ theta \ mid X) d \ theta.
\ end {align *}
L'ultima riga si basa sul presupposto che l'osservazione imminente sia indipendente da $ X $ dato $ \ theta $ span >.
Pertanto la distribuzione predittiva a posteriori è costruita allo stesso modo della distribuzione predittiva precedente, ma mentre in quest'ultima ponderiamo con $ p_ \ beta (\ theta) $ in il primo ponderiamo con $ p_ \ beta (\ theta \ mid X) $ cioè con la nostra conoscenza "aggiornata" di $ \ theta $ .
Esempio: Beta-Binomial
Supponiamo che il nostro modello sia $ X \ mid \ theta \ sim {\ rm Bin} (n, \ theta) $ ie $ P (X = x \ mid \ theta) = \ theta ^ x (1- \ theta) ^ {nx} $ .
Qui $ \ Theta = [0,1] $ .
Si presume anche una distribuzione precedente beta per $ \ theta $ , $ \ beta (a, b) $ , dove $ (a, b) $ è l'insieme di iperparametri.
La distribuzione predittiva precedente , $ p_ {a, b} (x) $ , è il binomio beta distribuzione con parametri $ (n, a, b) $ .
Questa distribuzione discreta fornisce la probabilità di ottenere $ k $ successi da $ n $ prove fornite gli iperparametri $ (a, b) $ sulla probabilità di successo.
Supponiamo ora di osservare $ n_1 $ disegna $ (x_1, \ dots, x_ {n_1}) $ span> con $ m $ successi.
Poiché le distribuzioni binomiale e beta sono distribuzioni coniugate, abbiamo:
\ begin {align *}
p (\ theta \ metà X = m)
& \ propto \ theta ^ m (1 - \ theta) ^ {n_1-m} \ times \ theta ^ {a-1} (1- \ theta) ^ {b-1} \\
& \ propto \ theta ^ {a + m-1} (1- \ theta) ^ {n_1 + b-m-1} \\
& \ propto \ beta (a + m, n_1 + b-m)
\ end {align *}
Quindi $ \ theta \ mid X $ segue una distribuzione beta con parametri $ (a + m, n_1 + bm ) $ .
Quindi, $ p_ {a, b} (x \ mid X = m) $ è anche una distribuzione beta-binomiale ma questa volta con parametri $ (n_2, a + m, b + n_1-m) $ anziché $ (n_2, a, b) $ span >.
Dopo una $ \ beta (a, b) $ distribuzione precedente e un $ {\ rm Bin} (n , \ theta) $ probabilità, se osserviamo $ m $ successi su $ n_1 $ span > prove, la distribuzione predittiva a posteriori è un binomio beta con parametri $ (n_2, a + x, b + n_1-x) $ . Tieni presente che $ n_2 $ e $ n_1 $ svolgono ruoli diversi qui, poiché la distribuzione predittiva a posteriori riguarda:
Date le mie attuali conoscenze su $ \ theta $ dopo aver osservato $ m $ successi su $ n_1 $ prove, ovvero $ \ beta (n_1, a + x, n + bx) $ , quale probabilità devo osservare $ k $ successi in $ n_2 $ prove aggiuntive?
Spero che questo sia utile e chiaro.