Assegnazione di pesi a una previsione media

Jake

2015-07-25 02:20:08 UTC

view on stackexchange narkive permalink

Quindi ho imparato a fare previsioni durante questa estate e ho utilizzato il libro di Rob Hyndman Previsione: principi e pratica. Sto usando R, ma le mie domande non riguardano il codice. Per i dati che ho utilizzato, ho scoperto che una previsione media di più modelli ha prodotto livelli di precisione più elevati rispetto a qualsiasi modello unico da solo.

Recentemente ho letto un blog che parlava di metodi di previsione della media e assegnazione di pesi. Quindi, nel mio caso, diciamo che assegno 11 diversi modelli al mio set di dati (Arima, ETS, Holt Winters, ingenuo, snaive e così via) e voglio fare la media di alcuni di questi per ottenere una previsione. Qualcuno ha avuto esperienza con questo o può indicarmi un articolo che potrebbe fornire alcune informazioni sul modo migliore per farlo?

Al momento, sto usando la convalida incrociata e Mean Absolute Error per capire quali modelli funzionano meglio e quali hanno prestazioni peggiori. Posso persino usarlo per identificare il k # principale di modelli.

Immagino che le mie domande siano

1) Quanti modelli suggeriresti di selezionare? (2,3,4,5,6, ecc.)

2) Qualche idea sui pesi? (50% al migliore, 25% al secondo migliore, 15% al terzo migliore, 10% al 4 ° migliore, ecc.)

3) Alcuni di questi modelli di previsione sono ridondanti e non dovrebbero essere inclusi ? (Arima, snaive, naive, HW's "additive", ETS, HoltWinters smoothing esponenziale, HoltWinters smoothing w / trend, HoltWinters w / trend / seasonality, multiple regression)

Fare riferimento all'articolo che spiega come assegnare i pesi.

Mi sbagliavo sul fatto che fosse un articolo.In realtà era su un sito web simile a questo, quindi non c'è credibilità.

Come assegnare i pesi

Ce ne sono molti, ecco i cinque più popolari in cima della mia testa, sebbene nessuno di loro utilizzi l'errore medio assoluto.

Pesi uguali per tutti i modelli

pro:
1. Semplice , facile da implementare
2. Spesso supera tecniche più complesse
3. Puoi, in teoria, aggiungere tutti i modelli che vuoi
contro:
1. Potrebbe essere troppo semplificato
2. Nessun metodo intrinseco per classificare i modelli
Riferimenti
1. Aiolfi, M. e A. Timmermann (2006), "Persistence in Forecasting Performance and ConditionalCombination Strategies", Journal of Econometrics, 35 (1-2), 31-53.
2. Manescu, Cristiana e Ine Van Robays. "Previsione del prezzo del petrolio Brent: affrontare la variazione temporale nelle prestazioni previste". (2014).

Rapporto MSFE (Inverse Mean Square Forecast Error) : per i modelli $ M $ il combinato, $ h La previsione $ -step ahead è $$ \ hat y_ {t + h} = \ sum_ {m = 1} ^ {M} w_ {m, h, t} \ hat y_ {t + h, m}, \; \ ; \; w_ {m, h, t} = \ frac {(1 / msfe_ {m, h, t}) ^ k} {\ sum_ {j = 1} ^ M (1 / msfe_ {j, h, t }) ^ k} $$ dove $ \ hat y_ {t + h, m} $ è il punto previsto per $ h $ passi avanti al tempo $ t $ dal modello $ m $. Nella maggior parte delle applicazioni $ k = 1 $.

pro:
1. Solido supporto teorico
2. È in circolazione da un po 'ed è ben accettato in letteratura
3. Puoi, in teoria, aggiungere tutti i modelli che desideri
contro:
1. Basato esclusivamente su stime puntuali, non considera l'intero distribuzione previsione (cioè la maggior parte dei modelli applicati ci fornirà un'intera distribuzione parametrica per la previsione, la distribuzione normale è comune, $ y_ {t + h, m} \ sim N (\ hat y_ {t + h, m}, \ sigma_ {t + h, m}) $. molti sostengono che non utilizzando queste informazioni parametriche aggiuntive considerando solo $ \ hat y_ {t + h, m} $ si ottengono previsioni non ottimali)
Riferimenti
1. Bates, John M. e Clive WJ Granger. "La combinazione di previsioni". Or (1969): 451-468.
2. Massimiliano Marcellino,. "Forecast pooling for short time series of macroeconomic variables," Working Papers 212, IGIER (Innocenzo Gasparini Institute for Economic Research), Bocconi University (2002 ).

Combinazione previsione bayesiana : per la combinazione previsione stima puntuale la formula è $$ \ hat y_ {t + h} = \ sum_ {m = 1} ^ M w (m | y_1, ..., y_t) \ hat y_ {t + h, m} $$ e la distribuzione di previsione combinata è $$ f (y_ {t + h} | y_1 , ..., y_t) = \ sum_ {m = 1} ^ M w (m | y_1, ..., y_t) f_m (y_ {t + h} | y_1, ..., y_t) $$ dove $ f_m $ è la distribuzione di previsione del modello $ m $ esimo (un pdf). I pesi $ w (m | y_1, ..., y_t) $ sono tali che $ \ sum_ {m = 1} ^ {M} w (m | y_1, ..., y_t) = 1 $ e $ w ( m | y_1, ..., y_t) >0 $ per tutti i $ m $. I pesi possono essere calcolati come la probabilità a posteriori tradizionale di ciascun modello $ m $ tramite la media del modello bayesiano (tecnica nel campione simile al BIC, ma scalata) o come la scalabilità della probabilità predittiva (densità predittiva fuori campione) di ciascuno modello. Rinuncio a mostrare esattamente come calcolare i pesi per brevità. Se sei curioso vedi i riferimenti

pro:
1. Considera l'intera distribuzione della previsione quando calcola i pesi, non solo la previsione puntuale
2. Puoi, in teoria, aggiungere tutti i modelli che desideri
contro:
1. Richiede la conoscenza dell'inferenza e della stima bayesiana che possono essere abbastanza coinvolte
2. Presume che almeno uno dei modelli $ m $ sia il vero processo di generazione dei dati, che è un presupposto forte.
3. Richiede al ricercatore di specificare a priori per i parametri in ciascun modello di previsione oltre a un precedente distinto su tutti i modelli $ m $
Riferimenti
1. Hoeting, Jennifer A., et al. "Media del modello bayesiano". In Proceedings of the AAAI Workshop on Integrating Multiple Learned Models. 1998.
2. Eklund, Jana e Sune Karlsson. "Combinazione di previsioni e media del modello utilizzando misure predittive". Recensioni econometriche 26.2-4 (2007): 329-363.
3. Andersson, Michael K. e Sune Karlsson. "Combinazione di previsioni bayesiane per modelli VAR." Bayesian Econometrics (2008): 501-524.

Pool di previsioni ottimali : stessa idea della previsione bayesiana tranne che i pesi vengono trovati massimizzando la seguente "funzione punteggio" (WLOG assume h = 1) $$ \ max _ {\ mathbf {w}} \ sum_ {i = 1} ^ {t} \ ln \ bigg [\ sum_ { m = 1} ^ {M} w_m f_m (y_i; y_1, ..., y_ {i-1}) \ bigg] \ quad {(1)} $$ $$ st \; \; \ sum_ {m = 1} ^ {M} w_m = 1 \; e \; w_m \ geq 0 \; \ forall m $$ dove $ f_m $ è la densità / probabilità predittiva del modello $ m $ che può essere calcolata con la metodologia bayesiana o più frequente (vedere i riferimenti per ulteriori informazioni su questo).

pro:
1. Considera l'intera distribuzione della previsione quando calcola i pesi, non solo la previsione puntuale
2. Può essere implementata utilizzando le tecniche più frequenti o bayesiane ed è solitamente più semplice da stimare rispetto alla tradizionale combinazione di previsioni bayesiane
3. A differenza della tradizionale combinazione di previsione bayesiana, non è necessario assumere che uno dei modelli $ m $ sia il vero processo di generazione dei dati
contro:
1. perché l'equazione (1) richiede l'ottimizzazione numerica, la quantità di modelli che puoi includere è limitata dalla quantità di dati disponibili. Inoltre, se alcuni modelli producono previsioni altamente correlate, l'equazione (1) può essere molto difficile da ottimizzare
Riferimenti
1. Geweke, John e Gianni Amisano. "Pool di previsione ottimali". Journal of Econometrics 164.1 (2011): 130-141.
2. Durham, Garland e John Geweke. "Migliorare la previsione dei prezzi degli asset quando tutti i modelli sono falsi". Journal of Financial Econometrics 12.2 (2014): 278-306.

Varie altre tecniche basate su stime puntuali : (1) un stima ordinaria del minimo quadrato dei pesi ottenuti regredendo i valori effettivi realizzati sulle previsioni di stima puntuale ($ y_ {t + h} = \ beta_0 + w_1 \ hat y_ {t + h, 1} + ... + w_M \ hat y_ {t + h, M} + u_ {t + h} $), (2) gli approcci di trimming che escludono i modelli con prestazioni peggiori formano una combinazione ugualmente ponderata, (3) imposta i pesi uguali alla percentuale di volte una previsione ha il MSFE minimo, ecc.

pro e contro: variano a seconda della tecnica
Riferimenti
1. Timmermann, A. (2006), "Forecast Combinations", Handbook of Economic Forecasting, 1, 135-196.

I modelli di previsione sono ridondanti / escludibili

I modelli di Holt-Winters sono probabilmente simili, quindi magari buttane fuori un paio di quelli. Fare la media delle previsioni è come diversificare un portafoglio finanziario, vuoi che i tuoi modelli siano diversi. Con alcune delle tecniche di media di cui sopra non fa male includere modelli ridondanti, con altre sì.

Puoi anche trovare un'introduzione amichevole qui, con un paio di altri buoni modi per fare la media delle previsioni (Minimi quadrati vincolati per esempio) insieme a un'implementazione R.