Domanda:
Assegnazione di pesi a una previsione media
Jake
2015-07-25 02:20:08 UTC
view on stackexchange narkive permalink

Quindi ho imparato a fare previsioni durante questa estate e ho utilizzato il libro di Rob Hyndman Previsione: principi e pratica. Sto usando R, ma le mie domande non riguardano il codice. Per i dati che ho utilizzato, ho scoperto che una previsione media di più modelli ha prodotto livelli di precisione più elevati rispetto a qualsiasi modello unico da solo.

Recentemente ho letto un blog che parlava di metodi di previsione della media e assegnazione di pesi. Quindi, nel mio caso, diciamo che assegno 11 diversi modelli al mio set di dati (Arima, ETS, Holt Winters, ingenuo, snaive e così via) e voglio fare la media di alcuni di questi per ottenere una previsione. Qualcuno ha avuto esperienza con questo o può indicarmi un articolo che potrebbe fornire alcune informazioni sul modo migliore per farlo?

Al momento, sto usando la convalida incrociata e Mean Absolute Error per capire quali modelli funzionano meglio e quali hanno prestazioni peggiori. Posso persino usarlo per identificare il k # principale di modelli.

Immagino che le mie domande siano

1) Quanti modelli suggeriresti di selezionare? (2,3,4,5,6, ecc.)

2) Qualche idea sui pesi? (50% al migliore, 25% al ​​secondo migliore, 15% al ​​terzo migliore, 10% al 4 ° migliore, ecc.)

3) Alcuni di questi modelli di previsione sono ridondanti e non dovrebbero essere inclusi ? (Arima, snaive, naive, HW's "additive", ETS, HoltWinters smoothing esponenziale, HoltWinters smoothing w / trend, HoltWinters w / trend / seasonality, multiple regression)

Fare riferimento all'articolo che spiega come assegnare i pesi.
Mi sbagliavo sul fatto che fosse un articolo.In realtà era su un sito web simile a questo, quindi non c'è credibilità.
Due risposte:
Zachary Blumenfeld
2015-07-25 18:49:13 UTC
view on stackexchange narkive permalink

Le risposte alle tue domande in ordine

Quanti modelli

Di solito quanti ne vuoi, ma questo può essere limitato dalla quantità di dati che hai. Dipende anche dal metodo che stai usando per derivare i pesi (che spiegherò più avanti)

Come assegnare i pesi

Ce ne sono molti, ecco i cinque più popolari in cima della mia testa, sebbene nessuno di loro utilizzi l'errore medio assoluto.

  1. Pesi uguali per tutti i modelli
    • pro:
      1. Semplice , facile da implementare
      2. Spesso supera tecniche più complesse
      3. Puoi, in teoria, aggiungere tutti i modelli che vuoi
    • contro:
      1. Potrebbe essere troppo semplificato
      2. Nessun metodo intrinseco per classificare i modelli
    • Riferimenti
      1. Aiolfi, M. e A. Timmermann (2006), "Persistence in Forecasting Performance and ConditionalCombination Strategies", Journal of Econometrics, 35 (1-2), 31-53.
      2. Manescu, Cristiana e Ine Van Robays. "Previsione del prezzo del petrolio Brent: affrontare la variazione temporale nelle prestazioni previste". (2014).
  2. Rapporto MSFE (Inverse Mean Square Forecast Error) : per i modelli $ M $ il combinato, $ h La previsione $ -step ahead è $$ \ hat y_ {t + h} = \ sum_ {m = 1} ^ {M} w_ {m, h, t} \ hat y_ {t + h, m}, \; \ ; \; w_ {m, h, t} = \ frac {(1 / msfe_ {m, h, t}) ^ k} {\ sum_ {j = 1} ^ M (1 / msfe_ {j, h, t }) ^ k} $$ dove $ \ hat y_ {t + h, m} $ è il punto previsto per $ h $ passi avanti al tempo $ t $ dal modello $ m $. Nella maggior parte delle applicazioni $ k = 1 $.
    • pro:
      1. Solido supporto teorico
      2. È in circolazione da un po 'ed è ben accettato in letteratura
      3. Puoi, in teoria, aggiungere tutti i modelli che desideri
    • contro:
      1. Basato esclusivamente su stime puntuali, non considera l'intero distribuzione previsione (cioè la maggior parte dei modelli applicati ci fornirà un'intera distribuzione parametrica per la previsione, la distribuzione normale è comune, $ y_ {t + h, m} \ sim N (\ hat y_ {t + h, m}, \ sigma_ {t + h, m}) $. molti sostengono che non utilizzando queste informazioni parametriche aggiuntive considerando solo $ \ hat y_ {t + h, m} $ si ottengono previsioni non ottimali)
    • Riferimenti
      1. Bates, John M. e Clive WJ Granger. "La combinazione di previsioni". Or (1969): 451-468.
      2. Massimiliano Marcellino,. "Forecast pooling for short time series of macroeconomic variables," Working Papers 212, IGIER (Innocenzo Gasparini Institute for Economic Research), Bocconi University (2002 ).
  3. Combinazione previsione bayesiana : per la combinazione previsione stima puntuale la formula è $$ \ hat y_ {t + h} = \ sum_ {m = 1} ^ M w (m | y_1, ..., y_t) \ hat y_ {t + h, m} $$ e la distribuzione di previsione combinata è $$ f (y_ {t + h} | y_1 , ..., y_t) = \ sum_ {m = 1} ^ M w (m | y_1, ..., y_t) f_m (y_ {t + h} | y_1, ..., y_t) $$ dove $ f_m $ è la distribuzione di previsione del modello $ m $ esimo (un pdf). I pesi $ w (m | y_1, ..., y_t) $ sono tali che $ \ sum_ {m = 1} ^ {M} w (m | y_1, ..., y_t) = 1 $ e $ w ( m | y_1, ..., y_t) >0 $ per tutti i $ m $. I pesi possono essere calcolati come la probabilità a posteriori tradizionale di ciascun modello $ m $ tramite la media del modello bayesiano (tecnica nel campione simile al BIC, ma scalata) o come la scalabilità della probabilità predittiva (densità predittiva fuori campione) di ciascuno modello. Rinuncio a mostrare esattamente come calcolare i pesi per brevità. Se sei curioso vedi i riferimenti
    • pro:
      1. Considera l'intera distribuzione della previsione quando calcola i pesi, non solo la previsione puntuale
      2. Puoi, in teoria, aggiungere tutti i modelli che desideri
    • contro:
      1. Richiede la conoscenza dell'inferenza e della stima bayesiana che possono essere abbastanza coinvolte
      2. Presume che almeno uno dei modelli $ m $ sia il vero processo di generazione dei dati, che è un presupposto forte.
      3. Richiede al ricercatore di specificare a priori per i parametri in ciascun modello di previsione oltre a un precedente distinto su tutti i modelli $ m $
    • Riferimenti
      1. Hoeting, Jennifer A., ​​et al. "Media del modello bayesiano". In Proceedings of the AAAI Workshop on Integrating Multiple Learned Models. 1998.
      2. Eklund, Jana e Sune Karlsson. "Combinazione di previsioni e media del modello utilizzando misure predittive". Recensioni econometriche 26.2-4 (2007): 329-363.
      3. Andersson, Michael K. e Sune Karlsson. "Combinazione di previsioni bayesiane per modelli VAR." Bayesian Econometrics (2008): 501-524.
  4. Pool di previsioni ottimali : stessa idea della previsione bayesiana tranne che i pesi vengono trovati massimizzando la seguente "funzione punteggio" (WLOG assume h = 1) $$ \ max _ {\ mathbf {w}} \ sum_ {i = 1} ^ {t} \ ln \ bigg [\ sum_ { m = 1} ^ {M} w_m f_m (y_i; y_1, ..., y_ {i-1}) \ bigg] \ quad {(1)} $$ $$ st \; \; \ sum_ {m = 1} ^ {M} w_m = 1 \; e \; w_m \ geq 0 \; \ forall m $$ dove $ f_m $ è la densità / probabilità predittiva del modello $ m $ che può essere calcolata con la metodologia bayesiana o più frequente (vedere i riferimenti per ulteriori informazioni su questo).
    • pro:
      1. Considera l'intera distribuzione della previsione quando calcola i pesi, non solo la previsione puntuale
      2. Può essere implementata utilizzando le tecniche più frequenti o bayesiane ed è solitamente più semplice da stimare rispetto alla tradizionale combinazione di previsioni bayesiane
      3. A differenza della tradizionale combinazione di previsione bayesiana, non è necessario assumere che uno dei modelli $ m $ sia il vero processo di generazione dei dati
    • contro:
      1. perché l'equazione (1) richiede l'ottimizzazione numerica, la quantità di modelli che puoi includere è limitata dalla quantità di dati disponibili. Inoltre, se alcuni modelli producono previsioni altamente correlate, l'equazione (1) può essere molto difficile da ottimizzare
    • Riferimenti
      1. Geweke, John e Gianni Amisano. "Pool di previsione ottimali". Journal of Econometrics 164.1 (2011): 130-141.
      2. Durham, Garland e John Geweke. "Migliorare la previsione dei prezzi degli asset quando tutti i modelli sono falsi". Journal of Financial Econometrics 12.2 (2014): 278-306.
  5. Varie altre tecniche basate su stime puntuali : (1) un stima ordinaria del minimo quadrato dei pesi ottenuti regredendo i valori effettivi realizzati sulle previsioni di stima puntuale ($ y_ {t + h} = \ beta_0 + w_1 \ hat y_ {t + h, 1} + ... + w_M \ hat y_ {t + h, M} + u_ {t + h} $), (2) gli approcci di trimming che escludono i modelli con prestazioni peggiori formano una combinazione ugualmente ponderata, (3) imposta i pesi uguali alla percentuale di volte una previsione ha il MSFE minimo, ecc.
    • pro e contro: variano a seconda della tecnica
    • Riferimenti
      1. Timmermann, A. (2006), "Forecast Combinations", Handbook of Economic Forecasting, 1, 135-196.

I modelli di previsione sono ridondanti / escludibili

I modelli di Holt-Winters sono probabilmente simili, quindi magari buttane fuori un paio di quelli. Fare la media delle previsioni è come diversificare un portafoglio finanziario, vuoi che i tuoi modelli siano diversi. Con alcune delle tecniche di media di cui sopra non fa male includere modelli ridondanti, con altre sì.

Puoi anche trovare un'introduzione amichevole qui, con un paio di altri buoni modi per fare la media delle previsioni (Minimi quadrati vincolati per esempio) insieme a un'implementazione R.

Ottime informazioni, grazie mille!Per quanto riguarda tutti i modelli HoltWinter, in questo momento ho incluso 4 delle principali variazioni di esso.Di quelli, quale dovrei tenere?Non voglio buttarne fuori alcuni (e forse uno che esegue il meglio dei 4).
In particolare, penso che dovrebbe essere a tuo giudizio.In generale, vuoi mantenere modelli che si adattano meglio, come AIC / BIC più basso o qualcosa del genere.Ma tu conosci i tuoi dati meglio di me, quindi se fai qualche ricerca sull'argomento sarai in grado di prendere una decisione più informata di me.
Dalla ricerca che ho fatto, non puoi confrontare gli AIC / BIC tra alcuni dei modelli che ho nella mia lista [informazioni trovate qui] (http://stats.stackexchange.com/questions/59135/can-you-compare-aic-values-as-long-as-the-models-are-based-on-the-same-dataset) @zachary Blumenfeld, quindi ho scelto di confrontare il MAE o l'RMSE trovati durante il mio ciclo di convalida incrociata.
phiver
2015-07-25 13:56:31 UTC
view on stackexchange narkive permalink

Soud come un articolo sulla creazione di ensemble.

  1. Il numero di modelli dipende dal tuo giudizio. Se aggiunge un valore predittivo, puoi aggiungere un numero qualsiasi di modelli. Ma il tempo di calcolo è un fattore importante. Ma se hai 11 modelli, vorrei prima vedere se riesco a calcolare la correlazione tra i modelli. I modelli che hanno un'alta correlazione non aggiungono molto. È meglio aggiungere un modello peggiore, ma a bassa correlazione.

  2. Qui dipende anche dal tuo giudizio.

  3. Tutti i modelli Holtwinters avranno un'elevata correlazione tra loro. Potresti voler abbandonare alcuni di questi.

Un buon articolo sugli ensemble è stato scritto da MLWave



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...