Anche se questo è un vecchio thread, spero che la mia risposta aiuti chiunque stia cercando una risposta alla stessa domanda.
Quando parliamo di analisi delle serie temporali, il più delle volte ci riferiamo allo studio dei modelli ARIMA (e delle sue varianti). Quindi inizierò assumendo lo stesso nella mia risposta.
Prima di tutto, come spiega il commentatore precedente R. Astur, non esiste un buon RMSE, perché dipende dalla scala, cioè dipende dalla variabile dipendente. Quindi non si può rivendicare un numero universale come un buon RMSE.
Anche se scegli misure di adattamento senza scala come MAPE o MASE, non puoi comunque rivendicare una soglia di essere buono. Questo è solo un approccio sbagliato. Non si può dire "Il mio MAPE è tale e così, quindi il mio fit / previsione è buono". Il modo in cui credo che dovresti affrontare il tuo problema è il seguente. Per prima cosa trova un paio di modelli "migliori possibili", usando una logica come il loop sugli output della funzione arima () in R, e seleziona i migliori n modelli stimati basati sul più basso RMSE o MAPE o MASE. Dato che stiamo parlando di una serie specifica e non stiamo cercando di fare un'affermazione universale, puoi scegliere una di queste misure. Ovviamente devi fare la diagnostica residua e assicurarti che i tuoi modelli migliori producano residui di rumore bianco con grafici ACF ben educati. Ora che hai alcuni buoni candidati, prova il MAPE fuori campione di ciascun modello e scegli quello con il miglior MAPE fuori campione.
Il modello risultante è il modello migliore, nel senso che:
- Fornisce un buon adattamento nel campione, associato a misure di errore basso e residui WN.
- Ed evita l'overfitting dandoti la migliore accuratezza delle previsioni fuori campione.
Ora, un punto cruciale è che è possibile stimare una serie temporale con un ARIMA (o le sue varianti) includendo un numero sufficiente di ritardi della variabile dipendente o del termine residuo. Tuttavia, il modello "migliore" che si adatta potrebbe semplicemente sovradimensionarsi e darti una precisione fuori campione notevolmente bassa, ovvero soddisfare il mio punto elenco 1 ma non 2.
In tal caso, ciò che devi fare è:
- Aggiungi una variabile esplicativa esogena e scegli ARIMAX,
- Aggiungi una variabile esplicativa endogena e scegli VAR / VECM,
- Oppure cambia completamente il tuo approccio ai modelli di machine learning non lineari e adattali alle tue serie temporali utilizzando un approccio di convalida incrociata. Ad esempio, adatta una rete neurale o una foresta casuale alle serie temporali. E ripeti il confronto delle prestazioni nel campione e fuori dal campione. Questo è un approccio di tendenza alle serie temporali e gli articoli che ho visto applaudono i modelli di apprendimento automatico per le loro prestazioni di previsione superiori (fuori campione).
Spero che questo aiuti.