Domanda:
Qualcuno può spiegare l'importanza della stazionarietà media nelle serie temporali?
confused
2020-06-01 10:18:54 UTC
view on stackexchange narkive permalink

Nella regressione regolare, il valore atteso di Y |X può cambiare.In effetti, generalmente usiamo la regressione quando vogliamo modellare questo cambiamento nella media condizionale.

Non capisco perché nelle serie temporali vogliamo che le nostre serie siano stazionarie.Ottengo l'ipotesi della varianza stazionaria poiché è simile all'assunzione distribuita in modo identico nella regressione regolare.Ma perché la stazionarietà media è così importante?

In precedenza, ho pubblicato una risposta molto semplice basata solo sul titolo, che non ha tenuto conto dei dettagli nel tuo post sulla stazionarietà media.Dopo aver riletto il tuo post, l'ho aggiornato con dettagli più specifici per la tua domanda, a cui penso che ora risponda completamente.
Prendiamo ad esempio i livelli dei prezzi e i livelli del PIL reale nel tempo.Entrambi tendono ad aumentare, quindi non sono stazionari e quindi c'è una correlazione positiva tra loro, a volte una correlazione molto alta [come nel Regno Unito dal 1993 al 2007] (https://economics.stackexchange.com/questions/14259/can-cpi-and-real-gdp-have-high-correlation / 14261).Ma sarebbe sbagliato pensare che ciò implichi qualsiasi tipo di relazione tra inflazione e crescita del PIL reale: la relazione tra le serie temporali per i livelli è in gran parte determinata dalle serie temporali entrambe le misure di cambiamento hanno mezzi positivi
Cinque risposte:
Skander H.
2020-06-01 11:46:04 UTC
view on stackexchange narkive permalink

Nel caso della previsione di serie temporali, prima di tutto, devi capire che la stazionarietà è importante soprattutto nel contesto di ARMA e dei modelli correlati (AR: Auto-Regressive, MA: Moving Average). Esistono altri tipi di modelli di previsione delle serie temporali in cui la stazionarietà non è un requisito, come Holt-Winters o Facebook Prophet.

Ecco due spiegazioni intuitive, se non del tutto matematicamente rigorose, del perché la stazionarietà media è importante nel caso ARMA:

  • Il componente AR dei modelli ARMA, tratta la modellazione di serie temporali come un problema di apprendimento supervisionato, $ Y_t = a_1Y_ {t-1} + ... a_nY_ {tn} + c + \ sigma (t) $ . Una regola pratica comune nell'apprendimento supervisionato è che la distribuzione dei dati di addestramento e la distribuzione dei dati di test dovrebbero essere la stessa, altrimenti il ​​tuo modello funzionerà male sui test fuori campione e sui dati di produzione. Poiché per i dati di serie temporali, il set di addestramento è il passato e il set di test è il futuro, il requisito di stazionarietà è semplicemente garantire che la distribuzione rimanga la stessa nel tempo. In questo modo si evitano i problemi che derivano dall'addestramento del modello su dati che hanno una distribuzione diversa rispetto alla distribuzione di test / produzione. E la stazionarietà media in particolare sta solo dicendo che la media del treno e la media del test dovrebbero rimanere le stesse.

  • Una considerazione ancora più semplice: prendi il modello ARMA più semplice possibile, un modello $ AR (1) $ : $$ Y_t = aY_ {t-1} + c + \ sigma $$ quindi la relazione ricorsiva per la stima del passaggio in base a quella precedente è: $$ \ hat {Y} _t = a \ hat {Y} _ {t-1} + c $$ , $$ \ hat {Y} _t - c = a \ hat {Y} _ {t-1} $$ prendendo il valore atteso: $$ E (\ hat {Y} _t) - c = aE (\ hat { Y} _ {t-1}) $$ significa che: $$ a = \ frac {E (\ hat {Y} _t) - c} {E ( \ hat {Y} _ {t-1})} $$ quindi se vogliamo che $ a $ rimanga costante nel tempo, che è l'inizio ipotesi di un modello $ AR (1) $ poiché vogliamo che sia simile a una regressione lineare, quindi $ E ( \ hat {Y} _t) $ deve rimanere lo stesso per tutti i $ t $ , ovvero la tua serie ha essere medio fermo.

Le considerazioni precedenti sono applicabili anche al caso ARMA generale, con $ AR (p) $ e $ MA (q) $ , sebbene la matematica sia un po 'più complicata di quella che descrivo, ma intuitivamente l'idea è sempre la stessa. La "I" in ARIMA sta per "Integrato" che si riferisce al processo di differenziazione che permette di trasformare una serie temporale più generale in una che è stazionaria e può essere modellata utilizzando i processi ARMA.

Non sono d'accordo con la caratterizzazione di @Alexis secondo cui " che le serie temporali sono stazionarie rappresenta più o meno la visione del mondo secondo cui il passato non ha importanza " - semmai è il contrario: trasformare un temposerie in una stazionaria per scopi di modellazione significa esattamente vedere se ci sono strutture causali / deterministiche nelle serie temporali oltre alla semplice tendenza e stagionalità.Cioèil passato ha un impatto sul presente o sul futuro in modi più sottili rispetto alle variazioni su larga scala?(Ma potrei semplicemente interpretare male quello che sta cercando di dire).

Lei, non lui.Mi chiedo se stiamo parlando l'uno accanto all'altro?Sono d'accordo su "oltre le tendenze e oltre la stagionalità".Il punto è che se, diciamo, crei un modello, come $ y_ {ti} = \ beta_0 + BX_ {ti} + f (t, T) + \ text {error} $ (cioè "modelli longitudinali"),ignorano la natura dinamica / non lineare del passato di $ y $ lo influenzano al momento $ t $.
@Alexis le mie più profonde scuse.(Skander significa "Alexander" in arabo, quindi tendo a proiettarmi su chiunque abbia un modello di nome simile). E sì, sembra che siamo d'accordo sui fatti. Una cosa che vorrei sottolineare è che nel mioesperienza, anche un semplice processo che è "veramente" AR e anche stazionario, è estremamente raro. Ci sono tutti i tipi di esempi non stazionari (ad esempio dinamiche di popolazione), ma ci sono possibilità che un processo sia sia stazionario E chesembra $ Y_t = a_1Y_ {t-1} + a_2Y_ {t-2} $? Quindi ARIMA è un'ipotesi piuttosto forte da fare.
Nessun problema!Ebbene, ho * fornito * due esempi (consumo di beni che creano dipendenza e prevalenza di malattie infettive) in cui i modelli causali * devono * comportare il passato che influenza il presente.:)
"i modelli causali devono implicare che il passato influenzi il presente" ma questo è il punto: hanno perfettamente senso, ma per lo stesso motivo per cui hanno senso, non possono nemmeno essere stazionari (ad es.crescita, nemmeno lineare o polinomiale, che è la massima che ARIMA può gestire con la differenziazione).
Bene ... avresti bisogno di equazioni simultanee, non una singola equazione, per esempio, per produrre un modello compartimentale (e che può modellare i tipi di crescita che stai menzionando) ... (Inoltre: * non * sto sostenendo che ARIMAe prestare attenzione alla stazionarietà / non stazionarietà è tutto e finisce tutto).La modellazione (stazionaria) * cambiamento * è più importante della modellazione (non stazionaria) a livello per fare inferenze causali.Stil: Mi piace il tuo punto ... è gommoso, e sarà il tipo di cosa su cui penso, quindi grazie!
Perché c'è un $ \ sigma $ invece di $ \ varepsilon_t $ nella definizione del modello AR (1)?E dalla tua definizione, come ottieni $ \ hat Y_t = a \ hat Y_ {t − 1} + c $?
@RichardHardy $ \ sigma $, $ \ sigma (t) $, $ \ sigma_t $, $ \ epsilon_t $, modi diversi di dire la stessa cosa.
Ecco un riferimento (tra i tanti) per l'equazione di previsione: https://people.duke.edu/~rnau/411arim.htm#arima100
Grazie.$ \ sigma $ e $ \ sigma_t $ non possono essere la stessa cosa in quanto il primo è costante nel tempo mentre il secondo varia nel tempo.Inoltre, $ \ sigma $ è la notazione standard per la deviazione standard.In un'impostazione di serie temporale, può essere costante o variabile nel tempo, universalmente indicata rispettivamente da $ \ sigma $ e $ \ sigma_t $.Per evitare confusione, userei $ \ varepsilon_t $ (o il meno popolare ma ancora prevalente $ u_t $ o $ v_t $, o anche il non comune $ a_t $ come nei libri di testo di Ruey S. Tsay) per denotare il termine di errore dell'ARModelli, MA e ARMA.
Inoltre, dove nel documento citato trovi $ Y $ con cappelli su * entrambi i lati * di un'equazione?
@RichardHardy se stai facendo più di una previsione passo alla volta, allora la Y su entrambi i lati dell'equazione sono $ \ hat {Y} $ stime, vedi il concetto di previsione iterativa o ricorsiva.
Thomas Lumley
2020-06-01 11:26:27 UTC
view on stackexchange narkive permalink

La stazionarietà è importante perché è un presupposto matematicamente forte che è ancora molto più debole dell'indipendenza o della dipendenza a intervalli finiti.

In alcune impostazioni, è importante principalmente per la trattabilità matematica: è più facile scoprire prima cosa è vero per le serie temporali stazionarie, quindi puoi lavorare su come rilassare le ipotesi. Forse hai solo bisogno della stazionarietà del senso debole, o della stazionarietà media più qualche condizione della coda, o qualsiasi altra cosa. O forse hai bisogno della stazionarietà affinché un risultato mantenga esattamente, ma vale approssimativamente sotto ipotesi più deboli.

In altre impostazioni la stazionarietà è importante perché ci sono così tanti modi per non essere stazionari che sarebbe difficile gestirli tutti. Se un problema può essere approssimato da una serie stazionaria, questo è un grande vantaggio pratico. Qui è importante ricordare che la serie stazionaria $ X (t) $ che appare in matematica potrebbe non essere i tuoi dati grezzi. Ad esempio, i modelli ARMA tradizionali sono stazionari, ma in genere si desidera rimuovere le relazioni di stagione e tendenza prima di adattarne uno. Potresti voler log-trasformare una serie che ha media e varianza crescenti. E così via.

Alexis
2020-06-01 10:36:56 UTC
view on stackexchange narkive permalink

In primo luogo, le tue stime medie e i tuoi errori standard saranno fortemente distorti se utilizzi uno degli strumenti inferenziali che presumono i.i.d, il che significa che i tuoi risultati rischiano di essere falsi.Questo può essere vero anche se i tuoi dati sono debolmente stazionari, ma il tuo periodo di studio è più breve del tempo impiegato dalla tua serie per raggiungere l'equilibrio dopo un disturbo.

In secondo luogo, supporre che le serie temporali siano stazionarie rappresenta più o meno la visione del mondo secondo cui il passato non ha importanza (ad esempio, la prevalenza di COVID-19 oggi è completamente indipendente dalla prevalenza di COVID-19 ieri; il \ $ pro capite speso per prodotti che creano dipendenza come le sigarette quest'anno è completamente indipendente dai \ $ pro capite spesi per loro l'anno scorso) ... un po 'irrealistico.

Rispettosamente non sono d'accordo con la tua seconda affermazione.Vedi la mia risposta.
Se il passato non avesse importanza, avrebbe senso raccogliere dati passati per dedurre le proprietà attuali del processo di interesse o per prevedere la realizzazione futura del processo?
@SkanderH.Non credo che tu abbia capito la mia seconda affermazione.
@RichardHardy Importerebbe solo nel senso che la dimensione del tuo campione aumenta nel tuo sforzo di stimare alcune proprietà di un i.i.d.variabile.Il mio commento si basa sui programmi di formazione di * molte * scienze della popolazione a livello di dottorato che sono più o meno ciechi alle questioni di stazionarietà e modellazione di serie temporali, preferendo insegnare ai ricercatori a inserire semplicemente una funzione del tempo nel modello e chiamarlo agiorno.
@RichardHardy, "se il passato non avesse importanza" qui significa che una soluzione del sistema dinamico non è dipendente dal percorso (tranne forse in qualche modo banale), e ci sono parametri fissi (indipendenti dal percorso) che devono essere stimati con qualche tecnica adatta.
@PatrickT, grazie, questo è utile.
@PatrickT Grazie per essere più articolato.:)
Noah Tsaying
2020-06-02 08:35:41 UTC
view on stackexchange narkive permalink

Stazionario significa che le statistiche che descrivono il processo casuale sono costanti. "Un processo Markov senza memoria" è un altro modo per dire stazionario, come dire che la funzione generatrice di probabilità non ha termini di "feedback", ma se riconoscessi quelle parole potresti non porre questa domanda. FWIW "debolmente stazionario" non è esattamente la stessa cosa, un tasso di variazione costante o conoscibile delle statistiche sarebbe debolmente stazionario, come sarebbe qualcosa che fa la media, ma è un po 'più complicato, quindi considera questo giusto avvertimento che c'è altro da sapere nel caso questo fa parte del puzzle, ma descrivere tutto ciò che non è stazionario in dettaglio trasformerebbe una risposta semplice in una risposta complessa.

Perché lo stazionario è importante? Le formule statistiche comunemente utilizzate sono predisposte per utilizzare un set di dati per estrarre una descrizione imprecisa con un'accuratezza stimabile di un processo casuale altrimenti sconosciuto. Le formule presumono che l'aggiunta di più campioni aumenti l'accuratezza della descrizione riducendo l'incertezza. Per questo la tendenza Media Centrale, cioè ergodica nella media, deve essere vera. Se il processo casuale stesso sta cambiando, ad es. il valore medio o la varianza stanno cambiando, quindi un presupposto fondamentale essenziale non è valido, non è possibile effettuare una stima migliore.

Come "cosa succede" in generale se la media si muove come funzione lineare del tempo, la media calcolata rappresenterà la media in un tempo medio ponderato e la varianza calcolata sarà gonfiata. È possibile calcolare una stima "a posteriori" (dopo il fatto) ottimale di un processo non stazionario e quindi utilizzarla per estrarre statistiche significative perché la migliore stima della funzione tempo minimizza la varianza. È anche facile ipotizzare una funzione temporale di ordine elevato e creare un modello complesso che sembri valido e predittivo che in realtà non ha potere predittivo perché ha modellato un'istantanea della casualità, non una tendenza temporale sottostante.

Ryan
2020-06-02 20:44:32 UTC
view on stackexchange narkive permalink

Breve e dolce:

I parametri devono essere costanti. Se la serie non è stazionaria, i parametri stimati saranno funzioni del tempo stesso. Ma il modello presuppone che siano costanti, in quanto tali, stimerai il valore medio del parametro nel periodo di tempo. Vedi la risposta di Skander per capire perché, non mi immergerò nella matematica dato che l'ha già fatto.

Questo presenta almeno 2 problemi:

  1. Le tue stime per il valore del parametro vero sono probabilmente errate, perché in qualsiasi momento il valore del parametro potrebbe essere diverso dal suo valore medio. Pertanto, qualsiasi inferenza che fai dai dati è probabilmente sbagliata. Questo porta a regressioni / correlazioni spurie.
  2. Non puoi utilizzare il modello per prevedere il futuro. Poiché il tuo parametro ora è una funzione del tempo e non sai come si evolve nel tempo, qualsiasi previsione che fai è completa (scusate il mio francese) stronzate.

Raggiungere la stazionarietà è in realtà piuttosto semplice. Dobbiamo solo fare la differenza finché non abbiamo una serie stazionaria. Quindi fallo e basta.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 4.0 con cui è distribuito.
Loading...