Domanda:
Quanto è utile il CLT nelle applicazioni?
Siddharth Gopi
2014-01-03 02:46:43 UTC
view on stackexchange narkive permalink

Il mio docente ha appena trattato il teorema del limite centrale di Lindeberg-Lévy e la versione multivariata, il Lindeberg-Feller CLT. Ho capito il concetto di base e posso derivarlo, ecc. Ma aiuterebbe molto la mia comprensione se qualcuno potesse spiegare come tutto questo viene utilizzato nelle applicazioni della vita reale dell'analisi econometrica ?

Ho letto alcune affermazioni secondo cui il CLT è utile solo su un pezzo di carta.

Sarebbero apprezzate alcune applicazioni o riferimenti del settore davvero interessanti.

Due risposte:
Glen_b
2014-01-03 07:26:59 UTC
view on stackexchange narkive permalink

Certamente il CLT informa le applicazioni in ogni momento, dal momento che ci occupiamo di distribuzioni di medie o somme molto frequentemente (inclusi casi che potrebbero non essere sempre ovvi; per esempio, $ s_n ^ 2 $ - la varianza del campione con denominatore $ n $ - è una media, quindi la varianza del campione ordinaria è solo una media leggermente ridimensionata).

Il CLT può dirti di aspettarti un approccio alla normalità con l'aumento della dimensione del campione per una particolare statistica, ma non quando , esattamente, puoi trattarlo come normale.

Quindi, mentre sai che la normalità dovrebbe intervenire alla fine, per sapere se sei abbastanza vicino a una particolare dimensione del campione, tu dovrà controllare (diciamo algebricamente, o più spesso tramite simulazione).

A volte potresti imbatterti in "regole pratiche" che dicono "oh, n = 30 è sufficiente perché il teorema del limite centrale si attivi ". Tali regole non hanno senso senza specificare le circostanze esatte (di quale distribuzione abbiamo a che fare, di quali proprietà ci interessano e "quanto vicino è abbastanza vicino").

Se hai un $ X $ con una distribuzione come questa:

Gamma(0.02) pdf

Allora il campione significa, $ \ bar X $ per $ n = 1000 $ hanno una forma come questa:

Gamma(20) pdf

... che per alcuni scopi potrebbe essere giusto trattare come normale (proporzione entro 2 sds della media, dire); per altri scopi (probabilità di essere più di 3 sds sopra la media, diciamo), forse no.

A volte n = 2 è sufficiente, a volte n = 1000 non è sufficiente.


Un altro esempio: il terzo e il quarto momento campione sono medie, quindi dovrebbe essere applicato il CLT. Il test di Jarque-Bera si basa su questo (più Slutsky, immagino, per il denominatore, insieme all'indipendenza asintotica), al fine di ottenere una distribuzione chi-quadrato per la somma dei quadrati di valori standardizzati. Ma come avevano sottolineato Bowman e Shenton (5 anni prima!), Questo non dovrebbe funzionare bene fino a campioni di grandi dimensioni. In effetti le mie stesse simulazioni suggeriscono che per i dati normali, la normalità bivariata dell'asimmetria e della curtosi non si attiva bene fino a quando le dimensioni del campione non sono sorprendentemente grandi (a dimensioni del campione piccole e medie, i contorni della distribuzione articolare sembrano più una banana che un'anguria)

plots of skewness vs kurtosis for normal samples

Sempre più spesso, tuttavia, le dimensioni del campione possono essere enormi. Ho aiutato con diversi problemi di dati reali in cui le dimensioni del campione erano davvero molto grandi (in milioni). In quelle situazioni, le cose che il CLT suggerisce dovrebbero avvicinarsi alla normale poiché $ n $ si avvicina all'infinito sono spesso estremamente ben approssimate dalle distribuzioni normali.

Non direi che il CLT è inutile: ti dice a quale distribuzione cercare - ma non fa altro che indicarlo come un risultato finale; devi ancora verificare se è un'approssimazione adatta ai tuoi scopi alla dimensione del campione che hai.

Ben messo. Come visto in altri messaggi su questo argomento, il CLT può essere abbastanza fuorviante e di discutibile valore nella pratica, non solo per i motivi sopra ma perché quando la varianza della popolazione deve essere stimata e la distribuzione è distorta, la varianza non si applica più in un certo senso, e alla distribuzione della statistica $ t $ accadono cose brutte.
@FrankHarrell Succedono cose brutte, sì. Con la distribuzione asimmetrica che ho disegnato nella parte superiore della mia risposta sopra (Gamma con forma 0,02), la distribuzione della statistica t di due campioni in campioni di medie dimensioni (diciamo n = 30) sembra il cavo principale su un ponte sospeso - bimodale con due punte acuminate.
@Glen_b solo per curiosità, potresti dire con che tipo di analisi, variabili o statistiche stavi lavorando?l'approssimazione si è dimostrata ragionevole?solo per avere un'idea di quali campi potrebbero raccogliere così tanti dati e utilizzare il CLT, poiché gli asintotici sono sempre sembrati un po 'accademici per me.
Ad esempio, una era una serie di misurazioni ingegneristiche di alcuni processi industriali: non mi sono stati forniti molti dettagli sull'esatta cosa misurata in quel caso, ma penso che fossero un insieme (molto) ampio di diametri o lunghezze.
mpiktas
2014-01-03 13:40:58 UTC
view on stackexchange narkive permalink

Nonostante i problemi con CLT descritti da Glen_b, se parliamo di analisi econometrica , in pratica tutti i risultati sono asintotici (tranne quando viene utilizzata l'analisi bayesiana). Quindi qualsiasi applicazione basata sull'econometria è basata su CLT. Ad esempio, Lars Hansen ha vinto l'anno scorso il premio Nobel per il lavoro sul metodo dei momenti generalizzato, che si basa sul CLT.

Potrebbe sembrare che una tale dipendenza dal CLT non sia una buona cosa, ma d'altra parte qualsiasi documento econometrico che si basi su asintotici di solito ha un capitolo con simulazioni Monte Carlo che esplorano l'affidabilità dei risultati asintotici su piccoli campioni e il più delle volte i risultati non sono poi così male.

Grazie per la risposta e grazie per aver notato che ho messo in grassetto "Econometrics" nella mia domanda! È infatti in un contesto econometrico che sto imparando il CLT.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...