Domanda:
Standardizzazione di una variabile normale standard
user81411
2015-08-14 06:29:46 UTC
view on stackexchange narkive permalink

Se standardizzo una variazione casuale normale standard, sarà ancora normale standard? Cioè, se $ X \ sim N (0,1) $, allora posso fare $$ X ^ * = \ frac {x- \ bar x} {sd (x)} $$? e $ X ^ * \ sim N (0,1) $?

Nel codice R :

  x <- rnorm (5 ) scale (x)  

Mi sembra di standardizzare uno standard normale, suona come una doppia standardizzazione. Inoltre non so se manterrà la distribuzione normale standard.

"Valido" in che senso?Per quale scopo?
Riflettendoci, penso di aver visto una domanda simile prima che avesse una o più buone risposte.Non riesco a trovarlo adesso però.
@whuber sebbene "valido" sia un termine tecnico, l'ho effettivamente usato in un linguaggio semplice.Puoi pensarlo come "logico".
Questo non ci aiuta a capire cosa intendi, sfortunatamente.**Qual è lo scopo**?Per alcuni scopi questa standardizzazione è utile e matematicamente corretta - "valida", se preferisci.Per altri - compresi alcuni di quelli indicati nelle risposte esistenti - non è valido o potrebbe essere interpretato male.A meno che tu non possa modificare questa domanda per specificare il tuo significato, dovrà essere chiusa in quanto oggettivamente senza risposta.
Cinque risposte:
Glen_b
2015-08-14 07:18:44 UTC
view on stackexchange narkive permalink

Se $ X_i $ sono iid Normali (0,1), un campione da esso non avrà media campionaria 0 o deviazione standard campionaria 1 solo a causa della variazione casuale.

Ora considera cosa succede quando facciamo $ Z = \ frac {X- \ overline {X}} {s_X} $

Mentre lo facciamo ora avere media campione 0 e deviazione standard campione 1, ciò che non abbiamo è che $ Z $ viene distribuito normalmente.

In campioni di dimensioni da piccole a moderate, ha code corte, e curtosi sostanzialmente più piccola di un normale standard, infatti dalla simulazione per campioni di dimensione n = 10 sembra abbastanza simile a una beta scalata (4,4) (che è stata scalata per trovarsi in (-3,3)):

enter image description here

(L'asse x è un campione casuale di B (4,4) scalato a (-3,3). Ovviamente questo non significa che la forma di distribuzione è una beta (4,4).)

I valori in res sono stati generati come segue:

  res = replicate (100000, scale (rnorm (10)))  

Per i campioni di dimensione 5, il risultato sembra piuttosto una beta scalata (3 / 2,3 / 2).

Inoltre, i valori in ogni campione non sono più indipendenti, poiché sommano a 0 e i loro quadrati a $ n-1 $

Alecos Papadopoulos
2015-08-14 20:48:18 UTC
view on stackexchange narkive permalink

Abbiamo quello

$$ X_i ^ * = \ frac {X_i} {s} - \ frac {\ bar X} {s} $$

La varianza del campione da un campione normale segue una distribuzione esatta,

$$ (n-1) s ^ 2 / \ sigma ^ 2 \ sim \ chi ^ 2_ {n-1} \ implica s ^ 2 \ sim \ frac {1} {n-1} \ chi ^ 2_ {n-1} \ implica s \ sim \ frac {1} {\ sqrt {n-1}} \ chi_ {n-1} $$

es $ s $ segue la radice quadrata di un chi quadrato diviso per i suoi gradi di libertà.

Ma anche se questo significa che $ \ frac {X_i} {s} $ è il rapporto tra una normale standard su la radice quadrata di un chi quadrato diviso per i suoi gradi di libertà, il numeratore non è indipendente dal denominatore, e quindi non possiamo dire che il rapporto segue la distribuzione $ t $ di uno Student (e personalmente Non conosco la sua distribuzione).

Per quanto riguarda il secondo termine, è noto che la media campionaria e la varianza campionaria sono variabili casuali indipendenti se e solo se il campione è costituito da normali indipendenti, che è la caso qui.

Inoltre, la media campionaria segue una distribuzione normale a media zero con varianza qui $ 1 / n $, quindi $ \ sqrt {n} \ bar X $ segue una normale standard.

Quindi abbiamo quel $$ \ frac {\ sqrt {n} \ bar X} {s} \ sim t \ implica \ frac {\ bar X} {s} \ sim \ frac {1} {\ sqrt {n}} t $$

es il secondo termine di $ X_i ^ * $ segue una distribuzione $ t $ di uno studente in scala

Quindi in tutto

$$ X ^ * _ i = \ frac {Z_i} {\ sqrt {\ chi ^ 2_ {n-1} / (n-1)}} - \ frac {1} {\ sqrt {n}} t $$

dove ho hanno usato il simbolo $ Z $ per denotare una variabile casuale che segue una normale standard. Il primo termine non è $ t $ di uno studente e inoltre non è indipendente dal secondo termine. Messo insieme non sembra molto normale o nemmeno della distribuzione di uno studente.

https://en.wikipedia.org/wiki/Standard_score.Per un esempio, si dice che la standardizzazione dovrebbe in questo modo $ Z = \ frac {\ bar {X} - \ operatorname {E} [X]} {\ sigma (X) / \ sqrt {n}}. $ Le tue spiegazioni sembranopiù facile per me capire.
@DeepNorth Nota che l'espressione di wikipedia si riferisce alla media _true_ (e alla deviazione standard), che è una costante, non alla media _sample_, che è una variabile casuale che stima la media vera.Allo stesso modo per la deviazione standard.
Grazie mille, ma penso che quando la gente dice "standardizza una ** variata casuale normale ** standard", non significa che la vera media e la varianza della tura sono già note?Comunque, mi piace la tua spiegazione.
E penso che quando sappiamo già $ E (X) = 0 $ e sostituiamo $ \ sigma $ con s, Z ha una distribuzione t con il metodo di Wiki.Penso che allora potremmo aver bisogno di bootstrap per ottenere diversi mezzi di campionamento.Ho controllato il codice sorgente della funzione scale, ma sembra che la funzione non utilizzi bootstrap.
@DeepNorth La notazione dell'OP puntava a utilizzare i momenti campione.anche se i veri momenti possono essere conosciuti, questo è il motivo per cui la maggior parte delle risposte qui ha esplorato questo caso che, certamente, potrebbe non essere altro che una divertente curiosità.Per quanto riguarda il metodo wiki, si noti che standardizza _ la media del campione_, non ogni singola realizzazione dal campione (che è ciò di cui l'OP stava chiedendo).
AlaskaRon
2015-08-14 07:18:36 UTC
view on stackexchange narkive permalink

Le variabili normali standard originali hanno VERO media 0 (E (X) = 0) e sono indipendenti. Prendendone un insieme e dividendoli per la loro deviazione standard, li standardizzi, ma il risultato, ironia della sorte, non è normale. Sono dipendenti (perché condividono il denominatore) e in realtà hanno distribuzioni t. Quindi, se vuoi lo standard normale, resta con rnorm (5).

Ma quando standardizzi l'originale, condividono anche lo stesso denominatore, giusto?
Puoi spiegare perché dici che i valori hanno distribuzioni t?Non credo proprio che lo facciano.
Questo è un commento interessante, @Glen_b.Evidentemente la domanda si riferisce a * campioni * da una distribuzione normale standard.Se consideriamo un campione di dimensione $ 2 $, la standardizzazione lo trasforma nel set di dati $ (- 1,1) $.Non è certo una distribuzione di $ t $!(Né è neanche lontanamente normale per quella materia ...) Si potrebbe descriverlo come una distribuzione "Beta $ (0,0) $ scalata".
@whuber Per chiarire il significato dietro la mia domanda: per ottenere una distribuzione t, avresti un numeratore a media 0 normalmente distribuito diviso per (una costante per) la radice quadrata di {un chi-quadrato (indipendente dal numeratore)diviso per il suo df}.Ma in realtà non lo abbiamo qui.$ X_i- \ overline {X} $ e $ s_X $ dipendono poiché se $ s $ è piccolo, $ X_i- \ overline {X} $ deve essere piccolo.per esempio.vedere `trama (c (0,2.8), c (0,4), tipo =" n ");jk = replicate (10000, {x = rnorm (5); num = x-mean (x); points (sd (x), num [1])}) "
Deep North
2015-08-14 06:49:26 UTC
view on stackexchange narkive permalink

Ho appena eseguito alcuni esperimenti. Sembra che dopo la scala di nuovo, sei più vicino a ottenere alcuni dati con $ \ mu = 0 $ e $ \ sigma = 1 $.

  set.seed (123) x <- rnorm (1000,0,1) mean (x) sd (x) y<-scale (x) mean (y) sd (y)  

Risultati:

  > mean (x) [1] 0,01612787 > sd (x) [1] 0,991695> y<-scale (x) > mean ( y) [1] -8.235085e-18> sd (y) [1] 1  
Sembra che tu abbia scoperto che la standardizzazione (che è progettata per creare una media zero e una varianza unitaria) fa sì che i dati abbiano media zero e varianza unitaria.
Hehe, grazie, sembra che tu dica che sto colorando il rosso con il colore rosso, comunque, l'inglese non è la mia lingua madre.
Avere la media campionaria 0 e sd del campione 1 non significa necessariamente che la distribuzione sia più vicina a N (0,1).
Ok, cambierò il testo
Dennis Jaheruddin
2015-08-14 19:44:36 UTC
view on stackexchange narkive permalink

Dimostrazione intuitiva per controesempio

Ci sono già alcune risposte generali che coprono la domanda, ma personalmente trovo il seguente ragionamento più facile da seguire.

Supponi che la dimensione del tuo campione sia 1 .

La tua definizione di $ X ^ * $ è la seguente

$$ X ^ * = \ frac {x- \ bar x} {sd (x)} $$

Poiché la dimensione del campione è 1, abbiamo $ \ bar x = x $ , quindi per qualsiasi $ x $ l'espressione si riduce a

$$ X ^ * = \ frac {\ bar x- \ bar x} {sd (x)} = \ frac {0} {0} $$

Poiché $ X ^ * $ non è chiaramente distribuito normalmente per la dimensione del campione 1, non può sicuramente avere una distribuzione normale standard in generale.

Hai notato che la normalizzazione è * non definita * per un campione di dimensione 1. Ciò non sembra avere implicazioni per campioni più grandi.@Glen_b ha affrontato questi casi nella sua risposta.
@whuber Ho pensato che mostrare che non è definito sarebbe sufficiente per un contro esempio.---- Nota a margine: sebbene la possibilità sia (infinitamente) piccola, la normalizzazione può effettivamente essere indefinita per un campione di qualsiasi dimensione.Non sei sicuro che questo migliorerebbe la mia risposta abbastanza da soddisfarti?
Il problema con una situazione in cui qualcosa è * sempre * indefinito è che lascia tutti a chiedersi se le tue conclusioni sono speciali per quella situazione o se generalizzano.Ecco perché questa risposta non è sufficiente.Il tuo argomento sarebbe molto più convincente se applicato a campioni di dimensione due (o superiore) - ed è esattamente ciò che fa la risposta di @Glen_b's.Il fatto che la standardizzazione possa essere indefinita non è un problema teorico quando la distribuzione sottostante è continua, perché allora la possibilità di incontrare una tale situazione è zero e quindi può essere trascurata.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...