Domanda:
Misura della diffusione di una distribuzione normale multivariata
Kristian D'Amato
2011-07-07 15:21:26 UTC
view on stackexchange narkive permalink

Qual è una buona misura dello spread per una distribuzione normale multivariata?

Stavo pensando di utilizzare una media delle deviazioni standard dei componenti; forse la traccia della matrice di covarianza divisa per il numero di dimensioni, o una versione di quella. Va bene?

Grazie

in quanto tale, la diffusione della gaussiana multivariata non ha senso. Tuttavia, a seconda delle tue esigenze, potrebbero esistere approcci per rispondere alla tua domanda. La traccia della matrice è uno dei tanti modi, ma ignoreresti le correlazioni, il che potrebbe fare un'enorme differenza. Valori di Eigen, PCA, ecc. Potrebbero essere molto migliori. Pertanto, potresti approfondire le tue esigenze?
In quanto tale, voglio un analogo della deviazione standard in uno spazio multidimensionale. Sì, la traccia ignorerebbe le correlazioni, che è ciò che temo. Detto questo, non è necessario che sia matematicamente esatto. Fondamentalmente, una buona indicazione della diffusione sarebbe la dimensione dell'ipervolume dell'ipellisse definita da 1 std. deviazione dalla media. Ma una formula piacevole e maneggevole senza derivare il volume esatto sarebbe molto apprezzata.
Sembra che la PCA possa rispondere alla tua domanda.
Tre risposte:
#1
+13
schenectady
2011-07-07 16:41:19 UTC
view on stackexchange narkive permalink

E la determinante della matrice varianza-covarianza campionaria: una misura del volume quadrato racchiuso dalla matrice nello spazio di dimensione del vettore di misura. Inoltre, una versione invariante di scala spesso utilizzata di tale misura è il determinante della matrice di correlazione campionaria: il volume dello spazio occupato entro le dimensioni del vettore di misurazione.

+1 Sì, le determinanti sono direttamente correlate all '"ipervolume ... dell'ellisse definita da 1 sd dalla media".
Quindi questo è il determinante della matrice di covarianza, giusto?
@Kristian La radice quadrata del determinante della matrice di covarianza indica l'ipervolume, incorporando sia le informazioni di forma (correlazione) che le dimensioni (deviazione standard). È il prodotto delle deviazioni standard delle componenti principali. Il determinante della matrice di correlazione è fondamentalmente solo un fattore di forma, che va da 0 per distribuzioni degeneri fino a 1 quando tutti i componenti non sono correlati.
@whuber, e se volessi avere una misura separata di forma e dimensione?(In realtà mi interessa solo la taglia, credo.)
@Atcold Dovresti stabilire una definizione quantitativa di "taglia".Ciò equivarrebbe a stabilire cos'è una distribuzione delle dimensioni dell'unità per ciascuna forma data.(Per definizione, "forma" è qualsiasi proprietà che una distribuzione può avere che non vengono modificate dalla traduzione o dal ridimensionamento.) Ci sono innumerevoli modi per farlo, quindi alla fine il problema si riduce alla scelta di una definizione adatta per la tua particolare analisi.Questa è una delle ragioni per cui non può esserci una definizione universale di dimensione (o "diffusione") per qualsiasi famiglia di distribuzione che comprende più forme.
Diciamo che ho bolle D-dimensionali (gaussiane).Stavo cercando i loro raggi.Più precisamente ho una raccolta di queste bolle e vorrei confrontare le loro distanze con le loro diffuse.Fammi sapere se preferisci che crei una nuova domanda.
#2
+3
MRocklin
2011-07-16 01:23:11 UTC
view on stackexchange narkive permalink

Preferirei trace o determinante con una preferenza verso trace a seconda dell'applicazione. Sono entrambi buoni in quanto sono invarianti alla rappresentazione e hanno significati geometrici chiari.

Penso che ci sia un buon argomento da fare per Trace over Determinant.

Il determinante misura efficacemente il volume dell'ellissoide di incertezza. Tuttavia, se c'è ridondanza nel tuo sistema, la covarianza sarà quasi singolare (l'ellissoide è molto sottile in una direzione) e quindi il determinante / volume sarà vicino allo zero anche se c'è molta incertezza / diffusione nel altre direzioni. In un'impostazione dimensionale da moderata ad alta questo si verifica molto frequentemente

La traccia è geometricamente la somma delle lunghezze degli assi ed è più robusta per questo tipo di situazione. Avrà un valore diverso da zero anche se alcune delle direzioni sono certe.

Inoltre, la traccia è generalmente molto più facile da calcolare.

+1 buoni punti. Questo mi fa pensare: qualsiasi funzione simmetrica degli autovalori $ n $ si qualificherebbe come "buona". Tutte queste funzioni polinomiali sono polinomi nelle funzioni simmetriche elementari $ n $, che includono il determinante e la traccia.
Sì, la somma (traccia) non è necessariamente il modo migliore per andare. Hai ragione che potresti immaginare molte miscele qui a seconda dell'applicazione. Mi chiedo se ci sia qualche famiglia standard di funzioni che sarebbe utile qui ....
@MR Non sono a conoscenza di nessuno che tenti di utilizzare una singola statistica per calcolare la diffusione di una distribuzione normale multivariata (tranne, ovviamente, quando si assume l'indipendenza di tutti i componenti). Questo mi porta a credere che potrebbe non esserci una famiglia standard simile.
#3
+1
jpillow
2011-07-08 10:16:02 UTC
view on stackexchange narkive permalink

Un'altra quantità (strettamente correlata) è l'entropia della distribuzione: per una gaussiana multivariata questo è il logaritmo del determinante della matrice di covarianza, o

$ \ frac {1} {2} \ log | (2 \ pi e) \ Lambda | $

dove $ \ Lambda $ è la matrice di covarianza. Il vantaggio di questa scelta è che può essere paragonata alla "diffusione" di punti sotto altre distribuzioni (ad esempio, non gaussiane).

(Se vogliamo essere tecnici, questa è l ' entropia differenziale di una gaussiana).



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...