Domanda:
Il coefficiente di correlazione di Pearson è una misura della correlazione lineare - prova
user4205580
2015-11-09 00:25:08 UTC
view on stackexchange narkive permalink

È possibile dimostrare che il coefficiente di Pearson è una misura della correlazione lineare tra due variabili?

Penso di aver visto prove da qualche parte che se la relazione tra le variabili $ X, Y $ è dato dall'equazione lineare $ Y = aX + B $, quindi il valore assoluto del coefficiente di Pearson è uguale a $ 1 $.

Come mostrare che $ 0 $ significa che non sono affatto correlati, e valori intermedi come $ 0,4 $ suggeriscono che sono in qualche modo più correlati, qualunque cosa significhi? Penso che dobbiamo prima definire cosa si intende per correlazione lineare più forte e più debole tra variabili (e la mia domanda ha senso solo se il coefficiente di Pearson stesso non è questa definizione).

Ad esempio, il valore atteso è definito da una certa formula, e il teorema della legge dei grandi numeri in un certo senso "prova" il suo significato intuitivo. Non sono a conoscenza di una prova che la varianza misura la diffusione dei dati, o il coefficiente di Pearson misura la correlazione lineare.

Sembra che tu stia chiedendo di dimostrare qualcosa che è una definizione."Coefficiente di Pearson" e "correlazione lineare" sono due estremità dello stesso stick, e non credo che tu possa * provarne * l'una usando l'altra.
La varianza non misura la diffusione, ma la sua radice quadrata (la deviazione standard) lo fa chiaramente, perché (1) è nelle stesse unità della variabile stessa e (2) è una media ponderata delle deviazioni da un centro della distribuzione (lasignificare).Ci sono molte altre misure di diffusione, come la $ k ^ \ text {th} $ radice del $ k ^ \ text {th} $ momento assoluto intorno alla media (per ogni $ k \ ge 1 $), la mediadei quantili $ \ alpha $ e $ 1- \ alpha $ (per qualsiasi $ 1/2 \ le \ alpha \ lt 1 $) e molti altri.
@whuber Tu chiami deviazione standard una media "ponderata" delle deviazioni dalla media, perché sono pesate da sole (al quadrato)?Cioè$ \ sqrt {\ frac {\ sum (X- \ mu) ^ 2} {N-1}} $.Per quanto riguarda la varianza, perché non ignorare semplicemente le unità?Possiamo aumentare la deviazione standard alla seconda, terza, quarta potenza e sarà altrettanto buona misura dello spread se non ci preoccupiamo delle unità.
Penso che sia giusto dire che senza una definizione matematica di cosa sia lo spread, possiamo trattare ogni misura dello spread solo come la sua definizione e sceglierne una sopra l'altra a seconda di ciò che ci fa sentire a nostro agio nel nostro modello, per esempio.
Perdi molto ignorando le unità, perché allora la tua misura di spread diventa arbitraria: dipende dalle unità in cui vengono riportati i dati.Sono d'accordo che ogni misura dello spread possa essere trattata come una definizione.Concordo anche sul fatto che la scelta di una definizione appropriata dovrebbe essere appropriata per il tipo di dati, il modello sottostante e gli obiettivi analitici.
La diffusione dovrebbe essere nelle stesse unità dell'osservazione, altrimenti diventa inutile.
Due risposte:
whuber
2015-11-09 05:21:14 UTC
view on stackexchange narkive permalink

È infatti possibile dimostrare che la correlazione di Pearson è essenzialmente il modo per misurare la linearità dell'associazione quando si sceglie di utilizzare le deviazioni standard per misurare la dispersione di variabili casuali.


Cominciamo col notare che la correlazione di Pearson $ \ rho $ deve essere considerata come una classe di equivalenza (piuttosto ampia) di proprietà di variabili casuali bivariate, perché ogni sua riespressione monotona invertibile (come la sua esponenziale) trasporterà informazioni identiche.

La domanda riguarda il significato del termine "relazione lineare" per variabili casuali $ (X, Y) $ che non sono collineari. Un importante caso speciale di ciò si verifica quando $ (X, Y) $ è la distribuzione empirica di qualsiasi dataset bivariata (a cui possiamo pensare in termini di grafico a dispersione): esistono modi naturali misurare la partenza di un tale set di dati (o grafico a dispersione) dalla "linearità"?

Nota che qualsiasi riespressione lineare invertibile delle variabili

$$ (\ xi, \ eta) = (aX + b, cY + d) $$

(per le costanti $ a, b, c, d $ dove $ a $ e $ c $ sono positivi) non cambierà la linearità della loro relazione (o la sua mancanza). Possiamo quindi adottare una misura del "centro" di una variabile (come la sua media o mediana) e una misura della sua "dispersione" attorno a quel centro (come la sua deviazione standard o intervallo interquartile) e stipulare che $ a, b, c, d $ devono essere scelti per porre i centri di $ \ xi $ e $ \ eta $ a $ 0 $ e ridimensionare le loro dispersioni all'unità.

Se $ (X, Y) $ sono correlati linearmente, questa standardizzazione iniziale farà sì che il supporto di $ (\ xi, \ eta) $ si trovi sulla riga $ \ xi = \ eta $ (per una relazione positiva ) o $ \ xi = - \ eta $ (per una relazione negativa). Nel primo caso, la dispersione di $ \ xi- \ eta $ è una misura naturale della deviazione dalla linea, mentre nel secondo caso la dispersione di $ \ xi + \ eta $ misura la deviazione dalla linea. Come misura quantitativa della linearità, possiamo quindi confrontare una di queste due quantità con l'altra. Maggiore è la dimensione di questo valore, più lineare è la relazione originale tra $ X $ e $ Y $.

Poiché si devono confrontare due quantità positive e si cerca una misura universale (senza unità), Il modo più semplice per effettuare il confronto è il rapporto . Mentre le distribuzioni dei rapporti tendono ad essere distorte, le distribuzioni dei loro logaritmi tendono a non esserlo. Inoltre, sebbene un rapporto non possa essere negativo, il suo logaritmo potrebbe potenzialmente essere qualsiasi numero reale.

Di conseguenza, la linearità della relazione dovrebbe essere misurata come il rapporto logaritmico delle dispersioni della somma e la differenza del variabili standardizzate.


Ad esempio, considera l'utilizzo dei primi due momenti per misurare il centro (la media) e la dispersione (la deviazione standard) . La misura associata della linearità di $ (X, Y) $ è

$$ Z = \ log \ frac {\ operatorname {SD} (\ xi + \ eta)} {\ operatorname {SD} ( \ xi- \ eta)} = \ frac {1} {2} \ log \ frac {\ operatorname {Var} (\ xi + \ eta)} {\ operatorname {Var} (\ xi- \ eta)} = \ frac {1} {2} \ log \ frac {2 + 2 \ rho} {2 - 2 \ rho} = \ frac {1} {2} \ log \ frac {1 + \ rho} {1 - \ rho} $ $

dove $ \ rho $ è la correlazione di Pearson di $ (X, Y) $. Questa espressione per $ Z $ è riconoscibile come trasformazione di Fisher di $ \ rho $ e quindi è equivalente a $ \ rho $ per la valutazione della linearità. È piacevole vederlo abbandonare automaticamente questi principi di base.


Questa derivazione ha mostrato che il coefficiente di correlazione di Pearson è il modo naturale per misurare la linearità di qualsiasi distribuzione bivariata $ (X, Y) $ quando i primi due momenti sono impiegati per valutare la tendenza centrale e la dispersione delle variabili.

Si può andare oltre e dimostrare che, tra tutte le possibili trasformazioni monotone invertibili di $ Z $, $ \ rho = \ tanh (z) $ gode di una relazione speciale con le misure di linearità nella regressione OLS (Simple Ordinary Minimi quadrati): $ \ rho ^ 2 $ è identico al coefficiente di determinazione, $ R ^ 2 $ nella regressione di $ Y $ contro $ X $ e nella regressione di $ X $ contro $ Y $. Questo è il motivo per cui viene utilizzato più spesso $ \ rho $ anziché $ Z $, anche nelle impostazioni di non regressione.

"È un piacere vederlo abbandonare automaticamente questi principi di base".Understatement.
A-Sus
2018-03-07 20:35:05 UTC
view on stackexchange narkive permalink

Vecchia domanda, sto ancora cercando una risposta. Embrechts (1998) o Kruskal (1958) danno questa spiegazione, che può aiutare, anche se per me non è così chiara come avrei sperato.

Sia $ \ alpha + \ beta X $ la migliore stima lineare di $ Y $ data $ X $ nel senso dei minimi quadrati, cioè $ E [Ya-bX] ^ 2 $ è minimizzata da $ a = \alpha $ e $ b = \ beta $.Quindi $ \ beta = \ text {Cov} (X, Y) / \ text {Var} (X) $ e $ \ alpha = E (Y) - \ beta E (X) $.Ne consegue che $$ \ rho ^ 2 (X, Y) = \ frac {\ text {Var} (Y) -E (Y- \ alpha - \ beta X) ^ 2} {\ text {Var} (Y)}.$$ Ciò significa che $ \ rho ^ 2 (X, Y) $ è la riduzione relativa media della deviazione al quadrato di $ Y $ dalla sua "migliore" stima lineare, relativa alla varianza marginale di $ Y $.

Buon contributo - benvenuto nel nostro sito!
@A-Sus: Questo è perspicace.Potete aiutarmi a capire come si ottiene l'espressione per il quadrato di correlazione?
@ColorStatistics: scusa per la risposta tardiva.Esprimendo $ \ rho ^ 2 $ usando la covarianza e sostituendo $ Cov (X, Y) ^ 2 = \ beta ^ 2 Var (X) ^ 2 $ dovresti facilmente arrivare a $ \ rho ^ 2 = Var (\ beta X) / Var (Y) $.Quindi devi solo dimostrare che il numeratore della frazione è uguale a $ Var (\ beta X) $.Questo perché $ E (Y- \ alpha- \ beta X) ^ 2 = Var (Y- \ alpha- \ beta X) + [E (Y- \ alpha- \ beta X)] ^ 2 $ e l'ultima aspettativa èzero (vedi l'espressione di $ \ alpha $).Quindi usa la formula per la varianza della somma di $ Y $ e $ \ alpha + \ beta X $ e nota che $ Cov (Y, \ beta X) = \ beta ^ 2 Var (X) = Var (\ beta X)$.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...