Domanda:
Lavorare con i coefficienti di correlazione
Adhesh Josh
2011-08-31 17:42:43 UTC
view on stackexchange narkive permalink

Ho tre coefficienti di correlazione di Pearson (.8978, .5676 e .7865) per tre gruppi di età (cioè da 21 a 30 anni, da 31 a 40 anni e da 41 a 50 anni) di cui sto studiando il comportamento rispetto ai loro acquisti abitudini contro aumento di peso.

Posso dire che .8978 è la relazione più forte tra abitudini di acquisto e aumento di peso?

In base alla differenza dei coefficienti, posso dire che c'è una differenza nelle abitudini di acquisto e nell'aumento di peso dei tre gruppi di età?

Infine, posso semplicemente aggiungere il i tre coefficienti e dividere per tre per ottenere una media?

Tutte queste sono interpretazioni del "valore nominale". Sono accettabili o devo eseguire una sorta di analisi statistica? Se è quest'ultimo (il cielo non lo voglia), può farlo SPSS?

Giusto per essere sicuri, i coefficienti di correlazione sono tra abitudini di acquisto e aumento di peso per tre sottopopolazioni?
Sì, i coefficienti di correlazione sono tra le abitudini di acquisto e l'aumento di peso come segue: da 21 a 30 anni (.8978, dimensione del campione 105), da 31 a 40 anni (.5678, dimensione del campione 95) e da 41 a 50 anni (.7865, dimensione del campione 120).
Devi leggere ["Valori di correlazione della media"] (http://stats.stackexchange.com/questions/8019/averaging-correlation-values/8023#8023). Una discussione lì (da allora eliminata) ha indicato che alcune persone usano la trasformazione di Fisher per calcolare la media, mentre altri sollevano dubbi sulla sua significatività. Una cosa è chiara: qualsiasi combinazione matematica dei tre coefficienti di correlazione non ha necessariamente una relazione prevedibile con la correlazione tra acquisti e peso per tutte le età 21-50 anni.
La correlazione media potrebbe non avere alcuna relazione con la correlazione nell'intero set di dati.Vedi: [Simpson's Paradox] (https://en.wikipedia.org/wiki/Simpson%27s_paradox)
Due risposte:
#1
+12
Felix S
2011-08-31 20:26:55 UTC
view on stackexchange narkive permalink

Posso dire che .8978 è la relazione più forte tra abitudini di acquisto e aumento di peso?

Descrittivamente, puoi dire che è la relazione più forte. Se è significativamente più forte degli altri due dipende dalla dimensione del campione. C'è un calcolatore online per questo.

Sulla base della differenza nei coefficienti, posso dire che c'è una differenza nelle abitudini di acquisto e nell'aumento di peso dei tre gruppi di età?

Questa è la stessa domanda statistica di cui sopra. Verifica ogni coppia di correlazioni per il significato della differenza. Mentre esegui tre test, potresti pensare a una correzione del livello $ \ alpha $. Un'altra possibilità elaborata qui sarebbe quella di aggiungere un gruppo di età come variabile codificata fittizia in un'analisi di regressione.

Infine, posso semplicemente aggiungere i tre coefficienti e dividere per tre per ottenere una media?

No. Per ottenere una correlazione media, devi eseguire una trasformazione da $ r $ -a- $ Z $ ( $ Z $ di Fisher), calcolare la media di questi valori trasformati e ritrasformare la media $ Z $ in $ r $ di nuovo. Per la trasformazione, ci sono diversi calcolatori online.

Benvenuto nel nostro sito, Felix!
In che senso il metodo che utilizza la trasformazione di Fisher è una * media * legittima di coefficienti di correlazione? Cosa significherebbe questa media? Si noti che con questo approccio, se una delle correlazioni fosse 1.0 e tutte le altre fossero maggiori di -1.0, questa "media" sarebbe uguale a 1.0.
Ma solo per il caso al contorno di una correlazione di 1.0, che porta a una Z di Ìnf`. Nel caso empiricamente più probabile di correlazioni <| 1 |, la media retro-trasformata degli Zs è meno distorta della media delle rs originali (vedere ad esempio [qui] (http://bit.ly/oqRE0k) o [qui] (http://www.sciencedirect.com/science/article/pii/S0021901003015395)).
#2
+6
StasK
2011-09-02 00:21:57 UTC
view on stackexchange narkive permalink

La media dei coefficienti di correlazione è un'operazione priva di significato. La correlazione è $$ \ rho = \ frac {\ mbox {Cov} [X, Y]} {\ sqrt {\ mbox {Var} [X] \ mbox {Var} [Y]}}. $$ Non puoi nemmeno fare la media le sue componenti (la covarianza e due varianze), a meno che le medie di tutti i gruppi su entrambe le variabili non siano le stesse. In caso contrario, la varianza / covarianza della popolazione sarà maggiore / diversa dalla somma (ponderata) di varianze / covarianze a causa delle differenze tra i gruppi.

In realtà, la media delle correlazioni viene eseguita in molti contesti statistici, ad es. per il calcolo di [alfa di Cronbach] (http://en.wikipedia.org/wiki/Cronbach%27s_alpha). Non riesco davvero a capire il tuo argomento ... Ovviamente il buon senso è necessario per questo calcolo della media. Se si media coefficienti da variabili diverse o da campioni molto diversi, la media risultante potrebbe non avere alcun senso. Ma, IMO, questa è piuttosto una questione di contenuto e non di procedure statistiche.
@Felix La preoccupazione potrebbe riguardare il potenziale di interpretazioni errate. "La correlazione media era 0,75" ci dice qualcosa sui gruppi di età separatamente, ma non ci dice quasi nulla sulla correlazione complessiva per tutti i gruppi di età, che in linea di principio potrebbe essere quasi pari a -1 e quasi pari a +1 ( e danno ancora una media di 0,75).
L'alfa di Cronbach di @Felix, funziona con le varianze e fa alcune forti ipotesi sulle misure tau-equivalenti, cioè ipotesi simili sulla costanza delle varianze. Inoltre, l'alfa di Cronbach funziona con le covarianze misurate sugli stessi individui, mentre qui l'OP vuole fare la media tra i gruppi di popolazione. Queste sono semplicemente diverse dimensioni della media.
@StasK: Sono totalmente d'accordo con te sul fatto che l'alfa di Cronbach è un altro scenario rispetto a quello pubblicato nella domanda originale. Il mio esempio è stato piuttosto inteso come una risposta a "La media dei coefficienti di correlazione è un'operazione priva di significato". Fare questa media ha sicuramente molte insidie ​​e usi impropri; ma AFAIK ci _sono_ scenari, dove non è un'operazione priva di significato. Altrimenti, molti libri di testo statistici e molta ricerca psicologica sarebbero privi di significato (... ma forse lo è ...).
@whuber: È vero. Soprattutto nel caso di set di dati gerarchici, la correlazione all'interno dei sottogruppi potrebbe andare nella direzione opposta rispetto alla correlazione di tutti i punti di dati (che porta a un [errore ecologico] (http://en.wikipedia.org/wiki/Ecological_correlation )). Il calcolo di una media in generale può essere privo di significato in molte situazioni (ad esempio, con distribuzioni bimodali) e il calcolo di una media di misure aggregate può essere ancora più problematico. Voglio solo sostenere che _se_ si vuole calcolare la media, la Z di Fisher è il modo per farlo (vedere ad esempio [qui] (http://bit.ly/oqRE0k)).
@StasK È necessaria una radice quadrata nel denominatore del coefficiente di correlazione.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...