Voglio confrontare 2 vettori di lunghezza 43; hanno valori di 0 (non presente) e 1 (presente). Mi riferirò a $ M_ {1,1} $ come situazioni in cui entrambi 1 sono presenti, e $ M_ {1,0} $ e $ M_ {0,1} $ a situazioni in cui è presente un solo 1 mentre il l'altro valore è 0.
data3 $ IDS 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 0 0 0 0 0 0 0 0 0 0 0data3 $ CESD 1 1 1 0 1 1 0 0 0 0 0 1 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1
Voglio capire quanto sono correlati questi 2 vettori. Leggendo l'argomento, l'indice Jaccard sembra la strada da percorrere. In questo caso specifico, l'indice di Jaccard sarebbe (nota che sto usando la formula data accanto alla seconda cifra su Wikipedia): $$ \ frac {M_ {1,1}} {(M_ {1,0} + M_ {0,1} - M_ {1,1})} $$ Nel mio caso: $ 8 / (23 + 12 - 8) = 0,2962963 $
Utilizzando:
library ('clusteval') cluster_similarity (data3 $ IDS, data3 $ CESD, similarity = "jaccard", method = "indipendenza")
Restituisce:
0.553429
Non riesco a capire bene perché e dov'è l'errore che faccio.
Un'altra cosa che non capisco è nei casi di sovrapposizione elevata. Immagina $ M_ {1,1} = 30 $, con solo $ 2 $ valori ciascuno nelle celle $ M_ {1,0} $ e $ M_ {0,1} $. Ciò porterebbe a un indice Jaccard di $ 30 / (2 + 2-30) = -1.153846 $.
Ma l'indice J è definito solo tra 0 e 1. Dov'è il mio malinteso?