Se si desidera verificare la significatività in modo non parametrico, è possibile eseguire il bootstrap degli intervalli di confidenza sul rapporto, oppure eseguire un test di permutazione sulle due classi. Ad esempio, per eseguire il bootstrap, creare due array: uno con 3 unità e 999.997 zeri e uno con 10 unità e 999.990 zeri. Quindi disegnare con la sostituzione un campione di 1 milione di articoli dalla prima popolazione e un campione di 1 milione di articoli dalla seconda popolazione. Il rapporto che ci interessaèil rapporto tra "hit" nel primo gruppo e rapporto tra "hit" nel secondo gruppo, oppure: (proporzione di quelli nel primo campione) / (proporzione di quelli nel secondo campione ). Lo facciamo 1000 volte. Non ho matlab a portata di mano, ma ecco il codice R per farlo:
# genera i dati del test da campionare da v1 <- c (rep (1,3), rep (0,999997 )) v2 <- c (rep (1,10), rep (0,999990)) # imposta i vettori che manterranno la nostra proporzionest1 <- vector () t2 <- vector () # loop 1000 volte ogni volta campione con sostituire dai dati del test e # registrare la proporzione di 1 da ogni campione # nota: questo passaggio richiede alcuni minuti. Ci sono modi per scriverlo in modo che # vada più veloce in R (si applica), ma è più ovvio cosa sta succedendo in questo modo: per (i in 1: 1000) {t1 [i] <- length (which (sample ( v1,1000000, replace = TRUE) == 1)) / 1000000 t2 [i] <- length (which (sample (v2,1000000, replace = TRUE) == 1)) / 1000000} # qual era il rapporto tra proporzione di 1 tra ciascun gruppo per ciascun sorteggio casuale? rapporti <- t1 / t2 # afferra l'intervallo di confidenza del 95% sul quantile di campioni bootstrap (rapporti, c (.05, .95)) # e l'intervallo di confidenza del 99 %quantile (rapporti, c (.01, .99))
L'output è: 5% 95% 0,0000000 0,8333333 e: 1% 99% 0,00 1,25
Poiché l'intervallo di confidenza del 95% non si sovrappone all'ipotesi nulla (1), ma l'intervallo di confidenza del 99% sì, credo che sarebbe corretto affermare che questo è significativo ad un alfa di 0,05 ma non a 0,01.
Un altro modo per vederlo è con un test di permutazione per stimare la distribuzione dei rapporti data l'ipotesi nulla. In questo caso mescolerai i due campioni insieme e li divideresti casualmente in due gruppi da 1.000.000 di elementi. Quindi vedresti come appare la distribuzione dei rapporti sotto l'ipotesi nulla, e il tuo valore p empirico è quanto sia estremo il rapporto vero data questa distribuzione di rapporti nulli. Di nuovo, il codice R:
# genera i dati del test da campionare da v1 <- c (rep (1,3), rep (0,999997)) v2 <- c (rep (1 , 10), rep (0,999990)) v3 <- c (v1, v2) # vettori per mantenere l'ipotesi nulla ratiost1 <- vettore () t2 <- vettore () # loop 1000 volte; ogni volta dividi casualmente i campioni # in 2 gruppi e vedi quali sono le proporzioni di quei due gruppi casuali (i in 1: 1000) {idxs <- sample (1: 2000000,1000000, replace = FALSE) s1 <- v3 [idxs] s2 <- v3 [-idxs] t1 [i] <- lunghezza (which (s1 == 1)) / 1000000 t2 [i] <- lunghezza (which (s2 == 1)) / 1000000} # vettore dei rapporti <- t1 / t2 # dai un'occhiata al diagramma di distribuzione (densità (rapporti)) # calcola il rapporto campionato delle proporzioni campione.ratio <- ((3/1000000) / (10/1000000)) # dove si trova questa caduta sulla distribuzione di proporzioni nulle? plot (abline (v = sample.ratio)) # questo rapporto (r + 1) / (n + 1) fornisce il valore p del campione reale (length (which (ratios < = sample.ratio) ) + 1) / (1001)
L'output è ~ .0412 (ovviamente questo varierà da corsa a esecuzione poiché si basa su estrazioni casuali). Quindi, di nuovo, potresti potenzialmente chiamarlo significativo al valore .05.
Dovrei emettere delle avvertenze: dipende anche da come sono stati raccolti i tuoi dati e dal tipo di studio, e io sono solo uno studente laureato, quindi non prendere la mia parola come oro. Se qualcuno dovesse criticare i miei metodi, mi piacerebbe sentirli visto che sto facendo queste cose anche per il mio lavoro e mi piacerebbe scoprire che i metodi sono difettosi qui piuttosto che nella revisione tra pari. Per altre cose come questa, dai un'occhiata a Efron & Tibshirani 1993, o al capitolo 14 di Introduzione alla pratica delle statistiche di David Moore (un buon libro di testo generale per professionisti).