Domanda:
Come valutare se una moneta lanciata 900 volte e esce testa 490 volte è distorta?
Sanu
2012-01-24 05:09:04 UTC
view on stackexchange narkive permalink

Una moneta viene lanciata 900 volte e le teste sono apparse 490 volte. Il risultato supporta l'ipotesi che la moneta sia imparziale?

Per riferimento futuro: il crossposting di copie letterali della tua domanda su più siti SE è [fortemente sconsigliato] (http://meta.stackexchange.com/questions/64068/is-cross-posting-a-question-on-multiple-stack- siti-di-scambio-consentiti-se-il-qu). Ciò accade comunemente con i nuovi utenti che non hanno familiarità con questa politica, quindi non sentirti male. Solo, per favore, tienilo a mente. Benvenuto nel sito.
Ipotesi nulla: la moneta è imparziale. Alternativa, difficile da sapere, forse la probabilità simmetrica di una testa è $ \ ne 1/2 $. Livello di significatività: decidi tu. Se l'ipotesi nulla è valida, il numero di teste ha una distribuzione quasi normale, deviazione standard $ \ sqrt {(900) (1/2) (1/2)} = 15 $. Ora $ 490 $ è circa $ 2,66 $ unità di deviazione standard dalla media ($ 450 $) se l'ipotesi nulla è valida. Dalle tabelle di standard normale o meno, questo ha una probabilità di circa $ 0,0078 $. Quindi al livello di significatività di $ 1 $%, rifiutiamo l'ipotesi nulla.
Potresti dare un'occhiata a [Hypothese Testing] (http://en.wikipedia.org/wiki/Statistical_hypothesis_testing)
Questa domanda, che potrebbe essere esattamente ciò che afferma il problema dei compiti di OP Sanu o potrebbe essere la parafrasi di Sanu della domanda effettivamente posta, dice: "Il risultato supporta l'ipotesi che la moneta sia imparziale?" _ ** Tutte ** le risposte prendono il _null_ ipotesi essere $ P (\ text {Heads}) = 0,5 $. La mia domanda è: le osservazioni supportano mai l'ipotesi nulla? Anche se la moneta è uscita testa $ 450 $ volte su $ 900 $, questo _non_ supporta l'ipotesi nulla; solo prove molto deboli a sostegno del rifiuto del nulla. L'evidenza è sempre a favore del rigetto del nulla, mai a sostegno del nulla.
@Dilip: Se rileggi la risposta di Greg vedrai che il tuo commento sopra non è del tutto vero. Un test di equivalenza (o, spesso, bioequivalenza) ha un'alternativa che è una versione leggermente "sfocata" dell'ipotesi desiderata per la quale si vogliono prove. Penso che capirai immediatamente perché dobbiamo consentire un piccolo spazio di manovra in più di quanto vorremmo.
@cardinal Ritiro l'accusa secondo cui _tutte_ le risposte presumevano l'ipotesi nulla $ P (\ text {Heads}) = 0,5 $. Ma potresti affrontare il punto che nel test di ipotesi con un punto nullo, l'evidenza viene considerata solo in termini di rifiuto del nullo e mai a sostegno del nullo, e quindi la domanda "Il risultato supporta l'ipotesi che la moneta sia imparziale?" non è significativo o ha la semplice risposta No?
@Dilip: Penso che offra una buona opportunità per menzionare ciò che hai affermato. Sono certamente d'accordo sul fatto che nel tradizionale quadro di verifica delle ipotesi frequentista, non si interpreterebbe il non rifiuto dell'ipotesi nulla come un "supporto" esplicito per essa. Questa (piuttosto estrema) sottigliezza di interpretazione è sorprendentemente difficile da comunicare chiaramente e sembra essere un punto di perenne confusione per gli utenti delle statistiche. Da un punto di vista pratico, l'ipotesi nulla è spesso presa come punto di vista "predefinito" e la mancanza di rigetto è spesso considerata un segno per procedere "come eri".
Wikipedia ha una pagina per problemi di questo tipo: https://en.wikipedia.org/wiki/Checking_whether_a_coin_is_fair
Sette risposte:
André Nicolas
2012-01-24 08:59:39 UTC
view on stackexchange narkive permalink

Qui la naturale ipotesi nulla $ H_0 $ è che la moneta sia imparziale, cioè che la probabilità $ p $ di una testa sia uguale a $ 1/2 $. L'ipotesi alternativa più ragionevole $ H_1 $ è che $ p \ ne 1/2 $, sebbene si possa sostenere l'ipotesi alternativa unilaterale $ p>1 / 2 $.

Dobbiamo scegliere il livello di significatività del test. Dipende da te. Due numeri tradizionali sono $ 5 $% e $ 1 $%.

Supponiamo che valga l'ipotesi nulla. Quindi il numero di teste ha * distribuzione binomiale con media $ (900) (1/2) = 450 $ e deviazione standard $ \ sqrt {(900) (1/2) (1/2)} = 15 $.

La probabilità che nel lancio di una moneta equa il numero di teste differisca da $ 450 $ per $ 40 $ o più (in entrambe le direzioni) è, per simmetria, $$ 2 \ sum_ {k = 490} ^ {900} \ binom {900} {k} \ left (\ frac {1} {2} \ right) ^ {900}. $$ Questo non è pratico da calcolare a mano, ma Wolfram Alpha fornisce una risposta di circa $ 0,008419 $.

Quindi, se la moneta fosse imparziale, un numero di teste diverso da $ 450 $ per $ 40 $ o più sarebbe piuttosto improbabile. Avrebbe probabilità inferiore a $ 1 $%. quindi al livello di significatività di $ 1 $%, rifiutiamo l'ipotesi nulla.

Possiamo anche usare l'approssimazione normale al binomio per stimare la probabilità che il numero di teste sia $ \ ge 490 $ o $ \ le 410 $ sotto l'ipotesi nulla $ p = 1/2 $. La nostra normale ha media $ 450 $ e la varianza $ 15 $ è $ \ ge 490 $ con probabilità la probabilità che una normale standard sia $ \ ge 40/15 $. Dalle tabelle per il normale, questo è di circa $ 0,0039 $. Doppio per tenere conto della coda sinistra. Otteniamo circa $ 0,0078 $, abbastanza vicino al valore fornito da Wolfram Alpha, e inferiore a $ 1 $ \%. Quindi, se usiamo $ 1 $ \% come livello di significatività, rifiutiamo di nuovo l'ipotesi nulla $ H_0 $.

Commenti: $ 1 $. Nell'approssimazione normale al binomio, otteniamo una migliore approssimazione alla probabilità che il binomio sia $ \ ge 490 $ calcolando la probabilità che la normale sia $ \ ge 489,5 $. Se vuoi cercarlo, questa è la correzione della continuità . Se usiamo l'approssimazione normale con correzione di continuità, troviamo che la probabilità di $ 490 $ o più o $ 410 $ o meno teste è di circa $ 0,008468 $, abbastanza vicino alla risposta "esatta" fornita da Wolfram Alpha. Così possiamo trovare una stima molto accurata, come ai vecchi tempi, usando le tabelle del normale standard e facendo l'aritmetica "a mano".

$ 2 $. Supponiamo di utilizzare l'ipotesi alternativa un po 'meno naturale $ p>1 / 2 $. Se $ p = 1/2 $, la probabilità di $ 490 $ o più è di circa $ 0,00421 $. Quindi, ancora una volta al livello di significatività di $ 1 $%, rifiuteremmo l'ipotesi nulla, anzi la rifiuteremmo anche se usassimo il livello di significatività $ 0,005 $.

L'impostazione di un livello di significatività è sempre necessario, perché è possibile che una moneta equa produca, diciamo, $ 550 $ o più teste in lanci da $ 900 $, solo ridicolmente improbabile.

Questa domanda è stata contrassegnata come compito a casa. In questi casi, è scoraggiato dare una risposta completa e autonoma che non lasci lavoro alla persona che lo chiede.
Questa è stata una risposta di math.SE che si è fusa con la domanda ed è stata scritta da un utente di altissima reputazione in math.SE. La domanda non era stata etichettata come compito a casa in quel momento.
Non capisco bene la logica di "Quindi, se la moneta fosse imparziale, un numero di teste diverso da 450 per 40 o più sarebbe piuttosto improbabile".Perché dovremmo calcolare la probabilità di "40 o più", ma non "40 o meno" o solo "40"?
e quindi la risposta di @Marco's ha meno Mi piace e molti più commenti derivanti dalle confusioni: p
Macro
2012-01-24 05:55:25 UTC
view on stackexchange narkive permalink

Se la moneta è imparziale, la probabilità di "testa" è $ \ frac {1} {2} $. Pertanto, il numero di teste lanciate in 900 tentativi, $ X $, ha una distribuzione $ {\ rm Binomiale} (900, \ frac {1} {2}) $ sotto l'ipotesi nulla di una moneta equa. Quindi, il valore $ p $ - la probabilità di vedere un risultato così estremo o più estremo dato che la moneta è lontana, è

$$ P (X \ geq 490) $$

Se cerchi il valore $ p $ bilaterale, sarebbe

$$ 1 - P (410 < X < 490) $$

lasciate a voi la descrizione del motivo per cui è così.

Sappiamo che la funzione di massa per $ Y \ sim {\ rm Binomial} (n, p) $, è

$$ P (Y = y) = \ binom { n} {y} p ^ y (1-p) ^ {ny} $$

Lascio a te il calcolo del $ p $ -valore che cerchi.

Nota: la dimensione del campione qui è sufficientemente grande da poter utilizzare l'approssimazione normale alla distribuzione binomiale. Ho descritto sopra come calcolare il valore esatto $ p $.

Il valore $ p $ dovrebbe essere calcolato per un test bilaterale o un test unilaterale?
Immagino due facce, dal momento che la domanda cercava solo di determinare se la moneta fosse o meno imparziale. Cioè, sembra che $ H_ {a}: p \ neq 1/2 $. Ma non è chiaro se ciò che è scritto sopra sia la domanda letterale o una parafrasi.
Quindi in questo caso, e forse in molti altri, la simmetria implica che il valore $ p $ bilaterale è esattamente il doppio del valore $ p $ unilaterale. Il valore $ p $ unilaterale è minore di $ 0,005 $ mentre il valore $ p $ bilaterale è maggiore. Quindi il null dovrebbe essere rifiutato al livello $ 0,5 \% $ (lo so, non i livelli $ 5 \% $ e $ 1 \% $ più comunemente usati) se stiamo usando un test unilaterale e non rifiutato se stiamo usando un prova bilaterale. È corretto?
Sì, se eseguissi il test con il livello $ \ alpha = .005 $, rifiuteresti il ​​test unilaterale e non il test bilaterale. Tuttavia, se si esegue o meno un test unilaterale o bilaterale dovrebbe essere scelto a priori, in base alla domanda di ricerca, quindi questo problema non dovrebbe sorgere nella pratica.
"La scelta a priori di un test unilaterale o bilaterale" è valida, ma cosa succede se la scelta non è stata fatta? Si dovrebbe dire a OP Sanu che i dati sperimentali supportano l'ipotesi che la moneta sia imparziale al livello $ 0,5 \% $ (null non è rifiutato dal test bilaterale) ma supportano anche l'ipotesi che $ P (\ text {Heads}) > \ frac {1} {2} $ al livello $ 0,5 \% $ (null viene rifiutato da un test unilaterale)?
Ebbene, non rifiutare l'ipotesi nulla non "supporta" esattamente l'ipotesi nulla. Continuo a dire che la scelta deve essere fatta a priori e, se si tende ad accettare qualunque opzione rifiuti l'ipotesi nulla, allora ho il sospetto che questo gonfierà il tasso di "falsi positivi" e se si va sempre con la decisione più conservatrice , Sospetto che questo aumenterà il tasso di "falsi negativi".
Macro, da dove viene il 410?
Il 410 deriva dal fatto che, se la moneta è giusta, la probabilità che il numero di teste differisca da 450 di più dell'importo osservato (40) è la probabilità di vedere un risultato come, o più, estremo di quello osservato (cioè il valore $ p $ bilaterale)
Dikran Marsupial
2012-01-25 00:48:16 UTC
view on stackexchange narkive permalink

L ' esempio dalla pagina di Wikipedia su Bayes Factor sembra abbastanza pertinente alla domanda. Se abbiamo due modelli, M1 dove la moneta è esattamente non distorta (q = 0,5) e M2 dove la probabilità di una testa è sconosciuta, quindi usiamo una distribuzione a priori piatta su 1. Calcoliamo quindi il fattore di bayes

$ K = \ frac {p (x = 490 | M_0)} {p (x = 490 | M_1)} $

dove

$ p (x = 490 | M1) = \ mathrm {nchoosek} (900,490) \ frac12 ^ {900} = 7,5896 \ times10 ^ {- 4} $

e

$ p (x = 490 | M2) = \ int_0 ^ 1 \ mathrm {nchoosek} (900,490) q ^ {490} (1-q) ^ {410} dq = \ frac {1} {901} $

fornisce un Bayes fattore di $ K \ circa 1,4624 $, che secondo la normale scala di interpretazione è "appena degno di nota".

Si noti tuttavia (i) il fattore Bayes ha una penalità occam incorporata che favorisce i modelli semplici, e M1 è molto più semplice in quanto non ha parametri di disturbo, mentre M2 fa; (ii) un forfettario a priori su $ q $ non è fisicamente ragionevole, in pratica una moneta sbilanciata sarà quasi equa a meno che la moneta non sia ovviamente asimmetrica; (iii) è stata una giornata lunga e avrei potuto facilmente commettere un errore in qualche (qualsiasi) punto dell'analisi dalle ipotesi ai calcoli.

Nota che la moneta è parziale se è un oggetto fisico come la sua asimmetria significa che non avrà la stessa probabilità di uscire testa come croce.

Greg Snow
2012-01-24 08:05:18 UTC
view on stackexchange narkive permalink

La tua domanda potrebbe essere affrontata in diversi modi.

Il tradizionale test di ipotesi è progettato per escludere possibilità, non necessariamente per dimostrarle. In questo caso possiamo usare $ H_0: p = 0.5 $ come ipotesi nulla e vedere se i dati (i 490 su 900 teste) possono essere usati per rifiutare questa ipotesi nulla calcolando un valore p. Se il valore p è inferiore a $ \ alpha $, rifiutiamo il valore nullo, ma un valore p $ > \ alpha $ non significa che possiamo dire che i dati supportano il valore nullo, ma solo che è coerente con l'ipotesi che il null è vero, ma in verità il null potrebbe essere falso, solo la verità è un valore di $ p $ molto vicino a $ 0,5 $.

L'approccio "equivalenza" sarebbe definire imparziale non come $ p = 0,5 $ ma scegli piuttosto una piccola regione intorno a 0,5 da considerare come imparziale $ 0,5- \ epsilon < p < 0,5+ \ epsilon $. Quindi, se l'intervallo di confidenza sulla proporzione vera si trova completamente all'interno dell'intervallo di equivalenza di "imparziale", i dati supporterebbero l'ipotesi di "imparzialità".

Un altro approccio sarebbe quello di utilizzare un approccio bayesiano da cui partiamo con una distribuzione a priori sulla proporzione reale $ p $ includendo una massa puntiforme a 0,5 e il resto della probabilità diffusa tra i valori possibili. Quindi combinalo con i dati per ottenere un posteriore. Se la probabilità posterioun di $ p = 0,5 $ è sufficientemente alta, ciò sosterrebbe l'affermazione di essere imparziali.

Si noti che spesso l'approccio bayesiano si tradurrà in posteriori continui, e quindi la probabilità a posteriori di $ p = 0,5 $ * esattamente * è spesso 0. La domanda più interessante è allora qual è la differenza tra la nostra stima a posteriori e .5.
@MichaelMcGowan: se si inizia con una massa del punto precedente a $ p = 0,5 $, ci sarà anche una massa del punto posteriore. Se questo precedente ha senso o meno dipende dal problema ...
B_Miner
2012-01-25 04:06:24 UTC
view on stackexchange narkive permalink

E un'illustrazione R:

Non preoccupandoci di approssimare in base al normale, possiamo guardare un binomio distribuito variabile casuale con n = 900 ep = 0,5 sotto l'ipotesi nulla (cioè se la moneta fosse non corretto quindi p = probabilità di testa (o croce) = 0,5).

Se volessimo testare l'alternativa che Ha: p<> 0,5 ad alfa 0,05 possiamo guardare le code della distribuzione sotto il nulla come segue e vedere che 490 non rientra nell'intervallo {421, 479 } e quindi rifiutiamo Ho.

  n<-900p<-0.5qbinom (c (0.025,0.975), size = n, prob = p) # 421 479  
mdaoust
2012-01-24 16:55:43 UTC
view on stackexchange narkive permalink

Per chiarire l'approccio bayesiano:

Inizi non sapendo nulla, tranne che P (Heads) è in [0,1] . Quindi inizia con un'entropia massima prima -> uniform (0,1) . Questo può essere rappresentato come una distribuzione beta -> beta(1,1).

Ogni volta che lanci la moneta esegui un aggiornamento bayesiano della P della moneta (Teste) moltiplicando ogni punto nella distribuzione per la sua probabilità (moltiplicare per x se tiri testa, moltiplicare per (1-x) se ottieni croce) e normalizza nuovamente la probabilità totale a 1. Questo è ciò che fa la distribuzione beta, quindi se il primo tiro è testa avrai beta (2,1) . Nel tuo caso hai beta(490,510).

Da lì calcolerei l'intervallo di probabilità del 95% e se 0,5 non è in quell'intervallo, inizierei a ottenere sospettoso.

La prima volta che ho eseguito questo esercizio sono rimasto davvero sorpreso di quanto tempo ci sia voluto per convergere ... Ho iniziato perché qualcuno ha detto "se lanci una moneta 100 volte, sai P (Heads) a +/- 1% "questo risulta essere totalmente sbagliato, hai bisogno di magnitudini superiori a 100 flip.

Mithun Krishnan k
2014-05-08 15:19:48 UTC
view on stackexchange narkive permalink

Ipotesi nulla, Ho: P = 0,5 (P = Q = 0,5)

H1: P> 0,5

dove P è il problema di prevalenza.

sappiamo z = (pP) / sqrt (PQ / N)

dove p = 490/900 = 0,54

Ora z = (0,54-0,5) / sqrt ( (0,5 * 0,5) / 900)

z = 2

quindi al 5% di LOS (cioè 1,64<2) Ho è rifiutato

quindi la moneta è di parte .....

Benvenuto nel nostro sito! Hai letto le altre risposte prima di rispondere? Potresti apprezzare le analisi ponderate contenute in molti di essi. Includono gli stessi calcoli, quindi mi chiedo quale parte della tua risposta o della sua forma di presentazione rappresenti qualcosa di più nuovo o migliore di ciò che è già stato pubblicato.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...