Domanda:
Qual è il nome di questo errore statistico?
thanby
2015-09-03 00:31:49 UTC
view on stackexchange narkive permalink

Mi è stato raccontato un aneddoto da qualcuno oggi che stava cercando di dimostrare un punto riguardo alla sicurezza. Hanno detto "50 persone hanno vissuto in [area a] negli ultimi due anni un anno (a quanto pare mi ricordavo male la conversazione) e non ci sono stati incidenti, quindi l'area è sicura per più persone che vi vivano. "

L '[area a] sembra essere quella che il governo considera una zona ad alto rischio, con un'elevata minaccia per la sicurezza personale (in particolare la morte). So che il ragionamento di questa persona è errato, ma mi piacerebbe conoscere il nome esatto e la spiegazione di quel difetto, perché ritengo che sia abbastanza comune.

Vedo due fattori principali che contribuiscono all'errore:

  • Campione di piccole dimensioni
  • Il rischio è fortemente pesato sul lato "morte" delle cose, non è un rischio elevato di tagliare la carta

Come definirei questo difetto nonostante il fatto che la persona abbia tecnicamente ragione nel dire "Non ci sono stati incidenti"?

Modifica per chiarezza: questo [area a] è equivalente a un edificio ed è occupata da più di un semplice insieme campione. L'area si trova all'interno di una regione più ampia in cui vi è un elevato rischio di danni o morte e l'area non offre alcuna protezione speciale contro di essa. Gli episodi di rischio sono rari, ma certamente superiori al tasso di background e si si verificano in questa regione più ampia.

Sembra la legge dei piccoli numeri http://pirate.shu.edu/~hovancjo/exp_read/tversky.htm
Non vedo alcun errore * di per sé *: questo sembra essere un tentativo fondato di ragionare con i dati, anche se forse con un piccolo set di dati (che non è un errore in sé).Ma quelle 50 persone sono solo quelle che il tuo interlocutore conosce o sono un censimento completo di tutte le persone che vivono nella zona?
Proprio quelli che gli capita di conoscere, in una regione molto più grande dove * accadono * incidenti.
E per quanto ne so, altri incidenti si verificano all'interno di [area a] che semplicemente non influenzano questo campione.
Chiamo questo errore "errore dell'argomento non convincente".L'argomento è troppo vago per essere sbagliato.Non è solo convincente.
"Argomento poco convincente" è esattamente il motivo per cui l'ho portato qui :) Spero che ci sia un nome / una spiegazione più scientifica che lo accompagni.
Questo mi ricorda uno scherzo.L '"argomento" di un criminale immaginario in tribunale è: "Posso portare 50 testimoni che non hanno visto quello che lei sostiene che io abbia fatto".
@thanby: Ho studiato matematica e non ho mai compreso appieno la necessità che le persone abbiano di tassonomizzare argomenti errati.Segue o no ;-) Ma certo, se molte persone commettono lo stesso errore, dovrebbe esserci un nome, che si tratti di "capovolgere il segno durante la copia" o "errore aneddotico".
Lo chiamerei semplicemente "campionamento non valido".... O "Questo è il modo in cui abbiamo ottenuto la correlazione" Maledette bugie e statistiche ".
ELU correlato: [credi che non accadrà perché non è mai successo?] (Http://english.stackexchange.com/questions/145403/is-there-are-term-for-when-you-believe-that-because-qualcosa-non-è-successo-i) * falsa analogia / generalizzazione *
Vedi anche, [wiki / Faulty_generalization] (https://en.wikipedia.org/wiki/Faulty_generalization) * fallacia dell'induzione difettosa *
Riferimento xkcd obbligatorio: [what-if no 27] (https://what-if.xkcd.com/27/).Sapevi che solo il 93% degli esseri umani che sono mai vissuti sono effettivamente morti?Ciò significa che c'è una probabilità del 7% di essere immortale, giusto ...?Ancora meglio se sei un membro dei Beatles: solo il 50% di loro è morto ...
Devi essere più specifico su quale sia il pericolo perché, al momento, non è nemmeno chiaro come l'argomento sia sbagliato.Ad esempio, se il rischio sono le catastrofi (ad esempio i terremoti), l'argomento è sbagliato perché le catastrofi si verificano meno spesso di ogni due anni.Se il rischio è la contaminazione che causa, ad esempio, il cancro, l'argomento è sbagliato perché due anni non sono sufficienti per la formazione del cancro.D'altra parte, se il rischio è qualcosa come orsi che uccidono le persone, allora nessun incidente in due anni è una prova abbastanza buona che il posto è sicuro.
Nate Silver sottolinea questo punto nel suo libro The Signal and The Noise.Se un'area storicamente ha avuto un terremoto in media una volta ogni 35 anni ma non ne ha avuto uno per 40, questo non significa che succederà domani o che non lo sia, né cambia la statistica.Come molti altri hanno sottolineato.
Mi chiedo se si tratti di C8
Per quanto ne so, questo è semplicemente un vecchio non sequitur: la sua conclusione non segue logicamente dai suoi dati.
@DavidRicherby Il rischio è più vicino a "gli orsi uccidono le persone" e nella regione più grande accade più volte all'anno, semplicemente non è successo in questa piccola area.Secondo la bellissima logica di xkcd che AndyT ha sottolineato, questo deve significare che chiunque viva in questa zona è immortale.
Otto risposte:
Greg Snow
2015-09-03 01:18:45 UTC
view on stackexchange narkive permalink

Non ho un nome specifico per l'errore, ma ecco un riferimento che penso sia rilevante (lungo la linea della legge dei piccoli numeri):

The Most Dangerous Equation

Anche una regola pratica (vedere la sezione 2.9) dice che un intervallo di confidenza approssimativo del 95% per il tasso di incidenza di 2 anni dato nessuno in 2 anni sarebbe da Da 0 a $ \ frac {3} {50} $, quindi l'incidenza potrebbe raggiungere il 6%. Quindi, se trasferissi altre 1.000 persone, non sarebbe sorprendente vedere 60 incidenze nei prossimi 2 anni.

Pensandoci di più, se la piccola area fosse scelta perché non ci sono incidenti e ce ne sono alcuni nell'area più ampia, questa sarebbe una variazione del Texas Sharpshooter Fallacy.

Nel caso in cui il collegamento "Most Dangerous Equation" scompaia, indica che piccoli campioni mostrano una maggiore variabilità, quindi è più probabile che si ottenga un risultato più estremo ("molto sicuro" o "molto pericoloso") osservando solo una piccola area.Sono sicuro che dovrebbe esserci un nome per questo fenomeno, ma non riesco a pensarci.
Sembra che alcune persone lo chiamino errore di dimensione del campione o errore di piccolo campione: http://www.oxfordreference.com/view/10.1093/oi/authority.20110803100439475
Vale anche la pena sottolineare che questa è la base per [funnel plots] (https://en.wikipedia.org/wiki/Funnel_plot), che mostrano la maggiore variabilità in campioni più piccoli.
Stranamente, quando è stata interrogata sull'argomento, la persona ha risposto che [area a] è più sicura di [area b] (che è a breve distanza) perché [area b] ha avuto un incidente piuttosto grande negli ultimi dieci anni, quindi penso che ilL'errore del Texas Sharpshooter si applica in qualche modo, sebbene non fosse il loro argomento originale
wonder
2015-09-03 05:37:14 UTC
view on stackexchange narkive permalink

Suona anche come la parabola del tacchino del ringraziamento:

http://www.businessinsider.com/nassim-talebs-black-swan-thanksgiving-turkey-2014-11

Ogni mattina l'allevatore nutre bene il tacchino. Dopo 1000 giorni il tacchino sostiene che l'agricoltore è benevolo e il modello continuerà. Ma il giorno 1001 è il Ringraziamento ...

(Nota per i lettori di tutto il mondo: il Ringraziamento è una festa degli Stati Uniti in cui è consuetudine mangiare il tacchino.)

Puoi spiegare "la parabola del tacchino del ringraziamento" (ad esempio, nel caso in cui il collegamento scompaia)?
Quell'argomento del "cigno nero" può essere il miglior contrappunto al presupposto di sicurezza, perché, come descrive Nassim, un singolo incidente comprometterebbe l'intera ipotesi (che è un grosso problema quando si parla di vite umane).
Hugh
2015-09-03 07:19:45 UTC
view on stackexchange narkive permalink

Questo non è un errore, ma piuttosto il problema dell'induzione, reso popolare da David Hume.

NoAnswer
2015-09-03 17:18:36 UTC
view on stackexchange narkive permalink

Caso generale di fallacia dei sopravvissuti:

Guardare solo / per cose che non hanno fallito distorce la tua percezione. Questo può portarti a un comportamento non testato e quindi intollerante al fallimento.

Il solito esempio è l'osservazione di aerei di ritorno dal combattimento aereo: "Hai bisogno di aumentare l'armatura nei luoghi in cui gli aerei di ritorno sono stati colpiti?" Presumibilmente è dove è probabile che gli aerei vengano colpiti .

Tuttavia la risposta è controintuitiva "No, perché è dove è probabile che gli aerei vengano colpiti e sopravvivi . " Quindi i colpi lì sono comunque sopravvissuti.

Ottieni risultati reali, quando aumenti l'armatura in punti in cui i "sopravvissuti" non sono stati colpiti, perché è lì che sono stati colpiti i "non sopravvissuti".

Per il tuo caso (singolare):

Con la precondizione di spostare una sola persona in un'area con incidenti che portano alla morte. Devo spostarmi in una sottoarea che non ha è stato colpito da un incidente?

No, per quelle sotto-aree semplicemente non hai dati conclusivi.

Devi invece spostarti in una sotto-area in cui gli incidenti succedono ma non portano alla morte. L'obiettivo non è quello di non avere incidenti, ma di sopravvivere, nel caso si verifichi, giusto?

Se non vuoi che l'incidente accada, non dovresti spostarti nell'area più ampia nel primo posto!

Per il tuo caso (plurale):

Se desideri spostare un numero statisticamente rilevante di persone nell'area in cui è possibile sopravvivere agli incidenti, devi prima controllare se il Il motivo per cui gli incidenti sono sopravvissuti è la bassa densità di popolazione in detta area.

Se gli incidenti sono sopravvissuti in aree a bassa densità di popolazione, il trasferimento di persone non renderebbe le persone al sicuro ma l'area non è sicura.

Un'altra visione delle cose:

Se ci sono 1000 persone nell'area più grande, di cui 20 sono morte nell'ultimo incidente, allora ci sono ancora 980 sopravvissuti rimasti a raccontare la storia. È sicuro, perché più persone sono sopravvissute che morte?

Sicuramente la maggior parte delle 980 persone non erano nemmeno vicine alle 20 morte, quando è successo. Diventa più sicuro, se glielo chiedi?

Puoi chiedere alle 20 persone morte, se lo considerano ancora sicuro?

La conclusione è che tu sentiti al sicuro fintanto che chiedi ai sopravvissuti , che non hanno assistito all'incidente. Dato che puoi solo chiedere ai sopravvissuti , è probabile che non siano stati testimoni dell'incidente.

Quindi, errore dei sopravvissuti .

Errori correlati:

Altri hanno menzionato altri errori. Non voglio ripeterli in dettaglio. Tuttavia vedo che si applicano anche loro. Quindi, ecco una raccolta e gli aspetti per cui si applicano e perché sono diversi:

  • Errore dei sopravvissuti : concentrarsi solo sui risultati favorevoli.
  • Errore del tiratore scelto del Texas : scelta di un sottocampione col senno di poi.
  • Errore della mano calda : interpretare la variazione casuale dei risultati come indicazione della distribuzione di probabilità, specialmente quando si guarda nella storia più recente.
  • Legge sui numeri piccoli : basarsi su dati insufficienti.
  • Errore del tasso di base : sottovalutare l'importanza di informazioni generali a favore di informazioni più specifiche.

C'è un altro ben noto errore che inizialmente ho scambiato per "mano calda". Ora che ci penso, in realtà non si applica:

  • Errore del giocatore : fraintendere la legge dei grandi numeri significa che eventi indipendenti si sarebbero uniformati nel lungo periodo.

È una specie di errore rovesciato della mano calda: cadendo per "mano calda", scommetteresti su ciò che è successo più spesso nella storia recente, sembra più probabile.
Cadendo per "Giocatore", scommetteresti contro quello che è successo più spesso, perché il contrario sembra aver bisogno di essere pareggiato nel lungo periodo.

Mi piace il tuo riassunto in fondo, ma non è quello che dice l'errore del giocatore.L'errore del giocatore è l'idea che i campioni futuri abbiano la tendenza a compensare (variazioni dai valori attesi di) campioni passati.
Grazie per la risposta esauriente.Quello che mi ha fatto davvero pensare è stato "l'errore del sopravvissuto" perché in questo caso si applica effettivamente.La persona che fa l'ipotesi non conosce personalmente nessuno che sia stato collegato a una vittima (il tasso complessivo di incidenti è ancora piccolo, è solo molto più alto della media per una regione geografica più ampia), quindi penso che questo offuschi in una certa misura il loro giudizio.
Lauren Goodwin
2015-09-03 03:08:00 UTC
view on stackexchange narkive permalink

Questo suona come l'errore della mano calda per me.

https://en.wikipedia.org/wiki/Hot-hand_fallacy

Durante l'insegnamento delle statistiche introduttive ho scoperto che molti studenti si sono innamorati di questo errore . Quindi l'idea è nel senso del basket, ha fatto X quantità di colpi che è più probabile che faccia X + 1 tiro. Stessa idea qui X quantità di persone vivono qui senza incidenti, quindi nessun incidente dovrebbe verificarsi se X + 1 persone sono presenti.

Questo deve essere formulato con molta attenzione.Non c'è errore nella convinzione che un tiro da basket abbia maggiori probabilità di avere successo se il tiratore ha effettuato i suoi ultimi colpi da $ X $ rispetto a se avesse appena perso gli ultimi colpi da $ X $: questo sta solo dicendo che i buoni giocatori fanno di piùtiri che cattivi giocatori.L'errore è quello di credere che un giocatore specifico, che effettua tiri con probabilità $ p $, effettuerà il tiro successivo con probabilità maggiore di $ p $ se ha effettuato i precedenti tiri $ X $;si scopre che i colpi successivi di un dato giocatore sono quasi indipendenti.
La pagina di Wikipedia deve essere aggiornata.Ci sono alcune prove abbastanza buone che ora c'è un motivo per credere nella serie.Gelman continua a seguirlo così puoi controllare il suo blog.
@John Interessante.Devo ammettere che ero un po 'scettico anche sull'errore formulato correttamente: sicuramente ogni giocatore ha giorni buoni e giorni cattivi e aver appena realizzato una serie di vittorie rende meno probabile che il giocatore osservato stia avendo una brutta giornata.
Posso dire che l'indipendenza dal successo nel tempo non è necessariamente vera.L'evento del mio "primo di servizio" nel tennis è autocorrelato in modo altamente positivo.Ciò avrebbe un grave effetto sulla probabilità di doppio fallo se si usasse solo la "prima" di servizio, anche come seconda.In base all'indipendenza, probabilità di doppio fallo = 1 - (1-p) ^ 2, dove p è la probabilità di un servizio. L'autocorrelazione positiva rende la probabilità effettiva di doppio fallo usando solo il "primo" servizio molto più alto.Essere nel solco può essere un fenomeno molto reale nello sport e in altri impegni.
Ci ho pensato e sebbene possa avere un ruolo nella valutazione iniziale della persona, non penso che sia la risposta completa.Il presupposto è che la sicurezza sia garantita per x-> infinito non solo per x + 1
shadowtalker
2015-09-04 09:46:16 UTC
view on stackexchange narkive permalink

Questo è l ' errore del tasso di base :

se presentato con informazioni sul tasso di base correlate (ad esempio informazioni generiche, generali) e specifiche informazioni (informazioni relative solo a un determinato caso), la mente tende a ignorare il primo e concentrarsi sul secondo.

In questo caso, il tasso base di morte è piuttosto alto, ma il l'informazione specifica è che ci sono almeno 50 persone che vivono nella zona che sono rimaste illese.

Questo è un buon punto logico, ma lo chiamerei quasi un tasso di base doppio, perché il tasso di base per la regione più ampia è ancora basso rispetto alla popolazione, ma è molto più alto del tasso di base per il resto del mondo (Sto semplificando un po 'per amore della lunghezza del commento ma hai capito).
@thanby forse, ma dipende da ciò che definisci come la tua "base".Si tratta di confondere le distribuzioni marginale e condizionale.Sto anche allungando la definizione un po 'di più di quanto pensassi quando l'ho postato per la prima volta.
Alecos Papadopoulos
2015-09-03 15:32:31 UTC
view on stackexchange narkive permalink

L'inferenza statistica diventa invalida quando non c'è variabilità e in questo caso la variabilità è inesistente. Quindi l'unico modo in cui l'argomento:

"50 persone hanno vissuto in [area a] negli ultimi due anni e non ci sono stati incidenti, quindi l'area è sicura per più persone viverci. "

può essere esaminato, non è statistico, cioè deterministico. Pertanto l'argomento è metodologicamente valido (non corretto di fatto) solo se viene letto come

"50 persone hanno vissuto in [area a] negli ultimi due anni e non si sono verificati incidenti, pertanto il tasso di incidenti nell'area è e rimarrà zero . "

Wow. Sono impressionato dal livello di confidenza della persona che dice questo.

Qualsiasi inferenza implicita del tipo "se il tasso è zero nel campione, ci aspettiamo che sia" piccolo / accettabile / "normale" in la popolazione "(come si potrebbe intendere l'affermazione" è sicuro viverci ") è spazzatura, sia perché non esiste una base da estrapolare dal campione alla popolazione, ma anche perché non esiste una base da estrapolare dal passato / presente al futuro.

Come direbbe Fisher, "ottieni più dati".

Sono totalmente d'accordo con la tua valutazione.Questa persona è davvero fiduciosa che il tasso di incidenti rimarrà zero, e sono anche impressionato (e un po 'inorridito) dal loro livello di fiducia.
Ma puoi dire bene, per esempio, costruire un intervallo di confidenza basato su un'osservazione binomiale pari a zero.Questa è un'inferenza statistica valida senza variazione.Quindi, come affermato, la tua richiesta non è valida.
@kjetilbhalvorsen [forse] (http://andrewgelman.com/wp-content/uploads/2014/09/fundamentalError.pdf)


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...