Domanda:
Famose vittorie statistiche e storie dell'orrore a scopo didattico
Placidia
2019-11-01 18:07:37 UTC
view on stackexchange narkive permalink

Sto progettando un programma di un anno di analisi dei dati con un college della comunità locale. Il programma mira a preparare gli studenti a gestire attività di base nell'analisi dei dati, visualizzazione e riepilogo, competenze avanzate di Excel e programmazione R.

Vorrei preparare una serie di brevi esempi del mondo reale che illustrino i punti in cui l'intuizione ordinaria fallisce e l'analisi statistica è necessaria. Sono anche interessato ai "famosi fallimenti statistici", ma più interessato alle vittorie. I dati coinvolti dovrebbero essere liberamente disponibili.

Un perfetto esempio di quello che sto cercando è il caso di discriminazione di Berkeley, che illustra il paradosso di Simpson. I dati per questo vengono memorizzati nei set di dati di R.

Anche i casi storici sono interessanti. L'analisi di John Snow dei dati della pompa di Broad Street è un buon esempio del potere della visualizzazione.

Ci sono molti errori nella raccolta dei dati (bias di selezione), ecc. e la letteratura sulla statistica medica ne è piena.

Molte "vittorie statistiche" si verificano nell'area della selezione delle variabili e del disegno di campionamento. Mi interessano i paradossi che si verificano in altre aree, come l'analisi in quanto tale.

Vedi questa domanda recente: https://stats.stackexchange.com/questions/432866/famous-easy-to-understand-examples-of-a-confounding-variable-invalidating-a-stud/432940#432940
Un gran numero di esempi in qualsiasi edizione di * Statistics * (Freedman, Pisani e Purves) sono di questa natura: questa è una delle ragioni per cui è un grande libro.
"The Signal and the Noise", una facile lettura non tecnica di Nate Silver, contiene molti esempi così interessanti.Compreso il modo in cui ipotesi sbagliate e modelli statistici falliti hanno contribuito al crollo del mercato immobiliare statunitense nel 2008.
Una domanda "a grande lista" in cui non c'è limite alle risposte corrette lo rende "troppo ampio".
Non sono sicuro se puoi farci qualcosa, ma mi è sempre piaciuto: il 30% degli incidenti mortali automobilistici riguarda droghe o alcol;e il 70% non coinvolge droghe o alcol.Pertanto, tutti dovrebbero guidare drogati o ubriachi perché è più sicuro che guidare sobri di 2: 1.
Anche il classico https://en.m.wikipedia.org/wiki/How_to_Lie_with_Statistics merita di essere menzionato.
XKCD pertinente: https://xkcd.com/1138/
Dodici risposte:
Semoi
2019-11-01 21:20:21 UTC
view on stackexchange narkive permalink

Mi è piaciuto molto il problema dei carri armati tedeschi.Mostra come i dati che di solito sono considerati irrilevanti diventano informazioni preziose nelle mani di uno statistico.Inoltre, mi è piaciuta la legge dei piccoli numeri e la errore del tasso di base.

Un altro errore comune simile al paradosso dei falsi positivi (noto anche come errore del tasso di base) è [Simpson's Paradox] (https://en.wikipedia.org/wiki/Simpson%27s_paradox).Ciò spiega perché, ad esempio, la procedura medica con le maggiori possibilità di successo spesso paradossalmente avrà una percentuale di successo inferiore rispetto ad altre opzioni.
La virgola dopo "mostra" è tedesca come i carri armati di cui parli.;) ottimo esempio, BTW.
carlo
2019-11-01 19:41:28 UTC
view on stackexchange narkive permalink

R vs Sally Clark è un famoso caso di una donna condannata per omicidio perché il tribunale non era a conoscenza delle statistiche e dei principi di base delle probabilità.

Ma se devo dire la cosa che mi ha colpito di più, quando ho iniziato a studiare statistica, è stata la regressione alla media, che ha anche dato il nome alla regressione statistica (anche se èuna cosa completamente diversa).Il vincitore del premio Nobel (per l'economia, anche se è uno psicologo) Daniel Kahneman ha raccontato un aneddoto affascinante su come si è reso conto di come la regressione alla media possa portare le persone a false credenze.

Edit: Un'altra storia molto interessante che mi è appena venuta in mente e che riguarda invece l'importanza dei dati mancanti, è quella di Abraham Wald e dei fori di proiettile degli aerei da guerra.

Ben fatto!In realtà, il punto Kahneman è centrale nella rivoluzione della qualità di Deming, dove ha criticato i premi "venditore del mese" che demoralizzano i lavoratori premiando la casualità.Lo userò di sicuro.
Questo [caso] (https://arxiv.org/abs/math/0607340) (un'infermiera condannata per un alto tasso di morte) è simile.https://stats.stackexchange.com/a/314249/164061
La storia di Wald è utile per dimostrare il concetto di [bias di sopravvivenza] (https://en.wikipedia.org/wiki/Survivorship_bias).Può essere usato anche come esercizio illuminante facendo suggerire agli studenti dove mettere l'armatura extra.
corey979
2019-11-01 19:48:56 UTC
view on stackexchange narkive permalink

Per illustrare dove fallisce l'intuizione ordinaria , il paradosso di Monty Hall è un ottimo inizio.

Huy Pham
2019-11-01 18:50:12 UTC
view on stackexchange narkive permalink

Se il campionamento fa parte del tuo corso, è difficile battere Dewey batte Truman

L'ho dimenticato.Grazie.
PsychometStats
2019-11-02 08:21:24 UTC
view on stackexchange narkive permalink

Un altro caso interessante di quanto possa andare male il gioco d'azzardo è l'esempio del Casinò di Monte Carlo.

In una partita di roulette al Casinò di Monte Carlo il 18 agosto 1913, la pallina cadde in nero 26 volte di seguito.Questo è stato un evento estremamente raro: la probabilità che una sequenza di rosso o nero si verifichi 26 volte di seguito è di circa 1 su 66,6 milioni, supponendo che il meccanismo non sia corretto.A quel tempo, Gamblers ha perso milioni di franchi scommettendo contro il nero, ragionando in modo errato che la serie di vittorie stava causando uno squilibrio nella casualità della ruota e che doveva essere seguita da una lunga striscia di rosso.

L'errore del giocatore e La rovina del giocatore forniscono una buona spiegazione per questo esempio.

La ruota è stata truccata?C'è qualche altra discussione su questa storia nella letteratura statistica?
@innisfree per quanto ne so, non lo era
Data la quantità di roulette giocata in tutto il mondo, una tale coincidenza che si verifica da qualche parte, da qualche parte è in effetti abbastanza plausibile;si prevede che accada circa una volta ogni 66,6 milioni di opportunità.Ma le probabilità sono altamente contrarie che si verifichino al tuo particolare tavolo in una notte in cui stai giocando.
@Chromatix ha assolutamente ragione.Basta ricordare un caso di studio di un uomo che è stato colpito da un'illuminazione 7 volte durante la sua vita.Anche un evento molto improbabile, ma non sorprende che sia accaduto nel corso dell'intero corso della storia
È anche abbastanza plausibile che i truffatori all'inizio del ventesimo secolo abbiano truccato una ruota della roulette in un casinò;)
La mentalità frequentista: per giudicare la plausibilità che una particolare sequenza di giri su un particolare tavolo della roulette a Monte Carlo nel 1910 sia stata truccata, devo pensare a tutti i giri (realizzati e non realizzati) su tutti i tavoli del mondo intero neltutta la storia registrata dell'umanità: D
Cordiali saluti, la fonte di questa storia sembra essere Huff & Geis (1959), How to Take a Chance.Non ho accesso ad esso però.
Peter - Reinstate Monica
2019-11-03 23:11:54 UTC
view on stackexchange narkive permalink

Trovo il falso paradosso positivo notevole perché è così controintuitivo. Un buon esempio:

Lo screening del cancro della popolazione generale non aumenta l'aspettativa di vita, anche se chiaramente si salvano vite perché alcuni tumori vengono diagnosticati precocemente e possono essere trattati meglio. Di conseguenza, la Task Force per i servizi preventivi degli Stati Uniti ha smesso di raccomandare lo screening di routine per le donne di età compresa tra 40 e 49 anni nel 2009.

Questo è un buon materiale didattico perché è un esempio di vita reale non banale che riguarda quasi tutti ad un certo punto della loro vita. C'è un articolo del National Cancer Institute qui.

Il ragionamento va così:

  • Il numero di casi di cancro è piccolo, quindi il "numero necessario per il trattamento" (leggi: schermo) è grande.
  • I test sono abbastanza affidabili. Ma il basso tasso di incidenza porta a un numero elevato di falsi positivi assoluti con la conseguenza di un gran numero di biopsie non necessarie (> il 90% sono falsi positivi).
  • Gli episodi di cancro rientrano in uno dei seguenti sottogruppi:
    1. Tumori aggressivi che uccideranno il paziente, qualunque cosa accada.
    2. Tumori lenti che non uccideranno il paziente prima che muoia per altre cause. Il rilevamento di questi è chiamato sovradiagnosi. Dal documento USPSTF: "Anche con la stima prudente di 1 caso su 8 di cancro al seno sottoposto a diagnosi eccessiva, per ogni donna che evita una morte per seno cancro attraverso lo screening, 2-3 donne saranno trattate inutilmente. "
    3. Tumori che saranno curabili anche se rilevati in ritardo, senza screening.
    4. Tumori che sono abbastanza aggressivi da uccidere il paziente se rilevati in ritardo, ma sono comunque curabili se rilevati precocemente.

Solo la classe 4 beneficia dello screening, a scapito di un gran numero di visite ospedaliere non necessarie, biopsie non necessarie e molte notti insonni.Tutti questi sono rischi per la salute piccoli ma misurabili che si accumulano sul gran numero necessario per il trattamento, superando il vantaggio reale per il piccolo numero nel sottoinsieme 4.

La mammografia nella popolazione generale sopra i 40 o sopra i 50 è un chiaro esempio di ciò?Aumento molto piccolo del rischio di cancro al seno dovuto all'esposizione ai raggi X moltiplicato per un numero molto elevato di mammografie = un compenso alla prevenzione operata dalla diagnosi precoce dei tumori al seno di tipo n. 4.
@Alexis Sì, lo è.Ho collegato un articolo dell'USPSTF che è abbastanza illuminante.Hanno smesso di raccomandare lo screening di routine per le donne più giovani.Per le donne di età compresa tra 50 e 60 anni esiste una probabilità del * 60% * di falsi positivi nell'arco di 10 anni, e ancora una probabilità del 9,4% di una biopsia non necessaria.(E nota che i "veri aspetti positivi" includono ancora tutti e 4 i miei sottoinsiemi, cioè un numero significativo è stato diagnosticato in eccesso o comunque mortale.)
@Alexis E non vorrei sottovalutare gli altri rischi legati alle semplici visite ospedaliere, figuriamoci alle biopsie.Con più ceppi resistenti qualsiasi procedura invasiva è un rischio significativo.Anche il danno causato dalla sola diagnosi errata o eccessiva (senza alcun trattamento!) È significativo.Le persone di solito sono oltre se stesse quando viene diagnosticato un cancro, non dormono bene, non mangiano bene, con qualsiasi effetto collaterale (fisiologico, incidenti, abuso di sostanze).È tutto abbastanza piccolo ma per grandi numeri.
Ioannis
2019-11-05 04:48:19 UTC
view on stackexchange narkive permalink

Legge di Benford:

Descritto qui. Le cifre non vengono visualizzate con una frequenza uniforme davanti ai numeri, ma seguono piuttosto uno schema specifico: la cifra 1 è la più probabile che sia la prima cifra, con il 30% di probabilità, seguita da 2 (17,6% di probabilità), e così via il. L'immagine seguente (da Wikipedia) mostra la frequenza di ogni cifra all'inizio di ogni numero, in alcuni set di dati presenti in natura:

Frequency of each digit at the beginning of each number, in some naturally-occurring datasets

Ci sono determinate condizioni in base alla legge (ad esempio, i dati dovrebbero estendersi su più scale, quindi cose come l'altezza delle persone non sono ammissibili), ma è abbastanza generico.

Forse l ' applicazione più sorprendente è nel rilevamento delle frodi. Ciò si basa sul presupposto che le persone che tentano di fabbricare figure tendono a distribuire le cifre in modo uniforme, violando così la legge di Benford.

Ricordo che una volta stavo spiegando questo a una classe e durante la pausa uno degli studenti ha tirato fuori un foglio di calcolo contabile della sua azienda, in cui aveva cercato di convalidare le mie affermazioni. Ha funzionato :)

Legge di Zipf

Descritto qui: la frequenza di una parola in un corpus è inversamente proporzionale al suo rango. Ciò che sorprende è che questa relazione vale per qualsiasi corpus, anche per le lingue antiche che non sono ancora state tradotte. Un video interessante che spiega di più sul motivo per cui questo modello può valere è qui. L'immagine seguente mostra il rango (orizzontale) rispetto alla frequenza (verticale) in una scala log-log per i primi 10 milioni di parole in 30 Wikipedie ( fonte). Nota che la legge prevede una linea retta: Rank vs Frequency

Queste due leggi sono potenti e controintuitive e, nel senso che migliorano la propria comprensione del mondo tramite le statistiche, potrebbero essere chiamate "vittorie statistiche".

Cosa significa "rango" di una parola?La mia prima ipotesi è che significhi il rango (frequenza).Se è così, la parte interessante è che la linea tra questi due è così simile, poiché è per definizione monotona.
Infatti, è il rango di frequenza (all'interno di un corpus specificato).La parte interessante è che il rango predice la frequenza così bene - il contrario è ovviamente vero per definizione.
Chromatix
2019-11-04 01:22:25 UTC
view on stackexchange narkive permalink

Il mio esempio preferito, a dimostrazione di come statistiche errate possono avere conseguenze a lungo termine quando vengono utilizzate per dirigere la politica del governo, è l'atto di vandalismo ferroviario su larga scala noto come Beeching Axe. Il risultato è stato che un ministro dei trasporti con forti legami con l'industria della costruzione di strade ( Ernest Marples) ha assunto un esperto del settore petrolchimico ( Richard Beeching) per determinare quali parti del territorio britannico rete ferroviaria stava subendo perdite e dovrebbe quindi essere potata.

Sono state chiuse circa 4000 miglia del percorso come risultato diretto, con un effetto positivo diretto sulla domanda di strade (e, inevitabilmente, gran parte della congestione odierna). Ulteriori chiusure continuarono negli anni '80, inclusa l'importante e relativamente recente rotta Woodhead attraverso i Pennini, e si fermarono solo con il caso della linea Settle & Carlisle, che un tempo era stata la sezione settentrionale del Midland Linea principale della ferrovia.

È forse degno di nota il fatto che Marples sia successivamente fuggito dal paese per eludere il processo per frode fiscale. All'epoca si sospettava anche un conflitto di interessi, poiché aveva venduto la sua quota dell'80% nella sua ex costruzione di strade Marples Ridgeway (come legalmente richiesto dalla sua nomina ministeriale) a sua moglie, rendendolo così facile per lui. per riacquistarli successivamente.

Una buona fonte sull'argomento è "Ho provato a gestire una ferrovia" di Gerard Fiennes.

Gli errori statistici coinvolti qui erano in gran parte dovuti a una visione eccessivamente ristretta del problema. Le stazioni delle filiali sono state visitate per esaminare le ricevute e per effettuare rilevamenti sul traffico, ma è stato ignorato il traffico stagionale che utilizzava la linea e i cui biglietti erano stati venduti altrove nel paese. In molti casi i costi sono stati gonfiati da pratiche di lavoro obsolete che avrebbero potuto essere razionalizzate, ma questa opzione non è stata presa in considerazione al momento di scegliere quali linee chiudere completamente. Ciò ha portato anche ad alcune linee le cui perdite sono state solo lievi e che hanno beneficiato indirettamente le ferrovie nel loro complesso attraverso l '"effetto rete" di poter raggiungere le destinazioni senza cambiare modalità, essendo incluse nell'elenco di chiusura.

Questi errori furono ripetuti nel successivo Serpell Report che proponeva un programma di chiusura ancora più drastico, ma che fortunatamente fu respinto.

Oggi, la domanda di traffico ferroviario è in forte aumento in Gran Bretagna e le linee vengono di recente costruite e riaperte per soddisfare la domanda. Alcune linee chiuse dagli sforzi di Beeching e Marples sarebbero estremamente vantaggiose se esistessero ancora oggi.

Interessante anche la storia della successiva privatizzazione delle ferrovie come esempio di pensiero errato.Il capitolo 2 di Private Island ne è un eccellente resoconto.https://www.versobooks.com/books/1731-private-island
fr_andres
2019-11-02 08:38:01 UTC
view on stackexchange narkive permalink

Ottimo controllo qualità!ecco i miei due centesimi: si tratta principalmente di come la correlazione può essere molto sospetta e di alcuni modi tradizionali per risolverla:

https://www.tylervigen.com/spurious-correlations

https://en.wikipedia.org/wiki/Anscombe%27s_quartet

https://en.wikipedia.org/wiki/Spearman%27s_rank_correlation_coefficient

Per elaborare un po ', il canone di correlazione vs. causalità nella statistica moderna è certamente Judea Perl.Il libro (web) di Nielsen fornisce una buona recensione:

http://www.michaelnielsen.org/ddi/if-correlation-doesnt-imply-causation-then-what-does/

Ricordo un libro di statistiche che utilizzava gli avvistamenti di cicogne rispetto alla natalità per sottolineare che la correlazione non prova necessariamente la causalità.
Cliff AB
2019-11-04 06:14:04 UTC
view on stackexchange narkive permalink

Non so se questo conta come "l'intuizione non è all'altezza", ma piuttosto "un'analisi ingenua fornisce una risposta contro intuitiva e fuorviante".

Uno dei miei professori di statistica ha introdotto uno studio sulla connessione tra fumo e FEV nei giovani studenti.

Il FEVB può essere considerato una misura del volume polmonare. Quando il professore ha introdotto per la prima volta i dati, ha chiesto quale sarebbe stata la relazione. Pensavamo tutti che il fumo fosse collegato a un FEV inferiore. Tuttavia, guardando i dati, non era vero! In effetti, i fumatori avevano un FEV maggiore rispetto ai non fumatori. Questa lezione era tenuta da un negazionista del fumo?

Quindi ha rianalizzato i dati, ma questa volta adeguandosi all'età. Fatto ciò, abbiamo visto quello che ci aspettavamo di vedere: un impatto negativo del fumo sul FEV. Questo perché i fumatori avevano molte più probabilità di essere studenti più grandi rispetto a studenti più giovani. Sebbene il fumo abbia avuto un impatto negativo sul loro FEV, non è stato tanto da eliminare completamente l'aumento del FEV dalla crescita.

Un collegamento a una panoramica dei dati in R può essere trovato qui.

+1 per l'aggiunta di un collegamento ai dati.Bell'esempio di confonditore!
Michelle
2019-11-04 15:16:26 UTC
view on stackexchange narkive permalink

La mancata dimostrazione dell'associazione tra la temperatura di lancio e l'effetto della temperatura di lancio sugli o-ring dello space shuttle, ha portato al catastrofico fallimento del Columbia subito dopo il lancio. Una panoramica del problema è disponibile qui.

Per quello che vale, il link che hai fornito non cattura esattamente quello che è successo.Infatti, [gli ingegneri hanno riconosciuto il problema in anticipo, ma i manager hanno ignorato le loro preoccupazioni.] (Https://en.wikipedia.org/wiki/Space_Shuttle_Challenger_disaster#O-ring_concerns)
Citando dalla stessa pagina di Wikipedia: "Quando un manager di Thiokol ha chiesto a Ebeling della possibilità di un lancio a 18 ° F (-8 ° C), ha risposto" [W] siamo qualificati solo a 40 ° [40 ° F o 4° C] ... che affari fa qualcuno anche solo pensando a 18 °, siamo nella terra di nessuno.
David Smith
2019-11-05 01:29:47 UTC
view on stackexchange narkive permalink

Nell'ultimo anno e mezzo Bloomberg News ha effettuato stime periodiche della produzione di Tesla 3 utilizzando più fonti di dati.Hanno appena terminato questo lavoro, ma penso che la storia sia interessante.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 4.0 con cui è distribuito.
Loading...