Domanda:
Concetti statistici visivamente interessanti e facili da spiegare
David Veitch
2020-03-02 07:00:33 UTC
view on stackexchange narkive permalink

Ho notato su Math Stack Exchange un thread fantastico che ha evidenziato una serie di concetti matematici molto interessanti dal punto di vista visivo.Sarei curioso di vedere grafici / gif che chiunque ha che illustri molto chiaramente un concetto di statistica (in particolare quelli che potrebbero servire come motivazione per gli studenti che hanno appena iniziato a imparare le statistiche).

Sto pensando a cose sulla falsariga di come i video di una tavola Galton rendano il CLT immediatamente riconoscibile.

Tredici risposte:
Henry
2020-03-02 19:31:31 UTC
view on stackexchange narkive permalink

Mi piacciono le immagini che illustrano come diversi modelli possono avere una correlazione simile.Quelli che seguono provengono da articoli di Wikipedia su correlazione e dipendenza

enter image description here

e quartetto di Anscombe con correlazioni di circa $ 0,816 $

enter image description here

Ottimo commento!Ho già visto il quartetto di Anscombe e penso che possa essere una delle migliori grafiche "attenti alla correlazione" che abbia mai visto.
@David Quindi vedere [questi post] (https://stats.stackexchange.com/search?q=anscombe*+quartet) per ulteriori informazioni sull'argomento.
A rischio di essere troppo ovvio aggiungerei che "pensare a cosa significhi su un grafico a dispersione" può illuminare molte domande, e non solo per gli studenti.In diversi campi (nessun nome qui) c'è la tendenza a liquidare ciò che è stato insegnato in un corso introduttivo come roba da bambini e / o iniziare a insegnare assumendo che tutti gli studenti abbiano fatto e ricordino anche un corso introduttivo.
@Alexis.Quale?L'articolo di Science di dicembre 2011 è protetto da paywall, quindi non riesco a vedere cosa intendi ma entrambe le immagini sono [più vecchie di quella] (https://en.wikipedia.org/wiki/File:Correlation_examples.png).I numeri di Anscombe esistono da quando li ha pubblicati nel 1973
Oh!Non l'Anscomb, le immagini di associazione non funzionali.Inoltre: ho appena riletto l'articolo di Reshef e ci sono immagini * simili *, ma in realtà sono diverse.Quindi stavo ricordando male / attribuendo male.Mi scuso per qualsiasi allarme.:)
TH58PZ700U
2020-03-03 04:46:55 UTC
view on stackexchange narkive permalink

Il paradosso di Simpson

Un fenomeno che si verifica quando una variabile chiave viene omessa dall'analisi di una relazione tra una o più variabili indipendenti e una variabile dipendente.Ad esempio, questo mostra più camere da letto hanno le case, minore è il prezzo della casa :

Average Home Price vs. Avg Number of Bedrooms

che sembra controintuitivo ed è facilmente risolvibile tracciando tutti i punti dati che compongono la media per ciascuna area, sullo stesso grafico.Qui, il maggior numero di camere da letto indica correttamente case più costose quando si osserva anche la variabile di quartiere:

Home Price vs. Number of Bedrooms

Se desideri leggere ulteriori informazioni sull'esempio precedente e ottenere una spiegazione molto migliore di quella che sono stato in grado di fornire, fai clic qui.

Nota che non devi guardare le medie perché si verifichi il paradosso di Simpson, ma non dire al modello che ci sono quattro gruppi.Inoltre, anche se potrebbe essere pignolo, l'adattamento nella trama inferiore non è molto convincente, poiché sembra che presuma che tutte le pendenze siano uguali, il che puoi chiaramente dire che non è il caso.
Come altrove in questo thread, mescolare rosso e verde è problematico per molti lettori.Per chiunque sia sfidato da questa scelta di colore, il grafico mostra quattro cluster leggermente sovrapposti, ciascuno riassunto da linee inclinate verso l'alto, mentre l'intero set di dati mostra una relazione negativa.
D'accordo Frans, prendere le medie è una semplificazione eccessiva, così come l'inclinazione nel grafico in basso.In effetti, credo che entrambi i grafici siano rappresentazioni puramente fittizie del concetto.Derivano dall'ultimo collegamento nella mia risposta, che era collegato a un altro articolo che stavo leggendo che illustrava il paradosso di Simpson in un contesto econometrico: [Tax Burdens, Pro Capite Income, and Simpson's Paradox] (https: //trends.ufm.edu / it / article / tax-burdens-pro-capite-reddito-simpsons-paradox / # _ ftnref1)
O sono pochissime o moltissime camere da letto!:)
DanielTheRocketMan
2020-03-02 12:31:20 UTC
view on stackexchange narkive permalink

Uno dei concetti più interessanti che sono oggi molto importanti e molto facili da visualizzare è "overfitting".Il classificatore verde di seguito presenta un chiaro esempio di overfitting [Modifica: "il classificatore verde è dato dalla linea molto sinuosa che separa i punti dati rosso e blu" - Nick Cox].

Da Wikipedia:

enter image description here

Per coloro che hanno difficoltà a distinguere il rosso e il verde: il classificatore verde è dato dalla linea molto sinuosa che separa i punti dati rosso e blu.
@NickCox L'immagine è perfettamente comprensibile anche in bianco e nero.
@user76284 Certo, se e solo se ti viene detto, o te ne accorgi fiducioso, che la linea sinuosa è un perfetto classificatore e la linea liscia non lo è.Il punto è che OP ha scelto il rosso e il verde quando c'è un modo più gentile e inclusivo di usare i colori.Accidenti, questo thread dovrebbe riguardare esempi "molto chiari" ma esempi carenti si qualificano?Sarei felice ad es.cerchi e vantaggi in bianco e nero, ma non è quello che viene offerto.
@NickCox Rosso e verde per cosa?I punti su un lato sono rossi.I punti sull'altro lato sono * blu *, non verdi.Di cosa ti lamenti?
Il verde non è un colore neutro quando la linea apparirà dello stesso colore di un gruppo di punti per alcuni lettori.Questo non sarà molto confuso ma la scelta avrebbe potuto essere migliorata.
Per tutti coloro che presumono di riflesso che questo non funzionerà per le persone con daltonismo, forse prova prima ad esaminarlo in un simulatore di daltonismo, ad esempio su https://www.color-blindness.com/coblis-color-blindness-simulator/ Ciò dimostra che questa immagine funziona effettivamente abbastanza bene nella maggior parte delle forme di daltonismo - ci sono altre dimensioni della percezione del colore oltre la tonalità che consentono di distinguere facilmente i colori in questa immagine, anche quando l'aspetto soggettivo differisce sostanzialmente.
@MichaelMacAskill Hai ragione, e per esempio non presumo che "non funzionerà" per nessun gruppo di persone.Sto solo dicendo che il design potrebbe essere migliorato in modi piccoli ma utili e inclusivi.Il punto riguarda l'etichetta grafica tanto quanto qualsiasi altra cosa.Non mi dispiace che la gente lo consideri un piccolo punto, così com'è, ma penso che valga comunque la pena farlo.Il tuo dire che funziona "abbastanza bene" Immagino che la tua visione sia vicina alla mia;non hai detto "in modo eccellente".
Davidmh
2020-03-03 19:25:35 UTC
view on stackexchange narkive permalink

Come funziona un set di dati 2D in cui la media di X è 54 con SD 17 e per Y 48 e 27, rispettivamente, e la correlazione tra i due è -0,06?

Presentazione dell ' Anscombosaurus:

enter image description here

E il suo compagno, il Datasaurus Dozen:

enter image description here

Per coinvolgere gli studenti, questi sono * fantastici * esempi!
JeroendeK
2020-03-03 15:26:41 UTC
view on stackexchange narkive permalink

Penso che anche le correlazioni spurie meritino il loro post.Cioèla correlazione non è uguale alla causalità.Forse una delle cose usate più spesso quando si cerca di piegare la verità usando le statistiche.Tyler Vigen ha un famoso sito web con molti esempi.Per illustrare, vedere il grafico sotto in cui il numero di casi di poliomielite e le vendite di gelato sono chiaramente correlati.Ma presumere che la poliomielite causi la vendita di gelati o viceversa è chiaramente privo di senso. Polio causes ice cream

P.S: pertinente xkcd 1 e pertinente xkcd 2

A tutti coloro che lo fanno effettivamente, consiglierei di stare molto attenti a non mescolare _ "la correlazione non è uguale a causalità" _ e _ "la correlazione campionaria non è uguale a correlazione" _.Il grafico polio vs gelato è buono, ma molti esempi affermati come dimostrazioni di _ "la correlazione non è uguale alla causalità" _ sono in realtà solo artefatti di piccola dimensione del campione e non dimostrano nemmeno una correlazione reale.
Frans Rodenburg
2020-03-04 09:08:26 UTC
view on stackexchange narkive permalink

Il bias può essere positivo

Un $ \ color {orangered} {\ text {estimator imparziale}} $ è in media corretto. Un $ \ color {steelblue} {\ text {bias estimator}} $ in media non è corretto.

Perché allora, vorresti mai utilizzare uno stimatore di parte (ad es. regressione della cresta)?

biased_estimator

La risposta è che introdurre bias può ridurre la varianza.

Nella figura, per un dato campione, $ \ color {orangered} {\ text {estimator imparziale}} $ , ha un $ 68 \% $ possibilità di trovarsi all'interno di $ 1 $ unità arbitraria del parametro true, mentre $ \ color {steelblue} {\ text {bias estimator}} $ ha una $ 84 \% $ molto più grande.

Se il bias che hai introdotto riduce sufficientemente la varianza dello stimatore, il tuo campione ha maggiori possibilità di fornire una stima vicina al parametro della popolazione.

"In media corretto" sembra ottimo, ma non fornisce alcuna garanzia di quanto le singole stime possano discostarsi dal parametro della popolazione. Se disegnassi molti esempi, $ \ color {steelblue} {\ text {bias estimator}} $ sarebbe in media sbagliato da $ 0,5 $ unità arbitrarie. Tuttavia, raramente abbiamo molti campioni della stessa popolazione per osservare questa "stima media", quindi preferiremmo avere buone possibilità di essere vicini al vero parametro.

TrynnaDoStat
2020-03-04 00:08:58 UTC
view on stackexchange narkive permalink

Quando si comprendono per la prima volta gli stimatori e il loro errore, è utile comprendere due fonti di errore: bias e varianza.L'immagine sotto fa un ottimo lavoro illustrando questo aspetto evidenziando i compromessi tra queste due fonti di errore.

enter image description here

Il bullseye è il vero valore che lo stimatore sta cercando di stimare e ogni punto rappresenta e stima quel valore.Idealmente hai un bias basso e una varianza bassa, ma le altre freccette rappresentano stimatori meno che ideali.

Questo è un ottimo esempio classico, ma sarebbe bello aggiungere forse anche il termine "precisione" come termine equivalente (se inverso) alla varianza qui, poiché questo è anche il modo in cui questo viene spesso comunicato.cioè varianza bassa = precisa, varianza alta = imprecisa.Immagino che la varianza potrebbe essere più rilevante per i dati stessi, mentre la precisione è più rilevante per le stime basate sui dati, mentre il bias è un termine che funziona per entrambi.
L'ho visto spesso espresso in termini di accuratezza e precisione.Molti scienziati sociali o comportamentali potrebbero voler parlare di validità e affidabilità.
DanielTheRocketMan
2020-03-02 13:01:35 UTC
view on stackexchange narkive permalink

Principal component Analysis (PCA) PCA è un metodo per la riduzione delle dimensioni.Proietta le variabili originali nella direzione che massimizza la varianza.

Nella nostra figura, i punti rossi provengono da una distribuzione normale bivariata.I vettori sono gli autovettori e le dimensioni di questi vettori sono proporzionali ai valori dei rispettivi autovalori.L'analisi delle componenti principali fornisce nuove direzioni che sono ortogonali e puntano alle direzioni di alta varianza.

enter image description here

Questo potrebbe fare con una spiegazione meno tecnica / più laica.Ho seguito alcuni corsi di statistica e ho * fatto * PCA e ancora non riesco a capire gran parte della spiegazione.Quali sono gli autovettori / valori?So cos'è la varianza, ma cosa significa per una * direzione * avere una varianza elevata?E perché ci interessa?
Grazie per i commenti.Migliorerò la risposta.Fammi arrivare a un computer.
kedarps
2020-03-03 21:35:47 UTC
view on stackexchange narkive permalink

Autovettori & Autovalori

Il concetto di autovettori e autovalori che sono alla base dell'analisi delle componenti principali (PCA), come spiegato su wikipedia:

In sostanza, un autovettore $ v $ di una trasformazione lineare $ T $ è un vettore diverso da zero che, quando viene applicato $ T $ , non cambia direzione. L'applicazione di $ T $ all'autovettore ridimensiona l'autovettore solo in base al valore scalare $ \ lambda $ , chiamato autovalore. Questa condizione può essere scritta come l'equazione: $ T (v) = \ lambda v $ .

La dichiarazione di cui sopra è spiegata in modo molto elegante utilizzando questa gif:

enter image description here

Vettori indicati in blu $ \ begin {bmatrix} 1 \\ 1 \\ \ end {bmatrix} $ e magenta $ \ begin {bmatrix} 1 \\ - 1 \\ \ end {bmatrix} $ sono autovettori per la trasformazione lineare, $ T = \ begin {bmatrix} 2 & 1 \\ 1 & 2 \\ \ end {bmatrix} $ . I punti che giacciono sulla retta attraverso l'origine, paralleli agli autovettori, rimangono sulla retta dopo la trasformazione. I vettori in rosso non sono autovettori, quindi la loro direzione è alterata dalla trasformazione. I vettori blu sono scalati di un fattore 3, che è l'autovalore per l'autovettore blu, mentre i vettori magenta non sono scalati, poiché il loro autovalore è 1.


Link all'articolo di Wikipedia.

DanielTheRocketMan
2020-03-02 12:52:36 UTC
view on stackexchange narkive permalink

TVarianza del bias di trade-off è un altro concetto molto importante in statistica / machine learning.

I punti dati in blu provengono da $ y (x) = \ sin (x) + \ epsilon $ , dove $ \ epsilon $ ha una distribuzione normale. Le curve rosse vengono stimate utilizzando diversi campioni. La figura "Large Variance and Small Bias" presenta il modello originale, che è una rete di funzioni a base radiale con 24 basi gaussiane.

La figura "Small Variance and Large Bias" presenta lo stesso modello regolarizzato.

Notare che nella figura "Small Variance e Large Bias" le curve rosse sono molto vicine tra loro (piccola varianza). Lo stesso non accade nella figura "Large Variance e Small Bias" (grande varianza).

SVarianza piccola e bias grande enter image description here

L Large Variance and Small Bias enter image description here

Dai miei metodi informatici e dal corso di machine learning.

Poiché queste trame sono prive di etichetta e inspiegabili, sono così intrinsecamente ambigue da non mostrare assolutamente nulla.Forse potresti approfondire la tua risposta?
Grazie per aver richiamato la mia attenzione.Lo migliorerò.Fammi solo arrivare a un computer.
Un'altra visualizzazione comune del compromesso bias-varianza $ \ operatorname {MSE} = \ operatorname {Bias} ^ 2 + \ operatorname {Var} + \ sigma ^ 2 $ che di solito si incontra è come [this] (https: //i.stack.imgur.com/0trcp.png)
Gerardo Furtado
2020-03-03 18:24:49 UTC
view on stackexchange narkive permalink

Eccone uno molto semplice, ma a mio parere molto potente perché non è solo una spiegazione visiva di un concetto ma richiede anche di visualizzare o immaginare un oggetto reale che raffigura il concetto:

I neofiti a volte hanno difficoltà a comprendere concetti di base come media, mediana e modalità.

enter image description here

Quindi, per aiutarli a cogliere meglio l'idea di media:

Prendi questa distribuzione storta e stampala in 3D, in plastica, o scolpiscila nel legno, così ora hai un vero oggetto tra le mani.Cerca di bilanciarlo usando un solo dito ... la media è il punto only dove puoi farlo.

enter image description here

Mi piace il principio.Nell'esempio dato non credo che la posizione del dito funzionerebbe: la coda destra non è abbastanza lunga.Inoltre, sebbene molti.sono possibili molte complicazioni, è improbabile che mode, median e mode siano equidistanti per molte distribuzioni, anche approssimativamente.
@NickCox Questa è solo un'immagine che ho ricevuto da wikipedia (https://en.wikipedia.org/wiki/Skewness), e nonostante sia piuttosto brutta è molto meglio della maggior parte delle altre immagini di una distribuzione distorta (online + senza copyright).La cosa importante qui è il principio, che rimane vero.
La domanda chiede "grafici / gif che chiunque ha che illustrano molto chiaramente un concetto di statistica" e io non compro "molto chiaramente" in questo caso.
Il tuo software preferito dovrebbe consentirti di disegnare ad es.un esponenziale con media 1, mediana $ \ ln 2 $ e modo 0, che sarebbe uno dei tanti esempi migliori.
DanielTheRocketMan
2020-03-05 21:29:28 UTC
view on stackexchange narkive permalink

La figura seguente mostra l'importanza di definire con precisione gli obiettivi e le ipotesi di un problema di clustering (e un problema statistico generale).Modelli diversi possono fornire risultati molto diversi:

enter image description here

Fonti: ScikitLearn

Penso che questo possa essere un po 'più chiaro se scegli solo due metodi di clustering.Ce ne sono 2 con una buona interpretazione statistica a cui potremmo restringere il campo?
anjama
2020-03-02 21:33:41 UTC
view on stackexchange narkive permalink

Ok, quindi questo è meno per illustrare un concetto di base, ma è molto interessante sia visivamente che in termini di applicazioni. Penso che mostrare alle persone ciò che alla fine possono ottenere con ciò che stanno imparando sia una grande forma di motivazione, quindi puoi presentarlo come un esempio di sviluppo e applicazione di modelli statistici, che dipende da tutti i concetti statistici più fondamentali che stanno imparando. Con questo, vi presento ...

Species Distribution Modelling

In realtà è un argomento molto ampio con molte sfumature in termini di tipi di dati, raccolta di dati, configurazione del modello, ipotesi, applicazioni, interpretazioni, ecc. Ma in parole semplici, prendi informazioni campione su dove si trova una specie, quindi utilizzare quelle posizioni per campionare variabili ambientali potenzialmente rilevanti (ad esempio, dati climatici, dati sul suolo, dati sull'habitat, elevazione, inquinamento luminoso, inquinamento acustico, ecc.), sviluppare un modello utilizzando i dati (ad esempio, GLM, modello di processo puntuale, ecc.) , quindi utilizza quel modello per prevedere attraverso un paesaggio utilizzando le tue variabili ambientali. A seconda di come è stato impostato il modello, ciò che è previsto potrebbe essere un potenziale habitat adatto, probabili aree di occorrenza, distribuzione delle specie, ecc. È inoltre possibile modificare le variabili ambientali per vedere come influiscono su questi risultati. Le persone hanno utilizzato gli SDM per trovare popolazioni di una specie precedentemente sconosciute, li hanno usati per scoprire nuove specie, con dati storici sul clima li hanno usati per prevedere a ritroso nel tempo dove si trovava una specie e come è arrivata dove si trovava. è oggi (anche attraverso i periodi di glaciazione) e con cose come previsioni climatiche future e perdita di habitat, vengono utilizzate per prevedere come le attività umane influenzeranno la specie in futuro. Questi sono solo alcuni esempi e se avrò tempo più tardi troverò e collegherò documenti interessanti. Nel frattempo ecco una rapida immagine che ho trovato che illustra le basi:

Source: https://www.natureserve.org/conservation-tools/species-distribution-modeling

Non vedo affatto che questo risponda alla domanda.
@NickCox L'OP ha chiesto un'immagine che mostra un concetto di statistica (nessuna menzione dell'argomento reale) e ha preferito qualcosa che fosse motivante.La costruzione di un modello non è un concetto di statistica?Forse non di base, come un test t o il teorema del limite centrale, ma lo considererei sicuramente uno.E come concetto di quadro più ampio, potrebbe essere più motivante per gli studenti che iniziano le statistiche mostrando loro ciò che alla fine saranno in grado di realizzare.Sto letteralmente dicendo che possono usare modelli statistici per scoprire nuove specie;prova a fare un test t che sia interessante per gli studenti.
La domanda sta chiedendo "grafici / gif che chiunque ha che illustrano molto chiaramente un concetto di statistica".Il tuo grafico non fa nulla per me, ma illustra che i dati sulla presenza delle specie e sui predittori ambientali consentono previsioni di idoneità, il che per me va bene (ho fatto analisi di questo tipo io stesso).La grafica è piacevole ma non di più, quindi mi dispiace, ma non hai cambiato la mia visione (o ancora non hai ricevuto alcun voto positivo).
Non mi aspetto che il mio esempio dalla risposta scelta in alcun modo, e personalmente penso che le altre risposte siano interessanti, e certamente affrontano ciò che probabilmente l'OP si aspettava di più.Detto questo, OP chiedeva anche cose motivazionali.Avendo dato alla matricola del college la loro prima introduzione alle statistiche in passato, so quanto sia difficile coinvolgerli e spero che le persone vedendo la mia risposta incoraggino le persone a essere più creative nel fornire idee e applicazioni checontribuire a rendere le statistiche più coinvolgenti per gli studenti.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 4.0 con cui è distribuito.
Loading...