Domanda:
Perché l'uso dell'errore al quadrato è lo standard quando l'errore assoluto è più rilevante per la maggior parte dei problemi?
Ryan Volpi
2020-06-06 00:47:04 UTC
view on stackexchange narkive permalink

Riconosco che parti di questo argomento sono state discusse in questo forum. Alcuni esempi:

Quello che ancora non capisco è perché la regressione OLS è ancora la soluzione predefinita al problema della regressione lineare. Mi sembra che nella maggior parte delle situazioni pratiche i costi associati agli errori siano lineari o approssimativamente lineari. Se ordino 2 parti extra, sostengo il doppio del costo non necessario rispetto a se ordino 1 parte extra. Pertanto, la soluzione ottimale prodotta da OLS non corrisponderà a una soluzione ottimale nella realtà. Capisco che in generale, puoi ridurre al minimo qualsiasi metrica di errore abbia più senso nella situazione. La mia domanda non è se sia possibile o una buona idea utilizzare MAE in un caso specifico; si tratta della convenzione. Perché MSE è ridotto al minimo in quasi tutti i casi semplici invece di MAE quando il costo reale è tipicamente lineare?

I casi che ho visto realizzati per ridurre al minimo MSE includono quanto segue:

  1. MSE è continuamente differenziabili
  2. Il quadrato dà una penalità maggiore agli errori di grandi dimensioni
  3. Ha senso perché presumiamo che gli errori siano distribuiti normalmente

Tuttavia, se possiamo eseguire facilmente la regressione con errori assoluti e ci occupiamo principalmente della previsione, non vedo come quei punti portino qualcuno a scegliere errori al quadrato. Se dobbiamo scegliere una convenzione, non è meglio l'errore assoluto?

TQuesto post ha ricevuto molte risposte eccellenti che mi sono state utili. Di quelle risposte, e delle risposte altrove che i mod credono rispondano alla mia domanda, nessuna di esse affronta esattamente la vera fonte della mia confusione tranne la risposta di @ richard-hardy.

Una sorta di @stephan-kolassa,, ma non discute la scelta di ridurre al minimo una perdita rispetto all'altra o il motivo per cui l'errore al quadrato viene applicato ovunque.Tuttavia è una risorsa utile.
"non discute la scelta di minimizzare una perdita rispetto all'altra" - vedo "in quale caso il Root Mean Squared Error sarebbe una misura più appropriata dell'errore rispetto all'Errore Assoluto Medio" in quella domanda, che sembra essereesattamente quello che stai chiedendo.Per quanto riguarda il motivo per cui MSE è onnipresente, beh, da un lato, è l'argomento della differenziabilità e, dall'altro, è l'unico errore che sarà minimizzato da stime / previsioni imparziali, che molto spesso è ciò che vogliamo.Vedi [la mia risposta] (https://stats.stackexchange.com/a/210857/1352) in quel thread.
@StephanKolassa, su bias - solo quando il bias è definito come $ E [y] - \ hat y $ e anche forse solo quando la distribuzione è simmetrica (non sono sicuro di quest'ultimo però)
@Aksakal: bene, questa * è * la definizione di bias (eccetto per l'uso tecnico nelle reti neurali).E no, il fatto che (R) MSE (e nient'altro) sia ottimizzato nell'aspettativa proprio da una previsione imparziale non è vero solo per le distribuzioni simmetriche.La scarpa è sull'altro piede: per le distribuzioni simmetriche, anche il MAE è minimizzato da una previsione imparziale (perché è minimizzato dalla mediana, che è l'aspettativa nel caso simmetrico), ma in generale non lo è, e questo èun motivo per guardare al MSE.
Penso che la trattabilità analitica della perdita al quadrato sia stata storicamente un potente punto a suo favore.
Ecco un'altra domanda correlata: https://stats.stackexchange.com/q/369589/164061.Quando ottimizziamo il risultato di una funzione di costo che dipende dall'errore assoluto, potrebbe comunque essere utile utilizzare stime basate su MSE.La questione rilevante non è solo la funzione di costo, ma anche la distribuzione degli errori.Quindi ... usiamo spesso MSE perché è così che sono la maggior parte delle distribuzioni di errore (come sosteneva Gauss sulla base di pochi semplici assiomi).Ma per distribuzioni più funky ha senso usare altri metodi, e credo che questi siano onnipresenti (solo a volte mascherati da minimi quadrati come GLM).
La domanda duplicata risponde davvero alla domanda qui?Esistono * molti modi * per discutere l'uso relativo di MAE rispetto a MSE.In questa domanda la via del confronto sembra essere quella di ottimizzare il risultato * relativo a qualche funzione di costo *.Non lo vedo nell'altra domanda duplicata.In * nessuna * delle risposte vedo una spiegazione relativa alla distribuzione campionaria della stima e l'idea che selezionando il metodo che ottimizza il costo atteso più basso, potrebbe comunque essere ottimizzato il MSE anche quando la funzione di costo è correlata all'errore assoluto.
Sette risposte:
Aksakal
2020-06-06 01:03:06 UTC
view on stackexchange narkive permalink

TLDR; quando non si sa nulla del costo effettivo dell'errore per l'utente del modello, MSE è un'opzione predefinita migliore rispetto a MAE perché, a mio parere, è più facile da manipolare analiticamente ed è più probabile che corrisponda al costo effettivo dell'errore.

È un'ottima domanda. Mi piace che inizi con il desiderio di far corrispondere la tua funzione di perdita ai costi effettivi. Questo è come dovrebbe essere fatto idealmente secondo me. Tuttavia, non è pratico derivare la funzione di costo dai costi effettivi ogni volta che si crea un modello, quindi tendiamo a gravitare sull'utilizzo di una delle funzioni di perdita disponibili nel software. I minimi quadrati sono una delle funzioni più popolari principalmente a causa della praticità matematica. È più facile affrontarlo in modo analitico. Inoltre, in alcuni casi i minimi quadrati producono una previsione puntuale imparziale, ovvero $ E [y] - \ hat y = 0 $ , che è spesso considerata desiderabile per ragioni sentimentali.

Detto questo, devo sostenere che non è ovvio per me che la perdita di valore assoluto sia più realistica. Considera le overdose di droga: in alcune situazioni sono molto più costose delle sottodosaggi: non si sballano abbastanza vs si muore. Nell'esempio delle parti, considera questo: cosa succederebbe se sottovalutassi il costo delle parti di \ $ 1 e stipulassi un contratto a termine per consegnare un milione di parti un mese dopo a \ $ 1,1 sapendo che avrai 1 milione di $ un mese da oggi. Guadagnerai il 10%!

Poi arriva il giorno e le parti costano in realtà $ 1,2 al pezzo. Quindi, non solo subirai una perdita di \ $ 100.000, ma ti mancheranno anche i fondi per fornire 1 milione di parti. Quindi, sei costretto a dichiarare insolvenza e andare in bancarotta che è molto costoso. D'altra parte, se sopravvaluti il ​​costo delle parti, rinunceresti a un po 'di profitto ma non finiresti in una situazione disastrosa di insolvenza o crisi di liquidità.

Questa è una situazione molto comune nelle aziende in cui le perdite sono asimmetriche e altamente non lineari con costi in rapida crescita in una direzione dell'errore di previsione ma non nell'altra. Quindi, direi che la perdita assoluta, che è simmetrica e ha perdite lineari sull'errore di previsione, non è realistica nella maggior parte delle situazioni aziendali. Inoltre, sebbene simmetrica, la perdita al quadrato è almeno non lineare.

Tuttavia le differenze tra le funzioni di perdita assoluta e quadratica non finiscono qui. Ad esempio, si può dimostrare che il punto ottimale previsto in perdita assoluta è la mediana mentre per la perdita al quadrato è media.

Penso che la seguente funzione di perdita sia più adatta alla previsione aziendale in molti casi in cui l'errore di previsione eccessiva $ e = y- \ hat y $ può diventare molto costoso molto rapidamente: $$ \ mathcal L (e, \ hat y) = | \ ln \ left (1+ \ frac e {\ hat y} \ right) | $$ span> In questo caso, se prevedi una quantità non negativa $ y $ , la previsione eccessiva è potenzialmente devastante. Immagina di essere una banca che prevede il volume del deposito e che il volume effettivo del deposito si sia rivelato molto inferiore a quello che speravi. Ciò può avere gravi conseguenze. Questo tipo di funzione di perdita asimmetrica porterà a una previsione del punto ottimale distorta , cioè $ E [y] - \ hat y \ ne 0 $ , ma è esattamente quello che vuoi: in questo tipo di problema aziendale vuoi sbagliare dalla parte della previsione insufficiente.

Come si applica a MSE vs MAE?Questo sembra contro le funzioni di perdita simmetrica in generale.
+1.Molto spesso i costi sono asimmetrici: se abbiamo troppo prodotto a portata di mano, potremmo essere in grado di venderlo domani se non possiamo venderlo oggi, ma se abbiamo troppo poco, allora perdiamo una vendita - in una situazione del genereè meglio sopravvalutare che sottovalutare.Al contrario, se parliamo di fragole, tutto ciò che non vendiamo oggi lo dobbiamo buttare, quindi ora sottovalutare è meglio che sopravvalutare.Questo porta rapidamente alla regressione quantile e misure di errore appropriate, cioè perdite di flipper.
@Dave, la discussione dettagliata può essere trovata nel documento "Optimal Point Forecast for Certain Bank Deposit Series" vedi https://cer.columbian.gwu.edu/sites/g/files/zaxdzs2011/f/downloads/FFC2015.pdf, il PDFcontiene una carta incorporata.Questa è una roba piuttosto standard però
Ripeti la tua modifica: la funzione di perdita proposta ovviamente ricompenserà la sovrastima (aumentare $ \ hat {y} $ tenderà a ridurre la perdita).Mi chiedo quale funzionalità risulterebbe dalla tua funzione di perdita ([Kolassa, 2020] (https://doi.org/10.1016/j.ijforecast.2019.02.017), nota spudorata autopromozione).
@Aksakal: Non credo di aver capito appieno.Mi sembra che la tua perdita ricompenserà la sovrastima.(Possiamo essere d'accordo su questo?) Allora perché dovremmo usarlo se la sovrastampa è * più * costosa della sottoprenotazione?Più in generale, non mi sento a mio agio nell'usare una funzione di perdita senza sapere quale funzionale della futura distribuzione suscita - vedi quel mio piccolo foglio che collego.Preferisco prima capire quale funzionale voglio, quindi scegliere una funzione di perdita appropriata.
(Per inciso, quale convenzione stai usando per $ e $? È $ e = y- \ hat {y} $ o $ e = \ hat {y} -y $? [Entrambi sono comuni ed entrambi hanno buoni argomentia favore.] (https://ideas.repec.org/a/for/ijafaa/y2008i10p38-40.html))
L'errore di previsione di @StephanKolassa è $ e = y- \ hat y $.questa funzione è per un caso in cui la sovrastima di una quantità positiva è più costosa della sottostima.Immagina di aspettarti \ $ 100 miliardi di depositi ma di aver ricevuto solo \ $ 10 miliardi.In questo caso ottieni un costo $ | \ ln 1-90 / 100 | = 2,3 $ mentre sotto previsione per lo stesso importo + \ $ 90B dà un costo $ | \ ln 1 + 100/190 | = 0,42 $ perché il deposito effettivoil volume era \ $ 190
Hm.Sembra che non sto vedendo qualcosa, dovrò guardare un po 'di più.Interessante.Di solito non trovo molto illuminante scambiare i numeri nell'indagine sulle funzioni di perdita, preferisco guardare le distribuzioni future (sconosciute) e capire quale punto previsione riduce al minimo la perdita attesa.Ad esempio, [per una futura distribuzione gamma] (https://stats.stackexchange.com/q/389318/1352), sembra che la perdita $ | \ log (y / \ hat {y}) | $ sia ridotta al minimoda una previsione puntuale che è effettivamente sbilanciata verso il basso, ovvero uno al di sotto dell'aspettativa.
@StephanKolassa hai capito!la funzione di perdita è in realtà $ | \ ln y / \ hat y | $, dipende dalla posizione, non solo asimmetrica
Saresti interessato a modificare [il mio thread sulle previsioni ottimali per la distribuzione gamma] (https://stats.stackexchange.com/q/389318/1352) per questa funzione di perdita?Forse anche per [la distribuzione lognormale] (https://stats.stackexchange.com/q/389315/1352)?
Grazie per la tua risposta @akaskal.La tua risposta fa un buon lavoro nell'evidenziare la debolezza di MAE, ma non posso dire se afferma che MSE sia generalmente preferibile.Pensi che se si vuole applicare ciecamente una metrica, MSE è meglio?
Penso che se non si sa nient'altro, MSE è preferibile a MAE.
@StephanKolassa Ho aggiunto la mia risposta a lognormal, ma vorrei chiudere la domanda e invece crearne una nuova sulle funzioni di perdita perché le risposte sono le stesse per qualsiasi distribuzione.La mia risposta non utilizza una forma specifica della distribuzione da nessuna parte, quindi è applicabile a Gamma oa qualsiasi altra distribuzione come beta o gaussiana ecc.
Ho letto il giornale Kuketayev.Risulta che la funzione di perdita che proponi è minimizzata in aspettativa dalla mediana della distribuzione futura, proprio come il MAE.Quindi la previsione ottimale per entrambe le perdite è esattamente la stessa.Interessante, grazie per aver attirato la nostra attenzione su questo aspetto!Sei a conoscenza di argomenti per preferire quella funzione di perdita rispetto al MAE (che è molto più semplice da capire e spiegare)?
Peter Flom
2020-06-06 01:51:35 UTC
view on stackexchange narkive permalink

Penso che il motivo sia più sociologico che statistico.

Versione breve: lo facciamo in questo modo perché lo abbiamo sempre fatto.

Versione più lunga: Storicamente, potremmo non fare molte delle cose che ora diamo per scontate. Molte cose richiedono un uso intensivo del computer e Ronald Fisher è nato prima di Alan Turing.

Quindi, le persone hanno fatto la regressione OLS - molto. E le persone leggono quelle regressioni in tutti i tipi di campi sostanziali e corsi di statistica in quei campi hanno insegnato ANOVA / regressione e non metodi più moderni.

Inoltre, gli editori di riviste hanno imparato questi metodi e non altri, e molti rifiuteranno articoli con metodi moderni perché ad es. "non saranno capiti".

Anche molti professionisti rifiutano i metodi moderni; Ero una specie di fanatico dell'analisi dei dati in un ospedale. I medici verrebbero a chiedermi consiglio e, se non fosse "fare la regressione OLS" o "fare la regressione logistica", rifiuterebbero il mio consiglio.

Ho conseguito il dottorato di ricerca in psicometria e molti dei miei professori in altri rami della psicologia non conoscevano metodi moderni (uno ha detto: "riporta solo il valore p, questo è ciò che conta").

Penso che il motivo per cui OLS sia così popolare è perché è iniziato nella scienza (Laplace ecc.) Dove il costo dell'errore di previsione è simmetrico e forse non lineare, quindi si adatta ai requisiti più importanti ed è più facile da manipolare analiticamente.Se questo fosse iniziato in attività, scommetto che non sarebbe così popolare perché il costo aziendale dell'errore di previsione è spesso asimmetrico
Con la regressione logistica hai già un esempio in cui deviamo dal ridurre al minimo MSE.
Richard Hardy
2020-06-07 01:00:37 UTC
view on stackexchange narkive permalink

Le prime 5 risposte non riescono a distinguere tra estimation loss e prediction loss, qualcosa che è cruciale per rispondere alla domanda.A priori, non c'è motivo per cui i due debbano coincidere.Discuterò entrambi i tipi di perdita nel contesto della previsione del punto utilizzando la regressione lineare.La discussione può essere estesa a modelli diversi dalla regressione lineare e attività diverse dalla previsione del punto, ma l'essenza rimane la stessa.

Configurazione

Supponi di dover affrontare un problema di previsione in cui si trova il modello $$ y = X \ beta + \ varepsilon $$ dove $ \ varepsilon \ sim D (0, \ sigma) $ , $ D $ è una distribuzione di probabilità con posizione $ 0 $ e scalare $ \ sigma $ . Il tuo obiettivo è prevedere $ y_0 $ dato $ x_0 $ e la tua previsione del punto sarà $ \ hat y_0 $ , una funzione di $ x_0 $ , il campione di dati, il modello e la penalità (il negativo di ricompensa) funzione definita sull'errore di previsione. La funzione di penalità che stai affrontando è $ L_P (y- \ hat y) $ . Ha un minimo a zero (il valore $ L_P (0) $ può essere impostato a zero senza perdita di generalità) e non è decrescente su entrambi i lati di zero; questa è una caratterizzazione tipica di una funzione sensibile prediction loss. Puoi scegliere liberamente una funzione perdita di stima $ L_E (\ cdot) $ e una funzione di previsione del punto $ y_hat_0 $ span >. Quali sono le tue scelte ottimali per ciascuno? Ciò dipenderà dalla distribuzione degli errori $ D $ e dalla funzione di previsione della perdita $ L_P (\ cdot) $ .

Stima della perdita

La stima della perdita specifica come vengono ottenute le stime dei parametri di un modello dai dati campione. Nel nostro esempio di regressione lineare, riguarda la stima di $ \ beta $ e $ \ sigma $ . Puoi stimarli riducendo al minimo la somma dei residui al quadrato (OLS) tra l'attuale $ y $ ei corrispondenti valori stimati, somma dei residui assoluti (regressione quantile alla mediana ) o un'altra funzione. La scelta della perdita di stima può essere determinata dalla distribuzione degli errori del modello. Lo stimatore più accurato in un certo senso tecnico * sarà ottenuto dalla perdita di stima che rende lo stimatore parametrico lo stimatore di massima verosimiglianza (ML). Se gli errori del modello sono distribuiti normalmente ( $ D $ è normale), questo sarà OLS; se sono distribuiti secondo una distribuzione di Laplace ( $ D $ è Laplace), questa sarà la regressione quantile alla media; ecc.
* Per semplificare, dato uno stimatore ML, potresti aspettarti stime dei parametri più accurate dal tuo modello rispetto a quelle fornite da stimatori alternativi.

Perdita di previsione

La perdita di previsione specifica come vengono penalizzati gli errori di previsione. Non lo scegli, è dato. (Di solito è il cliente che lo specifica. Se il cliente non è in grado di farlo matematicamente, l'analista dovrebbe sforzarsi di farlo ascoltando attentamente gli argomenti del cliente.) Se l'errore di previsione causa la perdita del cliente (ad es. ) per crescere quadraticamente e simmetricamente intorno allo zero, stai affrontando una perdita di previsione quadrata. Se la perdita del cliente cresce in modo lineare e simmetrico intorno allo zero, stai affrontando una perdita di previsione assoluta. Ci sono molte altre possibilità per i tipi di perdita di previsione che potresti dover affrontare.

Previsione

Date le stime dei parametri del modello e i valori dei regressori del punto di interesse, $ x_0 $ , dovresti scegliere la previsione del punto $ \ hat y_0 $ basato sulla previsione di perdita. Per la perdita quadrata, sceglierai la media stimata di $ y_0 $ , poiché la media vera minimizza la perdita quadrata in media (dove la media viene presa su campioni casuali di $ y_0 $ soggetto a $ x = x_0 $ ). Per la perdita assoluta, sceglierai la mediana stimata. Per altre funzioni di perdita, sceglierai altre caratteristiche della distribuzione di $ y_0 $ che hai modellato.

Torna alla tua domanda

Perché le persone scelgono spesso l'errore quadrato anziché l'errore assoluto, o corrispondentemente la perdita quadrata piuttosto che la perdita assoluta, come estimation loss? Poiché gli errori normali ( $ D $ è normale) sono comuni nelle applicazioni, probabilmente più degli errori di Laplace ( $ D $ è Laplace). Inoltre, rendono gli stimatori di regressione trattabili analiticamente. Tuttavia, non sono molto più facili da calcolare. La complessità computazionale dell'OLS (corrispondente alla stima ML in errori normali) rispetto alla regressione quantile alla mediana (corrispondente alla stima ML sotto errori di Laplace) non è molto diversa. Quindi ci sono alcuni validi argomenti per la scelta di OLS sulla regressione quantile alla mediana, o errore quadrato su errore assoluto.

Perché le persone scelgono l'errore quadrato, o corrispondentemente la perdita quadrata, come prediction loss?Forse per semplicità.Come alcune delle risposte precedenti potrebbero aver menzionato, devi scegliere una linea di base per un'esposizione da manuale;non è possibile discutere tutti i casi possibili in dettaglio.Tuttavia, il caso per preferire la perdita quadrata rispetto alla perdita assoluta come perdita di previsione è meno convincente rispetto al caso di perdita di stima.È probabile che la perdita di previsione effettiva sia asimmetrica (come discusso in alcune risposte precedenti) e non sia più probabile che cresca in modo quadratico che lineare con l'errore di previsione.Naturalmente, in pratica dovresti seguire le specifiche del cliente sulla perdita di previsione.Nel frattempo, in esempi casuali e discussioni in cui non c'è un cliente concreto in giro, non vedo un forte argomento per preferire l'errore quadrato all'errore assoluto.

questo è assolutamente sul naso e affronta proprio i punti su cui ero confuso.L'applicazione del metodo descritto nella sezione "previsione" per una distribuzione di errore arbitraria e una funzione di costo richiede la valutazione del valore atteso della funzione di costo.Ciò richiede che il prodotto della distribuzione dell'errore e della funzione di costo sia integrabile.È corretto?
@RyanVolpi, sì, penso che sia corretto.Curiosamente, ho riscontrato alcune situazioni in cui questo non è il caso;vedere ["Nella selezione del modello, cosa fare se la perdita prevista per la previsione di tutti i modelli è infinita?"] (https://stats.stackexchange.com/questions/425663/).
'Poiché gli errori normali sono comuni nelle applicazioni, probabilmente più degli errori di Laplace' Non penso che sia necessario avvertirlo con 'discutibile' - Le variabili distribuite laplaciane si presentano solo come la differenza tra due variabili distribuite esponenzialmente, che è chiaramente una bellasituazione rara rispetto a una variabile che è essa stessa la somma di molte variabili indipendenti (es. ~ gaussiana)
Come corollario si consideri un problema di classificazione.Di solito ci alleniamo con una perdita di entropia incrociata (cioè presumiamo che i dati siano il risultato di prove Bernoulliane indipendenti), ma consideriamo le metriche una tale accuratezza o richiamo quando guardiamo i dati di convalida o di test
@stuart10, grazie per il commento, ho colpito "discutibilmente" fuori.
Sembra che tu dichiari che ciò che chiami una "perdita di stima" deve essere MLE.Penso che qui ci sia un argomento circolare.Perché MLE?Sappiamo che MLE e OLS forniscono le stesse stime nell'ipotesi di normalità.Sembra che tu stia collegando l'ipotesi distributiva alla funzione di perdita.Questo non è ovvio e non credo nemmeno che sia corretto
@Aksakal, grazie per il commento.Primo, non dico che debba essere MLE;Dico che da una prospettiva frequentista, questa è una prima scelta ragionevole a causa delle proprietà di ottimalità del MLE.(Da una prospettiva bayesiana, questa sarebbe una scelta sensata con un precedente piatto.) Data l'ottimalità del MLE e l'ubiquità degli errori normalmente distribuiti, la perdita quadrata rappresenta un valore predefinito ragionevole nella stima.Questo può giustificare la sua popolarità.Il mio punto centrale, tuttavia, è la disambigua tra perdita di stima e perdita di previsione.Questo è ciò che le persone spesso trovano confuso.
@RichardHardy il tuo punto centrale è interessante.Non sono sicuro che sia ottimale separare i passaggi in questo modo.Immagina di aver fatto qualcosa come MLE direttamente alla previsione ottimale.nella mia risposta presumo implicitamente che la distribuzione sia nota, quindi in questo senso non sto davvero mescolando stima e previsione, sto fingendo che non sia necessaria alcuna stima.
@Aksakal, questa è una domanda interessante, che ho anche considerato prima e discussa nei commenti da qualche parte.Da un punto di vista bayesiano e nel quadro della massimizzazione dell'utilità attesa, i due passaggi consecutivi sarebbero ottimali.Da un punto di vista frequentista, trovo che le proprietà di ottimalità siano più difficili da comprendere (vedere ["Decisioni ottimali basate su stimatori frequentisti"] (https://stats.stackexchange.com/questions/451246)) e meno rilevanti per la risoluzione pratica dei problemi.Comunque, il quadro che presento è piuttosto ortodosso;la novità, se c'è, è nella sua articolazione.
@Aksakal, e qui ci sono alcune domande più vagamente correlate: ["Massimizzazione dell'utilità attesa quando le convinzioni sono imprecise"] (https://stats.stackexchange.com/questions/425655), ["Ottimizzazione delle funzioni di perdita rispetto all'AIC utilizzate per la valutazione"](https://stats.stackexchange.com/questions/425675), ["Potrebbe essere giustificata una mancata corrispondenza tra le funzioni di perdita utilizzate per l'adattamento e la selezione dei parametri di ottimizzazione?"] (https://stats.stackexchange.com/questions/369589).
E poi c'è il curioso caso contro le corrette regole di punteggio che potrebbero essere in qualche modo correlate alla discussione.Quando l'utilità non è una trasformazione affine del punteggio (che potrebbe essere giustificata dall'avversione al rischio e simili), la massimizzazione dell'utilità attesa sarebbe in conflitto con la massimizzazione del punteggio atteso;vedi Winkler & Jose "Regole di punteggio" (2010).(Questa è più una nota per me stesso per ora.)
stuart10
2020-06-06 19:05:33 UTC
view on stackexchange narkive permalink

Penso che valga la pena fare un passo indietro e considerare cosa implicano le due sconfitte.

Guardandola da un punto di vista probabilistico, la funzione di perdita è equivalente alla funzione di probabilità logaritmica presunta e quindi dovrebbe corrispondere a come pensiamo che le nostre misurazioni siano distribuite attorno ai loro valori "veri" sconosciuti.

Come dici tu, nel caso di OLS questo equivale a supporre una verosimiglianza gaussiana, dove come funzione di perdita di errore assoluta è equivalente a una verosimiglianza laplaciana.Le probabilità gaussiane sono molto più spesso una buona corrispondenza con la vita reale come conseguenza del teorema del limite centrale.

Le nostre previsioni sono in generale migliorate rendendo il nostro modello assunto (e implicitamente generativo) il più vicino possibile alla realtà.In molti (la maggior parte?) Casi ciò migliorerà l'accuratezza predittiva con qualsiasi metrica ragionevole (incluso ad esempio l'errore medio assoluto).È molto più spesso il caso assumendo che una probabilità gaussiana raggiunga questo obiettivo.

Stai affermando che un adattamento del modello di OLS avrà effettivamente un MAE previsto inferiore su dati non visualizzati rispetto a un adattamento che utilizza MAE?
Non in tutti i casi assolutamente no, ma se il processo sottostante che produce i dati è (approssimativamente) gaussiano, l'ipotesi di una perdita al quadrato nell'addestramento (ovvero la probabilità gaussiana) spesso non produrrà MAE inferiori su dati invisibili rispetto all'assunzione di un modello chiaramente errato nell'addestramento(cioè una probabilità laplaciana).
Museful
2020-06-06 19:20:59 UTC
view on stackexchange narkive permalink

Se gli errori sono indipendenti e seguono la distribuzione normale (di qualsiasi varianza ma coerente), la somma degli errori al quadrato corrisponde alla loro probabilità / probabilità congiunta.

$ \ Pi e ^ {- x_i ^ 2} = e ^ {- \ Sigma x_i ^ 2} $

Quindi, in queste condizioni, ridurre al minimo la somma degli errori quadrati equivale a massimizzare la probabilità.


Se è necessaria una previsione di minimizzazione dei costi (dove la metrica dei costi è diversa da MSE), l'approccio generale / accurato sarebbe quello di minimizzare esplicitamente il costo previsto sull'intera distribuzione dei modelli ponderati in base alle loro probabilità (o probabilità se si hanno conoscenza precedente). Questo disaccoppia completamente il problema di minimizzare il costo atteso dal problema della stima in presenza di rumore.

Supponi di misurare una quantità costante in presenza di rumore gaussiano. Anche se la tua metrica dei costi per i risultati futuri è MAE, preferiresti prevedere con la media (riducendo al minimo il MSE passato) piuttosto che la mediana (riducendo al minimo il MAE passato), se effettivamente sai che la quantità è costante e il rumore di misurazione è gaussiano.

Esempio

Considera la seguente distribuzione di colpi prodotti da un'arma fissata meccanicamente in posizione. Posiziona un cerchio di una data dimensione da qualche parte sul bersaglio. Se il colpo successivo cade interamente all'interno del tuo cerchio, vinci, altrimenti perdi. La funzione di costo è nella forma $ f_C (x, y) = sign ((x-x_C) ^ 2 + (y-y_C) ^ 2-R ^ 2) $ span>.

enter image description here

Se riduci a icona $ \ sum_i f_C (x_i, y_i) $ , posizionerai il cerchio nella posizione blu, contenente interamente il numero massimo di colpi passati. Ma se sapessi che la pistola è fissata in posizione e l'errore è gaussiano, posizioneresti il ​​cerchio nella posizione verde, centrato sulla media / centroide dei dati (riducendo al minimo MSE), poiché stai ottimizzando il guadagno atteso futuro, non medio passato profitto.

C'è una ragione pratica per cui si preferirebbe massimizzare la probabilità piuttosto che ridurre al minimo l'aspettativa di una metrica dei costi realistica?
@RyanVolpi Si consideri ad esempio il caso più semplice: provare a misurare una quantità costante in presenza di rumore gaussiano.Anche se la metrica dei costi per i risultati futuri è un errore assoluto, preferiresti prevedere con la media (riducendo al minimo l'errore quadrato passato) piuttosto che con la mediana (riducendo al minimo l'errore assoluto passato), se effettivamente sai che la quantità è costante e il rumore di misurazione è gaussiano.
@RyanVolpi Nella mia mente, ridurre al minimo il costo della previsione (futuro) è una preoccupazione separata dalla soppressione del rumore di misurazione (passato).Il modo esplicito per farlo sarebbe ridurre al minimo una distribuzione di modelli ponderati.
Non ci ho mai pensato in quel modo.Quindi, in presenza di rumore gaussiano, la media minimizza il MAE atteso meglio della mediana.Ciò si estende ad altre circostanze?Ad esempio, per un modello lineare con errore gaussiano, le stime dei minimi quadrati sono migliori delle stime dell'errore assoluto in termini di MAE previsto?
@RyanVolpi Presumo di sì fintanto che gli errori provengono (per scopi pratici) dal rumore gaussiano casuale e non dal modello troppo vincolato.
Saresti disposto a modificare la tua risposta per affermarlo in modo più esplicito?Penso che sia un punto molto importante che non ho guadagnato dalle altre risposte.
@RyanVolpi Nessun problema, ma mi ci vorrà un po 'di tempo perché non parlo fluentemente il gergo.
@Aksakal centrando il cerchio sulla media lo fa.
@Aksakal sulla media del campione (centroide) in assenza di informazioni preliminari: il punto che minimizza MSE sul campione.
@Museful non mi è mai venuto in mente che i colpi di arma da fuoco siano modellati con la distribuzione gaussiana correlata.si potrebbe pensare che dovrebbe esserci una distribuzione asimmetrica su entrambi gli assi a causa delle asimmetrie dell'arma rispetto al corpo e dell'azione di rinculo.Guardo spesso il foglio di destinazione, ma non ho mai pensato di modellare i dati.esempio interessante
supercat
2020-06-06 22:35:58 UTC
view on stackexchange narkive permalink

Supponiamo che uno tira un dado (numerato da 1 a 6) e voglia calcolare la sua deviazione media dal valore medio di 3,5. Due rotoli differirebbero di 0,5, due di 1,5 e due di 2,5, per una deviazione media di 1,5. Se si prende la media dei quadrati dei valori, si avrebbe una deviazione di 0,25, una di 2,25 e una di 6,25, per una media di 2,916 (35/12).

Ora supponiamo che invece di tirare un dado, uno ne tira due. La deviazione media sarebbe 1,94 (35/18) e il quadrato medio della deviazione sarebbe 5,833 (70/12).

Se invece di tirare due dadi, si volesse stimare la deviazione attesa in base a ciò che era con un dado, raddoppiando la deviazione media lineare di un dado singolo (cioè 1,5) si otterrebbe un valore di 3, che è molto più grande di la deviazione media lineare effettiva di 1,94. D'altra parte, raddoppiando il quadrato medio della deviazione quando si usa un dado singolo (2.916) si otterrebbe esattamente il quadrato medio della deviazione quando si usano due dadi.

In generale, la radice quadrata della media dei quadrati è un numero più utile della media dei quadrati stessi, ma se si vuole calcolare la radice quadrata della media di un mazzo di quadrati, è più facile mantenerla i valori da aggiungere come quadrati, che prendere le radici quadrate ogni volta che li si riporta e quindi doverli quadrare prima che possano essere aggiunti o mediati.

Drunk Deriving
2020-06-07 04:32:24 UTC
view on stackexchange narkive permalink

Secondo me, il punto è che l'errore al quadrato garantisce una soluzione unica, più facile da lavorare e quindi molto più intuitivo. Basandosi su due sole ipotesi principali (e linearità del termine di errore), una funzione di perdita quadratica garantisce che il coefficiente stimato sia l'unico minimizzato. Le deviazioni meno assolute non hanno questa proprietà. C'è sempre un potenziale per un numero infinito di soluzioni. Supponendo che $ \ esista \ theta_o \ in \ Theta $ in modo tale che $ E (y | x) = m (x, \ theta_o) $ e $ E ((m (x, \ theta) -m (x, \ theta_o) ^ 2) >0 $ per tutti $ \ theta \ neq \ theta_o $ , quindi $ \ theta_o $ è l'unico minimizzatore per il minimo non lineare piazze.

Dimostrazione: lascia che $ y = m (x, \ theta_o) + u $ e $ E (u | x ) = 0 $ . Quindi $$ E _ {\ theta_o} ((ym (x, \ theta)) ^ 2) = E _ {\ theta_o} ((ym (x, \ theta_o) + m (x , \ theta_0) -m (x, \ theta)) ^ 2) $$

$$ = E _ {\ theta_o} (u ^ 2) + E _ {\ theta_o} ((m (x, \ theta_o) -m (x, \ theta)) ^ 2) + 2E _ {\ theta_o} (u (m (x, \ theta_o) -m (x, \ theta))). $$

Per la legge delle aspettative ripetute, il terzo termine è zero. Pertanto

$$ E _ {\ theta_o} ((ym (x, \ theta)) ^ 2) = u ^ 2 + E _ {\ theta_o} ((m (x, \ theta_o) -m (x, \ theta)) ^ 2) $$ è ridotto a icona in modo univoco in $ \ theta_o $ .

Un'altra bella proprietà è la legge della varianza totale

$$ Var (Y) = Var_X (E_Y (Y | X)) + E_X (Var_Y (Y | X)), $$

che può essere letta come la varianza della variabile dipendente è la varianza del valore stimato più la varianza del residuo.

Su una nota più tecnica, le formule asintotiche sono molto più facili per una funzione di perdita quadratica.È importante sottolineare che le formule non dipendono dalla densità di probabilità del termine di errore.Sfortunatamente, questo non è vero per le deviazioni meno assolute.Pertanto la maggior parte dei professionisti finisce per dover assumere l'indipendenza del termine di errore (la formula ha la densità condizionale del termine di errore a 0 condizionata a $ x $ , che è impossibilestima ( $ f_ {u | x} (0) $ )) per stimare $ f_u (0) $ span>.

E il punto meno rigoroso è che le persone riescono a capire facilmente cosa sia un valore medio o atteso e la perdita quadratica si risolve per l'aspettativa condizionale.Deviazioni meno assolute suole per la mediana, che è solo più difficile da interpretare.Un altro motivo per cui le regressioni quantili non sono molto popolari.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 4.0 con cui è distribuito.
Loading...