Le prime 5 risposte non riescono a distinguere tra estimation loss e prediction loss, qualcosa che è cruciale per rispondere alla domanda.A priori, non c'è motivo per cui i due debbano coincidere.Discuterò entrambi i tipi di perdita nel contesto della previsione del punto utilizzando la regressione lineare.La discussione può essere estesa a modelli diversi dalla regressione lineare e attività diverse dalla previsione del punto, ma l'essenza rimane la stessa.
Configurazione
Supponi di dover affrontare un problema di previsione in cui si trova il modello
$$
y = X \ beta + \ varepsilon
$$
dove $ \ varepsilon \ sim D (0, \ sigma) $ , $ D $ è una distribuzione di probabilità con posizione $ 0 $ e scalare $ \ sigma $ . Il tuo obiettivo è prevedere $ y_0 $ dato $ x_0 $ e la tua previsione del punto sarà $ \ hat y_0 $ , una funzione di $ x_0 $ , il campione di dati, il modello e la penalità (il negativo di ricompensa) funzione definita sull'errore di previsione. La funzione di penalità che stai affrontando è $ L_P (y- \ hat y) $ . Ha un minimo a zero (il valore $ L_P (0) $ può essere impostato a zero senza perdita di generalità) e non è decrescente su entrambi i lati di zero; questa è una caratterizzazione tipica di una funzione sensibile prediction loss. Puoi scegliere liberamente una funzione perdita di stima $ L_E (\ cdot) $ e una funzione di previsione del punto $ y_hat_0 $ span >. Quali sono le tue scelte ottimali per ciascuno? Ciò dipenderà dalla distribuzione degli errori $ D $ e dalla funzione di previsione della perdita $ L_P (\ cdot) $ .
Stima della perdita
La stima della perdita specifica come vengono ottenute le stime dei parametri di un modello dai dati campione. Nel nostro esempio di regressione lineare, riguarda la stima di $ \ beta $ e $ \ sigma $ . Puoi stimarli riducendo al minimo la somma dei residui al quadrato (OLS) tra l'attuale $ y $ ei corrispondenti valori stimati, somma dei residui assoluti (regressione quantile alla mediana ) o un'altra funzione. La scelta della perdita di stima può essere determinata dalla distribuzione degli errori del modello. Lo stimatore più accurato in un certo senso tecnico * sarà ottenuto dalla perdita di stima che rende lo stimatore parametrico lo stimatore di massima verosimiglianza (ML). Se gli errori del modello sono distribuiti normalmente ( $ D $ è normale), questo sarà OLS; se sono distribuiti secondo una distribuzione di Laplace ( $ D $ è Laplace), questa sarà la regressione quantile alla media; ecc.
* Per semplificare, dato uno stimatore ML, potresti aspettarti stime dei parametri più accurate dal tuo modello rispetto a quelle fornite da stimatori alternativi.
Perdita di previsione
La perdita di previsione specifica come vengono penalizzati gli errori di previsione. Non lo scegli, è dato. (Di solito è il cliente che lo specifica. Se il cliente non è in grado di farlo matematicamente, l'analista dovrebbe sforzarsi di farlo ascoltando attentamente gli argomenti del cliente.) Se l'errore di previsione causa la perdita del cliente (ad es. ) per crescere quadraticamente e simmetricamente intorno allo zero, stai affrontando una perdita di previsione quadrata. Se la perdita del cliente cresce in modo lineare e simmetrico intorno allo zero, stai affrontando una perdita di previsione assoluta. Ci sono molte altre possibilità per i tipi di perdita di previsione che potresti dover affrontare.
Previsione
Date le stime dei parametri del modello e i valori dei regressori del punto di interesse, $ x_0 $ , dovresti scegliere la previsione del punto $ \ hat y_0 $ basato sulla previsione di perdita. Per la perdita quadrata, sceglierai la media stimata di $ y_0 $ , poiché la media vera minimizza la perdita quadrata in media (dove la media viene presa su campioni casuali di $ y_0 $ soggetto a $ x = x_0 $ ). Per la perdita assoluta, sceglierai la mediana stimata. Per altre funzioni di perdita, sceglierai altre caratteristiche della distribuzione di $ y_0 $ che hai modellato.
Torna alla tua domanda
Perché le persone scelgono spesso l'errore quadrato anziché l'errore assoluto, o corrispondentemente la perdita quadrata piuttosto che la perdita assoluta, come estimation loss? Poiché gli errori normali ( $ D $ è normale) sono comuni nelle applicazioni, probabilmente più degli errori di Laplace ( $ D $ è Laplace). Inoltre, rendono gli stimatori di regressione trattabili analiticamente. Tuttavia, non sono molto più facili da calcolare. La complessità computazionale dell'OLS (corrispondente alla stima ML in errori normali) rispetto alla regressione quantile alla mediana (corrispondente alla stima ML sotto errori di Laplace) non è molto diversa. Quindi ci sono alcuni validi argomenti per la scelta di OLS sulla regressione quantile alla mediana, o errore quadrato su errore assoluto.
Perché le persone scelgono l'errore quadrato, o corrispondentemente la perdita quadrata, come prediction loss?Forse per semplicità.Come alcune delle risposte precedenti potrebbero aver menzionato, devi scegliere una linea di base per un'esposizione da manuale;non è possibile discutere tutti i casi possibili in dettaglio.Tuttavia, il caso per preferire la perdita quadrata rispetto alla perdita assoluta come perdita di previsione è meno convincente rispetto al caso di perdita di stima.È probabile che la perdita di previsione effettiva sia asimmetrica (come discusso in alcune risposte precedenti) e non sia più probabile che cresca in modo quadratico che lineare con l'errore di previsione.Naturalmente, in pratica dovresti seguire le specifiche del cliente sulla perdita di previsione.Nel frattempo, in esempi casuali e discussioni in cui non c'è un cliente concreto in giro, non vedo un forte argomento per preferire l'errore quadrato all'errore assoluto.