Vladimir Vapnik (co-inventore della Support Vector Machine e uno dei principali teorici dell'apprendimento computazionale) sostiene di cercare sempre di risolvere il problema direttamente, piuttosto che risolvere un problema più generale e quindi scartare alcune delle informazioni fornite dalla soluzione. Sono generalmente d'accordo con questo, quindi suggerirei un approccio di classificazione per il problema come si pone attualmente . La ragione di ciò è che se siamo interessati solo a classificare un progetto come redditizio o non redditizio, allora siamo davvero interessati solo alla regione in cui la redditività è intorno allo zero. Se formiamo un modello di classificazione, è qui che concentreremo le nostre risorse di modellazione. Se adottiamo un approccio di regressione, potremmo sprecare risorse di modellazione per apportare piccoli miglioramenti nelle prestazioni per progetti che saranno molto redditizi o non redditizi, potenzialmente a scapito del miglioramento delle prestazioni dei progetti limite.
Ora il La ragione per cui ho detto "come attualmente posto" è che pochissimi problemi in realtà implicano una classificazione binaria semplice e rigida (il riconoscimento ottico dei caratteri sarebbe probabilmente uno). Generalmente diversi tipi di classificazione errata hanno costi diversi, o le frequenze delle classi operative possono essere sconosciute, o variabili, ecc. In questi casi è meglio avere un classificatore probabilistico, come la regressione logistica, piuttosto che un SVM. Se mi sembra che per un'applicazione finanziaria, faremo meglio se conosciamo la probabilità che il progetto sia redditizio e quanto sia redditizio o meno. Potremmo essere disposti a finanziare un progetto che ha una piccola possibilità di essere redditizio, ma enormemente redditizio se dovesse avere successo, ma non un progetto che è quasi garantito per avere successo, ma che avrà un margine di profitto così piccolo che saremmo noi meglio mettere i soldi in un conto di risparmio.
Quindi Frank e Omri374 hanno ragione entrambi! (+1; o)
EDIT: per chiarire perché la regressione potrebbe non essere sempre un buon approccio per risolvere un problema di classificazione, ecco un esempio. Supponiamo di avere tre progetti, con redditività $ \ vec {y} = (- \ $ 1000, + \ $ 1, + \ $ 1000) $, e per ogni progetto, abbiamo una variabile esplicativa che speriamo sia indicativa di redditività, $ \ vec {x} = (1, 2, 10) $. Se adottiamo un approccio di regressione (con offset), otteniamo i coefficienti di regressione $ \ beta_0 = -800.8288 $ e $ \ beta_1 = 184.8836 $ (a condizione di aver fatto le somme correttamente!). Il modello prevede quindi che i progetti producano profitti $ \ hat {y} _1 \ approx - \ $ 616 $, $ \ hat {y} _2 \ approx - \ $ 431 $ e $ \ hat {y} _3 \ approx \ $ 1048 $. Si noti che il secondo progetto è previsto erroneamente come non redditizio. Se d'altra parte, adottiamo un approccio di classificazione e regrediamo invece su $ \ vec {t} = 2 * (y > = 0) - 1 $, otteniamo i coefficienti di regressione $ \ beta_0 = -0,2603 $ e $ \ beta_1 = 0.1370 $, che assegna un punteggio ai tre progetti come segue: $ \ hat {t} _1 = -0.1233 $, $ \ hat {t} _2 = 0.0137 $ e $ \ hat {t} _3 = 1.1096 $. Quindi un approccio di classificazione classifica correttamente il progetto 1 come non redditizio e gli altri due come redditizi.
Il motivo per cui questo accade è che un approccio di regressione cerca ugualmente di ridurre al minimo la somma degli errori al quadrato per ciascuno dei dati punti. In questo caso, un SSE inferiore si ottiene consentendo al progetto due di cadere dal lato sbagliato del confine di decisione, in modo da ottenere errori inferiori sugli altri due punti.
Quindi Frank ha ragione quando dice che un approccio di regressione è probabilmente un buon approccio nella pratica, ma se la classificazione è effettivamente l'obiettivo finale, ci sono situazioni in cui può funzionare male e un approccio di classificazione funzionerà meglio.