Perché non convalidare l'intero set di formazione?

osa

2015-01-02 22:34:46 UTC

view on stackexchange narkive permalink

Abbiamo un set di dati con 10.000 istanze etichettate manualmente e un classificatore addestrato su tutti questi dati. Il classificatore è stato quindi valutato su TUTTI questi dati per ottenere una percentuale di successo del 95%.

Cosa c'è esattamente di sbagliato in questo approccio? È solo che la statistica del 95% non è molto istruttiva in questa configurazione? Può esserci ancora un valore in questo numero del 95%? Anche se capisco che, in teoria, non è una buona idea, non ho abbastanza esperienza in questo settore per esserne sicuro da solo. Si noti inoltre che non ho né costruito né valutato il classificatore in questione.

A parte il buon senso, qualcuno potrebbe fornirmi un riferimento molto solido e autorevole, dicendo che questa configurazione è in qualche modo sbagliata?

Tutto quello che trovo su Internet sono esempi di giocattoli che dovrebbero trasmettere qualche intuizione. Qui ho un progetto di professionisti con una comprovata esperienza, quindi non posso semplicemente dire "questo è sbagliato", soprattutto perché non lo so per certo.

Ad esempio, questo pagina dice:

La valutazione delle prestazioni del modello con i dati utilizzati per l'addestramento non è accettabile nel data mining perché può facilmente generare modelli iperottimistici e sovradimensionati.

Tuttavia, questo non è certo un riferimento autorevole. In effetti, questa citazione è chiaramente sbagliata, poiché la valutazione non ha nulla a che fare con la generazione di modelli overfitted. Potrebbe generare data scientist eccessivamente ottimistici che sceglierebbero i modelli sbagliati, ma una particolare strategia di valutazione non ha nulla a che fare con i modelli overfitting di per sé.

Molte persone (a torto oa ragione) utilizzano le valutazioni del modello per selezionare il modello finale.Se è così, c'è un senso in cui una particolare strategia di valutazione (inappropriata) può generare modelli [finali] sovradimensionati.

Vorrei semplicemente sollevare i tuoi dubbi in modo più diretto.Dato che dici che sono professionisti con una comprovata esperienza, perché non chiedi loro specificamente perché non hanno utilizzato un set di test indipendente?Sospetto che sia un malinteso: forse hanno utilizzato un set di test separato e successivamente hanno addestrato tutti i dati.

@seanv507, stiamo per chiedere.Mi sto solo assicurando che non ci sia ricerca all'avanguardia nell'area della convalida sul set di formazione ...

Sebbene non sia una risposta completa alla tua domanda, forse si può trarre un po 'di intuizione considerando il seguente caso.Se un algoritmo memorizzasse in modo esplicito tutte le 10.000 istanze etichettate, avrebbe una precisione del 100% se mostrata una di queste istanze.Ma cosa farebbe con un'etichetta che non aveva mai visto prima ...

Ora che ci penso, per la natura dell'apprendimento, qualunque esso sia, qualsiasi modello ragionevole dovrebbe fare di meglio quando ha visto i dati su cui viene testato.Sarebbe davvero strano se un modello funzionasse meglio su altri set di dati del mondo reale rispetto a quello su cui è stato addestrato, e sembra statisticamente improbabile che ottenga lo stesso, diciamo, l'81% in entrambi i casi.