Abbiamo un set di dati con 10.000 istanze etichettate manualmente e un classificatore addestrato su tutti questi dati. Il classificatore è stato quindi valutato su TUTTI questi dati per ottenere una percentuale di successo del 95%.
Cosa c'è esattamente di sbagliato in questo approccio? È solo che la statistica del 95% non è molto istruttiva in questa configurazione? Può esserci ancora un valore in questo numero del 95%? Anche se capisco che, in teoria, non è una buona idea, non ho abbastanza esperienza in questo settore per esserne sicuro da solo. Si noti inoltre che non ho né costruito né valutato il classificatore in questione.
A parte il buon senso, qualcuno potrebbe fornirmi un riferimento molto solido e autorevole, dicendo che questa configurazione è in qualche modo sbagliata?
Tutto quello che trovo su Internet sono esempi di giocattoli che dovrebbero trasmettere qualche intuizione. Qui ho un progetto di professionisti con una comprovata esperienza, quindi non posso semplicemente dire "questo è sbagliato", soprattutto perché non lo so per certo.
Ad esempio, questo pagina dice:
La valutazione delle prestazioni del modello con i dati utilizzati per l'addestramento non è accettabile nel data mining perché può facilmente generare modelli iperottimistici e sovradimensionati.
Tuttavia, questo non è certo un riferimento autorevole. In effetti, questa citazione è chiaramente sbagliata, poiché la valutazione non ha nulla a che fare con la generazione di modelli overfitted. Potrebbe generare data scientist eccessivamente ottimistici che sceglierebbero i modelli sbagliati, ma una particolare strategia di valutazione non ha nulla a che fare con i modelli overfitting di per sé.