Ho avuto una discussione con un collega e abbiamo iniziato a chiederci, quando si dovrebbe applicare la normalizzazione / ridimensionamento delle funzionalità ai dati? Supponiamo di avere una serie di funzionalità con alcune funzionalità che hanno una gamma di valori molto ampia e alcune funzionalità che hanno una gamma di valori non così ampia.
Se dovessi eseguire l'analisi delle componenti principali, avrei bisogno di normalizzare i dati, questo è chiaro, ma diciamo che stiamo cercando di classificare i dati usando la regressione lineare k-vicina più vicina e semplice metodo.
In quali condizioni dovrei o non dovrei normalizzare i dati e perché? Un esempio breve e semplice che evidenzi il punto aggiunto alla risposta sarebbe perfetto.