Per prima cosa, non penso che ci siano molte domande del tipo "È una buona pratica usare sempre X nel machine learning" dove la risposta sarà definitiva. Sempre? Sempre sempre? Attraverso modelli parametrici, non parametrici, bayesiani, Monte Carlo, scienze sociali, puramente matematici e milioni di funzionalità? Sarebbe carino, no!
In concreto, però, ecco alcuni modi in cui: dipende.
Alcune volte in cui la normalizzazione è buona:
1) Diversi algoritmi, in particolare SVM, a volte possono convergere molto più velocemente su dati normalizzati (anche se, precisamente, non riesco a ricordare).
2) Quando il modello è sensibile all'ampiezza e le unità di due caratteristiche diverse sono diverse e arbitrarie. È come il caso che suggerisci, in cui qualcosa ha più influenza di quanto dovrebbe.
Ma ovviamente - non tutti gli algoritmi sono sensibili alla grandezza nel modo in cui suggerisci. I coefficienti di regressione lineare saranno identici se ridimensionate o non ridimensionate i dati, perché sta esaminando le relazioni proporzionali tra di loro.
Alcune volte quando la normalizzazione è cattivo:
1) Quando vuoi interpretare i tuoi coefficienti e non si normalizzano bene. La regressione su qualcosa come i dollari ti dà un risultato significativo. La regressione sulla proporzione del massimo di dollari nel campione potrebbe non esserlo.
2) Quando, in effetti, le unità sulle tue caratteristiche sono significative e la distanza fa fa la differenza! Tornando agli SVM: se stai cercando di trovare un classificatore di margine massimo, le unità che entrano in quel "massimo" sono importanti. Le funzionalità di ridimensionamento per gli algoritmi di clustering possono modificare sostanzialmente il risultato. Immagina quattro gruppi attorno all'origine, ciascuno in un quadrante diverso, tutti ben ridimensionati. Ora, immagina che l'asse y venga allungato fino a dieci volte la lunghezza dell'asse x. invece di quattro piccoli gruppi di quadranti, otterrai la lunga baguette schiacciata di dati tagliata in quattro pezzi lungo la sua lunghezza! (E, la parte importante è che potresti preferire uno di questi!)
In un riepilogo sono sicuro insoddisfacente, la risposta più generale è che devi chiederti seriamente cosa ha senso con i dati, e il modello che stai utilizzando.