A normalização é usada para eliminar dados redundantes e garante a geração de clusters de boa qualidade, o que pode melhorar a eficiência dos algoritmos de clustering. é muito sensível às mudanças nas diferenças[3].
Precisamos normalizar dados para agrupamento K-means?
Assim como no método k-NN, as características utilizadas para agrupamento devem ser medidas em unidades comparáveis. Nesse caso, as unidades não são um problema, pois todas as 6 características são expressas em uma escala de 5 pontos. Normalização ou padronização não é necessária.
Como você prepara os dados antes de agrupar?
Preparação de Dados
Para realizar uma análise de cluster em R, geralmente, os dados devem ser preparados da seguinte forma: Linhas são observações (indivíduos) e colunas são variáveis. Qualquer valor ausente nos dados deve ser removido ou estimado. Os dados devem ser padronizados (ou seja, dimensionados) para tornar as variáveis comparáveis.
Os dados devem ser dimensionados para clustering?
No agrupamento, você calcula a similaridade entre dois exemplos combinando todos os dados do recurso desses exemplos em um valor numérico. A combinação de dados de feição requer que os dados tenham a mesma escala.
Por que é importante normalizar recursos antes de agrupar?
A padronização é uma etapa importante do Datapré-processamento.
Como explicado neste artigo, o k-means minimiza a função de erro usando o algoritmo de Newton, ou seja, um algoritmo de otimização baseado em gradiente. Normalizar os dados melhora a convergência de tais algoritmos.