O texto da Mônica Scaramuzzo no Estadão fala sobre o que as empresas tradicionais estão fazendo em sua busca por evolução nos dias atuais e é muito interessante. Traz a visão do Gustavo Werneck, CEO da empresa, sobre o assunto que mais se fala dentro das indústrias: a visão 4.0 e data-driven, tomar ações baseadas […]
Técnica não supervisionada para resolver o problema do “clustering” e criar clusters. Podemos nomear esses clusters e criar novas labels e utilizá-las por exemplo depois para, a partir de outros parâmetros que não o que realizamos o clustering, prever essas labels. Conectar modelos não supervisionados com supervisionados faz parte das técnicas que usamos em Data Science.
Você especifica o valor de “k” inicialmente. mas existem técnicas bacanas para achar esse valor sistematicamente.
K-means é um problema NP-completo, ou seja, computacionalmente difícil, porém com algoritmos que convergem rapidamente para mínimos locais. Ele não funciona muito bem com clusters complexos, mas trabalha muito bem com dados bem separados, com estruturas globulares. Tem uma variação “k-medoids” que pode trabalhar com dados categóricos “categorical features”.
Passos:
1. Especifique o número de clusters (k)
2. k pontos de dados aleatórios são selecionados aleatoriamente como centros de cada cluster
3. Cada ponto de dados é atribuído ao centro do cluster mais próximo dele
4. Os centros de cluster são atualizados para a média dos pontos atribuídos
5. Os passos 3-4 são repetidos até que os centros de cluster permaneçam inalterados)