O texto da Mônica Scaramuzzo no Estadão fala sobre o que as empresas tradicionais estão fazendo em sua busca por evolução nos dias atuais e é muito interessante. Traz a visão do Gustavo Werneck, CEO da empresa, sobre o assunto que mais se fala dentro das indústrias: a visão 4.0 e data-driven, tomar ações baseadas […]
Existem dois tipos de modelos que estudamos em estatística, os paramétricos e não paramétricos, imaginem que o paramétrico são os que possuem inferência sobre distribuição de probabilidade e a nossa dificuldade é comparar o que medimos à essas distribuições, a gente sabe o que medir e temos um número fixo de parâmetros. Os não paramétricos são baseados em populações cujos parâmetros característicos são desconhecidos. K-NN é um método de Machine Learning não paramétrico, pode ser usado para classificação ou regressão.
Existe um “espaço” chamado “feature space” ou “espaço das características”, esse espaço é desenhado pelos vetores de características (“feature vectors” que representam algum objeto) combinados com “pesos” através de um produto escalar (aquele mesmo, do “Trabalho da Força de Atrito”) , ou em geometria analítica que usamos para criar projeções e cossenos. Esse vetor de características, combinado com um vetor de espaço (“vector space”) forma o “feature space”, ou seja, espaço das características. Pense no vetor de espaço exatamente como aquele da física que, em primeira instância é o que possui métrica euclidiana (para medidas de distâncias) , mas que pode ter diferentes métricas e esse estudo pode ser uma deliciosa interdisciplinaridade, porém vou parar por aqui.
Um livro bacanudo para ler sobre isso é o Pattern Recognition and Machine Learning do Bishop. Recomendo essa modelagem para dados com baixa dimensionalidade e com um conjunto de treinamento não muito grande. Ele é rápido e eficiente!
Notas:
- Distância Métrica: Distância Eclidiana (padrão). Em sklearn é conhecido como (Minkowski com p = 2)
- Quantos vizinhos mais próximos: muito específico k = 1, modelo mais geral k = 5. Use os k mais próximos para determinar classificação
- Função de ponderação nos vizinhos: (opcional)
- Como agregar classe de pontos vizinhos: Maioria simples (padrão)
Exemplo de implementação em python de um modelo de regressão polinomial: