Home   >    Blog

kNN (k – Nearest Neighbors)

03/10/2019 
   |    

Existem dois tipos de modelos que estudamos em estatística, os paramétricos e não paramétricos, imaginem que o paramétrico são os que possuem inferência sobre distribuição de probabilidade e a nossa dificuldade é comparar o que medimos à essas distribuições, a gente sabe o que medir e temos um número fixo de parâmetros. Os não paramétricos são baseados em populações cujos parâmetros característicos são desconhecidos. K-NN é um método de Machine Learning não paramétrico, pode ser usado para classificação ou regressão.

Existe um “espaço” chamado “feature space” ou “espaço das características”, esse espaço é desenhado pelos vetores de características (“feature vectors” que representam algum objeto) combinados com “pesos” através de um produto escalar (aquele mesmo, do “Trabalho da Força de Atrito”) , ou em geometria analítica que usamos para criar projeções e cossenos.  Esse vetor de características, combinado com um vetor de espaço (“vector space”) forma o “feature space”, ou seja, espaço das características. Pense no vetor de espaço exatamente como aquele da física que, em primeira instância é o que possui métrica euclidiana (para medidas de distâncias) , mas que pode ter diferentes métricas e esse estudo pode ser uma deliciosa interdisciplinaridade, porém vou parar por aqui.

Um livro  bacanudo para ler sobre isso é o  Pattern Recognition and Machine Learning do Bishop. Recomendo essa modelagem para dados com baixa dimensionalidade e com um conjunto de treinamento não muito grande. Ele é rápido e eficiente!

Notas:

  1. Distância Métrica: Distância Eclidiana (padrão). Em sklearn é conhecido como (Minkowski com p = 2)
  2. Quantos vizinhos mais próximos: muito específico k = 1, modelo mais geral k = 5. Use os k mais próximos para determinar classificação
  3. Função de ponderação nos vizinhos: (opcional)
  4. Como agregar classe de pontos vizinhos: Maioria simples (padrão)

Exemplo de implementação em python de um modelo de regressão polinomial:

TAGS: 
Compartilhe
hello world!

Posts relacionados

20/11/2019
Grupo Gerdau Forma Cientista de Dados

O texto da Mônica Scaramuzzo no Estadão fala sobre o que as empresas tradicionais estão fazendo em sua busca por evolução nos dias atuais e é muito interessante. Traz a visão do Gustavo Werneck, CEO da empresa, sobre o assunto que mais se fala dentro das indústrias: a visão 4.0 e data-driven, tomar ações baseadas […]

Read More ->
14/11/2019
Inteligência Artificial Permite Olhar Através da Água

Um incrível trabalho de duas pesquisadoras, Derya Akkaynak e Tali Treibitz, da Universidade de Haifa em Israel resultou numa tecnologia chamada Sea-Thru que permite que seja removida toda água de uma foto. O resultado é uma reconstrução da imagem que foi tirada debaixo d'água, sem a água e fisicamente acuradas, com cores reais, mantendo saturação […]

Read More ->
03/10/2019
Como é a Aula Particular e Consultoria em Python Para Machine Learning

A área de “Business Analytics” cresce exponencialmente nas empresas, ela possui espaço para diversas atividades e contempla pelo menos três ou quatro importantes cargos: engenheiro de dados, cientista de dados, analista de dados e "data strategy". O intuito do acompanhamento através de consultorias ou aulas particulares é auxiliar você nesse universo caso tenha um curso […]

Read More ->

© 2021 Estudo de Dados
Desenvolvido por Freshlab Agência Digital

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram