A área de “Business Analytics” cresce exponencialmente nas empresas, ela possui espaço para diversas atividades e contempla pelo menos três ou quatro importantes cargos: engenheiro de dados, cientista de dados, analista de dados e "data strategy".

O intuito do acompanhamento através de consultorias ou aulas particulares é auxiliar você nesse universo caso tenha um curso que você esteja com dificuldades em acompanhar, ou problemas do seu trabalho que você gostaria de alguém para discutir e resolver junto.

APRESENTAÇÃO DO CONSULTOR E PROFESSOR

Sou bacharel em Física pela USP, MBA em Ciência de Dados. Trabalhei por seis anos no mercado financeiro em fundos locais (onshore) e fora do país (offshore) com estatística aplicada, backoffice e análise de Risco.

Empreendo com projetos em Big Data, sou consultor e cientista de dados no Grupo Boticário.

METODOLOGIA
A AULA PARTICULAR e a CONSULTORIA são encontros individuais de duração aproximada de 1 hora e meia  sob demanda.

Aulas online, com tela compartilhada, com material disponibilizado para você. Fica melhor se tiver duas telas e assim compartilhamos simultaneamente e podemos programarmos juntos.

Durante a aula ou consultoria discutimos soluções, acompanhamos um problema e auxilio você através de  exemplos reais. Você terá acesso à códigos, teoria matemática e um universo de conteúdo para entender seu uso e impacto em diferentes negócios.

Atendo pessoas de todas as áreas e auxilio empreendedores em MBAs,  plano de negócio e desenvolvimento de ideias com analytics.

A Mentoria em Python para Ciência de Dados é inspirada no Programa de cursos integrados Ciência de dados aplicada com Python da Universidade de Michigan da plataforma Coursera, complementado com estudos que realizei, processos seletivos que passei e os livros mais importantes da área.

 

APRESENTAÇÃO DO MENTOR

Sou bacharel em Física pela USP, MBA em Ciência de Dados. Trabalhei por seis anos no mercado financeiro em fundos locais (onshore) e fora do país (offshore) com estatística aplicada, backoffice e análise de Risco.

Empreendo com projetos em Big Data, sou consultor e cientista de dados no Grupo Boticário.

 

METODOLOGIA DE TRABALHO

A MENTORIA é um acompanhamento de 1 hora e meia por semana durante 4 meses com a participação de até 10 pessoas.

Online, em tempo real, com as aulas gravadas e disponibilizadas no lab.estudodedados.com.br . Você terá acesso à um conjunto enorme de códigos e modelos já prontos e eu vou ensinar do zero, como criar uma rotina de análise de dados e as melhores estratégias para construir modelos de machine learning.

Exemplifico com aplicações práticas em negócio e aplicativos que utilizam analytics como raiz do seu funcionamento.

Você também terá acesso à uma infinidade de recursos, códigos, artigos, canais no youtube e materiais de estudo para complementar o seu estudo.

Atendo pessoas e empresas de todas as áreas.

 

 

Árvores de Decisão Aumentada por Gradiente (GBDT) constrói uma série de pequenas árvores de decisão, com cada árvore tentando corrigir erros do estágio anterior. Aqui está um bom vídeo sobre isso, que descreve AdaBoost, mas dá uma boa visão geral da árvore impulsionando modelos.

Vocês devem estar se perguntando MAS E REDES NEURAIS!???????????
Teremos artigos específicos para ela 🙂

Ainda abordarei esse tema, falando sobre a matemática do Machine Learning, porém é interessante ver que há métodos de criar clusters e analisar estruturas internas dos dados. Podemos ter reduções de dimensionalidade lineares (PCA e MDS) ou não lineares (t-SNE) ou “manifold learning”.

Realizar reduções dimensionais pode ser muito interessante, porém é um daqueles caminhos onde optamos por menos explicabilidade para ter melhores resultados de modelos. Para estudar um pouco a origem dessas coisas recomendo fazer uma revisão de Álgebra Linear.

Considerado um conjunto de aprendizado “ensamble learning” usado para classificação e regressão. É um dos modelos não paramétricos mais utilizados por cientistas de dados. A ideia é construir diversas árvores de decisão e optar pela saída que seja a moda em caso de classificação, ou a média no caso da regressão, das saídas de cada árvore individual. Uma maneira de buscar sair do overfitting causado pelo uso de uma única árvore de decisão.

É uma boa para testar ao feature importance das variáveis, ou seja, a importância preditiva de cada característica do vetor de entrada. Os hiperparâmetros são relativamente simples de entender e vale a pena sempre rodar esse algoritmo no começo e entender se á boas ideias por trás das inferências preditivas que essa técnica traz. O problema é a complexidade, ou seja, tempo e gasto computacional.

Quer saber mais? Da uma olhada nesse artigo do Analytics Vidhya

Existem dois tipos de modelos que estudamos em estatística, os paramétricos e não paramétricos, imaginem que o paramétrico são os que possuem inferência sobre distribuição de probabilidade e a nossa dificuldade é comparar o que medimos à essas distribuições, a gente sabe o que medir e temos um número fixo de parâmetros. Os não paramétricos são baseados em populações cujos parâmetros característicos são desconhecidos. K-NN é um método de Machine Learning não paramétrico, pode ser usado para classificação ou regressão.

Existe um “espaço” chamado “feature space” ou “espaço das características”, esse espaço é desenhado pelos vetores de características (“feature vectors” que representam algum objeto) combinados com “pesos” através de um produto escalar (aquele mesmo, do “Trabalho da Força de Atrito”) , ou em geometria analítica que usamos para criar projeções e cossenos.  Esse vetor de características, combinado com um vetor de espaço (“vector space”) forma o “feature space”, ou seja, espaço das características. Pense no vetor de espaço exatamente como aquele da física que, em primeira instância é o que possui métrica euclidiana (para medidas de distâncias) , mas que pode ter diferentes métricas e esse estudo pode ser uma deliciosa interdisciplinaridade, porém vou parar por aqui.

Um livro  bacanudo para ler sobre isso é o  Pattern Recognition and Machine Learning do Bishop. Recomendo essa modelagem para dados com baixa dimensionalidade e com um conjunto de treinamento não muito grande. Ele é rápido e eficiente!

Notas:

  1. Distância Métrica: Distância Eclidiana (padrão). Em sklearn é conhecido como (Minkowski com p = 2)
  2. Quantos vizinhos mais próximos: muito específico k = 1, modelo mais geral k = 5. Use os k mais próximos para determinar classificação
  3. Função de ponderação nos vizinhos: (opcional)
  4. Como agregar classe de pontos vizinhos: Maioria simples (padrão)

Exemplo de implementação em python de um modelo de regressão polinomial:

Técnica não supervisionada para resolver o problema do “clustering” e criar clusters. Podemos nomear esses clusters e criar novas labels e utilizá-las por exemplo depois para, a partir de outros parâmetros que não o que realizamos o clustering, prever essas labels. Conectar modelos não supervisionados com supervisionados faz parte das técnicas que usamos em Data Science.

Você especifica o valor de “k” inicialmente. mas existem técnicas bacanas para achar esse valor sistematicamente.
K-means é um problema NP-completo, ou seja, computacionalmente difícil, porém com algoritmos que convergem rapidamente para mínimos locais. Ele não funciona muito bem com clusters complexos, mas trabalha muito bem com dados bem separados, com estruturas globulares. Tem uma variação “k-medoids” que pode trabalhar com dados categóricos “categorical features”.

 

Passos:
1. Especifique o número de clusters (k)
2. k pontos de dados aleatórios são selecionados aleatoriamente como centros de cada cluster
3. Cada ponto de dados é atribuído ao centro do cluster mais próximo dele
4. Os centros de cluster são atualizados para a média dos pontos atribuídos
5. Os passos 3-4 são repetidos até que os centros de cluster permaneçam inalterados)

 

Diferentemente do SVM, esse é um tipo de classificador chamado classificador probabilístico, relacionando objetos (vetores, conteúdo de imagens, textos, etc) com classes, que pode ser já conhecida ou que eu possa nomear, criando labels por métodos não supervisionados, por exemplo. Classificadores bayesianos são aqueles onde conheço a priori a probabilidade das categorias, situação que raramente ocorre na prática, mas muitas vezes permite prever o erro que teremos ao generalizar para outros padrões e comparar qual classificador ideal (Bayesiano) que podemos usar. Vale agora uma referência o livro “Pattern Classification”, onde há partes dedicadas a entender casos onde a probabilidade em relação às categorias não é conhecida.

Alguns slides do Departamento de Ciência da Computação da UDESC Joinville que achei bacana e podem ser acessados aqui.

Esse algoritmo é muito usado para, por exemplo, entender se uma palavra como “amor” é usada em uma frase como algo positivo ou negativo, da uma olhada nesse material da Poli/USP que achei bastante explicativo. Porém aqui vou usar no dataset sintético que já temos trabalhado acima para fins de comparação.
Não podemos seguir sem olhar a conhecida fórmula de Bayes, achei uma num blog bacana, podia fazer, mas vou compartilhar com a fonte:

 

Exemplo de implementação em python de um modelo de regressão polinomial:

© 2021 Estudo de Dados
Desenvolvido por Freshlab Agência Digital

linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram