O texto da Mônica Scaramuzzo no Estadão fala sobre o que as empresas tradicionais estão fazendo em sua busca por evolução nos dias atuais e é muito interessante. Traz a visão do Gustavo Werneck, CEO da empresa, sobre o assunto que mais se fala dentro das indústrias: a visão 4.0 e data-driven, tomar ações baseadas em dados, automatizar processos e sinergia de pessoas com máquinas.

Ler sobre isso me lembrou bastante o trabalho que faço, construir uma área de ciência de dados numa grande empresa, respeitando seus novos personagens e entendendo os reais ganhos.

Os pilares de ciência de dados são ciência - matemática, estatística e machine learningtecnologia - engenharia de software,  startups, devops e inovação - e pessoas - tudo que você pode extrair do negócio - sendo a última o maior desafio. Um bom cientista de dados explica o que faz muito bem e, percebendo a validade do que desenvolve, cria oportunidades, cativa, conquista pessoas e divulga sua ciência como um negócio. E o que é ciência senão um aprofundamento num assunto específico?

 

Image by Dariusz Sankowski from Pixabay

O que faz um cientista de dados se destacar é todo aprendizado que ele extrai de pessoas de negócio e dos seus estudos, é criar uma formulação que faça sentido matemático e possa ser base para aplicativos, automatizações, sistemas, etc. Ele é parte de TI, como é parte de negócios, mas antes de tudo ele é um pensador.

O Itaú também tem investimentos nessa parceria com universidades e uma pós graduação bastante concorrida em parceria com o ITA e  USP. Esses caras já entenderam que formar dentro de casa é o melhor caminho, aliás no futuro imagino que essas escolas serão mais concorridas do que universidades públicas. Só "sofrendo" junto num aprendizado, que se cria uma cultura analítica produtiva de discussões, cooperações e alto desempenho.

Você pega uma pessoa com uma boa formação científica e deixa ela imersa nos conhecimentos da empresa.

Não há mais como negar que as empresas que não se preocuparem com a quarta revolução industrial estarão ultrapassadas e poderão perder muito  tempo e dinheiro, hoje em dia não há onde não renovar.

*Image by Larisa Koshkina from Pixabay

 

 

 


Um incrível trabalho de duas pesquisadoras, Derya Akkaynak e Tali Treibitz, da Universidade de Haifa em Israel resultou numa tecnologia chamada Sea-Thru que permite que seja removida toda água de uma foto.

O resultado é uma reconstrução da imagem que foi tirada debaixo d'água, sem a água e fisicamente acuradas, com cores reais, mantendo saturação e brilho. Algo assim pode ser utilizada largamente usado por biólogos que precisem ver cores verdadeiras sob a superfície.

Considerando os efeitos que governam as imagens debaixo d'água, as pesquisadoras criaram um modelo que reconhece o sinal que degrada a imagem proveniente da luz refletida em partículas suspensas na água. Utilizaram mais de 1100 imagem para entender o padrão de espalhamento e absorção da luz na água.

Uma das imagens do artigo publicado mostra a perfeição dessa tecnologia.

Fonte da foto

Leia mais no artigo da Scientific American.

 

A área de “Business Analytics” cresce exponencialmente nas empresas, ela possui espaço para diversas atividades e contempla pelo menos três ou quatro importantes cargos: engenheiro de dados, cientista de dados, analista de dados e "data strategy".

O intuito do acompanhamento através de consultorias ou aulas particulares é auxiliar você nesse universo caso tenha um curso que você esteja com dificuldades em acompanhar, ou problemas do seu trabalho que você gostaria de alguém para discutir e resolver junto.

APRESENTAÇÃO DO CONSULTOR E PROFESSOR

Sou bacharel em Física pela USP, MBA em Ciência de Dados. Trabalhei por seis anos no mercado financeiro em fundos locais (onshore) e fora do país (offshore) com estatística aplicada, backoffice e análise de Risco.

Empreendo com projetos em Big Data, sou consultor e cientista de dados no Grupo Boticário.

METODOLOGIA
A AULA PARTICULAR e a CONSULTORIA são encontros individuais de duração aproximada de 1 hora e meia  sob demanda.

Aulas online, com tela compartilhada, com material disponibilizado para você. Fica melhor se tiver duas telas e assim compartilhamos simultaneamente e podemos programarmos juntos.

Durante a aula ou consultoria discutimos soluções, acompanhamos um problema e auxilio você através de  exemplos reais. Você terá acesso à códigos, teoria matemática e um universo de conteúdo para entender seu uso e impacto em diferentes negócios.

Atendo pessoas de todas as áreas e auxilio empreendedores em MBAs,  plano de negócio e desenvolvimento de ideias com analytics.

A Mentoria em Python para Ciência de Dados é inspirada no Programa de cursos integrados Ciência de dados aplicada com Python da Universidade de Michigan da plataforma Coursera, complementado com estudos que realizei, processos seletivos que passei e os livros mais importantes da área.

 

APRESENTAÇÃO DO MENTOR

Sou bacharel em Física pela USP, MBA em Ciência de Dados. Trabalhei por seis anos no mercado financeiro em fundos locais (onshore) e fora do país (offshore) com estatística aplicada, backoffice e análise de Risco.

Empreendo com projetos em Big Data, sou consultor e cientista de dados no Grupo Boticário.

 

METODOLOGIA DE TRABALHO

A MENTORIA é um acompanhamento de 1 hora e meia por semana durante 4 meses com a participação de até 10 pessoas.

Online, em tempo real, com as aulas gravadas e disponibilizadas no lab.estudodedados.com.br . Você terá acesso à um conjunto enorme de códigos e modelos já prontos e eu vou ensinar do zero, como criar uma rotina de análise de dados e as melhores estratégias para construir modelos de machine learning.

Exemplifico com aplicações práticas em negócio e aplicativos que utilizam analytics como raiz do seu funcionamento.

Você também terá acesso à uma infinidade de recursos, códigos, artigos, canais no youtube e materiais de estudo para complementar o seu estudo.

Atendo pessoas e empresas de todas as áreas.

 

 

Árvores de Decisão Aumentada por Gradiente (GBDT) constrói uma série de pequenas árvores de decisão, com cada árvore tentando corrigir erros do estágio anterior. Aqui está um bom vídeo sobre isso, que descreve AdaBoost, mas dá uma boa visão geral da árvore impulsionando modelos.

Vocês devem estar se perguntando MAS E REDES NEURAIS!???????????
Teremos artigos específicos para ela 🙂

Ainda abordarei esse tema, falando sobre a matemática do Machine Learning, porém é interessante ver que há métodos de criar clusters e analisar estruturas internas dos dados. Podemos ter reduções de dimensionalidade lineares (PCA e MDS) ou não lineares (t-SNE) ou “manifold learning”.

Realizar reduções dimensionais pode ser muito interessante, porém é um daqueles caminhos onde optamos por menos explicabilidade para ter melhores resultados de modelos. Para estudar um pouco a origem dessas coisas recomendo fazer uma revisão de Álgebra Linear.

Considerado um conjunto de aprendizado “ensamble learning” usado para classificação e regressão. É um dos modelos não paramétricos mais utilizados por cientistas de dados. A ideia é construir diversas árvores de decisão e optar pela saída que seja a moda em caso de classificação, ou a média no caso da regressão, das saídas de cada árvore individual. Uma maneira de buscar sair do overfitting causado pelo uso de uma única árvore de decisão.

É uma boa para testar ao feature importance das variáveis, ou seja, a importância preditiva de cada característica do vetor de entrada. Os hiperparâmetros são relativamente simples de entender e vale a pena sempre rodar esse algoritmo no começo e entender se á boas ideias por trás das inferências preditivas que essa técnica traz. O problema é a complexidade, ou seja, tempo e gasto computacional.

Quer saber mais? Da uma olhada nesse artigo do Analytics Vidhya

Existem dois tipos de modelos que estudamos em estatística, os paramétricos e não paramétricos, imaginem que o paramétrico são os que possuem inferência sobre distribuição de probabilidade e a nossa dificuldade é comparar o que medimos à essas distribuições, a gente sabe o que medir e temos um número fixo de parâmetros. Os não paramétricos são baseados em populações cujos parâmetros característicos são desconhecidos. K-NN é um método de Machine Learning não paramétrico, pode ser usado para classificação ou regressão.

Existe um “espaço” chamado “feature space” ou “espaço das características”, esse espaço é desenhado pelos vetores de características (“feature vectors” que representam algum objeto) combinados com “pesos” através de um produto escalar (aquele mesmo, do “Trabalho da Força de Atrito”) , ou em geometria analítica que usamos para criar projeções e cossenos.  Esse vetor de características, combinado com um vetor de espaço (“vector space”) forma o “feature space”, ou seja, espaço das características. Pense no vetor de espaço exatamente como aquele da física que, em primeira instância é o que possui métrica euclidiana (para medidas de distâncias) , mas que pode ter diferentes métricas e esse estudo pode ser uma deliciosa interdisciplinaridade, porém vou parar por aqui.

Um livro  bacanudo para ler sobre isso é o  Pattern Recognition and Machine Learning do Bishop. Recomendo essa modelagem para dados com baixa dimensionalidade e com um conjunto de treinamento não muito grande. Ele é rápido e eficiente!

Notas:

  1. Distância Métrica: Distância Eclidiana (padrão). Em sklearn é conhecido como (Minkowski com p = 2)
  2. Quantos vizinhos mais próximos: muito específico k = 1, modelo mais geral k = 5. Use os k mais próximos para determinar classificação
  3. Função de ponderação nos vizinhos: (opcional)
  4. Como agregar classe de pontos vizinhos: Maioria simples (padrão)

Exemplo de implementação em python de um modelo de regressão polinomial:

Técnica não supervisionada para resolver o problema do “clustering” e criar clusters. Podemos nomear esses clusters e criar novas labels e utilizá-las por exemplo depois para, a partir de outros parâmetros que não o que realizamos o clustering, prever essas labels. Conectar modelos não supervisionados com supervisionados faz parte das técnicas que usamos em Data Science.

Você especifica o valor de “k” inicialmente. mas existem técnicas bacanas para achar esse valor sistematicamente.
K-means é um problema NP-completo, ou seja, computacionalmente difícil, porém com algoritmos que convergem rapidamente para mínimos locais. Ele não funciona muito bem com clusters complexos, mas trabalha muito bem com dados bem separados, com estruturas globulares. Tem uma variação “k-medoids” que pode trabalhar com dados categóricos “categorical features”.

 

Passos:
1. Especifique o número de clusters (k)
2. k pontos de dados aleatórios são selecionados aleatoriamente como centros de cada cluster
3. Cada ponto de dados é atribuído ao centro do cluster mais próximo dele
4. Os centros de cluster são atualizados para a média dos pontos atribuídos
5. Os passos 3-4 são repetidos até que os centros de cluster permaneçam inalterados)

 

Diferentemente do SVM, esse é um tipo de classificador chamado classificador probabilístico, relacionando objetos (vetores, conteúdo de imagens, textos, etc) com classes, que pode ser já conhecida ou que eu possa nomear, criando labels por métodos não supervisionados, por exemplo. Classificadores bayesianos são aqueles onde conheço a priori a probabilidade das categorias, situação que raramente ocorre na prática, mas muitas vezes permite prever o erro que teremos ao generalizar para outros padrões e comparar qual classificador ideal (Bayesiano) que podemos usar. Vale agora uma referência o livro “Pattern Classification”, onde há partes dedicadas a entender casos onde a probabilidade em relação às categorias não é conhecida.

Alguns slides do Departamento de Ciência da Computação da UDESC Joinville que achei bacana e podem ser acessados aqui.

Esse algoritmo é muito usado para, por exemplo, entender se uma palavra como “amor” é usada em uma frase como algo positivo ou negativo, da uma olhada nesse material da Poli/USP que achei bastante explicativo. Porém aqui vou usar no dataset sintético que já temos trabalhado acima para fins de comparação.
Não podemos seguir sem olhar a conhecida fórmula de Bayes, achei uma num blog bacana, podia fazer, mas vou compartilhar com a fonte:

 

Exemplo de implementação em python de um modelo de regressão polinomial: