analytics - Bruno Golfette

“O sucesso na criação da IA seria o maior evento da história da humanidade. Infelizmente, também pode ser o último.” Stephen Hawking

As palavras desse conhecido físico, apesar de apocalíticas, contém uma mensagem importante. Usamos ML para vender mais, conhecer comportamento de compra e investimento prever mais o quanto uma pessoa vai amar ou não uma determinada marca ou produto, mas estamos longe da erradicação da guerra, doenças e pobrezas com o uso dessa tecnologia.
Como cientistas de dados estamos arranhando as costas do potencial das técnicas e irá demorar anos para que se entenda melhor os usos mais produtivos de toda essa tecnologia sendo criada. Porém ao passar essa onda sobre Machine Learning e quando seus conceitos estiverem bem difundidos, será mais e mais valorizado o profissional que souber contar a história que essas técnicas descrevem. Fiz o artigo para termos um resumo das técnicas mais importantes que precisamos conhecer sobre ML no início dos estudos nessa área. Novos artigos técnicos e não técnicos virão no futuro.
Caso você queira se aprofundar menos e entender mais como essas técnicas impactam as áreas de negócio, ou saiba comprar um projeto em Data Science, aconselho conhecer meu trabalho como mentor e professor particular nessa área e ler meus outros artigos.

Quem pode se beneficiar com esse post?
Eu estou fazendo um post para quem quer saber um pouco dos conceitos gerais, pessoas que querem iniciar na carreira e precisa de uma visão resumida do que se tratam as técnicas e como é a cara dos códigos que usamos (em Python 😉 ). Sempre vou avisar a quem vai ler meu artigo para quem direciono, então se você não entender algum, fique tranquilo! Sempre haverá uma maneira de explicar o que você quer entender, um pouco de paciência e continuar procurando.

No geral há 3 tipos de modelagens em Machine Learning

1. Aprendizado Supervisionado
Um problema em que variáveis dependentes (características ou features) que possuem relações entre si são levadas à um “alvo”, como exemplo são regressões multilineares ou modelos de classificação onde se ensina por exemplo uma máquina a separar o que é uva, maçã e laranja em uma esteira. Faz sentido entendermos acurácia e precisão nas classificações ou erro quadrático médio (R²) em regressões. Exemplos de Aprendizado supervisionado: prever venda no mês, prever a probabilidade de churn, classificar spam, reconhecimento de faces (face recognition).

2. Aprendizado Não Supervisionado
Problemas como redução dimensional de dados em alta dimensionalidade, ou entendimento de relações internas das variáveis que criam padrões. Modelos não supervisionados são aqueles onde não possuem uma variável alvo de treinamento, não há um valor de saída, um rótulo que eu possa comparar numa previsão, são modelos usados por exemplo em segmentações de grupos de pessoas ou lugares para criações de rótulos. Algumas técnicas são Multidimensional Scaling, Manifold Learning, PCA, t-SNE, Clustering como K-Means ou Dendogramas.
Há um um tipo também chamado Aprendizado Semi-Supervisionado onde há dados misturados, supervisionados e não supervisionados, porém não falarei dele nesse post.
Exemplos de uso do Aprendizado Não Supervisionado: segmentação de clientes, sistemas de recomendação, entender hábitos de compra.

3. Aprendizagem por Reforço
Neste método de aprendizagem existem basicamente três componentes que trabalham juntos: agente/máquina, ambiente e ação. Funciona assim: a máquina é exposta a um ambiente onde ela se treina continuamente usando tentativa e erro, interagindo com a componente ambiente. Esta máquina aprende com a experiência passada e tenta capturar o melhor conhecimento possível para tomar decisões de negócios precisas. Exemplos de Aprendizado por Reforço: Otimização de uso de eletricidade em máquinas industriais, automatização de uso de dados em servidores, ensinar uma máquina a jogar vídeo-game.

Tipos de Algorithmos em Machine Learning
Segue a lista de algoritmos que tratarei nos próximos artigos:
1. Regressões lineares e polinomiais
2. Regressão Logística
3. Árvore de Decisão
4. SVM
5. Naive Bayes
6. kNN
7. K-Means
8. Random Forest
9. Dimensionality Reduction Algorithms (PCA, MDS e t-SNE)
10. Algoritmo de “Gradient Boosting”

Códigos de todas essas técnicas, aplicações, fóruns de discussões e muito mais disponível no Meu Lab, ambiente virtual para aprender ciência de dados e machine learning que continuamente estou desenvolvendo. Nos vemos por lá! https://lab.estudodedados.com.br/

Até a próxima!