NOÇÕES DE APRENDIZADO DE MÁQUINA
MACHINE LEARNING (APRENDIZADO DE MÁQUINA) = SUB ÁREA DA IA
MÉTODO DE ANÁLISE DE DADOS QUE BUSCA AUTOMATIZAÇÃO DO DESENVOLVIMENTO
DE MODELOS ANÁLITICOS
COM O MACHINE LEARNING É POSSÍVEL APRENDER COM DADOS , IDENTIFICAR
PADÕRES E TOMAR DECISÕES COM O MÍNIMO DE INTERVENÇÃO HUMANA.
ML NÃO É MINERAÇÃO DE DADOS , BASEIA-SE EM UM MODELO MATEMÁTICO O QUAL A
PARTIR DE DADOS HISTÓRICOS SE RELACIONA GERANDO INSIGHTS E PADRÕES
ENTENDENDO OS TIPOS DE APRENDIZADO DE MÁQUINAS
Aprendizado Supervisionado (Supervised Learning)
Utiliza dados históricos com rótulos (amostras rotuladas)
O algoritmo aprende com entradas (X) e saídas desejadas (Y)
O objetivo é prever ou classificar novos dados com base nos exemplos anteriores
Baseado em modelos preditivos
É usado para identificar padrões existentes e generalizar para novos casos
Exemplos de algoritmos:
Regressão linear e logística
Árvores de decisão
Máquinas de vetores de suporte (SVM)
Redes neurais
2. Aprendizado Não Supervisionado (Unsupervised Learning)
Não utiliza rótulos nos dados
O algoritmo explora os dados e identifica padrões ocultos
Baseia-se na similaridade entre características para agrupar ou reduzir os
dados
É usado para descobrir estruturas e padrões ocultos nos dados
Não é preditivo, é exploratório
Exemplos de algoritmos:
K-means
DBSCAN
Análise de componentes principais (PCA)
Algoritmos de regras de associação (como Apriori)
3. Aprendizado Semi-Supervisionado (Semi-Supervised Learning)
Utiliza uma pequena quantidade de dados rotulados junto com muitos dados
não rotulados
Serve como um meio-termo entre aprendizado supervisionado e não
supervisionado
Reduz custos com rotulagem de dados
O modelo tenta propagar os rótulos conhecidos para os dados não rotulados
com base em similaridades
Exemplos de técnicas:
Autoaprendizado (self-training)
Co-training
Propagação de rótulos (label propagation)
4. Aprendizado por Reforço (Reinforcement Learning)
O agente aprende por tentativa e erro com base em ações, recompensas e
punições
Não há rótulos explícitos, mas sim um sistema de recompensas
O objetivo é maximizar a recompensa acumulada ao longo do tempo
Funciona em ciclos que envolvem observação do ambiente, escolha de ação,
recebimento de recompensa e ajuste da estratégia
Exemplos de algoritmos:
Q-learning
Deep Q-Networks (DQN)
Policy Gradient
Proximal Policy Optimization (PPO)
UNDERFITTING X OVERFITTING
OVERFITTING:
NÃO CONSEGUE IDENTIFICAR NOVOS DADOS;
APRENDE DEMAIS COM OS DADOS DE TREINAMENTO (INCLUÍNDO RUÍDOS,
EXCEÇÕES E DETALHES ESPECÍFICOS) QUE NÃO SE REPETEM NOS DADOS
REAIS;
ALTA PRECISÃO NO TREINO, MAS BAIXA PRECISÃO EM NOVOS DADOS
MODELO COMPLEXO;
BAIXA CAPACIDADE DE GENERALIZAÇÃO
UNDERFITTING:
OCORRE QUANDO O MODELO NÃO APRENDE COM OS DADOS DE TREINO , OU
SEJA, NÃO CAPTURA OS PADRÕES RELEVANTES NOS DADOS;
BAIXA PRECISÃO NO TREINO E NO TESTE ;
MODELO MUITO SIMPLES;
ALTA TENDÊNCIAS DE ERROS
Desempenho no Desempenho no
Erro Problema Solução Principal
Treino Teste
Modelo "decora" os Regularização,
Overfitting Muito bom Ruim
dados simplificação
Modelo não Tornar o modelo mais
Underfitting Ruim Ruim
aprende o padrão complexo
VISÃO GERAL DOS ALGORITMOS DE MACHINE LEARNING
REGRESSÃO LINEAR
Conceito
• Ferramenta estatística que quantifica a relação entre uma variável
independente (X) e uma variável dependente (Y).
• Utiliza uma reta de melhor ajuste em um gráfico de dispersão.
Finalidade
• Explicar ou prever o comportamento de Y com base em X.
• Útil para identificar tendências de crescimento ou queda.
Origem
• Deriva da correlação linear, que verifica se existe uma relação entre duas
variáveis.
Resultado
• Sempre numérico.
• Representa uma estimativa de Y a partir de valores de X.
Aplicação
• Adequada quando há tendência constante nos dados.
• Exemplo: Preço x Oferta – oferta aumenta conforme o preço sobe.
Tipos de regressão linear
• Simples: 1 variável independente.
• Múltipla: 2 ou mais variáveis independentes.
ÁRVORE DE DECISÃO
Conceito
• Modelo representado por uma árvore binária.
• Cada nó interno representa uma variável de entrada (X) e um ponto de
divisão (se numérica).
• Cada folha da árvore contém uma variável de saída (Y) usada para fazer
previsões.
Funcionamento
• A previsão é feita percorrendo os nós da árvore até chegar a uma folha.
• A classe da folha representa a decisão ou valor previsto.
Vantagens
• Alta velocidade de previsão.
• Boa precisão para diversos problemas.
• Dispensa preparação complexa dos dados (como normalização).
KNN
Conceito
• Algoritmo de classificação baseado na proximidade entre os dados.
• Classifica um novo dado com base nos exemplos mais próximos do
conjunto de treinamento.
Funcionamento
• Presume que itens semelhantes estão próximos uns dos outros.
• O novo ponto é classificado conforme a classe da maioria dos "k"
vizinhos mais próximos.
• O parâmetro "k" define quantos vizinhos serão considerados (ex: k = 3).
Exemplo
• Se k = 3 e entre os 3 vizinhos mais próximos houver 2 triângulos e 1
quadrado, o novo ponto será classificado como triângulo.
Vantagens
• Simples de implementar
• Intuitivo e eficaz em muitos casos com poucos dados
Desvantagens
• Lento com grandes volumes de dados
• Custo computacional alto na fase de previsão
• Sensível à escala e à escolha de k
ETAPAS PARA MODELAGEM DE MACHINE LEARNING
1. Coleta e Entendimento dos Dados
• Obtenção dos dados brutos (banco de dados, planilhas, APIs, sensores
etc.)
• Entendimento do domínio, variáveis disponíveis e objetivo do modelo
2. Pré-processamento dos Dados
• Etapa essencial para preparar os dados antes de treinar o modelo
Principais técnicas:
• Limpeza de dados: remoção de dados faltantes, duplicados ou
inconsistentes
• Tratamento de outliers: correção ou exclusão de valores extremos
• Conversão de variáveis categóricas: uso de codificação como One-Hot
ou Label Encoding
• Conversão de tipos de dados: garantir compatibilidade com algoritmos
3. Feature Engineering
• Criação de novas variáveis (features) a partir de variáveis existentes
• Exemplo: extrair ano, mês e dia de uma data; criar faixas de idade
4. Feature Selection (Seleção de Atributos)
• Escolha das variáveis mais relevantes para o modelo
• Melhora a performance e reduz o risco de overfitting
• Técnicas: análise de correlação, seleção por importância, testes
estatísticos
5. Normalização / Padronização
• Ajuste da escala dos dados, especialmente importante para algoritmos
sensíveis à magnitude (como KNN, SVM, redes neurais)
• Técnicas comuns:
o Min-Max Scaling (normalização): escala os dados entre 0 e 1
o Z-score (padronização): transforma os dados para média 0 e desvio
padrão 1
6. Redução de Dimensionalidade
• Técnica usada para reduzir o número de variáveis, mantendo a
variabilidade essencial dos dados
• Exemplo: PCA (Análise de Componentes Principais)
7. Divisão do Conjunto de Dados
• Separação do dataset em:
o Dados de treino (geralmente 70% a 80%): usados para treinar o
modelo
o Dados de teste (geralmente 20% a 30%): usados para avaliar o
desempenho do modelo em dados nunca vistos
Opcional: uso de validação cruzada (cross-validation) para evitar vieses na
divisão dos dados.
8. Treinamento do Modelo
• Escolha e aplicação de um algoritmo (ex: regressão, árvore de decisão,
SVM, etc.)
• Ajuste dos parâmetros do modelo com base nos dados de treino
9. Avaliação do Modelo
• Verificação da performance usando métricas específicas, como:
o Acurácia, Precisão, Recall, F1-Score, MSE, RMSE
• Avaliação feita sobre o conjunto de teste
10. Ajuste de Hiperparâmetros (Hyperparameter Tuning)
• Otimização dos parâmetros que controlam o comportamento do algoritmo
(ex: profundidade da árvore, número de vizinhos no KNN)
• Feito com técnicas como Grid Search ou Random Search
11. Implantação do Modelo (Deployment)
• Integração do modelo treinado em sistemas reais (ex: aplicativos, sites,
dashboards)
• Pode envolver criação de APIs, automação de previsão, monitoramento
contínuo
12. Monitoramento e Atualização
• Monitorar o desempenho do modelo com o tempo (drift de dados)
• Re-treinamento ou ajustes periódicos com novos dados
IMPORTANTE ENFATIZAR QUE AS TAREFAS DE APRENDIZADO DE MÁQUINA
PODEM SER DIVIDAS EM TRÊS GRANDES GRUPOS :
CLASSIFICAÇÃO
AGRUPAMENTO
ASSOCIAÇÃO