0% acharam este documento útil (0 voto)

16 visualizações8 páginas

Machine Learning

O documento aborda conceitos fundamentais de aprendizado de máquina, destacando suas subáreas e tipos, como aprendizado supervisionado, não supervisionado, semi-supervisionado e por reforço. Também discute problemas comuns como overfitting e underfitting, além de apresentar etapas para modelagem, desde a coleta de dados até a implantação e monitoramento do modelo. Exemplos de algoritmos e técnicas de pré-processamento são fornecidos para ilustrar a aplicação prática do aprendizado de máquina.

Enviado por

garcia

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

0% acharam este documento útil (0 voto)

16 visualizações8 páginas

Machine Learning

Enviado por

garcia

Direitos autorais

Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.

Formatos disponíveis

Baixe no formato PDF, TXT ou leia on-line no Scribd

Você está na página 1/ 8

NOÇÕES DE APRENDIZADO DE MÁQUINA

MACHINE LEARNING (APRENDIZADO DE MÁQUINA) = SUB ÁREA DA IA

MÉTODO DE ANÁLISE DE DADOS QUE BUSCA AUTOMATIZAÇÃO DO DESENVOLVIMENTO

DE MODELOS ANÁLITICOS

COM O MACHINE LEARNING É POSSÍVEL APRENDER COM DADOS , IDENTIFICAR

PADÕRES E TOMAR DECISÕES COM O MÍNIMO DE INTERVENÇÃO HUMANA.

ML NÃO É MINERAÇÃO DE DADOS , BASEIA-SE EM UM MODELO MATEMÁTICO O QUAL A

PARTIR DE DADOS HISTÓRICOS SE RELACIONA GERANDO INSIGHTS E PADRÕES

ENTENDENDO OS TIPOS DE APRENDIZADO DE MÁQUINAS

Aprendizado Supervisionado (Supervised Learning)

Utiliza dados históricos com rótulos (amostras rotuladas)

O algoritmo aprende com entradas (X) e saídas desejadas (Y)
O objetivo é prever ou classificar novos dados com base nos exemplos anteriores
Baseado em modelos preditivos
É usado para identificar padrões existentes e generalizar para novos casos

Exemplos de algoritmos:

Regressão linear e logística

Árvores de decisão

Máquinas de vetores de suporte (SVM)

Redes neurais

2. Aprendizado Não Supervisionado (Unsupervised Learning)

Não utiliza rótulos nos dados

O algoritmo explora os dados e identifica padrões ocultos
Baseia-se na similaridade entre características para agrupar ou reduzir os
dados
É usado para descobrir estruturas e padrões ocultos nos dados
Não é preditivo, é exploratório
Exemplos de algoritmos:

K-means

DBSCAN

Análise de componentes principais (PCA)

Algoritmos de regras de associação (como Apriori)

3. Aprendizado Semi-Supervisionado (Semi-Supervised Learning)

Utiliza uma pequena quantidade de dados rotulados junto com muitos dados
não rotulados
Serve como um meio-termo entre aprendizado supervisionado e não
supervisionado
Reduz custos com rotulagem de dados
O modelo tenta propagar os rótulos conhecidos para os dados não rotulados
com base em similaridades
Exemplos de técnicas:

Autoaprendizado (self-training)

Co-training

Propagação de rótulos (label propagation)

4. Aprendizado por Reforço (Reinforcement Learning)

O agente aprende por tentativa e erro com base em ações, recompensas e

punições
Não há rótulos explícitos, mas sim um sistema de recompensas
O objetivo é maximizar a recompensa acumulada ao longo do tempo
Funciona em ciclos que envolvem observação do ambiente, escolha de ação,
recebimento de recompensa e ajuste da estratégia
Exemplos de algoritmos:

Q-learning

Deep Q-Networks (DQN)

Policy Gradient

Proximal Policy Optimization (PPO)

UNDERFITTING X OVERFITTING
OVERFITTING:
NÃO CONSEGUE IDENTIFICAR NOVOS DADOS;
APRENDE DEMAIS COM OS DADOS DE TREINAMENTO (INCLUÍNDO RUÍDOS,
EXCEÇÕES E DETALHES ESPECÍFICOS) QUE NÃO SE REPETEM NOS DADOS
REAIS;
ALTA PRECISÃO NO TREINO, MAS BAIXA PRECISÃO EM NOVOS DADOS

MODELO COMPLEXO;
BAIXA CAPACIDADE DE GENERALIZAÇÃO

UNDERFITTING:
OCORRE QUANDO O MODELO NÃO APRENDE COM OS DADOS DE TREINO , OU
SEJA, NÃO CAPTURA OS PADRÕES RELEVANTES NOS DADOS;
BAIXA PRECISÃO NO TREINO E NO TESTE ;
MODELO MUITO SIMPLES;
ALTA TENDÊNCIAS DE ERROS

Desempenho no Desempenho no
Erro Problema Solução Principal
Treino Teste

Modelo "decora" os Regularização,

Overfitting Muito bom Ruim
dados simplificação

Modelo não Tornar o modelo mais

Underfitting Ruim Ruim
aprende o padrão complexo
VISÃO GERAL DOS ALGORITMOS DE MACHINE LEARNING
REGRESSÃO LINEAR
Conceito
• Ferramenta estatística que quantifica a relação entre uma variável
independente (X) e uma variável dependente (Y).
• Utiliza uma reta de melhor ajuste em um gráfico de dispersão.
Finalidade

• Explicar ou prever o comportamento de Y com base em X.

• Útil para identificar tendências de crescimento ou queda.
Origem
• Deriva da correlação linear, que verifica se existe uma relação entre duas
variáveis.
Resultado
• Sempre numérico.
• Representa uma estimativa de Y a partir de valores de X.
Aplicação
• Adequada quando há tendência constante nos dados.
• Exemplo: Preço x Oferta – oferta aumenta conforme o preço sobe.
Tipos de regressão linear
• Simples: 1 variável independente.
• Múltipla: 2 ou mais variáveis independentes.

ÁRVORE DE DECISÃO
Conceito
• Modelo representado por uma árvore binária.
• Cada nó interno representa uma variável de entrada (X) e um ponto de
divisão (se numérica).
• Cada folha da árvore contém uma variável de saída (Y) usada para fazer
previsões.
Funcionamento
• A previsão é feita percorrendo os nós da árvore até chegar a uma folha.
• A classe da folha representa a decisão ou valor previsto.
Vantagens
• Alta velocidade de previsão.
• Boa precisão para diversos problemas.
• Dispensa preparação complexa dos dados (como normalização).

KNN
Conceito
• Algoritmo de classificação baseado na proximidade entre os dados.
• Classifica um novo dado com base nos exemplos mais próximos do
conjunto de treinamento.
Funcionamento
• Presume que itens semelhantes estão próximos uns dos outros.
• O novo ponto é classificado conforme a classe da maioria dos "k"
vizinhos mais próximos.
• O parâmetro "k" define quantos vizinhos serão considerados (ex: k = 3).
Exemplo
• Se k = 3 e entre os 3 vizinhos mais próximos houver 2 triângulos e 1
quadrado, o novo ponto será classificado como triângulo.
Vantagens
• Simples de implementar
• Intuitivo e eficaz em muitos casos com poucos dados

Desvantagens
• Lento com grandes volumes de dados
• Custo computacional alto na fase de previsão
• Sensível à escala e à escolha de k
ETAPAS PARA MODELAGEM DE MACHINE LEARNING
1. Coleta e Entendimento dos Dados
• Obtenção dos dados brutos (banco de dados, planilhas, APIs, sensores
etc.)
• Entendimento do domínio, variáveis disponíveis e objetivo do modelo

2. Pré-processamento dos Dados

• Etapa essencial para preparar os dados antes de treinar o modelo

Principais técnicas:
• Limpeza de dados: remoção de dados faltantes, duplicados ou
inconsistentes
• Tratamento de outliers: correção ou exclusão de valores extremos
• Conversão de variáveis categóricas: uso de codificação como One-Hot
ou Label Encoding
• Conversão de tipos de dados: garantir compatibilidade com algoritmos

3. Feature Engineering
• Criação de novas variáveis (features) a partir de variáveis existentes
• Exemplo: extrair ano, mês e dia de uma data; criar faixas de idade

4. Feature Selection (Seleção de Atributos)

• Escolha das variáveis mais relevantes para o modelo
• Melhora a performance e reduz o risco de overfitting
• Técnicas: análise de correlação, seleção por importância, testes
estatísticos

5. Normalização / Padronização
• Ajuste da escala dos dados, especialmente importante para algoritmos
sensíveis à magnitude (como KNN, SVM, redes neurais)
• Técnicas comuns:
o Min-Max Scaling (normalização): escala os dados entre 0 e 1
o Z-score (padronização): transforma os dados para média 0 e desvio
padrão 1

6. Redução de Dimensionalidade
• Técnica usada para reduzir o número de variáveis, mantendo a
variabilidade essencial dos dados
• Exemplo: PCA (Análise de Componentes Principais)

7. Divisão do Conjunto de Dados

• Separação do dataset em:
o Dados de treino (geralmente 70% a 80%): usados para treinar o
modelo
o Dados de teste (geralmente 20% a 30%): usados para avaliar o
desempenho do modelo em dados nunca vistos
Opcional: uso de validação cruzada (cross-validation) para evitar vieses na
divisão dos dados.

8. Treinamento do Modelo
• Escolha e aplicação de um algoritmo (ex: regressão, árvore de decisão,
SVM, etc.)
• Ajuste dos parâmetros do modelo com base nos dados de treino

9. Avaliação do Modelo
• Verificação da performance usando métricas específicas, como:
o Acurácia, Precisão, Recall, F1-Score, MSE, RMSE
• Avaliação feita sobre o conjunto de teste

10. Ajuste de Hiperparâmetros (Hyperparameter Tuning)

• Otimização dos parâmetros que controlam o comportamento do algoritmo
(ex: profundidade da árvore, número de vizinhos no KNN)
• Feito com técnicas como Grid Search ou Random Search
11. Implantação do Modelo (Deployment)
• Integração do modelo treinado em sistemas reais (ex: aplicativos, sites,
dashboards)
• Pode envolver criação de APIs, automação de previsão, monitoramento
contínuo

12. Monitoramento e Atualização

• Monitorar o desempenho do modelo com o tempo (drift de dados)

• Re-treinamento ou ajustes periódicos com novos dados

IMPORTANTE ENFATIZAR QUE AS TAREFAS DE APRENDIZADO DE MÁQUINA

PODEM SER DIVIDAS EM TRÊS GRANDES GRUPOS :
CLASSIFICAÇÃO
AGRUPAMENTO
ASSOCIAÇÃO

Machine Learning

Enviado por

Machine Learning

Enviado por

NOÇÕES DE APRENDIZADO DE MÁQUINA

MACHINE LEARNING (APRENDIZADO DE MÁQUINA) = SUB ÁREA DA IA

MÉTODO DE ANÁLISE DE DADOS QUE BUSCA AUTOMATIZAÇÃO DO DESENVOLVIMENTO

COM O MACHINE LEARNING É POSSÍVEL APRENDER COM DADOS , IDENTIFICAR

ML NÃO É MINERAÇÃO DE DADOS , BASEIA-SE EM UM MODELO MATEMÁTICO O QUAL A

ENTENDENDO OS TIPOS DE APRENDIZADO DE MÁQUINAS

Aprendizado Supervisionado (Supervised Learning)

Utiliza dados históricos com rótulos (amostras rotuladas)

Regressão linear e logística

Máquinas de vetores de suporte (SVM)

2. Aprendizado Não Supervisionado (Unsupervised Learning)

Não utiliza rótulos nos dados

Análise de componentes principais (PCA)

Algoritmos de regras de associação (como Apriori)

3. Aprendizado Semi-Supervisionado (Semi-Supervised Learning)

Propagação de rótulos (label propagation)

4. Aprendizado por Reforço (Reinforcement Learning)

O agente aprende por tentativa e erro com base em ações, recompensas e

Deep Q-Networks (DQN)

Proximal Policy Optimization (PPO)

Modelo "decora" os Regularização,

Modelo não Tornar o modelo mais

• Explicar ou prever o comportamento de Y com base em X.

2. Pré-processamento dos Dados

• Etapa essencial para preparar os dados antes de treinar o modelo

4. Feature Selection (Seleção de Atributos)

7. Divisão do Conjunto de Dados

10. Ajuste de Hiperparâmetros (Hyperparameter Tuning)

12. Monitoramento e Atualização

• Monitorar o desempenho do modelo com o tempo (drift de dados)

IMPORTANTE ENFATIZAR QUE AS TAREFAS DE APRENDIZADO DE MÁQUINA

Você também pode gostar