0% acharam este documento útil (0 voto)
16 visualizações8 páginas

Machine Learning

O documento aborda conceitos fundamentais de aprendizado de máquina, destacando suas subáreas e tipos, como aprendizado supervisionado, não supervisionado, semi-supervisionado e por reforço. Também discute problemas comuns como overfitting e underfitting, além de apresentar etapas para modelagem, desde a coleta de dados até a implantação e monitoramento do modelo. Exemplos de algoritmos e técnicas de pré-processamento são fornecidos para ilustrar a aplicação prática do aprendizado de máquina.

Enviado por

garcia
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
0% acharam este documento útil (0 voto)
16 visualizações8 páginas

Machine Learning

O documento aborda conceitos fundamentais de aprendizado de máquina, destacando suas subáreas e tipos, como aprendizado supervisionado, não supervisionado, semi-supervisionado e por reforço. Também discute problemas comuns como overfitting e underfitting, além de apresentar etapas para modelagem, desde a coleta de dados até a implantação e monitoramento do modelo. Exemplos de algoritmos e técnicas de pré-processamento são fornecidos para ilustrar a aplicação prática do aprendizado de máquina.

Enviado por

garcia
Direitos autorais
© © All Rights Reserved
Levamos muito a sério os direitos de conteúdo. Se você suspeita que este conteúdo é seu, reivindique-o aqui.
Formatos disponíveis
Baixe no formato PDF, TXT ou leia on-line no Scribd
Você está na página 1/ 8

NOÇÕES DE APRENDIZADO DE MÁQUINA

MACHINE LEARNING (APRENDIZADO DE MÁQUINA) = SUB ÁREA DA IA

MÉTODO DE ANÁLISE DE DADOS QUE BUSCA AUTOMATIZAÇÃO DO DESENVOLVIMENTO


DE MODELOS ANÁLITICOS

COM O MACHINE LEARNING É POSSÍVEL APRENDER COM DADOS , IDENTIFICAR


PADÕRES E TOMAR DECISÕES COM O MÍNIMO DE INTERVENÇÃO HUMANA.

ML NÃO É MINERAÇÃO DE DADOS , BASEIA-SE EM UM MODELO MATEMÁTICO O QUAL A


PARTIR DE DADOS HISTÓRICOS SE RELACIONA GERANDO INSIGHTS E PADRÕES

ENTENDENDO OS TIPOS DE APRENDIZADO DE MÁQUINAS

Aprendizado Supervisionado (Supervised Learning)

Utiliza dados históricos com rótulos (amostras rotuladas)


O algoritmo aprende com entradas (X) e saídas desejadas (Y)
O objetivo é prever ou classificar novos dados com base nos exemplos anteriores
Baseado em modelos preditivos
É usado para identificar padrões existentes e generalizar para novos casos

Exemplos de algoritmos:

Regressão linear e logística

Árvores de decisão

Máquinas de vetores de suporte (SVM)

Redes neurais

2. Aprendizado Não Supervisionado (Unsupervised Learning)

Não utiliza rótulos nos dados


O algoritmo explora os dados e identifica padrões ocultos
Baseia-se na similaridade entre características para agrupar ou reduzir os
dados
É usado para descobrir estruturas e padrões ocultos nos dados
Não é preditivo, é exploratório
Exemplos de algoritmos:

K-means

DBSCAN

Análise de componentes principais (PCA)

Algoritmos de regras de associação (como Apriori)

3. Aprendizado Semi-Supervisionado (Semi-Supervised Learning)

Utiliza uma pequena quantidade de dados rotulados junto com muitos dados
não rotulados
Serve como um meio-termo entre aprendizado supervisionado e não
supervisionado
Reduz custos com rotulagem de dados
O modelo tenta propagar os rótulos conhecidos para os dados não rotulados
com base em similaridades
Exemplos de técnicas:

Autoaprendizado (self-training)

Co-training

Propagação de rótulos (label propagation)

4. Aprendizado por Reforço (Reinforcement Learning)

O agente aprende por tentativa e erro com base em ações, recompensas e


punições
Não há rótulos explícitos, mas sim um sistema de recompensas
O objetivo é maximizar a recompensa acumulada ao longo do tempo
Funciona em ciclos que envolvem observação do ambiente, escolha de ação,
recebimento de recompensa e ajuste da estratégia
Exemplos de algoritmos:

Q-learning

Deep Q-Networks (DQN)

Policy Gradient

Proximal Policy Optimization (PPO)


UNDERFITTING X OVERFITTING
OVERFITTING:
NÃO CONSEGUE IDENTIFICAR NOVOS DADOS;
APRENDE DEMAIS COM OS DADOS DE TREINAMENTO (INCLUÍNDO RUÍDOS,
EXCEÇÕES E DETALHES ESPECÍFICOS) QUE NÃO SE REPETEM NOS DADOS
REAIS;
ALTA PRECISÃO NO TREINO, MAS BAIXA PRECISÃO EM NOVOS DADOS

MODELO COMPLEXO;
BAIXA CAPACIDADE DE GENERALIZAÇÃO

UNDERFITTING:
OCORRE QUANDO O MODELO NÃO APRENDE COM OS DADOS DE TREINO , OU
SEJA, NÃO CAPTURA OS PADRÕES RELEVANTES NOS DADOS;
BAIXA PRECISÃO NO TREINO E NO TESTE ;
MODELO MUITO SIMPLES;
ALTA TENDÊNCIAS DE ERROS

Desempenho no Desempenho no
Erro Problema Solução Principal
Treino Teste

Modelo "decora" os Regularização,


Overfitting Muito bom Ruim
dados simplificação

Modelo não Tornar o modelo mais


Underfitting Ruim Ruim
aprende o padrão complexo
VISÃO GERAL DOS ALGORITMOS DE MACHINE LEARNING
REGRESSÃO LINEAR
Conceito
• Ferramenta estatística que quantifica a relação entre uma variável
independente (X) e uma variável dependente (Y).
• Utiliza uma reta de melhor ajuste em um gráfico de dispersão.
Finalidade

• Explicar ou prever o comportamento de Y com base em X.


• Útil para identificar tendências de crescimento ou queda.
Origem
• Deriva da correlação linear, que verifica se existe uma relação entre duas
variáveis.
Resultado
• Sempre numérico.
• Representa uma estimativa de Y a partir de valores de X.
Aplicação
• Adequada quando há tendência constante nos dados.
• Exemplo: Preço x Oferta – oferta aumenta conforme o preço sobe.
Tipos de regressão linear
• Simples: 1 variável independente.
• Múltipla: 2 ou mais variáveis independentes.

ÁRVORE DE DECISÃO
Conceito
• Modelo representado por uma árvore binária.
• Cada nó interno representa uma variável de entrada (X) e um ponto de
divisão (se numérica).
• Cada folha da árvore contém uma variável de saída (Y) usada para fazer
previsões.
Funcionamento
• A previsão é feita percorrendo os nós da árvore até chegar a uma folha.
• A classe da folha representa a decisão ou valor previsto.
Vantagens
• Alta velocidade de previsão.
• Boa precisão para diversos problemas.
• Dispensa preparação complexa dos dados (como normalização).

KNN
Conceito
• Algoritmo de classificação baseado na proximidade entre os dados.
• Classifica um novo dado com base nos exemplos mais próximos do
conjunto de treinamento.
Funcionamento
• Presume que itens semelhantes estão próximos uns dos outros.
• O novo ponto é classificado conforme a classe da maioria dos "k"
vizinhos mais próximos.
• O parâmetro "k" define quantos vizinhos serão considerados (ex: k = 3).
Exemplo
• Se k = 3 e entre os 3 vizinhos mais próximos houver 2 triângulos e 1
quadrado, o novo ponto será classificado como triângulo.
Vantagens
• Simples de implementar
• Intuitivo e eficaz em muitos casos com poucos dados

Desvantagens
• Lento com grandes volumes de dados
• Custo computacional alto na fase de previsão
• Sensível à escala e à escolha de k
ETAPAS PARA MODELAGEM DE MACHINE LEARNING
1. Coleta e Entendimento dos Dados
• Obtenção dos dados brutos (banco de dados, planilhas, APIs, sensores
etc.)
• Entendimento do domínio, variáveis disponíveis e objetivo do modelo

2. Pré-processamento dos Dados

• Etapa essencial para preparar os dados antes de treinar o modelo


Principais técnicas:
• Limpeza de dados: remoção de dados faltantes, duplicados ou
inconsistentes
• Tratamento de outliers: correção ou exclusão de valores extremos
• Conversão de variáveis categóricas: uso de codificação como One-Hot
ou Label Encoding
• Conversão de tipos de dados: garantir compatibilidade com algoritmos

3. Feature Engineering
• Criação de novas variáveis (features) a partir de variáveis existentes
• Exemplo: extrair ano, mês e dia de uma data; criar faixas de idade

4. Feature Selection (Seleção de Atributos)


• Escolha das variáveis mais relevantes para o modelo
• Melhora a performance e reduz o risco de overfitting
• Técnicas: análise de correlação, seleção por importância, testes
estatísticos

5. Normalização / Padronização
• Ajuste da escala dos dados, especialmente importante para algoritmos
sensíveis à magnitude (como KNN, SVM, redes neurais)
• Técnicas comuns:
o Min-Max Scaling (normalização): escala os dados entre 0 e 1
o Z-score (padronização): transforma os dados para média 0 e desvio
padrão 1

6. Redução de Dimensionalidade
• Técnica usada para reduzir o número de variáveis, mantendo a
variabilidade essencial dos dados
• Exemplo: PCA (Análise de Componentes Principais)

7. Divisão do Conjunto de Dados


• Separação do dataset em:
o Dados de treino (geralmente 70% a 80%): usados para treinar o
modelo
o Dados de teste (geralmente 20% a 30%): usados para avaliar o
desempenho do modelo em dados nunca vistos
Opcional: uso de validação cruzada (cross-validation) para evitar vieses na
divisão dos dados.

8. Treinamento do Modelo
• Escolha e aplicação de um algoritmo (ex: regressão, árvore de decisão,
SVM, etc.)
• Ajuste dos parâmetros do modelo com base nos dados de treino

9. Avaliação do Modelo
• Verificação da performance usando métricas específicas, como:
o Acurácia, Precisão, Recall, F1-Score, MSE, RMSE
• Avaliação feita sobre o conjunto de teste

10. Ajuste de Hiperparâmetros (Hyperparameter Tuning)


• Otimização dos parâmetros que controlam o comportamento do algoritmo
(ex: profundidade da árvore, número de vizinhos no KNN)
• Feito com técnicas como Grid Search ou Random Search
11. Implantação do Modelo (Deployment)
• Integração do modelo treinado em sistemas reais (ex: aplicativos, sites,
dashboards)
• Pode envolver criação de APIs, automação de previsão, monitoramento
contínuo

12. Monitoramento e Atualização

• Monitorar o desempenho do modelo com o tempo (drift de dados)


• Re-treinamento ou ajustes periódicos com novos dados

IMPORTANTE ENFATIZAR QUE AS TAREFAS DE APRENDIZADO DE MÁQUINA


PODEM SER DIVIDAS EM TRÊS GRANDES GRUPOS :
CLASSIFICAÇÃO
AGRUPAMENTO
ASSOCIAÇÃO

Você também pode gostar