© 2021, Amazon Web Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark.
AWSWebinar Series Brasil
Andre Fellipe
Arquiteto de Soluções
Os benefícios de migrar seus workloads de Big
Data para a AWS
Como interagir durante o evento?
Você tem um projeto e
quer conversar com o
time comercial da
AWS?
Acesse o LIVE CHAT
neste QR code ou pelo
link enviado no chat do
evento.
Perguntas & Respostas ao
vivo durante todo o
evento
Tire suas dúvidas com os
especialistas da AWS!
Clique no símbolo “?” e
envie suas perguntas.
O recurso mais valioso já
não é petróleo, mas os
dados.
*Copyright: The Economist, 2017, David Parkins
Mais dados Mais personas Demanda por tomada
de decisão mais
rápida
As novas realidades que os clientes estão enfrentando
.
Os clientes querem mais valor de seus dados
U S AD O P O R
M U I T AS
P E S S O AS
C R E S C E N D O
E X P O N E N C I AL M E N T
E
D E N O V AS
F O N TE S
D I V E R S I D AD E AN A L I S A D O P O R
M U I TO S
AP L I C A T I V O S
- Instalação de hardware e software, configuração, correção,
backups;
- Problemas de desempenho e alta disponibilidade;
- Planejamento de capacidade;
- Segurança e conformidade.
Serviços de analytics gerenciados por conta própria
consomem tempo, são complexos e caros
Por que Big Data na AWS?
Mais fácil de construir Infraestrutura
mais segura
Abrangência Escalável e
econômico
1 2 3 4
1. Mais fácil de construir data lakes e analytics
Data lake
S3
Relatórios
Consultas Ad Hoc
Big Data Analytics
Data Warehousing
Analytics
Machine Learning
AWS Lake
Formation
2. Abrangência
Dados, visualização,
engajamento e
machine learning
Analytics
Data lakes
Governança
Dashboards Predictive
Analytics
Engajamento de
usuários
Dados
Data
Warehousing
Processamento
Consultas
interativas
Análise
Operacional
Analytics em
tempo real
Processamento
Serverless
Infraestrutura Catálogo de
Dados & ETL
Segurança &
Gerenciamento
Migração &
Streaming
3. Infraestrutura mais segura
Os clientes precisam ter vários níveis de segurança, gerenciamento de identidade e acesso,
criptografia e conformidade para proteger seu data lake
Identidade
AWS IAM
AWS SSO
Amazon Cloud Directory
AWS Directory Service
AWS Organizations
Encriptação
AWS Certificate Manager
AWS Key Management
Service
Criptografia em repouso
Criptografia em trânsito
Traga suas próprias chaves,
suporte HSM
Conformidade
AWS Artifact
Amazon Inspector
Amazon Cloud HSM
Amazon Cognito
AWS CloudTrail
Segurança
Amazon GuardDuty
AWS Shield
AWS WAF
Amazon Macie
VPC
4. Infraestrutura mais escalável, econômica e de alto
desempenho para analytics
Cinco camadas de
armazenamento
Mais de 200 tipos de
instância para atender
as necessidades
Instâncias sob
demanda, reservadas
e spot
Interfaces de rede de
largura de banda de
100 Gbps
Desafios de clusters on-premises
Computação e armazenamento acoplados
• O armazenamento cresce junto
com a computação;
• Os requisitos de computação
variam.
Fortemente
acoplado
Computação
Armazenamento
A replicação aumenta o custo
3x
• Os dados são replicados várias
vezes;
• Normalmente, apenas em um data
center.
Recursos escassos ou subutilizados
0
20
40
60
80
100
120
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
Reprocessamento
Picos semanais
Estável
Competição pelos mesmos recursos
Hadoop
Hive Spark
Limitações em atualizações
• Transformação em grande escala: Map/Reduce, Hive, Pig, Spark;
• Consultas interativas: Impala, Spark SQL, Presto;
• Machine Learning: Spark ML, MxNet, Tensorflow;
• Notebooks interativos: Jupyter, Zeppelin;
• NoSQL: HBase.
A separação de recursos cria silos
Hive Spark
Amazon EMR
Amazon EMR
• Serviço gerenciado para executar aplicativos do ecossistema
Hadoop, como Spark, Hive, Presto e muitos outros;
• Pode processar grandes volumes de dados armazenados no
Amazon S3 (EMRFS), HDFS, Amazon DynamoDB, Amazon
Redshift, Amazon Kinesis, Kafka e outras fontes de dados;
• Use clusters transitórios, Managed Scaling, Amazon Simple
Storage Service (Amazon S3) e Instâncias Spot para cortar
custos.
Amazon EMR
Execute facilmente Spark, Hive, Presto, HBase, Flink e mais aplicativos de big data na AWS
Melhor
desempenho com
menor custo
Workloads Spark rodam 2,4x mais
rápido em comparação ao open
source
Redução de custos com EC2 Spot e
Instâncias Reservadas
Faturamento por segundo para
flexibilidade
Use o
armazenamento S3
Processe dados em S3 com
segurança e alto desempenho
usando o EMRFS
Escale computação e
armazenamento independentes
um do outro
Últimas versões
Atualizado com as estruturas de
código aberto mais recentes em
30 dias
Suporte para open source
populares como Flink e Hudi
Totalmente gerenciado, sem
configuração de cluster,
provisionamento de nó ou ajuste
de cluster
Escala automática vertical e
horizontal para atender às
demandas
Fácil e Escalável
Custos otimizados com o Amazon EMR
• Menos tempo de
administração para
gerenciar e suportar
clusters;
• Sem custos de antemão:
aquisição e instalação de
hardware;
• Economize em custos
operacionais - espaço no
data center, energia,
refrigeração, etc.
Suporte Taxa
Suporte
On-premises EMR
Server Costs
Hardware—Server, Rack, Chassis,
PDUs, Tor Switches (+Maintenance)
Software—OS, Virtualization Licenses
(+Maintenance)
Network Costs
Network Hardware—LAN Switches,
Load Balancer Bandwidth costs
Software—Network Monitoring
IT Labor Costs
Server admin, virtualization admin,
storage admin, network admin,
support team
Extras
Project planning, advisors, legal,
contractors, managed services, training,
cost of capital
Benefícios
Desacople armazenamento e computação
Computação
Metastore
Amazon RDS
AWS Glue
Data
Catalog
Amazon EMR
Amazon Athena
Amazon Redshift
Spectrum
Amazon S3
Armazenamento
Ferramentas open source no Amazon EMR
Cluster 1 Cluster 2
Cluster 3 Cluster 4
Zona de Disponibilidade B
Amazon S3
Zona de Disponibilidade A
Recuperação de desastres integrada
Pausar ou encerrar clusters
Amazon EMR Amazon EMR
Amazon S3 Amazon S3 Amazon S3
Separação lógica
Rearquitetar clusters monolíticos para construídos
com finalidade específica:
• Criação de clusters transitórios e / ou persistentes;
• Separando clusters por aplicativo;
• Separando clusters por versão do aplicativo.
Cluster monolítico tradicional
Clusters de propósito específico
vs. As considerações de design são:
• Como você envia trabalhos ou constrói pipelines;
• Persistindo seus dados no S3;
• Armazenamento de metadados fora do cluster;
• Por quanto tempo o job é executado;
• Quais aplicativos são necessários.
EMR Managed Scaling
Auto Scaling group
Amazon EMR
Instâncias Spot
- Mais rápido;
- Menor custo.
Nó
Auto Scaling
Conceitos básicos
Sobre clusters e nós
• O componente central do Amazon EMR é o cluster.
Um cluster é uma coleção de instâncias do Amazon
Elastic Compute Cloud (Amazon EC2);
• Cada instância do cluster é chamada de nó;
• Cada nó tem uma função dentro do cluster;
• O Amazon EMR também instala diferentes
componentes de software em cada tipo de nó, dando a
cada nó uma função em um aplicativo distribuído.
Master
EMR cluster
Task
Core
HDFS HDFS
Os Core Nodes podem ser
adicionados e removidos
sem problemas.
O Master Node deve
continuar em execução.
O cluster pode tolerar a
perda de Task Nodes.
Tipos de Nó
Opções de deployment flexíveis do Amazon EMR
A AWS oferece mais opções de instância do que qualquer outro
provedor de nuvem. Escolha a instância que oferece o melhor
desempenho ou custo para sua carga de trabalho, incluindo
Graviton2. Aproveite as vantagens das instâncias On-Demand,
Reserved e Spot para otimizar os custos.
Configure, implante, gerencie e dimensione o EMR em seus
ambientes locais, assim como você faria na nuvem. O AWS Outposts
oferece serviços, infraestrutura e modelos operacionais da AWS para
praticamente qualquer data center, espaço de colocation ou instalação
on-premises.
Use EMR para automatizar o provisionamento, gerenciamento e
escalonamento de jobs do Apache Spark no Amazon Elastic
Kubernetes Service (EKS) e aproveite o runtime otimizado.
Demonstração
Obrigado!
Fique por dentro das
próximas sessões
Acesse a agenda de
webinars neste QR code
e inscreva-se!
QR CODE
Conte-nos o que achou
do webinar
Clique em “sair” para
responder uma rápida
pesquisa de satisfação.

Os benefícios de migrar seus workloads de Big Data para a AWS

  • 1.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. All rights reserved. Amazon Confidential and Trademark. AWSWebinar Series Brasil Andre Fellipe Arquiteto de Soluções Os benefícios de migrar seus workloads de Big Data para a AWS
  • 2.
    Como interagir duranteo evento? Você tem um projeto e quer conversar com o time comercial da AWS? Acesse o LIVE CHAT neste QR code ou pelo link enviado no chat do evento. Perguntas & Respostas ao vivo durante todo o evento Tire suas dúvidas com os especialistas da AWS! Clique no símbolo “?” e envie suas perguntas.
  • 3.
    O recurso maisvalioso já não é petróleo, mas os dados. *Copyright: The Economist, 2017, David Parkins
  • 4.
    Mais dados Maispersonas Demanda por tomada de decisão mais rápida As novas realidades que os clientes estão enfrentando .
  • 5.
    Os clientes queremmais valor de seus dados U S AD O P O R M U I T AS P E S S O AS C R E S C E N D O E X P O N E N C I AL M E N T E D E N O V AS F O N TE S D I V E R S I D AD E AN A L I S A D O P O R M U I TO S AP L I C A T I V O S
  • 6.
    - Instalação dehardware e software, configuração, correção, backups; - Problemas de desempenho e alta disponibilidade; - Planejamento de capacidade; - Segurança e conformidade. Serviços de analytics gerenciados por conta própria consomem tempo, são complexos e caros
  • 7.
    Por que BigData na AWS? Mais fácil de construir Infraestrutura mais segura Abrangência Escalável e econômico 1 2 3 4
  • 8.
    1. Mais fácilde construir data lakes e analytics Data lake S3 Relatórios Consultas Ad Hoc Big Data Analytics Data Warehousing Analytics Machine Learning AWS Lake Formation
  • 9.
    2. Abrangência Dados, visualização, engajamentoe machine learning Analytics Data lakes Governança Dashboards Predictive Analytics Engajamento de usuários Dados Data Warehousing Processamento Consultas interativas Análise Operacional Analytics em tempo real Processamento Serverless Infraestrutura Catálogo de Dados & ETL Segurança & Gerenciamento Migração & Streaming
  • 10.
    3. Infraestrutura maissegura Os clientes precisam ter vários níveis de segurança, gerenciamento de identidade e acesso, criptografia e conformidade para proteger seu data lake Identidade AWS IAM AWS SSO Amazon Cloud Directory AWS Directory Service AWS Organizations Encriptação AWS Certificate Manager AWS Key Management Service Criptografia em repouso Criptografia em trânsito Traga suas próprias chaves, suporte HSM Conformidade AWS Artifact Amazon Inspector Amazon Cloud HSM Amazon Cognito AWS CloudTrail Segurança Amazon GuardDuty AWS Shield AWS WAF Amazon Macie VPC
  • 11.
    4. Infraestrutura maisescalável, econômica e de alto desempenho para analytics Cinco camadas de armazenamento Mais de 200 tipos de instância para atender as necessidades Instâncias sob demanda, reservadas e spot Interfaces de rede de largura de banda de 100 Gbps
  • 12.
  • 13.
    Computação e armazenamentoacoplados • O armazenamento cresce junto com a computação; • Os requisitos de computação variam. Fortemente acoplado Computação Armazenamento
  • 14.
    A replicação aumentao custo 3x • Os dados são replicados várias vezes; • Normalmente, apenas em um data center.
  • 15.
    Recursos escassos ousubutilizados 0 20 40 60 80 100 120 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 Reprocessamento Picos semanais Estável
  • 16.
    Competição pelos mesmosrecursos Hadoop Hive Spark
  • 17.
    Limitações em atualizações •Transformação em grande escala: Map/Reduce, Hive, Pig, Spark; • Consultas interativas: Impala, Spark SQL, Presto; • Machine Learning: Spark ML, MxNet, Tensorflow; • Notebooks interativos: Jupyter, Zeppelin; • NoSQL: HBase.
  • 18.
    A separação derecursos cria silos Hive Spark
  • 19.
  • 20.
    Amazon EMR • Serviçogerenciado para executar aplicativos do ecossistema Hadoop, como Spark, Hive, Presto e muitos outros; • Pode processar grandes volumes de dados armazenados no Amazon S3 (EMRFS), HDFS, Amazon DynamoDB, Amazon Redshift, Amazon Kinesis, Kafka e outras fontes de dados; • Use clusters transitórios, Managed Scaling, Amazon Simple Storage Service (Amazon S3) e Instâncias Spot para cortar custos.
  • 21.
    Amazon EMR Execute facilmenteSpark, Hive, Presto, HBase, Flink e mais aplicativos de big data na AWS Melhor desempenho com menor custo Workloads Spark rodam 2,4x mais rápido em comparação ao open source Redução de custos com EC2 Spot e Instâncias Reservadas Faturamento por segundo para flexibilidade Use o armazenamento S3 Processe dados em S3 com segurança e alto desempenho usando o EMRFS Escale computação e armazenamento independentes um do outro Últimas versões Atualizado com as estruturas de código aberto mais recentes em 30 dias Suporte para open source populares como Flink e Hudi Totalmente gerenciado, sem configuração de cluster, provisionamento de nó ou ajuste de cluster Escala automática vertical e horizontal para atender às demandas Fácil e Escalável
  • 22.
    Custos otimizados como Amazon EMR • Menos tempo de administração para gerenciar e suportar clusters; • Sem custos de antemão: aquisição e instalação de hardware; • Economize em custos operacionais - espaço no data center, energia, refrigeração, etc. Suporte Taxa Suporte On-premises EMR Server Costs Hardware—Server, Rack, Chassis, PDUs, Tor Switches (+Maintenance) Software—OS, Virtualization Licenses (+Maintenance) Network Costs Network Hardware—LAN Switches, Load Balancer Bandwidth costs Software—Network Monitoring IT Labor Costs Server admin, virtualization admin, storage admin, network admin, support team Extras Project planning, advisors, legal, contractors, managed services, training, cost of capital
  • 23.
  • 24.
    Desacople armazenamento ecomputação Computação Metastore Amazon RDS AWS Glue Data Catalog Amazon EMR Amazon Athena Amazon Redshift Spectrum Amazon S3 Armazenamento
  • 25.
  • 26.
    Cluster 1 Cluster2 Cluster 3 Cluster 4 Zona de Disponibilidade B Amazon S3 Zona de Disponibilidade A Recuperação de desastres integrada
  • 27.
    Pausar ou encerrarclusters Amazon EMR Amazon EMR Amazon S3 Amazon S3 Amazon S3
  • 28.
    Separação lógica Rearquitetar clustersmonolíticos para construídos com finalidade específica: • Criação de clusters transitórios e / ou persistentes; • Separando clusters por aplicativo; • Separando clusters por versão do aplicativo. Cluster monolítico tradicional Clusters de propósito específico vs. As considerações de design são: • Como você envia trabalhos ou constrói pipelines; • Persistindo seus dados no S3; • Armazenamento de metadados fora do cluster; • Por quanto tempo o job é executado; • Quais aplicativos são necessários.
  • 29.
    EMR Managed Scaling AutoScaling group Amazon EMR
  • 30.
    Instâncias Spot - Maisrápido; - Menor custo. Nó Auto Scaling
  • 31.
  • 32.
    Sobre clusters enós • O componente central do Amazon EMR é o cluster. Um cluster é uma coleção de instâncias do Amazon Elastic Compute Cloud (Amazon EC2); • Cada instância do cluster é chamada de nó; • Cada nó tem uma função dentro do cluster; • O Amazon EMR também instala diferentes componentes de software em cada tipo de nó, dando a cada nó uma função em um aplicativo distribuído.
  • 33.
    Master EMR cluster Task Core HDFS HDFS OsCore Nodes podem ser adicionados e removidos sem problemas. O Master Node deve continuar em execução. O cluster pode tolerar a perda de Task Nodes. Tipos de Nó
  • 34.
    Opções de deploymentflexíveis do Amazon EMR A AWS oferece mais opções de instância do que qualquer outro provedor de nuvem. Escolha a instância que oferece o melhor desempenho ou custo para sua carga de trabalho, incluindo Graviton2. Aproveite as vantagens das instâncias On-Demand, Reserved e Spot para otimizar os custos. Configure, implante, gerencie e dimensione o EMR em seus ambientes locais, assim como você faria na nuvem. O AWS Outposts oferece serviços, infraestrutura e modelos operacionais da AWS para praticamente qualquer data center, espaço de colocation ou instalação on-premises. Use EMR para automatizar o provisionamento, gerenciamento e escalonamento de jobs do Apache Spark no Amazon Elastic Kubernetes Service (EKS) e aproveite o runtime otimizado.
  • 35.
  • 37.
    Obrigado! Fique por dentrodas próximas sessões Acesse a agenda de webinars neste QR code e inscreva-se! QR CODE Conte-nos o que achou do webinar Clique em “sair” para responder uma rápida pesquisa de satisfação.