© 2021, Amazon Web Services, Inc. or its Affiliates.
Melissa Ravanini
Arquiteta de Soluções com foco em saúde
ravanini@amazon.com
Por que o Amazon S3 é o melhor
lugar para criar seu data lake
© 2021, Amazon Web Services, Inc. or its Affiliates.
© 2021, Amazon Web Services, Inc. or its Affiliates.
Agenda
• Vantagens do Amazon S3 na construção de um data lake
• Melhores práticas ao construir o seu data lake no Amazon S3
• Novidades lançadas no re:Invent 2020
• Demonstração
• Colunarização e compressão
• Visualização
• Particionamento
• S3 Intelligent Tiering
© 2021, Amazon Web Services, Inc. or its Affiliates.
Explosão de dados Explosão de personas Demanda por tomada
de decisão mais rápida
sobre dados em
tempo real
A realidade
© 2021, Amazon Web Services, Inc. or its Affiliates.
A convergência dos silos de dados
Silos de dados
OLTP ERP CRM LOB
DW
Business
intelligence
Dispositivos Web Sensores Social
Business
intelligence
M A CH I N E
LE A R N I N G
B I +
A N A LYTI CS
DA TA
WA R E H O U S I N G
Data lakes
FORMATOS
ABERTOS
CATÁLOGO
CENTRAL
Silo Hadoop
© 2021, Amazon Web Services, Inc. or its Affiliates.
Padrão de fluxo de trabalho em um data lake
Configure o
armazenamento
1
Ingira os
dados
2
Limpe, prepare e
catalogue os dados
3
Implemente políticas de
segurança e compliance
4
Disponibilize os
dados para análise
5
Passos para construir um data lake
© 2021, Amazon Web Services, Inc. or its Affiliates.
O S3 é a base de qualquer data lake
Catálogo e pesquisa
Controle de usuários e acessos
Amazon
S3
Amazon
DynamoDB
Amazon
Elasticsearch
Service
AWS
AppSync
Amazon
API Gateway
Amazon
Cognito
Gerencie e proteja
AWS
Snowball
AWS Storage
Gateway
Amazon Kinesis
Data Firehose
AWS Direct
Connect
AWS
DMS
Repositório
central
Escalável, seguro, custo-benefício
AWS
Glue
AWS Key
Management
Service
AWS
IAM
Amazon
CloudWatch
AWS
CloudTrail
Ingestão de dados
AWS Lake
Formation
Analytics e machine learning
Amazon
Athena
Amazon
EMR
AWS
Glue
Amazon
Redshift
Amazon
DynamoDB
Amazon
QuickSight
Amazon
Kinesis
Amazon
ES
Amazon
Neptune
Amazon
RDS
Amazon
Rekognition
Amazon
SageMaker
© 2021, Amazon Web Services, Inc. or its Affiliates.
CLASSES DE ARMAZENAMENTO DO AMAZON S3
FREQUENTEMENTE ARQUIVADO
INFREQUENTE
FREQUÊNCIA DE ACESSO
© 2021, Amazon Web Services, Inc. or its Affiliates.
CLASSES DE ARMAZENAMENTO DO AMAZON S3
S3 Standard
Dados acessados com frequência
Acesso imediato e alto rendimento
Projetado para 99,999999999% (11 9s) de durabilidade
Para uma ampla gama de casos de uso, como data lakes,
análises, aplicativos móveis, sites
© 2021, Amazon Web Services, Inc. or its Affiliates.
S3 Standard – Acesso
Infrequente
(S3-IA)
Dados acessados com pouca frequência
Acesso imediato
Mesmas latência e taxa de transferência que o S3
Standard
Projetado para 99,999999999% (11 9s) de
durabilidade
As taxas de requisição são mais caras
CLASSES DE ARMAZENAMENTO DO AMAZON S3
© 2021, Amazon Web Services, Inc. or its Affiliates.
S3 Glacier
Dados arquivados
Recupere os dados de minutos a horas
Projetado para 99,999999999% (11 9s) de durabilidade
Para backups de dados locais e arquivamento de dados
CLASSES DE ARMAZENAMENTO DO AMAZON S3
© 2021, Amazon Web Services, Inc. or its Affiliates.
S3 Glacier
Deep Archive
Dados acessados uma ou duas vezes por ano
Armazenamento na nuvem de menor custo e armazenado em
várias zonas de disponibilidade
Tempo de recuperação dentro de 12 horas
Projetado para 99,999999999% (11 9s) de durabilidade
Para dados retidos por anos para conformidade, backup e DR
CLASSES DE ARMAZENAMENTO DO AMAZON S3
© 2021, Amazon Web Services, Inc. or its Affiliates.
Classe de armazenamento inteligente do Amazon S3
S3 Intelligent
Tiering
Frequência de acesso desconhecida
Otimiza o custo movendo dados para o nível de acesso mais
econômico com base no acesso
Projetado para 99,999999999% (11 9s) de durabilidade
Preço: $0,0025 a cada 1.000 objetos
© 2021, Amazon Web Services, Inc. or its Affiliates.
Baixa latência e alto desempenho de throughput
Para conjuntos de dados com requisitos de alto desempenho
Mesmos preços que S3 Standard e Standard-IA
Camadas de acesso do S3 Intelligent-Tiering
© 2021, Amazon Web Services, Inc. or its Affiliates.
Camadas de acesso do S3 Intelligent-Tiering
para arquivamento
Projetado para acesso assíncrono
Para dados que raramente são acessados
Mesmos preços que S3 Glacier e S3 Glacier Deep Archive
Novo!
© 2021, Amazon Web Services, Inc. or its Affiliates.
© 2021, Amazon Web Services, Inc. or its Affiliates.
Práticas recomendadas para a
construção de um data lake
© 2021, Amazon Web Services, Inc. or its Affiliates.
Escolhendo a classe de armazenamento certa para data lakes
Dados brutos ETL
Pequenos arquivos de log
Permite sobrescrever
De curta duração
Movido e excluído
Carregado e arquivado
Data Lake de
Produção
Dados Históricos
Amazon
S3 Standard
Amazon
S3 Standard
Amazon
S3 Intelligent-Tiering
Amazon
S3 Glacier, S3 Glacier Deep
Archive ou S3 Intelligent-Tiering
Dados intermediários
Múltiplas transformações
Exclui < 30 dias
Saída para data lake
Tamanhos otimizados (MBs)
Muitos usuários
Acesso imprevisível
Ativos de longa duração
Treinamento de modelo ML
Ativos históricos
Conformidade/auditoria
Proteção de dados
Recuperações planejadas
Otimize os custos para todas as etapas do Data Lake
© 2021, Amazon Web Services, Inc. or its Affiliates.
A maioria das maneiras de mover dados para o data lake
Importação de dados de data centers
Conexão de rede dedicada
Recipientes de transporte robustos
Migração de banco de dados
Gateway que permite que as aplicações gravem na nuvem
Importação de dados em tempo real
Conecte dispositivos à AWS
Transmissões de dados em tempo real
Transmissões de vídeo em tempo real
Dados em tempo real
Dados de seus
datacenters
Sincronização de dados
entre ambientes
Amazon S3
Amazon S3 Glacier
AWS Glue
Serviços profissionais e parceiros
para ajudar a migração
Um S3 Data Lake acomoda uma ampla variedade de fontes de dados simultâneas
© 2021, Amazon Web Services, Inc. or its Affiliates.
AWS Partner Guided Onboard Program (Partner GO)
Clientes qualificáveis
$500 em créditos
Financiamento de horas do parceiro:
- Discutir a arquitetura
- Ensinar conceitos básicos de nuvem
- Implantar um MVP/POC
Amazon S3
Amazon S3 Glacier
AWS Glue
Serviços profissionais e parceiros
para ajudar a migração
© 2021, Amazon Web Services, Inc. or its Affiliates.
Melhores práticas de gerenciamento de dados em escala
Planejar um rápido crescimento e automatizar o gerenciamento em qualquer escala
Usar marcação de objetos do S3 (tags)
Controle granularmente o acesso, analise o uso,
gerencie políticas de ciclo de vida e replique objetos
Considere o formato e o tamanho dos objetos
Use Parquet ou outro padrão colunar, preferencialmente com compressão
Use objetos de 2MB no mínimo. Isso pode requerer agregação durante a ingestão
Usar operações em lote
Gerencie milhões a bilhões de objetos com uma única solicitação
© 2021, Amazon Web Services, Inc. or its Affiliates.
AZ
AZ
AZ
Forte consistência no S3 —read after write
Amazon S3
Ingestão de dados
Analytics, Machine Learning
Qualquer solicitação para o S3 agora é fortemente consistente
Novo!
https://aws.amazon.com/pt/s3/consistency/
© 2021, Amazon Web Services, Inc. or its Affiliates.
© 2021, Amazon Web Services, Inc. or its Affiliates.
Demonstração
© 2021, Amazon Web Services, Inc. or its Affiliates.
https://www.kaggle.com/inquisitivecrow/crime-data-in-brazil
Boletins de ocorrência do Estado de São Paulo – 2010 a 2016
Amazon Simple
Storage Service (S3)
Boletins de ocorrência -
CSVs
AWS Glue
Data Catalog
Amazon Athena Amazon QuickSight
O que vamos mostrar?
• Colunarização e compressão
• Visualização
• Particionamento
• S3 Intelligent Tiering
© 2021, Amazon Web Services, Inc. or its Affiliates.
Obrigada!
Melissa Ravanini
Arquiteta de Soluções com foco em saúde
ravanini@amazon.com

AWS Storage Day - Por que o Amazon S3 é o melhor lugar para criar seu data lake

  • 1.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. Melissa Ravanini Arquiteta de Soluções com foco em saúde [email protected] Por que o Amazon S3 é o melhor lugar para criar seu data lake
  • 2.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. © 2021, Amazon Web Services, Inc. or its Affiliates. Agenda • Vantagens do Amazon S3 na construção de um data lake • Melhores práticas ao construir o seu data lake no Amazon S3 • Novidades lançadas no re:Invent 2020 • Demonstração • Colunarização e compressão • Visualização • Particionamento • S3 Intelligent Tiering
  • 3.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. Explosão de dados Explosão de personas Demanda por tomada de decisão mais rápida sobre dados em tempo real A realidade
  • 4.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. A convergência dos silos de dados Silos de dados OLTP ERP CRM LOB DW Business intelligence Dispositivos Web Sensores Social Business intelligence M A CH I N E LE A R N I N G B I + A N A LYTI CS DA TA WA R E H O U S I N G Data lakes FORMATOS ABERTOS CATÁLOGO CENTRAL Silo Hadoop
  • 5.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. Padrão de fluxo de trabalho em um data lake Configure o armazenamento 1 Ingira os dados 2 Limpe, prepare e catalogue os dados 3 Implemente políticas de segurança e compliance 4 Disponibilize os dados para análise 5 Passos para construir um data lake
  • 6.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. O S3 é a base de qualquer data lake Catálogo e pesquisa Controle de usuários e acessos Amazon S3 Amazon DynamoDB Amazon Elasticsearch Service AWS AppSync Amazon API Gateway Amazon Cognito Gerencie e proteja AWS Snowball AWS Storage Gateway Amazon Kinesis Data Firehose AWS Direct Connect AWS DMS Repositório central Escalável, seguro, custo-benefício AWS Glue AWS Key Management Service AWS IAM Amazon CloudWatch AWS CloudTrail Ingestão de dados AWS Lake Formation Analytics e machine learning Amazon Athena Amazon EMR AWS Glue Amazon Redshift Amazon DynamoDB Amazon QuickSight Amazon Kinesis Amazon ES Amazon Neptune Amazon RDS Amazon Rekognition Amazon SageMaker
  • 7.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. CLASSES DE ARMAZENAMENTO DO AMAZON S3 FREQUENTEMENTE ARQUIVADO INFREQUENTE FREQUÊNCIA DE ACESSO
  • 8.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. CLASSES DE ARMAZENAMENTO DO AMAZON S3 S3 Standard Dados acessados com frequência Acesso imediato e alto rendimento Projetado para 99,999999999% (11 9s) de durabilidade Para uma ampla gama de casos de uso, como data lakes, análises, aplicativos móveis, sites
  • 9.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. S3 Standard – Acesso Infrequente (S3-IA) Dados acessados com pouca frequência Acesso imediato Mesmas latência e taxa de transferência que o S3 Standard Projetado para 99,999999999% (11 9s) de durabilidade As taxas de requisição são mais caras CLASSES DE ARMAZENAMENTO DO AMAZON S3
  • 10.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. S3 Glacier Dados arquivados Recupere os dados de minutos a horas Projetado para 99,999999999% (11 9s) de durabilidade Para backups de dados locais e arquivamento de dados CLASSES DE ARMAZENAMENTO DO AMAZON S3
  • 11.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. S3 Glacier Deep Archive Dados acessados uma ou duas vezes por ano Armazenamento na nuvem de menor custo e armazenado em várias zonas de disponibilidade Tempo de recuperação dentro de 12 horas Projetado para 99,999999999% (11 9s) de durabilidade Para dados retidos por anos para conformidade, backup e DR CLASSES DE ARMAZENAMENTO DO AMAZON S3
  • 12.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. Classe de armazenamento inteligente do Amazon S3 S3 Intelligent Tiering Frequência de acesso desconhecida Otimiza o custo movendo dados para o nível de acesso mais econômico com base no acesso Projetado para 99,999999999% (11 9s) de durabilidade Preço: $0,0025 a cada 1.000 objetos
  • 13.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. Baixa latência e alto desempenho de throughput Para conjuntos de dados com requisitos de alto desempenho Mesmos preços que S3 Standard e Standard-IA Camadas de acesso do S3 Intelligent-Tiering
  • 14.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. Camadas de acesso do S3 Intelligent-Tiering para arquivamento Projetado para acesso assíncrono Para dados que raramente são acessados Mesmos preços que S3 Glacier e S3 Glacier Deep Archive Novo!
  • 15.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. © 2021, Amazon Web Services, Inc. or its Affiliates. Práticas recomendadas para a construção de um data lake
  • 16.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. Escolhendo a classe de armazenamento certa para data lakes Dados brutos ETL Pequenos arquivos de log Permite sobrescrever De curta duração Movido e excluído Carregado e arquivado Data Lake de Produção Dados Históricos Amazon S3 Standard Amazon S3 Standard Amazon S3 Intelligent-Tiering Amazon S3 Glacier, S3 Glacier Deep Archive ou S3 Intelligent-Tiering Dados intermediários Múltiplas transformações Exclui < 30 dias Saída para data lake Tamanhos otimizados (MBs) Muitos usuários Acesso imprevisível Ativos de longa duração Treinamento de modelo ML Ativos históricos Conformidade/auditoria Proteção de dados Recuperações planejadas Otimize os custos para todas as etapas do Data Lake
  • 17.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. A maioria das maneiras de mover dados para o data lake Importação de dados de data centers Conexão de rede dedicada Recipientes de transporte robustos Migração de banco de dados Gateway que permite que as aplicações gravem na nuvem Importação de dados em tempo real Conecte dispositivos à AWS Transmissões de dados em tempo real Transmissões de vídeo em tempo real Dados em tempo real Dados de seus datacenters Sincronização de dados entre ambientes Amazon S3 Amazon S3 Glacier AWS Glue Serviços profissionais e parceiros para ajudar a migração Um S3 Data Lake acomoda uma ampla variedade de fontes de dados simultâneas
  • 18.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. AWS Partner Guided Onboard Program (Partner GO) Clientes qualificáveis $500 em créditos Financiamento de horas do parceiro: - Discutir a arquitetura - Ensinar conceitos básicos de nuvem - Implantar um MVP/POC Amazon S3 Amazon S3 Glacier AWS Glue Serviços profissionais e parceiros para ajudar a migração
  • 19.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. Melhores práticas de gerenciamento de dados em escala Planejar um rápido crescimento e automatizar o gerenciamento em qualquer escala Usar marcação de objetos do S3 (tags) Controle granularmente o acesso, analise o uso, gerencie políticas de ciclo de vida e replique objetos Considere o formato e o tamanho dos objetos Use Parquet ou outro padrão colunar, preferencialmente com compressão Use objetos de 2MB no mínimo. Isso pode requerer agregação durante a ingestão Usar operações em lote Gerencie milhões a bilhões de objetos com uma única solicitação
  • 20.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. AZ AZ AZ Forte consistência no S3 —read after write Amazon S3 Ingestão de dados Analytics, Machine Learning Qualquer solicitação para o S3 agora é fortemente consistente Novo! https://aws.amazon.com/pt/s3/consistency/
  • 21.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. © 2021, Amazon Web Services, Inc. or its Affiliates. Demonstração
  • 22.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. https://www.kaggle.com/inquisitivecrow/crime-data-in-brazil Boletins de ocorrência do Estado de São Paulo – 2010 a 2016 Amazon Simple Storage Service (S3) Boletins de ocorrência - CSVs AWS Glue Data Catalog Amazon Athena Amazon QuickSight O que vamos mostrar? • Colunarização e compressão • Visualização • Particionamento • S3 Intelligent Tiering
  • 23.
    © 2021, AmazonWeb Services, Inc. or its Affiliates. Obrigada! Melissa Ravanini Arquiteta de Soluções com foco em saúde [email protected]