SlideShare uma empresa Scribd logo
BigData → MapReduce
Agenda



Qual a motivação ?
Agenda
BigData


“Termo de mercado para o conjunto de
 soluções que analisa informações em
variedade, volume e velocidade inéditos
variedade
 até hoje - os três Vs, como chamam os
              tecnólogos...”
BigData


    “No dia a dia, a sociedade gera, em
      média, mais de 15 petabytes de
  informações sobre as suas operações
comerciais e financeiras, bem como sobre
     clientes e fornecedores por dia...”
BigData


   1 Petabyte (PB) = 1 024 TB
           1 048 576 GB
        1 073 741 824 MB
      1 099 511 627 776 kB
1 125 899 906 842 624 (250) Bytes
BigData



Não estamos falando de quantidade de
 dados e sim de VOLUME DE DADOS
BigData
          Um exemplo prático:

Estamos trabalhando em uma base com
 volume de dados de aproximadamente
               600 Gb

       Temos um pouco mais de

85.000.000.000.000.000.000 quintilhões de
                registros
BigData




Seguindo novos rumos...
BigData
BigData



...conta a história da mais famosa aplicação
    do conceito: o gerente de um time de
beisebol que usa o Big Data para reunir um
  elenco de primeira linha sem gastar muito
BigData
BigData


“A Renner usa o Big Data para monitorar, em
 tempo real, o fluxo de mercadorias da loja
        real
  ao cruzar dados de localização GPS dos
 caminhões dos fornecedores com os níveis
    dos estoques” (Leandro Balbinot - Diretor de TI)
BigData




Segundo especialistas o Big Data foi de grande importância
para o descobrimento do pré-sal...
BigData

…devido a sua velocidade, que agilizava os
               velocidade
   processamentos de dados sísmicos
captados pela sondas que procuram petróleo
             no fundo do mar.

Como são milhões as variáveis, o trabalho
                      variáveis
   exige intermináveis simulações de
 imagens, e só o Big Data é capaz de dar
 conta do trabalho em um tempo melhor.
                                melhor
BigData




No último “Fórum Econômico Mundial”
BigData




No último “Fórum Econômico Mundial”
BigData

 No último Fórum Econômico Mundial...

   "Big Data, grande impacto: novas
 possibilidades para o desenvolvimento
             internacional"
             internacional

 …mostra como o Big Data pode ser uma
arma contra problemas sócio-econômicos
BigData
Conhecimento Estratégico...
BigData
             Caso de negócio:

 O McKinsey Global Institute publicou
   recentemente um relatório sobre as
oportunidades de negócios e do governo
            ao usar BigData.
                    BigData

“Big Data: The Next Frontier for Innovation,
      Competition and Productivity”
BigData



 De acordo com a McKinsey, o uso de
 BigGata está se tornando uma forma
essencial para as principais empresas a
   superarem seus concorrentes.
                     concorrentes
BigData



"Nós estimamos que um revendedor com o
   apoio de BigData tem o potencial de
 aumentar a sua margem operacional em
              mais de 60%”
BigData


   “Big Data cria valor para as empresas
descobrindo padrões e relacionamentos
 entre dados que antes estavam perdidos
 não apenas em data warehouses internos,
mas na própria Web, em tuítes, comentários
no Facebook e mesmo videos no YouTube.”
BigData
BigData



Um mercado de US$ 17 bi em 2015
BigData


Segundo a consultoria IDC, o mercado global
  de Big Data crescerá quase 40% ao ano
  entre 2010 e 2015, saltando de US$ 3,2
                2015
      bilhões para US$ 16,9 bilhões.
                             bilhões
BigData
A tecnologia envolve tanto dinheiro porque
soluciona um problema inadiável para a
            economia global.
                       global

    Se você se sente atordoado com a
enxurrada de posts no seu Twitter, imagine a
 perda de produtividade em uma empresa
 incapaz de compreender os dados que a
                inundam.
Ministério das Comunicações
Como a internet Estimulou o BigData?
Alguns Serviços na Web...
Problemáticas
Soluções?




MapReduce
MapReduce
Nos últimos anos, os pesquisadores e desenvolvedores do
Google tem implementado centenas de propostas de
técnicas e cálculos que processam grandes quantidades de
dados brutos e para computar vários tipos de dados
derivados, tais como:


 ●    Índices invertidos
 ●    Representações diversas da estrutura de gráfico de
     documentos
 ●    Resumos do número de páginas rastreadas por host
 ●    Estatística das consultas mais frequentes em um
     determinado dia.
MapReduce

–   Os cálculos são conceitualmente simples...


–   O problema é que os dados de entrada são muito grandes...
                                                   grandes


     ●   Solução: Distribuir esses cálculos através de centenas ou
         milhares de máquinas
          – Garantir o término em um tempo razoável
MapReduce



“Como reação a essa complexidade, foi elaborado uma nova
abstração que nos permite expressar os cálculos simples que
estávamos tentando realizar, mas esconde os detalhes confusos de
paralelização, tolerância a falhas de distribuição de dados e
paralelização
balanceamento de carga”
                   carga
MapReduce

●   A nova abstração é inspirado no 'Map' e 'Reduce' primitivos
    presentes em Lisp e muitas outras linguagens funcionais.


    “Percebemos que a maioria dos nossos cálculos envolvia a
    aplicação de uma operação de Map para cada "registro" lógico
    em nossa entrada, a fim de calcular um conjunto de pares
    intermediários de chave/valor e, em seguida , a aplicação de
    uma operação de Reduce a todos os valores que partilhavam a
    mesma chave, a fim de combinar os dados derivados
    apropriadamente.”
MapReduce



As maior contribuição dessa nova abordagem é a implantação de
uma simples e poderosa interface que permite a paralelização
automática e distribuição da computação em grande escala,
combinado com uma implementação desta interface que atinge alta
performance em grandes aglomerados de máquinas
MapReduce



O cálculo toma um conjunto de pares de entradas de chave/valor,
e produz um conjunto de pares de saídas chave/valor.
 O usuário que implementa o MapReduce expressa o cálculo como
duas funções: Map e Raduce.
Reduce
A função Reduce, também escrito pelo usuário, aceita
●   uma chave intermediária e um conjunto de valores para essa
    chave.
●   Ela faz uma fusão desses valores em conjunto, para formar um
    menor conjunto de valores possível.
●   Tipicamente apenas zero ou um valor de saída é produzido por
    um método Reduce.
●   Os valores intermédios são fornecidos para a função através de
    uma iteração. Isto permite-nos lidar com listas de valores que
    são demasiadamente grandes para caber na memória.
MapReduce
O modelo de programação MapReduce tem sido utilizado com sucesso no
Google para diversas finalidades. Atribui-se o sucesso a várias razões:

●   o modelo é fácil de usar, mesmo para programadores sem experiência com os
    sistemas paralelos e distribuídos, já que esconde a detalhes da paralelização,
    tolerância a falhas, otimização de localidade, e balanceamento de carga.


●   Uma grande variedade de problemas são facilmente transcritos para o uso do
    MapReduce.


●   É usado para a geração de dados para o serviço de busca do Google, para
    classificação, para mineração de dados, para aprendizado de máquina e
    muitos outros sistemas.
MapReduce




Exemplo...
MapReduce: Exemplos...
MapReduce: Exemplos...
MapReduce: Exemplos...
MapReduce: Exemplos...
MapReduce: Exemplos...
MapReduce: Exemplos...
'




      Apach
            e Had   oop


           NoS   QL
    Bancos

             ra
       Cloude
Ferramentas
   '

Bancos NoSQL (Not Only SQL)
Ferramentas
     '




Hadoop é uma plataforma de software em Java de computação distribuída voltada
para clusters e processamento de grandes massas de dados.
                                                   dados

Foi inspirado pelo MapReduce e GoogleFS (GFS)

É, na pratica, uma combinação de dois projetos
separados, que são o Hadoop MapReduce (HMR),
que é um framework para processamento paralelo e
o Hadoop Distributed File System (HDFS)


 Base de muitos serviços em Cloud
Ferramentas
'
Ferramentas



Data Mining?
Ferramentas




      Aprendizado de máquina escalável
               Open-Source!!
Outrora domínio exclusivo de acadêmicos e corporações com grandes
orçamentos de pesquisa, as aplicações inteligentes que aprendem a
partir de dados e contribuição de usuário estão se tornando mais
comuns.
Ferramentas
Ferramentas
Ferramentas




 São distribuições Linux prontas ao uso
   para constituir um cluster Hadoop.

Cloudera é hoje uma referência no mundo
                 Hadoop
Considerações Finais



BigData é uma bolha?
●




2012 é o ano do BigData
●




Indo mais além...
●
Dúvidas?
BigData → MapReduce

Mais conteúdo relacionado

PDF
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Ambiente Livre
 
PDF
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
Ivanilton Polato
 
PDF
Hadoop, Big Data e Cloud Computing
Amazon Web Services LATAM
 
PDF
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Ambiente Livre
 
ODP
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Marcio Junior Vieira
 
PPTX
Arquitetura para solução Big Data – open source
Felipe RENZ - MBA TI / Big
 
PDF
Treinamento hadoop - dia1
Alexandre Uehara
 
PDF
Treinamento hadoop - dia4
Alexandre Uehara
 
Pentaho com Hadoop – O Canivete Suíço do Cientistas de Dados para Big Data An...
Ambiente Livre
 
XXXI JAI - Apache Hadoop: conceitos teóricos e práticos, evolução e novas pos...
Ivanilton Polato
 
Hadoop, Big Data e Cloud Computing
Amazon Web Services LATAM
 
Palestra: Cientista de Dados – Dominando o Big Data com Software Livre
Ambiente Livre
 
Palestra: Big Data Open Source com Hadoop - FLISOL 2014 - Curitiba
Marcio Junior Vieira
 
Arquitetura para solução Big Data – open source
Felipe RENZ - MBA TI / Big
 
Treinamento hadoop - dia1
Alexandre Uehara
 
Treinamento hadoop - dia4
Alexandre Uehara
 

Mais procurados (20)

PDF
Big data - Uma visão geral da coisa...
Arthur Souza
 
PDF
Treinamento Hadoop - dia2
Alexandre Uehara
 
ODP
Bigdata na pratica: Resolvendo problemas de performance com hadoop
tdc-globalcode
 
PDF
Treinamento hadoop - dia3
Alexandre Uehara
 
PPT
BIGDATA: Da teoria à Pratica
Daniel Checchia
 
PPT
Mapreduce - Conceitos e Aplicações
Guilherme Araújo
 
PPTX
Hadoop - Mãos à massa! Qcon2014
Thiago Santiago
 
PDF
Cientista de Dados – Dominando o Big Data com Software Livre
Ambiente Livre
 
PDF
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
Ambiente Livre
 
PPTX
OS CINCO Vs DO BIG DATA
Leonardo Dias
 
PDF
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
pccdias
 
PDF
TDC 2014 - Hadoop Hands ON
Thiago Santiago
 
PDF
Big Data - O que é o hadoop, map reduce, hdfs e hive
Flavio Fonte, PMP, ITIL
 
PDF
Pentaho, Hadoop , Big Data e Data Lakes
Ambiente Livre
 
PDF
Governança de Dados e Big Data
Carlos Barbieri
 
PDF
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Ambiente Livre
 
PDF
Arquiteturas, Tecnologias e Desafios para Análise de BigData
Sandro Andrade
 
PDF
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Ambiente Livre
 
PDF
Análise e Caracterização das Novas Ferramentas para Computação em Nuvem
Otávio Carvalho
 
PDF
Aplicação da Técnica Mapreduce na Modelagem de Algoritmos Genéticos para o “P...
wesleylouzeiro
 
Big data - Uma visão geral da coisa...
Arthur Souza
 
Treinamento Hadoop - dia2
Alexandre Uehara
 
Bigdata na pratica: Resolvendo problemas de performance com hadoop
tdc-globalcode
 
Treinamento hadoop - dia3
Alexandre Uehara
 
BIGDATA: Da teoria à Pratica
Daniel Checchia
 
Mapreduce - Conceitos e Aplicações
Guilherme Araújo
 
Hadoop - Mãos à massa! Qcon2014
Thiago Santiago
 
Cientista de Dados – Dominando o Big Data com Software Livre
Ambiente Livre
 
PostgreSQL em projetos de Business Analytics e Big Data Analytics com Pentaho
Ambiente Livre
 
OS CINCO Vs DO BIG DATA
Leonardo Dias
 
Palestra big data_e_mineracao_dedados_5agosto13-versaoslideshare
pccdias
 
TDC 2014 - Hadoop Hands ON
Thiago Santiago
 
Big Data - O que é o hadoop, map reduce, hdfs e hive
Flavio Fonte, PMP, ITIL
 
Pentaho, Hadoop , Big Data e Data Lakes
Ambiente Livre
 
Governança de Dados e Big Data
Carlos Barbieri
 
Open Source Data Science - Elaborando uma plataforma de Big Data & Analytics ...
Ambiente Livre
 
Arquiteturas, Tecnologias e Desafios para Análise de BigData
Sandro Andrade
 
Big Data Analytics - Do MapReduce ao dashboard com Hadoop e Pentaho
Ambiente Livre
 
Análise e Caracterização das Novas Ferramentas para Computação em Nuvem
Otávio Carvalho
 
Aplicação da Técnica Mapreduce na Modelagem de Algoritmos Genéticos para o “P...
wesleylouzeiro
 
Anúncio

Semelhante a BigData MapReduce (20)

PDF
Map reduce novas abordagens para o processo de datamining em grandes volumn...
João Gabriel Lima
 
PDF
Big Data na Nuvem
Amazon Web Services LATAM
 
PDF
Guia sobre análise de dados e aprendizado de máquina para CIO.
Lucas Modesto
 
PDF
Big data para programadores convencionais
Roberto Oliveira
 
PPTX
Hackathon Inmetrics e Fiap: Desafios do Big Data
inmetrics
 
PDF
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Alessandro Binhara
 
PPTX
BigData & Hadoop - Technology Latinoware 2016
Thiago Santiago
 
PPTX
Google BigQuery
Francke Peixoto
 
PDF
Cloud tendências 2018
everis
 
PDF
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
tdc-globalcode
 
PDF
Sobre o Big data, nosql e o mongo db e sua aplicabilidade
Cedrico2
 
DOC
Artigo big data_final
Alexandra Alcantara
 
PPTX
Big Data
Suzana Viana Mota
 
PPTX
BigData
Alexandra Joca
 
PDF
Pentaho Hadoop Big Data e Data Lakes
Ambiente Livre
 
PDF
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Vinícius Barros
 
PPTX
SQL Maniacs - SQL Server 2019 Big Data Clusters
Luiz Henrique Garetti Rosário
 
PPTX
Sql maniacs sql server 2019 Big Data Clusters
Luiz Henrique Garetti Rosário
 
Map reduce novas abordagens para o processo de datamining em grandes volumn...
João Gabriel Lima
 
Big Data na Nuvem
Amazon Web Services LATAM
 
Guia sobre análise de dados e aprendizado de máquina para CIO.
Lucas Modesto
 
Big data para programadores convencionais
Roberto Oliveira
 
Hackathon Inmetrics e Fiap: Desafios do Big Data
inmetrics
 
Case RDStation: Construindo DataLakes com Apache Hadoop em cloud agnóstica
Alessandro Binhara
 
BigData & Hadoop - Technology Latinoware 2016
Thiago Santiago
 
Google BigQuery
Francke Peixoto
 
Cloud tendências 2018
everis
 
TDC2016POA | Trilha BigData - Orquestrando Hadoop, Cassandra e MongoDB com o ...
tdc-globalcode
 
Sobre o Big data, nosql e o mongo db e sua aplicabilidade
Cedrico2
 
Artigo big data_final
Alexandra Alcantara
 
Pentaho Hadoop Big Data e Data Lakes
Ambiente Livre
 
Indústria 4.0: como a IoT e Big Data mudarão a forma como lidamos com a tecno...
Vinícius Barros
 
SQL Maniacs - SQL Server 2019 Big Data Clusters
Luiz Henrique Garetti Rosário
 
Sql maniacs sql server 2019 Big Data Clusters
Luiz Henrique Garetti Rosário
 
Anúncio

Mais de João Gabriel Lima (20)

PDF
Cooking with data
João Gabriel Lima
 
PDF
Deep marketing - Indoor Customer Segmentation
João Gabriel Lima
 
PDF
Aplicações de Alto Desempenho com JHipster Full Stack
João Gabriel Lima
 
PDF
Realidade aumentada com react native e ARKit
João Gabriel Lima
 
PDF
JS - IA
João Gabriel Lima
 
PDF
Big data e Inteligência Artificial
João Gabriel Lima
 
PDF
Mineração de Dados no Weka - Regressão Linear
João Gabriel Lima
 
PDF
Segurança na Internet - Estudos de caso
João Gabriel Lima
 
PDF
Segurança na Internet - Google Hacking
João Gabriel Lima
 
PDF
Segurança na Internet - Conceitos fundamentais
João Gabriel Lima
 
PDF
Web Machine Learning
João Gabriel Lima
 
PDF
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
João Gabriel Lima
 
PDF
Mineração de dados com RapidMiner + WEKA - Clusterização
João Gabriel Lima
 
PDF
Mineração de dados na prática com RapidMiner e Weka
João Gabriel Lima
 
PDF
Visualizacao de dados - Come to the dark side
João Gabriel Lima
 
PDF
REST x SOAP : Qual abordagem escolher?
João Gabriel Lima
 
PDF
Game of data - Predição e Análise da série Game Of Thrones a partir do uso de...
João Gabriel Lima
 
PDF
E-trânsito cidadão - IPVA em suas mãos
João Gabriel Lima
 
PPTX
[Estácio - IESAM] Automatizando Tarefas com Gulp.js
João Gabriel Lima
 
PDF
Hackeando a Internet das Coisas com Javascript
João Gabriel Lima
 
Cooking with data
João Gabriel Lima
 
Deep marketing - Indoor Customer Segmentation
João Gabriel Lima
 
Aplicações de Alto Desempenho com JHipster Full Stack
João Gabriel Lima
 
Realidade aumentada com react native e ARKit
João Gabriel Lima
 
Big data e Inteligência Artificial
João Gabriel Lima
 
Mineração de Dados no Weka - Regressão Linear
João Gabriel Lima
 
Segurança na Internet - Estudos de caso
João Gabriel Lima
 
Segurança na Internet - Google Hacking
João Gabriel Lima
 
Segurança na Internet - Conceitos fundamentais
João Gabriel Lima
 
Web Machine Learning
João Gabriel Lima
 
Mineração de Dados com RapidMiner - Um Estudo de caso sobre o Churn Rate em...
João Gabriel Lima
 
Mineração de dados com RapidMiner + WEKA - Clusterização
João Gabriel Lima
 
Mineração de dados na prática com RapidMiner e Weka
João Gabriel Lima
 
Visualizacao de dados - Come to the dark side
João Gabriel Lima
 
REST x SOAP : Qual abordagem escolher?
João Gabriel Lima
 
Game of data - Predição e Análise da série Game Of Thrones a partir do uso de...
João Gabriel Lima
 
E-trânsito cidadão - IPVA em suas mãos
João Gabriel Lima
 
[Estácio - IESAM] Automatizando Tarefas com Gulp.js
João Gabriel Lima
 
Hackeando a Internet das Coisas com Javascript
João Gabriel Lima
 

BigData MapReduce

  • 4. BigData “Termo de mercado para o conjunto de soluções que analisa informações em variedade, volume e velocidade inéditos variedade até hoje - os três Vs, como chamam os tecnólogos...”
  • 5. BigData “No dia a dia, a sociedade gera, em média, mais de 15 petabytes de informações sobre as suas operações comerciais e financeiras, bem como sobre clientes e fornecedores por dia...”
  • 6. BigData 1 Petabyte (PB) = 1 024 TB 1 048 576 GB 1 073 741 824 MB 1 099 511 627 776 kB 1 125 899 906 842 624 (250) Bytes
  • 7. BigData Não estamos falando de quantidade de dados e sim de VOLUME DE DADOS
  • 8. BigData Um exemplo prático: Estamos trabalhando em uma base com volume de dados de aproximadamente 600 Gb Temos um pouco mais de 85.000.000.000.000.000.000 quintilhões de registros
  • 11. BigData ...conta a história da mais famosa aplicação do conceito: o gerente de um time de beisebol que usa o Big Data para reunir um elenco de primeira linha sem gastar muito
  • 13. BigData “A Renner usa o Big Data para monitorar, em tempo real, o fluxo de mercadorias da loja real ao cruzar dados de localização GPS dos caminhões dos fornecedores com os níveis dos estoques” (Leandro Balbinot - Diretor de TI)
  • 14. BigData Segundo especialistas o Big Data foi de grande importância para o descobrimento do pré-sal...
  • 15. BigData …devido a sua velocidade, que agilizava os velocidade processamentos de dados sísmicos captados pela sondas que procuram petróleo no fundo do mar. Como são milhões as variáveis, o trabalho variáveis exige intermináveis simulações de imagens, e só o Big Data é capaz de dar conta do trabalho em um tempo melhor. melhor
  • 16. BigData No último “Fórum Econômico Mundial”
  • 17. BigData No último “Fórum Econômico Mundial”
  • 18. BigData No último Fórum Econômico Mundial... "Big Data, grande impacto: novas possibilidades para o desenvolvimento internacional" internacional …mostra como o Big Data pode ser uma arma contra problemas sócio-econômicos
  • 20. BigData Caso de negócio: O McKinsey Global Institute publicou recentemente um relatório sobre as oportunidades de negócios e do governo ao usar BigData. BigData “Big Data: The Next Frontier for Innovation, Competition and Productivity”
  • 21. BigData De acordo com a McKinsey, o uso de BigGata está se tornando uma forma essencial para as principais empresas a superarem seus concorrentes. concorrentes
  • 22. BigData "Nós estimamos que um revendedor com o apoio de BigData tem o potencial de aumentar a sua margem operacional em mais de 60%”
  • 23. BigData “Big Data cria valor para as empresas descobrindo padrões e relacionamentos entre dados que antes estavam perdidos não apenas em data warehouses internos, mas na própria Web, em tuítes, comentários no Facebook e mesmo videos no YouTube.”
  • 25. BigData Um mercado de US$ 17 bi em 2015
  • 26. BigData Segundo a consultoria IDC, o mercado global de Big Data crescerá quase 40% ao ano entre 2010 e 2015, saltando de US$ 3,2 2015 bilhões para US$ 16,9 bilhões. bilhões
  • 27. BigData A tecnologia envolve tanto dinheiro porque soluciona um problema inadiável para a economia global. global Se você se sente atordoado com a enxurrada de posts no seu Twitter, imagine a perda de produtividade em uma empresa incapaz de compreender os dados que a inundam.
  • 29. Como a internet Estimulou o BigData?
  • 33. MapReduce Nos últimos anos, os pesquisadores e desenvolvedores do Google tem implementado centenas de propostas de técnicas e cálculos que processam grandes quantidades de dados brutos e para computar vários tipos de dados derivados, tais como: ● Índices invertidos ● Representações diversas da estrutura de gráfico de documentos ● Resumos do número de páginas rastreadas por host ● Estatística das consultas mais frequentes em um determinado dia.
  • 34. MapReduce – Os cálculos são conceitualmente simples... – O problema é que os dados de entrada são muito grandes... grandes ● Solução: Distribuir esses cálculos através de centenas ou milhares de máquinas – Garantir o término em um tempo razoável
  • 35. MapReduce “Como reação a essa complexidade, foi elaborado uma nova abstração que nos permite expressar os cálculos simples que estávamos tentando realizar, mas esconde os detalhes confusos de paralelização, tolerância a falhas de distribuição de dados e paralelização balanceamento de carga” carga
  • 36. MapReduce ● A nova abstração é inspirado no 'Map' e 'Reduce' primitivos presentes em Lisp e muitas outras linguagens funcionais. “Percebemos que a maioria dos nossos cálculos envolvia a aplicação de uma operação de Map para cada "registro" lógico em nossa entrada, a fim de calcular um conjunto de pares intermediários de chave/valor e, em seguida , a aplicação de uma operação de Reduce a todos os valores que partilhavam a mesma chave, a fim de combinar os dados derivados apropriadamente.”
  • 37. MapReduce As maior contribuição dessa nova abordagem é a implantação de uma simples e poderosa interface que permite a paralelização automática e distribuição da computação em grande escala, combinado com uma implementação desta interface que atinge alta performance em grandes aglomerados de máquinas
  • 38. MapReduce O cálculo toma um conjunto de pares de entradas de chave/valor, e produz um conjunto de pares de saídas chave/valor. O usuário que implementa o MapReduce expressa o cálculo como duas funções: Map e Raduce.
  • 39. Reduce A função Reduce, também escrito pelo usuário, aceita ● uma chave intermediária e um conjunto de valores para essa chave. ● Ela faz uma fusão desses valores em conjunto, para formar um menor conjunto de valores possível. ● Tipicamente apenas zero ou um valor de saída é produzido por um método Reduce. ● Os valores intermédios são fornecidos para a função através de uma iteração. Isto permite-nos lidar com listas de valores que são demasiadamente grandes para caber na memória.
  • 40. MapReduce O modelo de programação MapReduce tem sido utilizado com sucesso no Google para diversas finalidades. Atribui-se o sucesso a várias razões: ● o modelo é fácil de usar, mesmo para programadores sem experiência com os sistemas paralelos e distribuídos, já que esconde a detalhes da paralelização, tolerância a falhas, otimização de localidade, e balanceamento de carga. ● Uma grande variedade de problemas são facilmente transcritos para o uso do MapReduce. ● É usado para a geração de dados para o serviço de busca do Google, para classificação, para mineração de dados, para aprendizado de máquina e muitos outros sistemas.
  • 48. ' Apach e Had oop NoS QL Bancos ra Cloude
  • 49. Ferramentas ' Bancos NoSQL (Not Only SQL)
  • 50. Ferramentas ' Hadoop é uma plataforma de software em Java de computação distribuída voltada para clusters e processamento de grandes massas de dados. dados Foi inspirado pelo MapReduce e GoogleFS (GFS) É, na pratica, uma combinação de dois projetos separados, que são o Hadoop MapReduce (HMR), que é um framework para processamento paralelo e o Hadoop Distributed File System (HDFS) Base de muitos serviços em Cloud
  • 53. Ferramentas Aprendizado de máquina escalável Open-Source!! Outrora domínio exclusivo de acadêmicos e corporações com grandes orçamentos de pesquisa, as aplicações inteligentes que aprendem a partir de dados e contribuição de usuário estão se tornando mais comuns.
  • 56. Ferramentas São distribuições Linux prontas ao uso para constituir um cluster Hadoop. Cloudera é hoje uma referência no mundo Hadoop
  • 57. Considerações Finais BigData é uma bolha? ● 2012 é o ano do BigData ● Indo mais além... ●