Ing. Rubén Obando
www.datalytics.com   Integración de Datos sin límites con Pentaho
Un día en la oficina…

                               Qué nuevas geografías
                               deberíamos incluir en
    Cuán efectivo son        nuestro objetivo de venta?
                                                          Cuántos de nuestros
   nuestras campañas                                      clientes migrarían a
      de MKT? Cuál                                         la competencia en
   debería continuar?                                       caso subamos el
                                                              precio un X%?



     Cuál es la
  rentabilidad del                                          Dónde están
    producto X?                                           nuestros clientes
                                                           más rentables?
                        Nuestras ventas presentan
                             estacionalidad?
El problema de la falta de integración
   Islas de información: datos dispersos en diferentes áreas, sistemas, arquitecturas.
    Imposibilidad de cruzar datos de diferentes sistemas. Visión incompleta.
   Pareto invertido: los analistas pasan mucho tiempo recolectando y procesando
    información, en lugar de analizarla.
   Variedad y diversidad: aumentan las fuentes de información: no sólo bases de datos y
    hojas de cálculo. Se sumaron redes sociales, sistemas en la nube, etc.
   BIG DATA: la información se está duplicando cada 2 años, y el 80% son datos no
    estructurados.
   Pobre calidad de datos: en general los datos de los sistemas transaccionales presentan
    vicios e inconsistencias, producto de errores de carga, malfuncionamiento, etc.
   Falta de una única versión de la verdad: multiplicidad de criterios y terminología. Por
    ejemplo: dos áreas distintas informan diferentes valores para un mismo KPI.
En resumen…
        Datos     Analistas

VSAM
MQSeries
AS/400


DB2 UDB
Informix
Oracle
Microsoft
...
Siebel
PeopleSoft
SAP R/3
XML


Archivos Planos
FTP



Web Logs
Data Integration (ETL)
   La integración de datos es la práctica que consiste en recolectar los datos de diversas
    fuentes, cruzarlos, enriquecerlos, consolidarlos y cargarlos en un Data Warehouse.
   El nombre ETL viene del acrónimo en Inglés Extract, Transform & Load.
        Extract: de los diversos sistemas transaccionales y fuentes.
        Transform: transformar los datos, cruzarlos, enriquecerlos, etc.
        Load: cargar la información en un repositorio centralizado.
   Las herramientas de ETL son herramientas visuales orientadas a Drag & Drop y zero-
    coding, lo que se traduce en mayor productividad del equipo de desarrollo, menor time-
    to-value y un mantenimiento más sencillo.
   La herramienta de ETL debe poder conectarse a diversas fuentes y diversas arquitecturas.
   Los datos en los sistemas fuente suelen tener errores e inconsistencias, por lo cual se suele
    aplicar en esta etapa procesos de validación y limpieza (Data Quality).
   Los procesos ETL generalmente se ejecutan por la noche, para no sobrecargar los sistemas
    transaccionales con pesadas consultas.
La evolución de SQL a ETL


                            Por que hacer esto?
La evolución de SQL a ETL




                            … cuando podríamos hacer
                                    esto???
Donde encaja el ETL?

 ETL
  VSAM
  MQSeries
  AS/400
                                                                Pentaho,
                                                                Oracle/Hyperion,
                                                                Microstrategy,
  DB2 UDB
                                                                SAS, Etc.
  Informix
  Oracle            Extract
  Microsoft         Transform
  ...               Clean
  Siebel            Load
  PeopleSoft
                                                 DW
                      Datastage       ODS                 Data Mart
  SAP R/3
                      Informatica
  XML                               Oracle
                      Oracle DI
                      Pentaho DI    IBM DB2
                      SAS DIS       SQL Server
  Archivos Planos
                      Etc.          Teradata
  FTP
                                    Sybase IQ
                                    Etc.
                                                      SAS, SPSS,
  Web Logs                                            Rapid Miner
Pentaho Data Integration
   Permite tomar información de
    diferentes fuentes, consolidarla y
    cargarla en un repositorio analítico.
   Su entorno de trabajo visual y drag &
    drop se traduce en un menor tiempo de
    desarrollo y un mantenimiento más
    sencillo y agilidad para incorporar
    nuevas fuentes de información e
    indicadores.
   Plug-in de Agile BI:
       Data Discovery:
        Análisis y visualización de información en
        tiempo real
       Data Modeling:
        Modelado y publicación de cubos OLAP
        para prototipado y validación de
        requerimientos
Pentaho Data Integration
   + de 150 steps para manipulación, enriquecimiento de datos y generación de reportes.
   Repositorio integrado: control de versiones para trabajo colaborativo y scheduling de
    procesos.
   Conectividad nativa contra:
       Típicas: SQL Server, Oracle, DB2, Teradata, Sybase IQ, SAP, MySQL, PostgreSQL, etc.
       No tan típicas: AS/400, Hadoop, LDAP/Active Directory, SalesForce, Google Analytics, etc.
   Nuevos Features:
       Soporte para MongoDB, Cassandra, Hbase.
       Capacidad de ejecución de jobs Map/Reduce (Hadoop) y acceso a archivos en Hadoop.
       ElasticSearch.
       Archivos HL7.
       Capacidad de documentación automática.
       Cliente REST.
       Etc…
Usos comunes de PDI
   Carga de Data warehouse y Data Marts:
        Soporte para slowly changing dimensions, cargas bulk,
         merge, sincronización y otros conceptos de Data
         Warehousing
   Exports de bases de datos a archivos planos, XML u otras
    bases de datos.
   Import de datos a bases de datos, desde diversas fuentes
    como archivos planos, hojas de Excel, datos alojados en
    la nube, etc.
   Migración de datos de sistemas Legacy.
   Exploración de datos de diversas fuentes.
   Enriquecimiento de datos mediante la integración de
    diversas fuentes.
   Procesos de Data Quality y Data Cleansing mediante
    transformación de datos.
Usos comunes de PDI (continuación)
   Generación de reportes batch.
   Envío de alertas vía e-mail.
   Integración de aplicaciones (middleware).
   Implementación de procesos a nivel SO (transferencia de
    archivos, limpieza de file system, etc.).
Pentaho Data Integration Server
   Repositorio Enterprise:
       Versionador
       Seguridad y control de acceso
       Almacenamiento
       Scheduling
   Data Integration Web Console:
       Ejecución y monitoreo
       Gestión de procesos
       Análisis de performance, trends, históricos.
       Configuración de umbrales de alerta
   Steps exclusivos:
       Google Docs
       Google Analytics
   Full Agile BI Plug-in
Soporte para BIG DATA
         Hadoop
             MPP storage & processing
             High-availability
             Any data type

         NoSQL (no relacionales)
             Non-relational, flexible
             Low-cost
             High-performance

         Bases de datos analíticas
             Relational
             High-performance load & query
             Tecnologías:
               • Columnar, MPP, in-memory, DW appliances,
                 OLAP databases
Reconocimiento de analistas
   Pentaho Data Integration esta siendo reconocido por los analistas como uno de los
    jugadores de peso en materia de BIG DATA con su herramienta de integración.




             Fuente: Forrester Wave™, Soluciones Hadoop empresariales, 1.er trimestre de 2012
Agile BI para prototipos de BI
   Facilidades para prototipos OLAP, Data Profiling y visualización de datos desde la propia
    herramienta de ETL.
Data Discovery / Visualization
Data Discovery / Visualization
Por qué Pentaho Data Integration?
   Facilidad de uso:
        Orientada a metadatos (definir que queremos hacer, y no como hacerlo).
        Menos código implica menos complejidad y menor tiempo de desarrollo.
        Seteo sencillo, interfaz gráfica intuitiva y fácil de mantener.
   Basada en arquitectura moderna:
        100% Java y multi-plataforma (Windows, Linux, Unix, Mac OS).
        Soporte para múltiples sistemas de datos de manera nativa.
        Procesamiento en paralelo, performance y escalabilidad.
        +150 steps predefinidos para diversas operaciones.
   Bajo costo de ownership:
        Try & Buy (versión Enterprise Edition).
        Ciclos de implementación cortos.
        Costos de mantenimiento reducido.
        Modelo de suscripción anual (versión Enterprise Edition).
Prueba de Concepto
   Clientes      Proveedores      Tiempo   Geografía   Productos

Punto de Venta




Presupuesto      Ventas        Compras
Muchas Gracias!

Integración de Datos sin límites con Pentaho

  • 1.
    Ing. Rubén Obando www.datalytics.com Integración de Datos sin límites con Pentaho
  • 2.
    Un día enla oficina… Qué nuevas geografías deberíamos incluir en Cuán efectivo son nuestro objetivo de venta? Cuántos de nuestros nuestras campañas clientes migrarían a de MKT? Cuál la competencia en debería continuar? caso subamos el precio un X%? Cuál es la rentabilidad del Dónde están producto X? nuestros clientes más rentables? Nuestras ventas presentan estacionalidad?
  • 3.
    El problema dela falta de integración  Islas de información: datos dispersos en diferentes áreas, sistemas, arquitecturas. Imposibilidad de cruzar datos de diferentes sistemas. Visión incompleta.  Pareto invertido: los analistas pasan mucho tiempo recolectando y procesando información, en lugar de analizarla.  Variedad y diversidad: aumentan las fuentes de información: no sólo bases de datos y hojas de cálculo. Se sumaron redes sociales, sistemas en la nube, etc.  BIG DATA: la información se está duplicando cada 2 años, y el 80% son datos no estructurados.  Pobre calidad de datos: en general los datos de los sistemas transaccionales presentan vicios e inconsistencias, producto de errores de carga, malfuncionamiento, etc.  Falta de una única versión de la verdad: multiplicidad de criterios y terminología. Por ejemplo: dos áreas distintas informan diferentes valores para un mismo KPI.
  • 4.
    En resumen… Datos Analistas VSAM MQSeries AS/400 DB2 UDB Informix Oracle Microsoft ... Siebel PeopleSoft SAP R/3 XML Archivos Planos FTP Web Logs
  • 5.
    Data Integration (ETL)  La integración de datos es la práctica que consiste en recolectar los datos de diversas fuentes, cruzarlos, enriquecerlos, consolidarlos y cargarlos en un Data Warehouse.  El nombre ETL viene del acrónimo en Inglés Extract, Transform & Load.  Extract: de los diversos sistemas transaccionales y fuentes.  Transform: transformar los datos, cruzarlos, enriquecerlos, etc.  Load: cargar la información en un repositorio centralizado.  Las herramientas de ETL son herramientas visuales orientadas a Drag & Drop y zero- coding, lo que se traduce en mayor productividad del equipo de desarrollo, menor time- to-value y un mantenimiento más sencillo.  La herramienta de ETL debe poder conectarse a diversas fuentes y diversas arquitecturas.  Los datos en los sistemas fuente suelen tener errores e inconsistencias, por lo cual se suele aplicar en esta etapa procesos de validación y limpieza (Data Quality).  Los procesos ETL generalmente se ejecutan por la noche, para no sobrecargar los sistemas transaccionales con pesadas consultas.
  • 6.
    La evolución deSQL a ETL Por que hacer esto?
  • 7.
    La evolución deSQL a ETL … cuando podríamos hacer esto???
  • 8.
    Donde encaja elETL? ETL VSAM MQSeries AS/400 Pentaho, Oracle/Hyperion, Microstrategy, DB2 UDB SAS, Etc. Informix Oracle Extract Microsoft Transform ... Clean Siebel Load PeopleSoft DW Datastage ODS Data Mart SAP R/3 Informatica XML Oracle Oracle DI Pentaho DI IBM DB2 SAS DIS SQL Server Archivos Planos Etc. Teradata FTP Sybase IQ Etc. SAS, SPSS, Web Logs Rapid Miner
  • 9.
    Pentaho Data Integration  Permite tomar información de diferentes fuentes, consolidarla y cargarla en un repositorio analítico.  Su entorno de trabajo visual y drag & drop se traduce en un menor tiempo de desarrollo y un mantenimiento más sencillo y agilidad para incorporar nuevas fuentes de información e indicadores.  Plug-in de Agile BI:  Data Discovery: Análisis y visualización de información en tiempo real  Data Modeling: Modelado y publicación de cubos OLAP para prototipado y validación de requerimientos
  • 10.
    Pentaho Data Integration  + de 150 steps para manipulación, enriquecimiento de datos y generación de reportes.  Repositorio integrado: control de versiones para trabajo colaborativo y scheduling de procesos.  Conectividad nativa contra:  Típicas: SQL Server, Oracle, DB2, Teradata, Sybase IQ, SAP, MySQL, PostgreSQL, etc.  No tan típicas: AS/400, Hadoop, LDAP/Active Directory, SalesForce, Google Analytics, etc.  Nuevos Features:  Soporte para MongoDB, Cassandra, Hbase.  Capacidad de ejecución de jobs Map/Reduce (Hadoop) y acceso a archivos en Hadoop.  ElasticSearch.  Archivos HL7.  Capacidad de documentación automática.  Cliente REST.  Etc…
  • 11.
    Usos comunes dePDI  Carga de Data warehouse y Data Marts:  Soporte para slowly changing dimensions, cargas bulk, merge, sincronización y otros conceptos de Data Warehousing  Exports de bases de datos a archivos planos, XML u otras bases de datos.  Import de datos a bases de datos, desde diversas fuentes como archivos planos, hojas de Excel, datos alojados en la nube, etc.  Migración de datos de sistemas Legacy.  Exploración de datos de diversas fuentes.  Enriquecimiento de datos mediante la integración de diversas fuentes.  Procesos de Data Quality y Data Cleansing mediante transformación de datos.
  • 12.
    Usos comunes dePDI (continuación)  Generación de reportes batch.  Envío de alertas vía e-mail.  Integración de aplicaciones (middleware).  Implementación de procesos a nivel SO (transferencia de archivos, limpieza de file system, etc.).
  • 13.
    Pentaho Data IntegrationServer  Repositorio Enterprise:  Versionador  Seguridad y control de acceso  Almacenamiento  Scheduling  Data Integration Web Console:  Ejecución y monitoreo  Gestión de procesos  Análisis de performance, trends, históricos.  Configuración de umbrales de alerta  Steps exclusivos:  Google Docs  Google Analytics  Full Agile BI Plug-in
  • 14.
    Soporte para BIGDATA  Hadoop  MPP storage & processing  High-availability  Any data type  NoSQL (no relacionales)  Non-relational, flexible  Low-cost  High-performance  Bases de datos analíticas  Relational  High-performance load & query  Tecnologías: • Columnar, MPP, in-memory, DW appliances, OLAP databases
  • 15.
    Reconocimiento de analistas  Pentaho Data Integration esta siendo reconocido por los analistas como uno de los jugadores de peso en materia de BIG DATA con su herramienta de integración. Fuente: Forrester Wave™, Soluciones Hadoop empresariales, 1.er trimestre de 2012
  • 16.
    Agile BI paraprototipos de BI  Facilidades para prototipos OLAP, Data Profiling y visualización de datos desde la propia herramienta de ETL.
  • 17.
    Data Discovery /Visualization
  • 18.
    Data Discovery /Visualization
  • 19.
    Por qué PentahoData Integration?  Facilidad de uso:  Orientada a metadatos (definir que queremos hacer, y no como hacerlo).  Menos código implica menos complejidad y menor tiempo de desarrollo.  Seteo sencillo, interfaz gráfica intuitiva y fácil de mantener.  Basada en arquitectura moderna:  100% Java y multi-plataforma (Windows, Linux, Unix, Mac OS).  Soporte para múltiples sistemas de datos de manera nativa.  Procesamiento en paralelo, performance y escalabilidad.  +150 steps predefinidos para diversas operaciones.  Bajo costo de ownership:  Try & Buy (versión Enterprise Edition).  Ciclos de implementación cortos.  Costos de mantenimiento reducido.  Modelo de suscripción anual (versión Enterprise Edition).
  • 20.
    Prueba de Concepto Clientes Proveedores Tiempo Geografía Productos Punto de Venta Presupuesto Ventas Compras
  • 21.