Data Warehouse
Data Warehouse
Prefacio
Conocimientos necesarios:
Es recomendable que el participante cuente con experiencia previa en el
desarrollo de sistemas de información y conocimientos teóricos en materia de
bases de datos.
Objetivo General:
Proporcionar al participante los conocimientos necesarios para comprender el
significado y utilidad de un Data Warehouse, así como también comprender el
reto de administrar los diferentes conjuntos de datos crudos de una organización
para convertirlos en formas más valiosas de información, aprovechando la
Tecnología de Información más avanzada.
Dirigido a:
Analistas, Diseñadores, Programadores, Lideres de Proyectos y Administradores
de sistemas de Información.
Duración:
Se contemplan 5 sesiones diarias de 4 horas (20 horas en total)
Responsabilidad:
El contenido completo de este material es responsabilidad del autor y no refleja
necesariamente la opinión del Instituto Nacional de Estadística, Geografía e
Informática, con respecto al tema tratado en el mismo.
1
Diplomado en Bases de Datos
Introducción
Seguramente Ud. vivió esta situación... Empleados administrativos buscando
información en viejos listados, operadores de sistemas procesando, en el turno
noche, información histórica de backups, analistas de sistemas presionados
programando procesos que nunca estuvieron previstos y el gerente de sistemas
explicando que necesita tiempo porque las bases de datos no están preparadas
y los procesos diarios no se pueden interrumpir...
Los ejecutivos necesitan información para tomar una decisión de negocios, pero
no la necesitan mañana, ni siquiera hoy por la tarde, la necesitan.
Esta escena se presenta día a día en todas las empresas de alta competencia,
en las cuales la falta de información rápida y exacta puede significar la diferencia
entre el éxito y el fracaso.
La solución para soportar decisiones tiene un sólo nombre: Data Warehouse
(DW) y un Sistema de Soporte de Decisiones (DSS).
2
Data Warehouse
Indice
Prefacio ........................................................................................................................... 1
Introducción..................................................................................................................... 2
Indice............................................................................................................................... 3
I. Antecedentes ............................................................................................................... 4
Introducción al Concepto Data Warehouse.................................................................. 6
Sistemas de Información ............................................................................................. 7
II. ¿Qué es un Data Warehouse? .................................................................................. 10
Características de un Data Warehouse ..................................................................... 10
Procesos que conforman el Warehouse .................................................................... 15
III. Estructura del Data Warehouse................................................................................ 16
IV. OLTP vs OLAP......................................................................................................... 18
Diferencias entre OLTP y OLAP ............................................................................... 18
Beneficios que un Data Warehouse Puede Aportar ................................................... 19
V. Metodología del DWH ............................................................................................... 20
Diseño ....................................................................................................................... 20
Proceso ETC ............................................................................................................. 30
Pasos para Construir el Warehouse .......................................................................... 37
VII. Metadatos ............................................................................................................... 38
La Importancia de los Metadatos ............................................................................... 38
Los Metadatos ........................................................................................................... 38
Metadatos Técnicos................................................................................................... 39
Usuarios de los Metadatos ........................................................................................ 40
Contenido de los Metadatos ...................................................................................... 41
Fuentes de Metadatos ............................................................................................... 42
Metadatos Faltantes .................................................................................................. 43
Dificultades en la Definición de Metadatos ................................................................ 43
Crear una Definición Estándar ................................................................................... 44
La Administración de Metadatos en DWH ................................................................. 44
Metadatos del Warehouse ......................................................................................... 45
Manejo de los Metadatos........................................................................................... 46
VI. Protagonistas ........................................................................................................... 48
Glosario......................................................................................................................... 49
3
Diplomado en Bases de Datos
I. Antecedentes
Desde que se inició la era de la computadora, las organizaciones han usado los
datos desde sus sistemas operacionales para atender sus necesidades de
información. Algunas proporcionan acceso directo a la información contenida
dentro de las aplicaciones operacionales. Otras, han extraído los datos desde
sus bases de datos operacionales para combinarlos de varias formas no
estructuradas, en su intento por atender a los usuarios en sus necesidades de
información.
Ambos métodos han evolucionado a través del tiempo y ahora las
organizaciones manejan una data no limpia e inconsistente, sobre las cuales, en
la mayoría de las veces, se toman decisiones importantes.
La gestión administrativa reconoce que una manera de elevar su eficiencia está
en hacer el mejor uso de los recursos de información que ya existen dentro de la
organización. Sin embargo, a pesar de que esto se viene intentando desde hace
muchos años, no se tiene todavía un uso efectivo de los mismos.
La razón principal es la manera en que han evolucionado las computadoras,
basadas en las tecnologías de información y sistemas. La mayoría de las
organizaciones hacen lo posible por conseguir buena información, pero el logro
de ese objetivo depende fundamentalmente de su arquitectura actual, tanto de
hardware como de software.
El data warehouse, es actualmente, el centro de atención de las grandes
instituciones, porque provee un ambiente para que las organizaciones hagan un
mejor uso de la información que está siendo administrada por diversas
aplicaciones operacionales.
Un data warehouse es una colección de datos en la cual se encuentra integrada
la información de la Institución y que se usa como soporte para el proceso de
toma de decisiones gerenciales. Aunque diversas organizaciones y personas
individuales logran comprender el enfoque de un Warehouse, la experiencia ha
demostrado que existen muchas dificultades potenciales.
Reunir los elementos de datos apropiados desde diversas fuentes de aplicación
en un ambiente integral centralizado, simplifica el problema de acceso a la
información y en consecuencia, acelera el proceso de análisis, consultas y el
menor tiempo de uso de la información.
Las aplicaciones para soporte de decisiones basadas en un data warehouse,
pueden hacer más práctica y fácil la explotación de datos para una mayor
eficacia del negocio, que no se logra cuando se usan sólo los datos que
provienen de las aplicaciones operacionales (que ayudan en la operación de la
empresa en sus operaciones cotidianas), en los que la información se obtiene
realizando procesos independientes y muchas veces complejos.
4
Data Warehouse
Un data warehouse se crea al extraer datos desde una o más bases de datos de
aplicaciones operacionales. La data extraída es transformada para eliminar
inconsistencias y resumir si es necesario y luego, cargadas en el data
warehouse. El proceso de transformar, crear el detalle de tiempo variante,
resumir y combinar los extractos de datos, ayudan a crear el ambiente para el
acceso a la información Institucional. Este nuevo enfoque ayuda a las personas
individuales, en todos los niveles de la empresa, a efectuar su toma de
decisiones con más responsabilidad.
La innovación de la Tecnología de Información dentro de un ambiente data
warehouse, puede permitir a cualquier organización hacer un uso más óptimo de
los datos, como un ingrediente clave para un proceso de toma de decisiones
más efectivo. Las organizaciones tienen que aprovechar sus recursos de
información para crear la información de la operación del negocio, pero deben
considerarse las estrategias tecnológicas necesarias para la implantación de una
arquitectura completa de data warehouse.
5
Diplomado en Bases de Datos
Base de Datos
Data Warehouse
Operacional
Datos Operacionales Datos del negocio para Información
Orientado a la aplicación Orientado al sujeto
Actual Actual + histórico
Detallada Detallada + más resumida
Cambia continuamente Estable
6
Data Warehouse
Sistemas de Información
Los sistemas de información se han dividido de acuerdo al siguiente esquema:
Sistemas Estratégicos
Orientados a soportar la toma de decisiones, facilitan la labor de la dirección,
proporcionándole un soporte básico, en forma de mejor información, para la
toma de decisiones. Se caracterizan porque son sistemas sin carga periódica de
trabajo, es decir, su utilización no es predecible, al contrario de los casos
anteriores, cuya utilización es periódica.
Destacan entre estos sistemas: los Sistemas de Información Gerencial (MIS),
Sistemas de Información Ejecutivos (EIS), Sistemas de Información
Georeferencial (GIS), Sistemas de Simulación de Negocios (BIS y que en la
práctica son sistemas expertos o de Inteligencia Artificial-AI).
Sistemas Tácticos
Diseñados para soportar las actividades de coordinación de actividades y
manejo de documentación, definidos para facilitar consultas sobre información
almacenada en el sistema, proporcionar informes y, en resumen, facilitar la
gestión independiente de la información por parte de los niveles intermedios de
la organización.
Destacan entre ellos: los Sistemas Ofimáticos (OA), Sistemas de Transmisión de
Mensajería (E-mail y Fax Server), coordinación y control de tareas (Work Flow) y
tratamiento de documentos (Imagen, Trámite y Bases de Datos Documentarios).
7
Diplomado en Bases de Datos
Sistemas Técnico-Operativos
Que cubren el núcleo de operaciones tradicionales de captura masiva de datos
(Data Entry) y servicios básicos de tratamiento de datos, con tareas predefinidas
(contabilidad, facturación, almacén, presupuesto, personal y otros sistemas
administrativos). Estos sistemas están evolucionando con la irrupción de
censores, autómatas, sistemas multimedia, bases de datos relacionales más
avanzadas y data warehouse.
Sistemas Interinstitucionales
Este último nivel de sistemas de información recién está surgiendo, es
consecuencia del desarrollo organizacional orientado a un mercado de carácter
global, el cual obliga a pensar e implementar estructuras de comunicación más
estrechas entre la organización y el mercado (Empresa Extendida, Organización
Inteligente e Integración Organizacional), todo esto a partir de la generalización
de las redes informáticas de alcance nacional y global (INTERNET), que se
convierten en vehículo de comunicación entre la organización y el mercado, no
importa dónde esté la organización (INTRANET), el mercado de la institución
(EXTRANET) y el mercado (Red Global).
Sin embargo, la tecnología data warehouse basa sus conceptos y diferencias
entre dos tipos fundamentales de sistemas de información en todas las
organizaciones: los sistemas técnico-operacionales y los sistemas de soporte de
decisiones. Este último es la base de un data warehouse.
Sistemas técnico-operacionales
Como indica su nombre, son los sistemas que ayudan a manejar la empresa con
sus operaciones cotidianas. Estos son los sistemas que operan sobre el
"backbone" (columna vertebral) de cualquier empresa o institución, entre las que
se tiene sistemas de ingreso de órdenes, inventario, fabricación, planilla y
contabilidad, entre otros.
Debido a su volumen e importancia en la organización, los sistemas
operacionales siempre han sido las primeras partes de la empresa a ser
computarizados. A través de los años, estos sistemas operacionales se han
extendido, revisado, mejorado y mantenido al punto que hoy, ellos son
completamente integrados en la organización.
Desde luego, la mayoría de las organizaciones grandes de todo el mundo,
actualmente no podrían operar sin sus sistemas operacionales y los datos que
estos sistemas mantienen.
8
Data Warehouse
9
Diplomado en Bases de Datos
Integrado
Los datos almacenados en el Data Warehouse deben integrarse en una
estructura consistente, por lo que las inconsistencias existentes entre los
diversos sistemas operacionales deben ser eliminadas. La información suele
estructurarse también en distintos niveles de detalle para adecuarse a las
distintas necesidades de los usuarios.
La siguiente figura muestra algunas de las diferencias más importantes en las
formas en que se diseñan las aplicaciones.
10
Data Warehouse
11
Diplomado en Bases de Datos
12
Data Warehouse
13
Diplomado en Bases de Datos
No volátil
El almacén de información de un Data Warehouse existe para ser leído, y no
modificado. La información es por tanto permanente, significando la actualización
del Data Warehouse la incorporación de los últimos valores que tomaron las
distintas variables contenidas en él sin ningún tipo de acción sobre lo que ya
existía.
La información es útil sólo cuando es estable. Los datos operacionales cambian
sobre una base momento a momento. La perspectiva más grande, esencial para
el análisis y la toma de decisiones, requiere una base de datos estable.
En la siguiente figura se muestra que la actualización (insertar, borrar y
modificar), se hace regularmente en el ambiente operacional sobre una base de
registro por registro. Pero la manipulación básica de los datos que ocurre en el
data warehouse es mucho más simple. Hay dos únicos tipos de operaciones: la
carga inicial de datos y el acceso a los mismos. No hay actualización de datos
(en el sentido general de actualización) en el depósito, como una parte normal
de procesamiento.
14
Data Warehouse
Desde el punto de vista del usuario, el único proceso visible es la explotación del
almacén de datos, aunque el éxito del Data Warehouse radica en los tres
procesos iniciales que alimentan la información del mismo y suponen el mayor
porcentaje de esfuerzo (en torno a un 80%) a la hora de desarrollar el almacén.
15
Diplomado en Bases de Datos
Manejabilidad
Operación
Flexibilidad Administración y revisión y
Administración
Una forma simple de ver las partes del proceso de desarrollo de data warehouse
se ilustra aquí. Se listan los principios o características del warehouse:
• Escalable
Los data warehouse son capaces de almacenar y manejar grandes
volúmenes de datos transaccionales y sumarizados. Un data warehouse
puede crecer por un orden de magnitud de tiempo, por las necesidades de
agregar nuevos tipos de datos o porque los datos históricos deben retenerse
en línea por periodo largos.
• Manejable
El warehouse necesita productos que permitan una fácil administración, como
el Servidor Universal de Oracle.
• Disponible
El servidor debe ser robusto, para asegurar que el warehouse está disponible
siempre que se necesite.
• Extensible
Debe ser posible agregar nuevos tipos de datos transaccionales e introducir
nuevas agregaciones y datos sumarizados a un warehouse como
requerimientos de información que evolucionan por el uso.
16
Data Warehouse
• Flexible
Los datos acceden rutas de datos detallados y sumarizados que deben ser
flexibles para soportar análisis multidimensional, menor detalle y consultas a
la medida (ad-hoc).
• Integrado.
Un data warehouse debe integrarse totalmente con los sistemas existentes y
el ambiente operacional para que puedan cargarse datos eficazmente de
múltiples fuentes.
Las tres áreas de actividad del data warehouse incluyen: diseño, arquitectura, y
funcionamiento-administración.
Diseño
Ocurre repetidamente a lo largo del proceso de desarrollo.
• Es influenciado por los requerimientos de la empresa así como por las
restricciones técnicas.
Arquitectura
• Arquitectura de carga:
- Definir parámetros de los procesos de carga de datos.
- Definir ciclos de actualización.
• Arquitectura de los datos:
- Definir el arreglo de datos en el warehouse.
- Se revisa basado en la carga y arquitecturas de acceso.
• Arquitectura de acceso:
- Definir las necesidades para la disponibilidad de datos para el usuario
final.
- Especificar las restricciones determinadas por las herramientas de acceso
o ambiente.
Funcionamiento-administración.
• Continuar con el ciclo de vida del data warehouse.
• Entregas críticas en las diferentes fases del ciclo de desarrollo.
17
Diplomado en Bases de Datos
OLAP
( On Line Analytical Processing )
Proceso de modelar y administrar datos multidimensionales para que sean
observados y analizados por usuarios que buscan entender lo que dicen los
datos.
18
Data Warehouse
19
Diplomado en Bases de Datos
Diseño
I. Modelo Entidad – Relación
cat_ageb
entidad
mpio pob_511
Vivienda habla_li
localid. cat_pais
anio cve_li
ageb cve_pa
entidad religion
descrip.
tipo_viv alfabet.
paredes aprobo
techos kinder
pisos normal
cuartos poblador
carrera
agua anio
entidad
Paren_1 cat_par
Paren_2 Paren_1
cat_loc Sexo descrip.
localid. Edad cat_len
descrip. Pais cve_li
descrip.
NOMBRE_ENTIDAD
*# Atributo1 (llave)
Atributo2
AtributoN
Modelar entidad.
• Identificar una entidad de interés de la que se requiere almacenar datos.
• Definir el alcance de la entidad
Consideraciones:
- Una vez que cierto dato puede ser la llave primaria de la entidad,
verifique que su valor nunca sea nulo.
- Verifique que el valor de la llave primaria considerado no se repita entre
las diferentes ocurrencias.
20
Data Warehouse
Modelar atributos
• Definir atributos de la entidad
• Definir el alcance de cada atributo.
• Determinar la llave primaria de la entidad.
2) Modelar relaciones:
E-1 E-2
E-1 E-2
E-1 E-2
3) Normalizar el MER
21
Diplomado en Bases de Datos
Esquemas
Una colección de tablas en el DW se conoce como Esquema. Los esquemas
caen dentro de categorías básicas de esquemas:
Estrella: El esquema estrella deriva su nombre del hecho que su diagrama
forma una estrella, con puntos radiales desde el centro. El centro de la
estrella consiste de una o más tablas fact, y las puntas de la estrella son
las tablas lock_up.
Snowflake: La diferencia del esquema snowflake comparado con el
esquema estrella, está en la estructura de las tablas lock_up: las tablas
lock_up en el esquema snowflake están normalizadas. Cada tabla lock_up
contiene sólo el nivel que es llave primaria en la tabla y la llave foránea de
su parentesco del nivel más cercano del diagrama.
Constelación: Consiste en la unión de una o mas estrellas por medio de
al menos una dimensión.
Tablas
Como cualquier base de datos relacional, un DW se compone de tablas. Hay dos
tipos básicos de tablas en el Modelo Multidimensional:
Tablas Fact: contienen los valores de las medidas de negocios.
22
Data Warehouse
Llave tiempo
Producto Llave producto Cliente
Llave cliente
Llave canal
Tabla de Hechos
Ventas
Tiempo Canal
(unidades,precios)
La tabla de hechos es una tabla en una base de datos relacional con una llave
compuesta. Esto es común para todos los modelos de warehouse. Esta tabla es
altamente normalizada desde que reside en la intersección de relaciones de
muchos a muchos entre las dimensiones no correlacionadas.
23
Diplomado en Bases de Datos
U n idad es
T otal d e ventas
C o sto s
M argen d e venta
T ab la d e H echos
V entas
24
Data Warehouse
Producto Canal
Cliente Tiempo
Tablas de dimensión
La tabla de dimensión es una tabla de una base de datos relacional con una sola
llave que se une a una tabla de hechos.
Las dimensiones:
• Proporcionan descripciones de las áreas de la empresa.
• Proporcionan información descriptiva sobre cada fila en la tabla de hechos.
• Típicamente son geométricamente más pequeñas que la tabla de hechos.
• Incluyen una tabla de dimensión de tiempo.
Atributos de dimensión
Descripción
Fuente
Llave_categoría
Descripción_categoría
25
Diplomado en Bases de Datos
Los atributos en una tabla de dimensión pueden tener relaciones unos con otros.
Las relaciones jerárquicas pueden residir en la tabla de dimensión así como los
atributos independientes.
26
Data Warehouse
Estrella
Geografía Alfabeta
Población
Sexo Lengua
El esquema estrella deriva su nombre del hecho que su diagrama forma una
estrella, con puntos radiales desde el centro. El centro de la estrella consiste de
una o más tablas fact, y las puntas de la estrella son las tablas lock_up.
Por ejemplo:
A) Num. de pobladores alfabetas
B) Num. de viviendas con agua entubada
Este modelo entonces, resulta ser asimétrico, pues hay una tabla dominante en
el centro con varias conexiones a las otras tablas. Las tablas Lock-up tienen sólo
la conexión a la tabla fact y ninguna más.
Ejemplo:
A) Sexo (1,2)
B) Alfabeta (1,2,3)
27
Diplomado en Bases de Datos
Municipio
Entidad Alfabeta
Población
Sexo Lengua
28
Data Warehouse
Constelación
Población Vivienda
29
Diplomado en Bases de Datos
Proceso ETC
Como parte de un proceso más general, DataWarehouse, el proceso ETC esta
formado por una seria de fases encaminado a garantizar que los datos en el
almacén de datos sean exactos, íntegros, consistentes, comparables en el
tiempo, únicos y validos.
A continuación se explicara como se conceptualismo este proceso al modelo del
Instituto y cuales son las fases que lo componen.
30
Data Warehouse
1 Identificación
Una vez que se a determinado cual será el incremento, es decir, cuales
datos van a incorporarse al almacén de datos, por parte de la mesa directiva,
corresponde a los encargados del proceso ETC identificar a las áreas
involucradas:
• Área que conceptualizó los datos.
• Área que custodia los datos.
• Área que explota los datos.
Estas tres áreas pueden proporcionar información importante que permita
entender los datos.
2 Documentación
Uno de los aspectos importantes para realizar un proceso ETC sin errores es
tratar de obtener toda la documentación posible de los datos, ya que esta
nos permite además de entender los datos, poder realizar un proceso de
limpieza adecuado.
A continuación se enumerar algunos de los documentos que pueden ser de
utilidad para el proceso:
• FD´s de los archivos
• Diagrama entidad relación
• Catálogos
• Dominios
• Criterios de agrupamiento
• Tabulados
• Cuestionarios
• Diccionario de datos
• Etcétera
No olvidarse de conocer en que tipo de dispositivo esta respaldada la
información y de contar con los medios requeridos para su restauración y
lectura de la información.
3 Extracción
Fase en la cual se recupera los datos de los archivos fuentes y se dejan en
un área temporal o staging area, esto permite realizar el proceso de limpieza.
31
Diplomado en Bases de Datos
4. Limpieza
La fase de limpieza permite levar a cabo una revisión de los datos para que
estos cumplan con las siguientes características:
Exactitud: Grado de concordancia entre un conjunto de valores y una
fuente que se asegura es la correcta, es decir, que tan libre de
errores están los datos.
Integridad: El grado en que los datos tienen los atributos requeridos.
Consistencia: Los datos están libres de contradicciones o variaciones
además de satisfacer un conjunto de restricciones.
Unicidad: Atributo que permite asegurar que el registro o las llaves
primarias son únicas.
Validez: Condición de los datos para producir los resultados deseados.
Los pasos para realizar la limpieza de los datos son los siguientes:
• Análisis de Dominios
Se enfoca en el contenido de cada uno de los elementos que forman el
archivo de datos, con el propósito de encontrar posibles valores en el
dominio que no estén definidos de acuerdo a la documentación
proporcionada.
• Integridad Estructural
Se enfoca hacia la calidad de la construcción del registro y la relación
entre los registros.
Los elementos a evaluar son las siguientes:
1. Llaves primarias: revisar que la llave primaria sea única o que los
registros no estén duplicados.
2. Llaves foráneas y su integridad referencial: tratar de relacionar a los
campos que estén identificados como llaves foráneas con la entidad
padre correspondiente.
3. Este análisis debe de realizarse en ambos sentidos de padre a hijo y
de hijo a padre.
32
Data Warehouse
Ejemplo:
En el Conteo de Población y Vivienda 1995 para verificar el
tipo de vivienda se tenia que relacionar los campos clase de
vivienda se tenia que relacionar los campos clase de
vivienda (clase_v) y folio de paquete (fol_paq), así si la
combinación es clase_v = 02 y 001<= fol_paq <=099 se esta
refiriendo a una vivienda móvil.
5. Análisis
En esta parte se realiza la integración de los datos para poder hacerlos
comparables en el tiempo.
Esta integración consiste en ir comparando las definiciones de cada campo y
así poderlos homologar.
En un principio se debe seleccionar un proyecto como base para realizar la
homologación.
33
Diplomado en Bases de Datos
Así se obtiene la clasificación que se utilizara para los datos que se carguen
al almacén de datos.
6. Reglas de Transformación
Uno de los desafíos de cualquier implementación de data warehouse, es el
problema de transformar los datos. La transformación se encarga de las
inconsistencias en los formatos de datos y la codificación, que pueden existir
dentro de una base de datos única y que casi siempre existen cuando
múltiples bases de datos contribuyen al data warehouse.
En la siguiente figura se ilustra una forma de inconsistencia, en la cual el
género se codifica de manera diferente en tres bases de datos diferentes.
Los procesos de transformación de datos se desarrollan para direccionar
estas inconsistencias
34
Data Warehouse
35
Diplomado en Bases de Datos
8. Carga
Por último una vez conocido la estructura que van a guardar los datos en el
almacén de datos, se implementan la transferencia ya sea con herramientas
especializadas o escribir los programas.
36
Data Warehouse
37
Diplomado en Bases de Datos
VII. Metadatos
El componente final del data warehouse son los metadatos. De muchas maneras
los metadatos se sitúan en una dimensión diferente al de otros datos del data
warehouse, debido a que su contenido no es tomado directamente desde el
ambiente operacional.
Los Metadatos
Desde la perspectiva del usuario, estos son esenciales para entender los datos
que están en el warehouse y lo que representan. Así los metadatos impiden a los
usuarios interpretar las conclusiones incorrectas. Le permiten a los usuarios
conocer el estado de los datos como la última actualización, así como la calidad,
la exactitud, la fuente, y él significando de los datos.
Los metadatos se han descrito como una capa de la semántica de la empresa en
un ambiente técnico, le permiten al usuario de la empresa que conozca los datos
que describen las condiciones de la empresa.
Los metadatos proporcionan una forma útil para la comunicación. Cuando se
presentan con la descripción de exactamente lo que está en el data warehouse y
el significado de estos datos, se puede acostumbrar a estimular ideas y planes
de desarrollo.
La influencia en los sistemas existentes en la fase de planificación de nuevos
sistemas, se necesita para entender lo que ya existe en lo que se refiere a datos
y procesos. A menudo en la definición y documentación de fuentes existentes, el
usuario de la empresa descubre inconsistencias u oportunidades para los
beneficios de perfeccionamientos y eficacia.
38
Data Warehouse
Metadatos Técnicos
Fuente Almacén A
c Acceso
E c
T e
C Metadatos s
o
Datos Herramientas
Operacionales M Relacionales
a
e
t M
a Datos Datos
sumarizados e
d Crudos t
a a Herramientas
t d OLAP
o a
s Metadaros del t
Warehouse o
Datos s
Externos Aplicaciones
Los metadatos son utilizados en todos los procesos del warehouse y pueden ser
almacenados en diferentes partes de la arquitectura. Pueden existir en
herramientas de software diseñadas particularmente para diseñar y administrar
metadatos; dentro del diccionario de datos de Oracle; en una herramienta de
diseño tal como designer/2000 de oracle; en herramientas tales como
Discoverer, o en una herramienta especialmente diseñada para los metadatos.
39
Diplomado en Bases de Datos
Usuarios
Técnicos
Repositorio
de Metadatos
Usuarios
de la
Empresa
Usuarios técnicos
• Administradores de la base de datos.
• Desarrolladores de aplicaciones.
Usuarios de la empresa
• Analistas de operaciones que utilizan metadatos para realizar el análisis en la
administración financiera.
• Los analistas estratégicos y proyectistas usan los metadatos para el análisis y
la planeación.
• Los ejecutivos usan los metadatos para el soporte de decisiones.
40
Data Warehouse
La empresa
Principalmente usados por los usuarios de la empresa, los metadatos de la
empresa describen las relaciones entre los elementos de los datos y las
transformaciones de los campos de los datos.
Técnico
Para los usuarios técnicos, el metadato técnico contiene la descripción completa
de todos los datos requeridos para realizar y distribuir el uso del warehouse. El
metadato técnico describe las características de los datos desde todos los
puntos de vista técnicos. Cada herramienta de software en el ambiente del
warehouse requiere sus propios metadatos.
41
Diplomado en Bases de Datos
Fuentes de Metadatos
Modelos de
Transformación
Datos y reglas de ralación
Base de datos
Repositorio Operacional
Metadatos
de Metadatos
Fuentes
Externas
Base de datos
Warehouse
Metadatos
de la
Empresa
42
Data Warehouse
Metadatos Faltantes
Los data warehouse (los data mart y el primer incremento del warehouse)
integran los datos desde los sistemas internos que han evolucionado con el
tiempo y han existido para soportar las operaciones especificas de la empresa.
Las fuentes de datos para el warehouse se extienden más allá de los límites de
los sistemas internos a los datos externos.
No hay ninguna definición universal o perspectiva de ¿qué son los metadatos y
qué deben de contener?. Hay muchos vendedores que proporcionan
herramientas y utilitarias, y cada uno de ellos proporcionan un metalayer o
repositorio de metadatos.
43
Diplomado en Bases de Datos
44
Data Warehouse
Catálogo de
Usuarios
metadatos o
Técnicos
Repositorio
Extracción Usuarios
de datos de la
empresa
Data warehouse
45
Diplomado en Bases de Datos
Usuarios
MANEJO
DE
ALMACÉN
Metadatos Data Warehouse
FUENTE
Metadatos Datos
Operacionales
Los metadatos se usan por todos los procesos dentro del warehouse y pueden
almacenarse en niveles diferentes dentro de la arquitectura. Dado que los
metadatos no son comunes en todas las herramientas, se necesita ser creativo
al desarrollar una estrategia para la administración de los metadatos.
Middleware
Aunque las herramientas no pueden compartir los metadatos, hay herramientas
que manejan los metadatos independientemente. En la arquitectura del
warehouse, esta capa de middleware colecciona y almacena todas las
definiciones usadas por cualquier proceso o base de datos. Actúa como
administrador central, haciendo pensar en los cambios del modelo para
acomodar el uso real del warehouse.
46
Data Warehouse
Nota:
47
Diplomado en Bases de Datos
VI. Protagonistas
PROTAGONISTAS
D B2 M anager Teradata
•Sybase
•Inform ix A rdent
W arehouse Studio
M etaCube
D ataStage Suite
Business O bjects
•Inform atica
Pow erCenter •CO G N O S
Pow erM art Adquisición de Pow erPlay
PRODUCTOS Bases de Datos Usuario Final
Pow erPlug Información (ETC)
DB2 Warehouse Manager
MetaCube
DataStage
Warehouse Studio
Business Objects
PowerCenter
PowerMart
PowerPlug *
PowerPlay
48
Data Warehouse
Glosario
Agregación: Actividad de combinar datos desde múltiples tablas para formar
una unidad de información más compleja, necesitada frecuentemente para
responder consultas del DataWarehouse en forma más rápida y fácil.
Data Warehouse: Base de datos que almacena una gran cantidad de datos
transaccionales integrados para ser usados para análisis gestionales por
usuarios especializados (tomadores de decisión de la empresa).
49
Diplomado en Bases de Datos
Limit : Comando propio del lenguaje Express, que permite seleccionar los datos
a visualizar. Limita el acceso a los datos dejando ‘ìnvisible’ o no accesible el
resto de ellos.
Rollup : Comando propio del lenguaje Oracle Express, que simboliza las sumas
agregadas de una variable a través de los niveles jerárquicos de las
dimensiones que la sustentan.
50
Data Warehouse
Tabla Dimensional : Dentro del esquema estrella, corresponde a las tablas que
están unidas a la tabla central a través de sus respectivas llaves. La cantidad
de estas tablas le otorgan la característica de multidimensionalidad a esta
estrategia.
51