0% encontró este documento útil (0 votos)
95 vistas51 páginas

Data Warehouse

Este documento presenta una introducción al concepto de data warehouse. Explica que un data warehouse es una colección centralizada de datos extraídos de diferentes sistemas operacionales de una organización, que se utiliza para soportar la toma de decisiones gerenciales. El documento también describe brevemente los procesos involucrados en la creación de un data warehouse, incluyendo la extracción, transformación y carga de datos, así como su estructura y metadatos. Finalmente, proporciona una guía sobre la metodología para diseñar e implementar con éxito un

Cargado por

isabel
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
95 vistas51 páginas

Data Warehouse

Este documento presenta una introducción al concepto de data warehouse. Explica que un data warehouse es una colección centralizada de datos extraídos de diferentes sistemas operacionales de una organización, que se utiliza para soportar la toma de decisiones gerenciales. El documento también describe brevemente los procesos involucrados en la creación de un data warehouse, incluyendo la extracción, transformación y carga de datos, así como su estructura y metadatos. Finalmente, proporciona una guía sobre la metodología para diseñar e implementar con éxito un

Cargado por

isabel
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Data Warehouse

Prefacio
Conocimientos necesarios:
Es recomendable que el participante cuente con experiencia previa en el
desarrollo de sistemas de información y conocimientos teóricos en materia de
bases de datos.

Objetivo General:
Proporcionar al participante los conocimientos necesarios para comprender el
significado y utilidad de un Data Warehouse, así como también comprender el
reto de administrar los diferentes conjuntos de datos crudos de una organización
para convertirlos en formas más valiosas de información, aprovechando la
Tecnología de Información más avanzada.

Dirigido a:
Analistas, Diseñadores, Programadores, Lideres de Proyectos y Administradores
de sistemas de Información.

Duración:
Se contemplan 5 sesiones diarias de 4 horas (20 horas en total)

Responsabilidad:
El contenido completo de este material es responsabilidad del autor y no refleja
necesariamente la opinión del Instituto Nacional de Estadística, Geografía e
Informática, con respecto al tema tratado en el mismo.

Dudas, sugerencias, y comentarios:


Patricia Covarrubias Salas ([Link]@[Link])
Extensión 4089
Teléfono directo 910-4348
Silvia Delgado Moreno (sdelgado@[Link])
Extensión 4240
Teléfono directo 910-4310

1
Diplomado en Bases de Datos

Introducción
Seguramente Ud. vivió esta situación... Empleados administrativos buscando
información en viejos listados, operadores de sistemas procesando, en el turno
noche, información histórica de backups, analistas de sistemas presionados
programando procesos que nunca estuvieron previstos y el gerente de sistemas
explicando que necesita tiempo porque las bases de datos no están preparadas
y los procesos diarios no se pueden interrumpir...
Los ejecutivos necesitan información para tomar una decisión de negocios, pero
no la necesitan mañana, ni siquiera hoy por la tarde, la necesitan.
Esta escena se presenta día a día en todas las empresas de alta competencia,
en las cuales la falta de información rápida y exacta puede significar la diferencia
entre el éxito y el fracaso.
La solución para soportar decisiones tiene un sólo nombre: Data Warehouse
(DW) y un Sistema de Soporte de Decisiones (DSS).

2
Data Warehouse

Indice
Prefacio ........................................................................................................................... 1
Introducción..................................................................................................................... 2
Indice............................................................................................................................... 3
I. Antecedentes ............................................................................................................... 4
Introducción al Concepto Data Warehouse.................................................................. 6
Sistemas de Información ............................................................................................. 7
II. ¿Qué es un Data Warehouse? .................................................................................. 10
Características de un Data Warehouse ..................................................................... 10
Procesos que conforman el Warehouse .................................................................... 15
III. Estructura del Data Warehouse................................................................................ 16
IV. OLTP vs OLAP......................................................................................................... 18
Diferencias entre OLTP y OLAP ............................................................................... 18
Beneficios que un Data Warehouse Puede Aportar ................................................... 19
V. Metodología del DWH ............................................................................................... 20
Diseño ....................................................................................................................... 20
Proceso ETC ............................................................................................................. 30
Pasos para Construir el Warehouse .......................................................................... 37
VII. Metadatos ............................................................................................................... 38
La Importancia de los Metadatos ............................................................................... 38
Los Metadatos ........................................................................................................... 38
Metadatos Técnicos................................................................................................... 39
Usuarios de los Metadatos ........................................................................................ 40
Contenido de los Metadatos ...................................................................................... 41
Fuentes de Metadatos ............................................................................................... 42
Metadatos Faltantes .................................................................................................. 43
Dificultades en la Definición de Metadatos ................................................................ 43
Crear una Definición Estándar ................................................................................... 44
La Administración de Metadatos en DWH ................................................................. 44
Metadatos del Warehouse ......................................................................................... 45
Manejo de los Metadatos........................................................................................... 46
VI. Protagonistas ........................................................................................................... 48
Glosario......................................................................................................................... 49

3
Diplomado en Bases de Datos

I. Antecedentes
Desde que se inició la era de la computadora, las organizaciones han usado los
datos desde sus sistemas operacionales para atender sus necesidades de
información. Algunas proporcionan acceso directo a la información contenida
dentro de las aplicaciones operacionales. Otras, han extraído los datos desde
sus bases de datos operacionales para combinarlos de varias formas no
estructuradas, en su intento por atender a los usuarios en sus necesidades de
información.
Ambos métodos han evolucionado a través del tiempo y ahora las
organizaciones manejan una data no limpia e inconsistente, sobre las cuales, en
la mayoría de las veces, se toman decisiones importantes.
La gestión administrativa reconoce que una manera de elevar su eficiencia está
en hacer el mejor uso de los recursos de información que ya existen dentro de la
organización. Sin embargo, a pesar de que esto se viene intentando desde hace
muchos años, no se tiene todavía un uso efectivo de los mismos.
La razón principal es la manera en que han evolucionado las computadoras,
basadas en las tecnologías de información y sistemas. La mayoría de las
organizaciones hacen lo posible por conseguir buena información, pero el logro
de ese objetivo depende fundamentalmente de su arquitectura actual, tanto de
hardware como de software.
El data warehouse, es actualmente, el centro de atención de las grandes
instituciones, porque provee un ambiente para que las organizaciones hagan un
mejor uso de la información que está siendo administrada por diversas
aplicaciones operacionales.
Un data warehouse es una colección de datos en la cual se encuentra integrada
la información de la Institución y que se usa como soporte para el proceso de
toma de decisiones gerenciales. Aunque diversas organizaciones y personas
individuales logran comprender el enfoque de un Warehouse, la experiencia ha
demostrado que existen muchas dificultades potenciales.
Reunir los elementos de datos apropiados desde diversas fuentes de aplicación
en un ambiente integral centralizado, simplifica el problema de acceso a la
información y en consecuencia, acelera el proceso de análisis, consultas y el
menor tiempo de uso de la información.
Las aplicaciones para soporte de decisiones basadas en un data warehouse,
pueden hacer más práctica y fácil la explotación de datos para una mayor
eficacia del negocio, que no se logra cuando se usan sólo los datos que
provienen de las aplicaciones operacionales (que ayudan en la operación de la
empresa en sus operaciones cotidianas), en los que la información se obtiene
realizando procesos independientes y muchas veces complejos.

4
Data Warehouse

Un data warehouse se crea al extraer datos desde una o más bases de datos de
aplicaciones operacionales. La data extraída es transformada para eliminar
inconsistencias y resumir si es necesario y luego, cargadas en el data
warehouse. El proceso de transformar, crear el detalle de tiempo variante,
resumir y combinar los extractos de datos, ayudan a crear el ambiente para el
acceso a la información Institucional. Este nuevo enfoque ayuda a las personas
individuales, en todos los niveles de la empresa, a efectuar su toma de
decisiones con más responsabilidad.
La innovación de la Tecnología de Información dentro de un ambiente data
warehouse, puede permitir a cualquier organización hacer un uso más óptimo de
los datos, como un ingrediente clave para un proceso de toma de decisiones
más efectivo. Las organizaciones tienen que aprovechar sus recursos de
información para crear la información de la operación del negocio, pero deben
considerarse las estrategias tecnológicas necesarias para la implantación de una
arquitectura completa de data warehouse.

5
Diplomado en Bases de Datos

Introducción al Concepto Data Warehouse

Data warehouse es el centro de la arquitectura para los sistemas de información


en la década de los '90. Soporta el procesamiento informático al proveer una
plataforma sólida, a partir de los datos históricos para hacer el análisis. Facilita la
integración de sistemas de aplicación no integrados. Organiza y almacena los
datos que se necesitan para el procesamiento analítico, informático sobre una
amplia perspectiva de tiempo.
Un Data Warehouse o Depósito de Datos es una colección de datos orientado a
temas, integrado, no volátil, de tiempo variante, que se usa para el soporte del
proceso de toma de decisiones gerenciales.
Se puede caracterizar un data warehouse haciendo un contraste de cómo los
datos de un negocio almacenados en un data warehouse, difieren de los datos
operacionales usados por las aplicaciones de producción.

Base de Datos
Data Warehouse
Operacional
Datos Operacionales Datos del negocio para Información
Orientado a la aplicación Orientado al sujeto
Actual Actual + histórico
Detallada Detallada + más resumida
Cambia continuamente Estable

6
Data Warehouse

Sistemas de Información
Los sistemas de información se han dividido de acuerdo al siguiente esquema:

Sistemas Estratégicos
Orientados a soportar la toma de decisiones, facilitan la labor de la dirección,
proporcionándole un soporte básico, en forma de mejor información, para la
toma de decisiones. Se caracterizan porque son sistemas sin carga periódica de
trabajo, es decir, su utilización no es predecible, al contrario de los casos
anteriores, cuya utilización es periódica.
Destacan entre estos sistemas: los Sistemas de Información Gerencial (MIS),
Sistemas de Información Ejecutivos (EIS), Sistemas de Información
Georeferencial (GIS), Sistemas de Simulación de Negocios (BIS y que en la
práctica son sistemas expertos o de Inteligencia Artificial-AI).

Sistemas Tácticos
Diseñados para soportar las actividades de coordinación de actividades y
manejo de documentación, definidos para facilitar consultas sobre información
almacenada en el sistema, proporcionar informes y, en resumen, facilitar la
gestión independiente de la información por parte de los niveles intermedios de
la organización.
Destacan entre ellos: los Sistemas Ofimáticos (OA), Sistemas de Transmisión de
Mensajería (E-mail y Fax Server), coordinación y control de tareas (Work Flow) y
tratamiento de documentos (Imagen, Trámite y Bases de Datos Documentarios).

7
Diplomado en Bases de Datos

Sistemas Técnico-Operativos
Que cubren el núcleo de operaciones tradicionales de captura masiva de datos
(Data Entry) y servicios básicos de tratamiento de datos, con tareas predefinidas
(contabilidad, facturación, almacén, presupuesto, personal y otros sistemas
administrativos). Estos sistemas están evolucionando con la irrupción de
censores, autómatas, sistemas multimedia, bases de datos relacionales más
avanzadas y data warehouse.

Sistemas Interinstitucionales
Este último nivel de sistemas de información recién está surgiendo, es
consecuencia del desarrollo organizacional orientado a un mercado de carácter
global, el cual obliga a pensar e implementar estructuras de comunicación más
estrechas entre la organización y el mercado (Empresa Extendida, Organización
Inteligente e Integración Organizacional), todo esto a partir de la generalización
de las redes informáticas de alcance nacional y global (INTERNET), que se
convierten en vehículo de comunicación entre la organización y el mercado, no
importa dónde esté la organización (INTRANET), el mercado de la institución
(EXTRANET) y el mercado (Red Global).
Sin embargo, la tecnología data warehouse basa sus conceptos y diferencias
entre dos tipos fundamentales de sistemas de información en todas las
organizaciones: los sistemas técnico-operacionales y los sistemas de soporte de
decisiones. Este último es la base de un data warehouse.

Sistemas técnico-operacionales
Como indica su nombre, son los sistemas que ayudan a manejar la empresa con
sus operaciones cotidianas. Estos son los sistemas que operan sobre el
"backbone" (columna vertebral) de cualquier empresa o institución, entre las que
se tiene sistemas de ingreso de órdenes, inventario, fabricación, planilla y
contabilidad, entre otros.
Debido a su volumen e importancia en la organización, los sistemas
operacionales siempre han sido las primeras partes de la empresa a ser
computarizados. A través de los años, estos sistemas operacionales se han
extendido, revisado, mejorado y mantenido al punto que hoy, ellos son
completamente integrados en la organización.
Desde luego, la mayoría de las organizaciones grandes de todo el mundo,
actualmente no podrían operar sin sus sistemas operacionales y los datos que
estos sistemas mantienen.

8
Data Warehouse

Sistemas de Soporte de Decisiones


Por otra parte, hay otras funciones dentro de la empresa que tienen que ver con
el planeamiento, previsión y administración de la organización. Estas funciones
son también críticas para la supervivencia de la organización, especialmente en
nuestro mundo de rápidos cambios.
Las funciones como "planificación de marketing", "planeamiento de ingeniería" y
"análisis financiero", requieren, además, de sistemas de información que los
soporte. Pero estas funciones son diferentes de las operacionales y los tipos de
sistemas y la información requerida son también diferentes. Las funciones
basadas en el conocimiento son los sistemas de soporte de decisiones.
Estos sistemas están relacionados con el análisis de los datos y la toma de
decisiones, frecuentemente, decisiones importantes sobre cómo operará la
empresa, ahora y en el futuro. Estos sistemas no sólo tienen un enfoque
diferente al de los operacionales, sino que, por lo general, tienen un alcance
diferente.
Mientras las necesidades de los datos operacionales se enfocan normalmente
hacia una sola área, los datos para el soporte de decisiones, con frecuencia,
toma un número de áreas diferentes y necesita cantidades grandes de datos
operacionales relacionadas.
Son estos sistemas sobre los se basa la tecnología data warehouse.

9
Diplomado en Bases de Datos

II. ¿Qué es un Data Warehouse?

“… Es una colección de datos orientados a temas, integrados, variantes en el


tiempo, no volátiles, que ayudan en el proceso de toma de decisiones “.
W.H. Inmon

Tras las dificultades de los sistemas tradicionales en satisfacer las necesidades


de información, surge el concepto de Data Warehouse, como solución a las
necesidades de información globales de la empresa. Este término definido por
Bill Inmon, se traduce literalmente como Almacén de Datos. No obstante si el
Data Warehouse fuese exclusivamente un almacén de datos, los problemas
seguirían siendo los mismos que en los Centros de Información.
La ventaja principal de este tipo de sistemas se basa en su concepto
fundamental, la estructura de la información. Este concepto significa el
almacenamiento de información homogénea y fiable, en una estructura basada
en la consulta y el tratamiento jerarquizado de la misma, y en un entorno
diferenciado de los sistemas operacionales.

Características de un Data Warehouse

Integrado
Los datos almacenados en el Data Warehouse deben integrarse en una
estructura consistente, por lo que las inconsistencias existentes entre los
diversos sistemas operacionales deben ser eliminadas. La información suele
estructurarse también en distintos niveles de detalle para adecuarse a las
distintas necesidades de los usuarios.
La siguiente figura muestra algunas de las diferencias más importantes en las
formas en que se diseñan las aplicaciones.

10
Data Warehouse

Orientado al tema (área de interés)


Sólo los datos necesarios para el proceso de generación del conocimiento del
negocio se integran desde el entorno operacional. Los datos se organizan por
temas para facilitar su acceso y entendimiento por parte de los usuarios finales.

11
Diplomado en Bases de Datos

En el ambiente data warehouse se organiza alrededor de sujetos tales como


cliente, vendedor, producto y actividad.

Por ejemplo, para un fabricante, éstos pueden ser clientes,


productos, proveedores y vendedores. Para una universidad
pueden ser estudiantes, clases y profesores. Para un hospital
pueden ser pacientes, personal médico, medicamentos, etc.

Por ejemplo, todos los datos sobre clientes pueden ser


consolidados en una única tabla del Data Warehouse. De esta
forma, las peticiones de información sobre clientes serán más
fáciles de responder dado que toda la información reside en el
mismo lugar.

De tiempo variante (histórico)


El tiempo es parte implícita de la información contenida en un Data Warehouse.
En los sistemas operacionales, los datos siempre reflejan el estado de la
actividad del negocio en el momento presente. Por el contrario, la información
almacenada en el Data Warehouse sirve, entre otras cosas, para realizar análisis
de tendencias. Por lo tanto, el Data Warehouse se carga con los distintos valores
que toma una variable en el tiempo para permitir comparaciones.

12
Data Warehouse

Como la información en el data warehouse es solicitada en cualquier momento


(es decir, no "ahora mismo"), los datos encontrados en el depósito se llaman de
"tiempo variante".
Los datos históricos son de poco uso en el procesamiento operacional. La
información del depósito por el contraste, debe incluir los datos históricos para
usarse en la identificación y evaluación de tendencias.

El tiempo variante se muestra de varias maneras:

1° La más simple es que la información representa los datos sobre un horizonte


largo de tiempo - desde cinco a diez años. El horizonte de tiempo representado
para el ambiente operacional es mucho más corto - desde valores actuales hasta
sesenta a noventa días.
Las aplicaciones que tienen un buen rendimiento y están disponibles para el
procesamiento de transacciones, deben llevar una cantidad mínima de datos si
tienen cualquier grado de flexibilidad. Por ello, las aplicaciones operacionales
tienen un corto horizonte de tiempo, debido al diseño de aplicaciones rígidas.

2° La segunda manera en la que se muestra el tiempo variante en el data


warehouse está en la estructura clave. Cada estructura clave en el data
warehouse contiene, implícita o explícitamente, un elemento de tiempo como
día, semana, mes, etc.
El elemento de tiempo está casi siempre al pie de la clave concatenada,
encontrada en el data warehouse. En ocasiones, el elemento de tiempo existirá
implícitamente, como el caso en que un archivo completo se duplica al final del
mes, o al cuarto.

13
Diplomado en Bases de Datos

3° La tercera manera en que aparece el tiempo variante es cuando la


información del data warehouse, una vez registrada correctamente, no puede ser
actualizada. La información del data warehouse es, para todos los propósitos
prácticos, una serie larga de "snapshots" (vistas instantáneas).
Por supuesto, si los snapshots de los datos se han tomado incorrectamente,
entonces pueden ser cambiados. Asumiendo que los snapshots se han tomado
adecuadamente, ellos no son alterados una vez hechos. En algunos casos
puede ser no ético, e incluso ilegal, alterar los snapshots en el data warehouse.
Los datos operacionales, siendo requeridos a partir del momento de acceso,
pueden actualizarse de acuerdo a la necesidad.

No volátil
El almacén de información de un Data Warehouse existe para ser leído, y no
modificado. La información es por tanto permanente, significando la actualización
del Data Warehouse la incorporación de los últimos valores que tomaron las
distintas variables contenidas en él sin ningún tipo de acción sobre lo que ya
existía.
La información es útil sólo cuando es estable. Los datos operacionales cambian
sobre una base momento a momento. La perspectiva más grande, esencial para
el análisis y la toma de decisiones, requiere una base de datos estable.
En la siguiente figura se muestra que la actualización (insertar, borrar y
modificar), se hace regularmente en el ambiente operacional sobre una base de
registro por registro. Pero la manipulación básica de los datos que ocurre en el
data warehouse es mucho más simple. Hay dos únicos tipos de operaciones: la
carga inicial de datos y el acceso a los mismos. No hay actualización de datos
(en el sentido general de actualización) en el depósito, como una parte normal
de procesamiento.

14
Data Warehouse

Procesos que conforman el Warehouse

Extracción: Obtención de información de las distintas fuentes tanto internas


como externas.
Elaboración: Filtrado, limpieza, depuración, homogeneización y agrupación de
la información.
Carga: Organización y actualización de los datos y los metadatos en la
base de datos.
Explotación: Extracción y análisis de la información en los distintos niveles de
agrupación.

Desde el punto de vista del usuario, el único proceso visible es la explotación del
almacén de datos, aunque el éxito del Data Warehouse radica en los tres
procesos iniciales que alimentan la información del mismo y suponen el mayor
porcentaje de esfuerzo (en torno a un 80%) a la hora de desarrollar el almacén.

15
Diplomado en Bases de Datos

III. Estructura del Data Warehouse


Escalabilidad Diseño

Manejabilidad

Carga Datos Acceso


Disponibilidad Arquitectura
Metadata

Extensibilidad Afinación y optimización

Operación
Flexibilidad Administración y revisión y
Administración

Integridad Planeación de la capacidad y el tamaño

Una forma simple de ver las partes del proceso de desarrollo de data warehouse
se ilustra aquí. Se listan los principios o características del warehouse:

• Escalable
Los data warehouse son capaces de almacenar y manejar grandes
volúmenes de datos transaccionales y sumarizados. Un data warehouse
puede crecer por un orden de magnitud de tiempo, por las necesidades de
agregar nuevos tipos de datos o porque los datos históricos deben retenerse
en línea por periodo largos.

• Manejable
El warehouse necesita productos que permitan una fácil administración, como
el Servidor Universal de Oracle.

• Disponible
El servidor debe ser robusto, para asegurar que el warehouse está disponible
siempre que se necesite.

• Extensible
Debe ser posible agregar nuevos tipos de datos transaccionales e introducir
nuevas agregaciones y datos sumarizados a un warehouse como
requerimientos de información que evolucionan por el uso.

16
Data Warehouse

• Flexible
Los datos acceden rutas de datos detallados y sumarizados que deben ser
flexibles para soportar análisis multidimensional, menor detalle y consultas a
la medida (ad-hoc).

• Integrado.
Un data warehouse debe integrarse totalmente con los sistemas existentes y
el ambiente operacional para que puedan cargarse datos eficazmente de
múltiples fuentes.

Además el warehouse debe ser accesible, proporcionando herramientas de


usuario final que sean flexibles e intuitivas y cubran los requerimientos de una
amplia gama de usuarios, y permitiendo discrepancias en la carga de datos de
fuentes múltiples para que el warehouse siempre contenga información que sea
exacta y consistente para un punto de tiempo dado.

Las tres áreas de actividad del data warehouse incluyen: diseño, arquitectura, y
funcionamiento-administración.

Diseño
Ocurre repetidamente a lo largo del proceso de desarrollo.
• Es influenciado por los requerimientos de la empresa así como por las
restricciones técnicas.

Arquitectura
• Arquitectura de carga:
- Definir parámetros de los procesos de carga de datos.
- Definir ciclos de actualización.
• Arquitectura de los datos:
- Definir el arreglo de datos en el warehouse.
- Se revisa basado en la carga y arquitecturas de acceso.
• Arquitectura de acceso:
- Definir las necesidades para la disponibilidad de datos para el usuario
final.
- Especificar las restricciones determinadas por las herramientas de acceso
o ambiente.

Funcionamiento-administración.
• Continuar con el ciclo de vida del data warehouse.
• Entregas críticas en las diferentes fases del ciclo de desarrollo.

17
Diplomado en Bases de Datos

IV. OLTP vs OLAP


OLTP
( On Line Transaction Processing )
Proceso que mantiene actualizada la base de datos.

OLAP
( On Line Analytical Processing )
Proceso de modelar y administrar datos multidimensionales para que sean
observados y analizados por usuarios que buscan entender lo que dicen los
datos.

Diferencias entre OLTP y OLAP


Las diferencias de un Data Warehouse con un sistema tradicional las podríamos
resumir en el siguiente esquema:

SISTEMA TRADICIONAL DATA WAREHOUSE


Predomina la actualización Predomina la consulta
La actividad más importante es de La actividad más importante es el
tipo operativo (día a día) análisis y la decisión estratégica
Predomina el proceso puntual Predomina el proceso masivo
Mayor importancia a la estabilidad Mayor importancia al dinamismo
Datos en general desagregados Datos en distintos niveles de detalle y

18
Data Warehouse

SISTEMA TRADICIONAL DATA WAREHOUSE


agregación
Importancia del dato actual Importancia del dato histórico
Importante del tiempo de respuesta Importancia de la respuesta masiva
de la transacción instantánea
Estructura relacional Visión multidimensional
Usuarios de perfiles medios o bajos Usuarios de perfiles altos
Explotación de la información Explotación de toda la información
relacionada con la operativa de cada interna y externa relacionada con el
aplicación negocio

Una de las claves del éxito en la construcción de un Data Warehouse es el


desarrollo de forma gradual, seleccionando a un departamento usuario como
piloto y expandiendo progresivamente el almacén de datos a los demás
usuarios. Por ello es importante elegir este usuario inicial o piloto, siendo
importante que sea un departamento con pocos usuarios, en el que la necesidad
de este tipo de sistemas es muy alta y se puedan obtener y medir resultados a
corto plazo.

Beneficios que un Data Warehouse Puede Aportar


• Proporciona una herramienta para la toma de decisiones en cualquier área
funcional, basándose en información integrada y global del negocio.
• Facilita la aplicación de técnicas estadísticas de análisis y modelación para
encontrar relaciones ocultas entre los datos del almacén; obteniendo un valor
añadido para el negocio de dicha información.
• Proporciona la capacidad de aprender de los datos del pasado y de predecir
situaciones futuras en diversos escenarios.
• Simplifica dentro de la empresa la implantación de sistemas de gestión
integral de la relación con el cliente.
• Supone una optimización tecnológica y económica en entornos de Centro de
Información, estadística o de generación de informes con retornos de la
inversión espectaculares.

19
Diplomado en Bases de Datos

V. Metodología del DWH

Diseño
I. Modelo Entidad – Relación
cat_ageb
entidad
mpio pob_511
Vivienda habla_li
localid. cat_pais
anio cve_li
ageb cve_pa
entidad religion
descrip.
tipo_viv alfabet.
paredes aprobo
techos kinder
pisos normal
cuartos poblador
carrera
agua anio
entidad
Paren_1 cat_par
Paren_2 Paren_1
cat_loc Sexo descrip.
localid. Edad cat_len
descrip. Pais cve_li
descrip.

Pasos para construir un modelo entidad – relación:

1) Modelar entidades y atributos:

NOMBRE_ENTIDAD

*# Atributo1 (llave)

Atributo2

AtributoN

Modelar entidad.
• Identificar una entidad de interés de la que se requiere almacenar datos.
• Definir el alcance de la entidad

Consideraciones:
- Una vez que cierto dato puede ser la llave primaria de la entidad,
verifique que su valor nunca sea nulo.
- Verifique que el valor de la llave primaria considerado no se repita entre
las diferentes ocurrencias.

20
Data Warehouse

- De manera general, las llaves primarias no deben ser modificadas,


verifique que el valor de la llave primaria no sea sujeto a cambios al
pasar el tiempo.

Modelar atributos
• Definir atributos de la entidad
• Definir el alcance de cada atributo.
• Determinar la llave primaria de la entidad.

2) Modelar relaciones:

• Definir una relación.


• Definir el alcance de la relación.
• Determinar el tipo de la relación:
- uno a uno 1:1

E-1 E-2

- uno a muchos 1:M

E-1 E-2

- muchos a muchos M:M

E-1 E-2

3) Normalizar el MER

II. Modelo Multidimensional

La estructura básica de un DW para el Modelo Multidimensional está definida por


dos elementos:
• Esquemas.
• Tablas.

21
Diplomado en Bases de Datos

Los principales beneficios de este modelo son su facilidad de presentación,


navegación y mantenimiento, así como su rapidez de acceso.

Esquemas
Una colección de tablas en el DW se conoce como Esquema. Los esquemas
caen dentro de categorías básicas de esquemas:
Estrella: El esquema estrella deriva su nombre del hecho que su diagrama
forma una estrella, con puntos radiales desde el centro. El centro de la
estrella consiste de una o más tablas fact, y las puntas de la estrella son
las tablas lock_up.
Snowflake: La diferencia del esquema snowflake comparado con el
esquema estrella, está en la estructura de las tablas lock_up: las tablas
lock_up en el esquema snowflake están normalizadas. Cada tabla lock_up
contiene sólo el nivel que es llave primaria en la tabla y la llave foránea de
su parentesco del nivel más cercano del diagrama.
Constelación: Consiste en la unión de una o mas estrellas por medio de
al menos una dimensión.

Tablas
Como cualquier base de datos relacional, un DW se compone de tablas. Hay dos
tipos básicos de tablas en el Modelo Multidimensional:
Tablas Fact: contienen los valores de las medidas de negocios.

Por ejemplo: ventas promedio en dólares, número de


unidades vendidas, etc.

Tablas Lock_up: contienen el detalle de los valores que se encuentran


asociados a la tabla Fact.

Tabla Fact o de Hechos


Es aquella que contiene los valores sumarizados o contabilizados de las
dimensiones.
Es la tabla central en un esquema dimensional. Es en ella donde se almacenan
las mediciones numéricas del negocio. Estas medidas se hacen sobre el grano,
o unidad básica de la tabla.
El grano o la granularidad de la tabla queda determinada por el nivel de detalle
que se almacenará en la tabla.

22
Data Warehouse

Cada medida es tomada de la intersección de las dimensiones que la definen.


Idealmente está compuesta por valores numéricos, continuamente evaluados y
aditivos. La razón de estas características es que así se facilita que los miles de
registros que involucran una consulta sean comprimidos en unas pocas líneas en
un conjunto de respuestas.
La llave de la tabla fact recibe el nombre de llave compuesta o concatenada
debido a que se forma de la composición (o concatenación) de las llaves
primarias de las tablas dimensionales a las que está unida.
Así entonces, se distinguen dos tipos de columnas en una tabla fact: columnas
fact y columnas llave. Donde la columna fact es la que almacena alguna medida
de negocio y una columna llave forma parte de la llave compuesta de la tabla.

Llave tiempo
Producto Llave producto Cliente
Llave cliente
Llave canal

Tabla de Hechos
Ventas
Tiempo Canal
(unidades,precios)

La tabla de hechos es una tabla en una base de datos relacional con una llave
compuesta. Esto es común para todos los modelos de warehouse. Esta tabla es
altamente normalizada desde que reside en la intersección de relaciones de
muchos a muchos entre las dimensiones no correlacionadas.

La tabla central en un modelo de estrella:


• Contiene todas las claves de las tablas del data warehouse.
• Es frecuentemente la tabla más grande en la base de datos del warehouse.
• Las tablas de dimensión comparten una llave primaria y una llave foránea
relacionada con la tabla de hechos.
• La tabla de hecho requiere de una columna de datos para cada hecho que
almacene y requiere columnas de datos para cada valor de dimensión que
las llaves de la tabla de dimensión hacen referencia a atributos numéricos y
valores de dimensión.
• Todas las columnas de hechos para esta tabla necesitan ser creadas. Sin
embargo, las llaves primarias y las llaves foráneas no necesitan ser creadas
cuando ellas pudieran generarse como una parte del proceso de
transformación.

23
Diplomado en Bases de Datos

Atributos de la tabla de hechos

L lave dim ensión1


L lave dim ensión2 L laves
L lave dim ensión3
L lave dim ensión4

U n idad es
T otal d e ventas
C o sto s
M argen d e venta

T ab la d e H echos
V entas

Un hecho es un atributo que cuantifica el rendimiento de la empresa.


Por ejemplo, las unidades vendidas, y las ventas totales. A
menudo éstos son llamados como medidas del rendimiento de la
empresa.

Estas medidas se toman en la intersección de dos o más dimensiones. Las


medidas pueden tomarse directamente desde los sistemas operacionales o
pueden derivarse de datos fuente u otros datos dentro de la tabla de hechos.
Como se mostró, los atributos en la tabla de hechos incluyen identificadores
como llaves de dimensión foráneas y numéricas tales como ventas o unidades.

Tablas Lock-up o Dimensionales


Son aquellas que contienen el detalle de los valores que se están contabilizando.
(catálogos)
Estas tablas son las que se conectan a la tabla fact, son las que alimentan a la
tabla fact. Una tabla lock_up almacena un conjunto de valores que están
relacionados a una dimensión particular. Tablas lock_up no contienen hechos,
en su lugar los valores en las tablas lock_up son los elementos que determinan
la estructura de las dimensiones. Así entonces, en ellas existe el detalle de los
valores de la dimensión respectiva.
Una tabla lock_up está compuesta de una llave primaria que identifica
unívocamente una fila en la tabla junto con un conjunto de atributos, y
dependiendo del diseño del modelo multidimensional puede existir una llave
foránea que determina su relación con otra tabla lock_up.
Para decidir si un campo de datos es un atributo o un hecho se analiza la
variación de la medida a través del tiempo. Si varía continuamente implicaría
tomarlo como un hecho, caso contrario será un atributo.

24
Data Warehouse

Los atributos dimensionales son un rol determinante en un DDW. Ellos son la


fuente de todas las necesidades que debieran cubrirse. Esto significa que la
base de datos será tan buena como lo sean los atributos dimensionales,
mientras más descriptivos, manejables y de buena calidad, mejor será el DDW.

Producto Canal

Cliente Tiempo

Tablas de dimensión

La tabla de dimensión es una tabla de una base de datos relacional con una sola
llave que se une a una tabla de hechos.

Las dimensiones:
• Proporcionan descripciones de las áreas de la empresa.
• Proporcionan información descriptiva sobre cada fila en la tabla de hechos.
• Típicamente son geométricamente más pequeñas que la tabla de hechos.
• Incluyen una tabla de dimensión de tiempo.

Atributos de dimensión

Llave del artículo

Descripción
Fuente
Llave_categoría
Descripción_categoría

Los atributos de las tablas de dimensión tienen las siguientes características:


• Son textuales y raramente cambian (discretos).

25
Diplomado en Bases de Datos

• Los atributos de dimensión son la fuente de restricciones para consultas


analíticas y proporcionan valores para listas de selección en herramientas de
consulta.
• Los atributos también proporcionan información descriptiva sobre cada fila en
la tabla de hechos.

Los atributos en una tabla de dimensión pueden tener relaciones unos con otros.
Las relaciones jerárquicas pueden residir en la tabla de dimensión así como los
atributos independientes.

Típicamente en un modelo de estrella, la tabla de dimensión es la


desnormalizada. Se puede considerar normalizar la tabla de dimensión para
razones de acceso, de rendimiento y de mantenimiento. Las tablas de dimensión
pequeñas no se benefician desde la normalización, porque se está forzando que
la unión ocurra. Puede ser más eficaz simplemente guardar los datos, aunque
sean redundantes en una tabla.

La redundancia de datos en tablas de dimensión incrementa el almacenamiento.


Porque el rendimiento del acceso de datos es un manejo primario para el
warehouse, si normaliza basándose solamente en las consideraciones del
tamaño no se garantiza esto.

26
Data Warehouse

Estrella

Geografía Alfabeta

Población

Sexo Lengua

El esquema estrella deriva su nombre del hecho que su diagrama forma una
estrella, con puntos radiales desde el centro. El centro de la estrella consiste de
una o más tablas fact, y las puntas de la estrella son las tablas lock_up.

Por ejemplo:
A) Num. de pobladores alfabetas
B) Num. de viviendas con agua entubada

Este modelo entonces, resulta ser asimétrico, pues hay una tabla dominante en
el centro con varias conexiones a las otras tablas. Las tablas Lock-up tienen sólo
la conexión a la tabla fact y ninguna más.

Ejemplo:
A) Sexo (1,2)
B) Alfabeta (1,2,3)

27
Diplomado en Bases de Datos

Snowflake (copo de nieve)

Municipio

Entidad Alfabeta

Población

Sexo Lengua

La diferencia del esquema snowflake comparado con el esquema estrella, está


en la estructura de las tablas lock_up: las tablas lock_up en el esquema
snowflake están normalizadas. Cada tabla lock_up contiene sólo el nivel que es
clave primaria en la tabla y la foreign key de su parentesco del nivel más cercano
del diagrama.

Consiste en normalizar una o más dimensiones.

28
Data Warehouse

Constelación

Edad Tiempo Drenaje

Población Vivienda

Sexo Geografía Tipo_viv

Consiste en la unión de una o mas estrellas por medio de al menos una


dimensión.

29
Diplomado en Bases de Datos

Proceso ETC
Como parte de un proceso más general, DataWarehouse, el proceso ETC esta
formado por una seria de fases encaminado a garantizar que los datos en el
almacén de datos sean exactos, íntegros, consistentes, comparables en el
tiempo, únicos y validos.
A continuación se explicara como se conceptualismo este proceso al modelo del
Instituto y cuales son las fases que lo componen.

¿Qué es el Proceso ETC?


Este proceso se encuentra entre las bases de datos operacionales y el almacén
de datos permitiendo hacer la extracción, transformación y carga.
Así la extracción es la etapa donde se realiza la recuperación de datos de las
fuentes de datos operacionales al almacén de datos o staging area.
Por carga la fase donde se lleva a cabo el deposito del dato transformado al
almacén de datos.
La fase más importante de las tres es la transformación aquí se reformatea los
datos además de generarse parte de los metadatos técnicos.

Fases del Proceso ETC


Un ciclo de ETC esta formado por las siguientes fases:
1 Identificación.
2 Documentación.
3 Extracción.
4 Limpieza.
5 Análisis.
6 Reglas de Trasformación.
7 Archivo de Datos Transformados.
8 Carga.

30
Data Warehouse

1 Identificación
Una vez que se a determinado cual será el incremento, es decir, cuales
datos van a incorporarse al almacén de datos, por parte de la mesa directiva,
corresponde a los encargados del proceso ETC identificar a las áreas
involucradas:
• Área que conceptualizó los datos.
• Área que custodia los datos.
• Área que explota los datos.
Estas tres áreas pueden proporcionar información importante que permita
entender los datos.

2 Documentación
Uno de los aspectos importantes para realizar un proceso ETC sin errores es
tratar de obtener toda la documentación posible de los datos, ya que esta
nos permite además de entender los datos, poder realizar un proceso de
limpieza adecuado.
A continuación se enumerar algunos de los documentos que pueden ser de
utilidad para el proceso:
• FD´s de los archivos
• Diagrama entidad relación
• Catálogos
• Dominios
• Criterios de agrupamiento
• Tabulados
• Cuestionarios
• Diccionario de datos
• Etcétera
No olvidarse de conocer en que tipo de dispositivo esta respaldada la
información y de contar con los medios requeridos para su restauración y
lectura de la información.

3 Extracción
Fase en la cual se recupera los datos de los archivos fuentes y se dejan en
un área temporal o staging area, esto permite realizar el proceso de limpieza.

31
Diplomado en Bases de Datos

4. Limpieza
La fase de limpieza permite levar a cabo una revisión de los datos para que
estos cumplan con las siguientes características:
Exactitud: Grado de concordancia entre un conjunto de valores y una
fuente que se asegura es la correcta, es decir, que tan libre de
errores están los datos.
Integridad: El grado en que los datos tienen los atributos requeridos.
Consistencia: Los datos están libres de contradicciones o variaciones
además de satisfacer un conjunto de restricciones.
Unicidad: Atributo que permite asegurar que el registro o las llaves
primarias son únicas.
Validez: Condición de los datos para producir los resultados deseados.

Los pasos para realizar la limpieza de los datos son los siguientes:
• Análisis de Dominios
Se enfoca en el contenido de cada uno de los elementos que forman el
archivo de datos, con el propósito de encontrar posibles valores en el
dominio que no estén definidos de acuerdo a la documentación
proporcionada.

Por ejemplo el campo sexo tiene los valores 1,2 y 3, en la


documentación solo se definen 1 para hombre y 2 para
mujer. Así se tendría que consultar con el área
correspondiente como debe de manejarse el valor 3.

• Integridad Estructural
Se enfoca hacia la calidad de la construcción del registro y la relación
entre los registros.
Los elementos a evaluar son las siguientes:
1. Llaves primarias: revisar que la llave primaria sea única o que los
registros no estén duplicados.
2. Llaves foráneas y su integridad referencial: tratar de relacionar a los
campos que estén identificados como llaves foráneas con la entidad
padre correspondiente.
3. Este análisis debe de realizarse en ambos sentidos de padre a hijo y
de hijo a padre.

32
Data Warehouse

4. Reglas de Cardinalidad: se enfoca en el aspecto de cómo debe ser la


relación entre las distintas entidades, por ejemplo si debe ser uno a
uno.
• Reglas del Negocio
Evaluar la calidad de los datos en términos de las reglas del negocio,
donde se puede involucrar campos del mismo registro o entre registros
que están lógicamente relacionados.

Ejemplo:
En el Conteo de Población y Vivienda 1995 para verificar el
tipo de vivienda se tenia que relacionar los campos clase de
vivienda se tenia que relacionar los campos clase de
vivienda (clase_v) y folio de paquete (fol_paq), así si la
combinación es clase_v = 02 y 001<= fol_paq <=099 se esta
refiriendo a una vivienda móvil.

5. Análisis
En esta parte se realiza la integración de los datos para poder hacerlos
comparables en el tiempo.
Esta integración consiste en ir comparando las definiciones de cada campo y
así poderlos homologar.
En un principio se debe seleccionar un proyecto como base para realizar la
homologación.

Por ejemplo para realizar la homologación de los datos del


XI Censo General de Población y Vivienda 1990, XII Censo
General de Población y Vivienda 2000 y el Conteo de
Población y Vivienda 1995, se tomo como base el censo del
2000.

El primer paso consiste en relacionar los datos que por su afinidad


conceptual se pueden homologar.

Por ejemplo el dato de tipo de vivienda.

Después se comparan los dominios de cada una de los campos.

33
Diplomado en Bases de Datos

1990 1995 2000


Descripción
(V00) (Seg y claviv)
Clv Descripción Clv Descripción
Clv Descripción

01 Casa Sola Seg Casa 1 Casa


<> Independiente independiente
I,J,V
Clavi
v=1
04 Vivienda Móvil e_v=02 Vivienda Móvil Seg Vivienda Móvil 6 Vivienda
<> Móvil
Y I,J,V
(001<=fol_paq<=0 Clavi
99 v=6
ó
101<=fol_paq<=1
50)

Así se obtiene la clasificación que se utilizara para los datos que se carguen
al almacén de datos.

6. Reglas de Transformación
Uno de los desafíos de cualquier implementación de data warehouse, es el
problema de transformar los datos. La transformación se encarga de las
inconsistencias en los formatos de datos y la codificación, que pueden existir
dentro de una base de datos única y que casi siempre existen cuando
múltiples bases de datos contribuyen al data warehouse.
En la siguiente figura se ilustra una forma de inconsistencia, en la cual el
género se codifica de manera diferente en tres bases de datos diferentes.
Los procesos de transformación de datos se desarrollan para direccionar
estas inconsistencias

34
Data Warehouse

La transformación de datos también se encarga de las inconsistencias en el


contenido de datos. Una vez que se toma la decisión sobre que reglas de
transformación serán establecidas, deben crearse e incluirse las definiciones en
las rutinas de transformación.
Se requiere una planificación cuidadosa y detallada para transformar datos
inconsistentes en conjuntos de datos conciliables y consistentes para cargarlos
en el data warehouse.
Una vez terminado el análisis se debe obtener las reglas de transformación,
estas indican la manera en que debe de codificarse el dato.

Tomando el ejemplo anterior se tendría la siguiente regla de


transformación para el tipo de vivienda que provenga del
Censo del 1990.
Si tipo vivienda = 4 entonces asignar 6.

Las reglas de transformación se agrupan en 4 grupos que son:

• Transformación Directa: el dato no sufre algún cambio durante el


proceso de transformación.

• Transformación de Asignación: este tipo de regla se indica como debe


ser asignado el dato al transferirse.

En el ejemplo anterior tipo de vivienda que trae un valor


de 4 se le asigna el valor de 6.

• Transformación Restringida: este tipo de regla es una versión más


compleja que la anterior, pues se utiliza condiciones para realizar la
asignación.

Por ejemplo si tipo de vivienda = 02 y (001<= folio de


paquete <= 099 ó 101 <= folio paquete <= 150) entonces
a tipo de vivienda se le asigna 6.

• Transformación Derivada: aquí la regla puede ser tan complicada como


se quiera pues se utilizan formular para obtener el valor correspondiente.

35
Diplomado en Bases de Datos

7. Archivo de Datos Transformados


Se genera un documento donde se listan todos los campos, resultado del
análisis, con la finalidad de que el área de diseño lógico esboce el modelo de
entidad relación requerido o modificar el ya establecido.

8. Carga
Por último una vez conocido la estructura que van a guardar los datos en el
almacén de datos, se implementan la transferencia ya sea con herramientas
especializadas o escribir los programas.

36
Data Warehouse

Pasos para Construir el Warehouse

El warehouse es un ambiente que evoluciona basado en una arquitectura, no es


un producto.
Adoptar una metodología que comprenda los beneficios increméntales de la
empresa, manteniendo una gran idea “pensar en grande y empezar en
pequeño”.

1. Coleccionar y desarrollar los requerimientos del usuario incluyendo


documentos de requerimientos y acuerdos establecidos. Identificar el
incremento inicial en el warehouse.
2. Revisar los sistemas actuales y los reportes de administración actuales que
colectan información usada para el análisis e identificación de las fuentes
de datos potenciales.
3. Identificar las áreas de interés del warehouse.
4. Desarrollar un modelo de datos integrado.
5. Desarrollar la relación de los datos del warehouse con los datos fuente
especificando las reglas de transformación para cada componente de
datos.
6. Especificar las características de los datos como:
• Granularidad.
• Periodicidad.
• Datos derivados.
• Niveles de sumarización.
• Tiempo.
7. Diseñar y desarrollar el ambiente del hardware basado en las estimaciones
de tamaño y expectativas de uso del warehouse.
8. Construir los módulos de extracción, transformación, y transporte.
9. Definir, diseñar, y desarrollar los metadatatos.
10. Definir, diseñar, y desarrollar las consultas y rutas de acceso,
seleccionando las herramientas; definiendo y desarrollando tareas de
administración de datos como las estrategias de replicación.
11. Identificar e integrar todas las herramientas del warehouse.
12. Probar, evaluar, monitorear y modificar cualquier componente o módulo,
afinación de rendimiento.

37
Diplomado en Bases de Datos

VII. Metadatos
El componente final del data warehouse son los metadatos. De muchas maneras
los metadatos se sitúan en una dimensión diferente al de otros datos del data
warehouse, debido a que su contenido no es tomado directamente desde el
ambiente operacional.

La Importancia de los Metadatos


La naturaleza de los metadatos es principalmente de dos formas:
• Los metadatos de la empresa: Contiene la información necesaria para
soportar las necesidades del usuario final en los metadatos de la empresa.
• Los metadatos técnico: Necesario para el personal técnico para desarrollar y
mantener el data warehouse.

Los metadatos se usan activamente y pasivamente en el funcionamiento y


desarrollo del warehouse por las herramientas de software, por los diseñadores
del warehouse, o los usuarios del warehouse.

Los Metadatos
Desde la perspectiva del usuario, estos son esenciales para entender los datos
que están en el warehouse y lo que representan. Así los metadatos impiden a los
usuarios interpretar las conclusiones incorrectas. Le permiten a los usuarios
conocer el estado de los datos como la última actualización, así como la calidad,
la exactitud, la fuente, y él significando de los datos.
Los metadatos se han descrito como una capa de la semántica de la empresa en
un ambiente técnico, le permiten al usuario de la empresa que conozca los datos
que describen las condiciones de la empresa.
Los metadatos proporcionan una forma útil para la comunicación. Cuando se
presentan con la descripción de exactamente lo que está en el data warehouse y
el significado de estos datos, se puede acostumbrar a estimular ideas y planes
de desarrollo.
La influencia en los sistemas existentes en la fase de planificación de nuevos
sistemas, se necesita para entender lo que ya existe en lo que se refiere a datos
y procesos. A menudo en la definición y documentación de fuentes existentes, el
usuario de la empresa descubre inconsistencias u oportunidades para los
beneficios de perfeccionamientos y eficacia.

38
Data Warehouse

Los metadatos proporcionan el enfoque a estas preguntas:


• ¿Cómo incorporar los datos externos?.
• ¿Cómo incorporar los datos desde otra empresa o proporcionar los datos a
otros?.
• ¿Necesitamos encriptar los datos de los usuarios en lo referente a
seguridad?.
• ¿Cómo incorporar cambios del sistema fuente a los datos?.

Metadatos Técnicos

Fuente Almacén A
c Acceso
E c
T e
C Metadatos s
o
Datos Herramientas
Operacionales M Relacionales
a
e
t M
a Datos Datos
sumarizados e
d Crudos t
a a Herramientas
t d OLAP
o a
s Metadaros del t
Warehouse o
Datos s
Externos Aplicaciones

Los metadatos son utilizados en todos los procesos del warehouse y pueden ser
almacenados en diferentes partes de la arquitectura. Pueden existir en
herramientas de software diseñadas particularmente para diseñar y administrar
metadatos; dentro del diccionario de datos de Oracle; en una herramienta de
diseño tal como designer/2000 de oracle; en herramientas tales como
Discoverer, o en una herramienta especialmente diseñada para los metadatos.

Las Funciones del warehouse


Las diferentes funciones del warehouse requieren metadatos diferentes. El uso
de los metadatos basado en la función afecta la definición y alcance de los
metadatos. Los metadatos se encuentran en el warehouse para estas funciones:
• Extracción, transformación, y transporte: Contiene los detalles técnicos sobre
los formatos y métodos de acceso, algoritmos para limpiar los datos, y
mecanismos para cargar los datos.

39
Diplomado en Bases de Datos

• Consulta o acceso: la capa de usuarios finales para la complejidad de la base


de datos fundamental y proporcionan información para producir consultas
más eficaces.
• La administración de datos del warehouse: Contiene los valores válidos.
• La administración del warehouse: Incluye uso e información de acceso.

Usuarios de los Metadatos

Usuarios
Técnicos

Repositorio
de Metadatos

Usuarios
de la
Empresa

Los metadatos afectan a todo en el ambiente del warehouse. Estos dependiendo


del trabajo que realizan son:

Usuarios técnicos
• Administradores de la base de datos.
• Desarrolladores de aplicaciones.

Usuarios de la empresa
• Analistas de operaciones que utilizan metadatos para realizar el análisis en la
administración financiera.
• Los analistas estratégicos y proyectistas usan los metadatos para el análisis y
la planeación.
• Los ejecutivos usan los metadatos para el soporte de decisiones.

40
Data Warehouse

Contenido de los Metadatos

La empresa
Principalmente usados por los usuarios de la empresa, los metadatos de la
empresa describen las relaciones entre los elementos de los datos y las
transformaciones de los campos de los datos.

Estos elementos incluyen:


• Las áreas de interés de la empresa, consultas, las vistas, reglas de
navegación y las definiciones de la empresa.
• El valor de la información.
• Fuente o derivación de los datos.
• Las operaciones en los datos a lo largo de la arquitectura del data warehouse
para facilitar los cambios y documentación de estos.
• Ayuda de escritorio (nombres, áreas de especialización, números de
teléfono).

Técnico
Para los usuarios técnicos, el metadato técnico contiene la descripción completa
de todos los datos requeridos para realizar y distribuir el uso del warehouse. El
metadato técnico describe las características de los datos desde todos los
puntos de vista técnicos. Cada herramienta de software en el ambiente del
warehouse requiere sus propios metadatos.

Estos elementos incluyen:


• Las bases de datos, las tablas, las columnas, los índices, las relaciones.
• Las fuentes de los datos, transformaciones de los datos, y reglas de
transformación.
• Los procesos y las reglas de administración de datos.

41
Diplomado en Bases de Datos

Fuentes de Metadatos

Modelos de
Transformación
Datos y reglas de ralación

Base de datos
Repositorio Operacional
Metadatos
de Metadatos
Fuentes
Externas

Base de datos
Warehouse
Metadatos
de la
Empresa

¿De dónde vienen los metadatos?. Típicamente, mucha de la información que se


necesita para empezar el diseño y el desarrollo de los metadatos para su
warehouse existe dentro de su sistema existente de la empresa. Los metadatos
pueden residir en:
• La lógica de programas de aplicación.
• Los comentarios incluidos en los programas de aplicación.
• Esquemas de archivos y sus comentarios incluidos.
• Los repositorios de herramienta CASE.
• El modelo de datos.
• Los diccionarios y catálogos de la base de datos.
• Los lideres de usuarios y desarrolladores de sistema.

Los metadatos pueden almacenarse, manejarse por, y pueden crearse usando


herramientas de software, dentro del diccionario de datos del servidor de Oracle
(almacén), en una herramienta de diseño como Designer/2000 (create),
herramientas de acceso como el Discoverer (usuario), o en una herramienta
diseñada específicamente para los metadatos.

42
Data Warehouse

Metadatos Faltantes

¿Qué hacer cuándo los metadatos no existen explícitamente o no pueden ser


recuperados?.
Los metadatos existen para cada sistema aunque sólo implícitamente. Los
metadatos implícitos existen en los catálogos de la base de datos (los
diccionarios) y definiciones de archivo y típicamente no pueden compartirse
entre aplicaciones o herramientas. El formato es el no estándar y no exportable.
Para formalizar los metadatos, se buscan los datos examinando los valores de
datos de bajo nivel en los sistemas existentes o por la marcha atrás diseñando el
esquema de sistemas existentes. Cualquier información que se descubre a
través de estos métodos puede servir como base para los metadatos de su
warehouse.

El bajo nivel de la investigación proporciona:


• La clasificación de los datos.
• Las fuentes de información heredadas.
• El inventario del atributo.
• Verificar la calidad desde la perspectiva del usuario.

El alto nivel de investigación de la relación proporciona:


• El Inventario de la entidad.
• La relación entre las entidades.
• El cardinalidad de la relación validada.

Dificultades en la Definición de Metadatos

Los data warehouse (los data mart y el primer incremento del warehouse)
integran los datos desde los sistemas internos que han evolucionado con el
tiempo y han existido para soportar las operaciones especificas de la empresa.
Las fuentes de datos para el warehouse se extienden más allá de los límites de
los sistemas internos a los datos externos.
No hay ninguna definición universal o perspectiva de ¿qué son los metadatos y
qué deben de contener?. Hay muchos vendedores que proporcionan
herramientas y utilitarias, y cada uno de ellos proporcionan un metalayer o
repositorio de metadatos.
43
Diplomado en Bases de Datos

Crear una Definición Estándar

Los metadatos necesitan identificar las definiciones diferentes de datos desde


diferentes fuentes. Entonces los metadatos deben utilizar estas definiciones,
crear una sola definición dentro de la empresa para cada elemento de los datos.
Esto es a menudo una tarea difícil y consume tiempo.

Los elementos de los datos pueden tener definiciones contradictorias sobre:


• Nombres y convenciones.
• Definiciones y significados.
• Atributos.
• Valores y tipo de datos.
• Fuentes.
• Reglas de la empresa.
• Periodos de tiempo.
• Unidades de medidas.
• Medios de medida.
• Estructura de datos.
• Formatos.

La Administración de Metadatos en DWH

El proceso de administración de los metadatos especifica la estrategia de los


metadatos y los requerimientos para el repositorio de los metadatos, integración,
y acceso. El objetivo primario de este proceso es proporcionar visiones técnicas
y de la empresa de los metadatos del warehouse.
Los puntos de vista técnicos se enfocan en recopilar los metadatos para soportar
la administración de warehouse. Incluyen reglas de adquisición de datos; la
transformación de datos fuente a la base de datos designada; tiempo y fecha de
datos; la autorización de los datos; actualización, almacenamiento y horarios de
respaldo y acceso a los datos, incluso la métrica como la frecuencia y volumen
de demandas.

44
Data Warehouse

Desde el punto de vista de la empresa es permitirles a los usuarios que


entiendan la información disponible en el warehouse y cómo puede accederse.
Los metadatos de la empresa se enfocan en qué datos están en el warehouse, la
fuente de los datos, cómo se transformó desde la fuente al objetivo, y la
información recopilada mientras acceden al warehouse.
El proceso de administración de los metadatos también desarrolla los módulos
para capturar, validar, y acceder los metadatos. Los metadatos se crean por
varios componentes de data warehouse, como la adquisición de los datos, el
diseño de la base de datos, y acceso de datos. Cada componente,
particularmente se soporta en una herramienta, tiene su propia facilidad de
almacenamiento de los metadatos y capacidades de acceso.

Metadatos del Warehouse

Catálogo de
Usuarios
metadatos o
Técnicos
Repositorio

Extracción Usuarios
de datos de la
empresa
Data warehouse

Conceptualmente, el repositorio de los metadatos reside fuera del sistema y se


accede por todos los componentes como sea necesitado.

45
Diplomado en Bases de Datos

Manejo de los Metadatos

Usuarios

ACCESO Data Marts


Metadatos

MANEJO
DE
ALMACÉN
Metadatos Data Warehouse

FUENTE
Metadatos Datos
Operacionales

Los metadatos se usan por todos los procesos dentro del warehouse y pueden
almacenarse en niveles diferentes dentro de la arquitectura. Dado que los
metadatos no son comunes en todas las herramientas, se necesita ser creativo
al desarrollar una estrategia para la administración de los metadatos.

Considerar los siguientes acercamientos para la administración de los


metadatos, hasta que todas las herramientas puedan compartir el mismo
metadato:
• Crear una capa de metadatos de middleware.
• Emplear un proceso de administración manual disciplinado y riguroso.

Middleware
Aunque las herramientas no pueden compartir los metadatos, hay herramientas
que manejan los metadatos independientemente. En la arquitectura del
warehouse, esta capa de middleware colecciona y almacena todas las
definiciones usadas por cualquier proceso o base de datos. Actúa como
administrador central, haciendo pensar en los cambios del modelo para
acomodar el uso real del warehouse.

46
Data Warehouse

Nota:

1 Middleware es la capa de software entre la lógica de la aplicación del usuario final y


los niveles más bajos de tecnología. Existen diferentes modalidades de middleware según
su función y la forma de operar.

2 Otro nombre para identificar Mainframes o grandes computadores con tecnología


propietaria.

3 Forma de computación distribuida cooperativa.

Administración manual disciplinada y rigurosa


Un proceso manual puede requerir guardar los metadatos dispersos
sincronizados hasta que un estándar sea establecido. El proceso manual rastrea
independiente los metadatos dentro de cada herramienta, y comparte los
metadatos para asegurar la consistencia en las aplicaciones y procesos. Los
metadatos se manejan en una serie de hojas de cálculo, un servidor, o, en el
peor caso, en papel.

47
Diplomado en Bases de Datos

VI. Protagonistas
PROTAGONISTAS

D B2 M anager Teradata

•Sybase
•Inform ix A rdent
W arehouse Studio
M etaCube
D ataStage Suite

Business O bjects
•Inform atica
Pow erCenter •CO G N O S
Pow erM art Adquisición de Pow erPlay
PRODUCTOS Bases de Datos Usuario Final
Pow erPlug Información (ETC)
DB2 Warehouse Manager

Teradata Warehouse Suite

ORACLE Warehouse Builder

MetaCube

DataStage

Warehouse Studio

Business Objects

PowerCenter
PowerMart
PowerPlug *

PowerPlay

48
Data Warehouse

Glosario
Agregación: Actividad de combinar datos desde múltiples tablas para formar
una unidad de información más compleja, necesitada frecuentemente para
responder consultas del DataWarehouse en forma más rápida y fácil.

Data Warehouse: Base de datos que almacena una gran cantidad de datos
transaccionales integrados para ser usados para análisis gestionales por
usuarios especializados (tomadores de decisión de la empresa).

DataMart: Conjunto de hechos y datos organizados para soporte decisional


basados en la necesidad de un área o departamento específico. Los datos
son orientados a satisfacer las necesidades particulares de un departamento
dado teniendo sólo sentido para el personal de ese departamento y sus datos
no tienen porque tener las mismas fuentes que los de otro DataMart.

Dataminig: Análisis de los datos para descubrir relaciones, patrones, o


asociaciones desconocidas.

Diccionario de Datos: Un compendio de definiciones y especificaciones para


las categorías de datos y sus relaciones.

Dimensión: Entidad independiente dentro del modelo multidimensional de una


organización, que sirve como llave de búsqueda (actuando como índice), o
como mecanismo de selección de datos.

Drill Down: Exponer progresivamente más detalle (dentro de un reporte o


consulta), mediante selecciones de ítemes sucesivamente.

Drill-Up: Es el efecto contrario a drill-down. Significa ver menos nivel de detalle,


sobre la jerarquía significa generalizar o sumarizar, es decir, subir en el árbol
jerárquico.

DSS: Sistema de Soporte de Decisiones. Sistema de aplicaciones automatizadas


que asiste a la organización en la toma de decisiones mediante un análisis
estratégico de la información histórica.

49
Diplomado en Bases de Datos

ETT (Extracción, Transformación y Transporte de datos) : Pasos por los que


atraviesan los datos para ir desde el sistema OLTP ( o la fuente de datos
utilizada) a la bodega dimensional. Extracción, se refiere al mecanismo por
medio del cual los datos son leídos desde su fuente original. Transformación
(también conocida como limpieza) es la etapa por la que puede atravesar una
base de datos para estandarizar los datos de las distintas fuentes,
normalizando y fijando una estructura para los datos. Finalmente está el
Transporte, que consiste básicamente en llevar los datos leídos y
estandarizados a la bodega dimensional (puede ser remota o localmente).
Generalmente, para un Data Mart no es necesario atravesar por todos estos
pasos, pues al ser información localizada, sus datos suelen estar
naturalmente estandarizados (hay una sola fuente).

Jerarquía : Es un conjunto de atributos descriptivos que permite que a medida


que se tenga una relación de muchos a uno se ascienda en la jerarquía.

Por ejemplo : los Centros de Responsabilidad están


asociados a un Tipo de Unidad, el cual pueden corresponder
a una gerencia, subgerencia, superintendencia, etc.; por otro
parte, cada CR está asociado a otro CR a nivel
administrativo y, también existe una clasificación a nivel
funcional.

Limit : Comando propio del lenguaje Express, que permite seleccionar los datos
a visualizar. Limita el acceso a los datos dejando ‘ìnvisible’ o no accesible el
resto de ellos.

Olap (On-line Analytical Processing) : Conjunto de principios que proveen una


ambiente de trabajo dimensional para soporte decisional.

Oltp (On-line Transaction Processing) : Sistema transaccional diario (o en


detalle) que mantiene los datos operacionales del negocio.

Rollup : Comando propio del lenguaje Oracle Express, que simboliza las sumas
agregadas de una variable a través de los niveles jerárquicos de las
dimensiones que la sustentan.

Snapshot : Imagen instantánea de los datos en un tiempo dado.

50
Data Warehouse

Sumarización : Actividad de incremento de la granularidad de la información en


una base de datos. La sumarización reduce el nivel de detalle, y es muy útil
para presentar los datos para apoyar al proceso de Toma de Decisiones.

Tabla Dimensional : Dentro del esquema estrella, corresponde a las tablas que
están unidas a la tabla central a través de sus respectivas llaves. La cantidad
de estas tablas le otorgan la característica de multidimensionalidad a esta
estrategia.

51

También podría gustarte