数据仓库项目:从挑战到成功的蜕变
立即解锁
发布时间: 2025-08-20 01:52:03 订阅数: 1 


数据库技术与应用案例精选
### 数据仓库项目:从挑战到成功的蜕变
在当今竞争激烈的商业环境中,数据仓库对于企业的发展起着至关重要的作用。下面将详细介绍一个数据仓库项目的发展历程,包括其建设、实施、运维阶段所面临的挑战,以及最终为企业带来的显著效益。
#### 1. 数据仓库建设决策
数据仓库的建设目的明确,即取代并扩展原有的执行信息系统(EIS),但这一任务并不轻松,需要做出诸多相关决策。其中,数据库的构建是一项重要决策。过去,相关企业的主要数据库采用的是层次结构,而非关系型结构。不过,已经有一定规模的DB2(IBM的关系型数据库引擎)应用。最终,建设团队决定不采用层次结构作为数据仓库的基础,原因在于团队认为自身在关系型领域具备专业知识,能够从关系型模型中获取数据仓库所需的功能。此外,团队在逻辑和物理层面维护关系型模型方面拥有更丰富的经验,而且从软件可用性和用户对数据本质的直观理解来看,用户会觉得关系型模型更易于使用。
#### 2. 建设阶段
- **目标与操作步骤**:此阶段的主要目标是对设计进行技术实现。具体操作步骤如下:
1. 使用特定供应商的平台构建数据库。
2. 对数据库进行优化,并利用之前设计的数据提取流程填充数据。
3. 通过与最终用户的交互过程对数据库进行微调。
4. 创建元数据,它是数据仓库中存储数据的目录。
- **数据库平台选择**:团队考虑了多个数据库平台,如Oracle、Cognos、Informix等。最终选择了Informix,原因是企业对当前的Informix应用感到满意,并且认为Informix引擎的概念设计从长远来看更为优越。Informix是一个完全关系型的数据库,基于UNIX系统,并且拥有多个可与之配合使用的OLAP工具,是客户/服务器关系型数据库领域的主要参与者。
- **OLAP软件选择**:在选择OLAP软件时,也有多个候选者。最终决定采用BRIO Technology的BrioSuite软件,因为该软件具备其他工具的所有功能,而且其主要优势在于易于使用。在1996 - 1997年冬季,BRIO的软件明显更容易上手和使用,学习曲线较短,这对于用户来说非常重要,因为非技术用户也能广泛使用该软件,短的学习时间有助于他们快速开展工作。
#### 3. 实施阶段
- **主要活动与操作步骤**:该阶段的主要活动包括对系统输出的准确性、健壮性和可靠性进行测试和评估,对最终用户进行培训,以及最终进行系统部署。具体操作步骤如下:
1. 在1996 - 1997年冬末,项目正式启动。完成数据库设计,明确硬件和软件需求,并分配当前和未来阶段所需的人力资源。
2. 购买初始数据库服务器以及Informix和BRIO软件。
3. 由于用户深度参与了数据需求的构建,用户培训主要包括对可用信息及其更新周期的回顾。用户参加BRIO课程并接受SQL方面的指导。
4. 一切准备就绪后,推出第一个应用程序。
- **实际应用**:1998年初秋,沃尔玛数据仓库投入使用。沃尔玛是该企业最大的客户,能够及时提供库存和销售信息,并且在补货信息和店铺设计反馈方面要求严格。从沃尔玛的实施开始,陆续增加了其他供应商,如凯马特、西尔斯等大型零售商店。
- **物理架构**:数据仓库物理上存储在两台HP服务器上,数据量接近1TB,系统在UNIX环境下运行。由于存储空间始终有限,服务器需要不断进行需求评估和升级。
#### 4. 运维阶段
- **硬件与系统软件支持**:由三人负责数据仓库的硬件和操作系统软件支持,其中包括两名Informix数据库管理员和一名团队经理。该团队负责设计变更,确保数据仓库正确加载并可供用户使用。每周周末进行一次重大更新,周内也会进行其他更新。数据仓库中存储的信息与IBM的Inforem软件结合使用,以运行补货模型,并存储补货模型的信息用于分析。模型给出建议后,这些计划会被批准或修改,然后进行商品重新订购。
- **用户区域支持**:有两名数据专家负责为用户创建可查询的表格并编写专门的查询语句,同时协助维护数据仓库的正常运行。该职位要求具备丰富的业务知识以及对数据结构和SQL的深入理解。
- **用户情况**:用户数量和专业水平各不相同。企业的产品/品牌经理及其员工是数据仓库的主要目标用户。由于企业拥有多个品牌,用户群体从20人以上不等,而且数据仓库的信息在整个公司内广泛传播。一些用户在使用数据仓库工具方面更为熟练,能够自己编写查询语句或建议创建新的表格和数据字段,而另一些用户则严格要求为他们编写查询语句。
以下为该数据仓库项目建设、实施和运维阶段的流程图:
```mermaid
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(建设阶段):::process --> B(选择数据库平台):::process
A --> C(选择OLAP软件):::process
B --> D(构建数据库):::process
D --> E(优化与填充数据):::process
E --> F(微调数据库):::process
F --> G(创建元数据):::process
C --> G
G --> H(实施阶段):::process
H --> I(测试与评估):::process
H --> J(用户培训):::process
H --> K(系统部署):::process
K --> L(运维阶段):::process
L --> M(硬件与系统软件支持):::process
L --> N(用户区域支持):::process
L --> O(用户使用):::process
```
#### 5. 开发挑战
- **数据库设计挑战**:开发团队面临的第一个重大挑战是数据库设计。数据库设计需要将遗留数据资源转换为数据仓库结构。从决策支持的角度来看,维度建模(DM)方法被认为是设计数据库的最佳方式,它具有以下优点:
- 维度模型具有可预测性和标准性,使用“强假设”访问数据比使用基于成本的E - R查询优化器更快。
- 所有维度表等价,查询可以从任何点进入事实表。
- 维度模型具有“优雅可扩展性”,即现有事实和维度表可以通过添加新数据行或使用SQL alter命令进行更改,更改后查询和报告工具无需更改,旧查询或报告的结果保持不变。然而,企业在这种设计方法上经验有限,其专业知识主要集中在关系型建模方面。最终,企业使用关系型表格基于维度模型的概念构建了数据仓库。
- **数据库结构**:数据仓库分为三个数据库,分别针对大型零售商、小型零售商和其他或大规模销售。每个数据库又分为多个部分,在企业内部称为存储库,每个存储库分配给一个特定的零售商。每个存储库有多个表格,表格结构在存储库之间基本相同,但也有重要的例外,存储库之间不共享表格,每个存储库都是唯一的。这种结构对于用户来说很重要,他们可以登录到特定的零售商,构建或使用相同的查询来挖掘数据库,而无需担心区分不同零售商的数据。此外,单独的存储库也更易于实施安全措施。
- **表格组织**:表格是关系型的,代表了维度建模方法中事实/维度的组织方式。这种技术通过为业务任务创建维度表来更紧密地模拟业务流程,而不是像E - R技术那样创建关系型数据模型。维度表与事实表相关联,事实表包含了大部分查询所需的数据。维度表通过星型连接与维度表/事实表组合相连,使用户能够更快且更符合业务流程逻辑地访问数据。事实通常存储在单独的表格中,维度相应关联,这使得数据仓库的用户能够以维度方式分析数据,同时保留关系型模型的优点。VF补货仓库包含多个维度的信息,如时间、产品、品牌和数量等,每个维度都有助于进一步区分销售情况。
- **数据提取、清理和转换挑战**:数据仓库规划和开发团队面临的最大挑战是数据提取、清理和转换。据估计,在大多数数据仓库开发项目中,数据提取和转换过程可能会占用整个项目分配资源的80%。即使是高质量的数据在使用前也必须进行清理。
- **操作步骤**:
1. 团队从企业多年来使用的主文件中提取数据,并对多年的数据完整性进行验证。
2. 通过从运营系统中提取和转换顺序文件来获取数据,创建要加载到数据仓库Informix数据库中的顺序文件。运营系统是管理日常业务活动的在线和批处理程序的组合。
3. 通过EDI捕获的数据输入到遗留大型机补货系统中,然后通过下载更新传递到数据仓库。
4. 数据存储在层次结构和关系型数据库中,这些数据库每晚在批处理系统中进行处理,创建反映日常业务活动的顺序文件。
5. 转换过程根据活动情况创建添加和修订记录。如果有新的销售记录,则添加新的事实;如果发生销售退货,则修订销售和库存数据。
6. 初始加载过程复杂且缓慢,因为需要将所有适用的销售历史处理成合适的格式,这需要花费数月时间从存档数据中创建文件。
7. 整个提取、转换和验证过程耗时较长,但最终取得了成功。设计了一个验证系统来交叉检查数据仓库和运营数据。
8. 大型机处理完成后,通过FTP将文件(包括维度和事实)发送到RS/6000。
9. 进行数据库备份,刷新维度数据和事实表,构建索引,然后重新启动数据库。
- **数据库演变**:从1997年1月到1998年夏末,大部分时间用于数据清理和重新分析。数据库通过许多迭代步骤不断演变,信息需求发生变化,新的字段被添加。
- **管理和战略挑战**:开发团队面临的另一个重大挑战并非技术层面,而是管理层面。问题在于零售楼层空间管理(RFSM)团队依赖数据仓库作为其信息来源。由于RFSM项目的许多部分与数据仓库同时开发,许多RFSM需求直到开发开始后才被确定。在建设开始之前,没有充分理解这两个问题的影响。
- **需求与挑战**:RFSM项目需要准确和深入的销售信息,而大部分所需信息存在于遗留大型机补货系统中,当前的EIS无法以RFSM团队所需的多种方式提供销售信息。RFSM项目的其他部分除了原始规格外,还要求其他数据字段和查询,这使得数据仓库的数据库设计成为一个不断变化的目标。RFSM和数据仓库团队不断向数据仓库添加新信息。
- **数据质量控制**:由于数据仓库的重要性日益增加,数据质量不断受到审查。在整个过程中,将遗留系统和遗留系统馈送的信息与数据仓库进行验证,所有数据都受到质疑,特别是为数据仓库创建的新字段。在开发过程中持续进行数据测试,并在生产前进行最终系统检查。
- **项目管理特点**:数据仓库是零售楼层空间管理项目的一部分,同时将Wrangler和Lee纳入VF JeansWear也是一项重大任务。因此,数据仓库的管理需要与正常的信息系统项目管理标准有所不同。该项目之所以成功,是因为信息系统工作人员和项目团队对业务流程有深入的了解和丰富的经验。这意味着设计和项目建设中的延误是由于对数据仓库不熟悉,而不是业务目标不明确。这种专业知识使企业能够在正常项目开发范式之外运行该项目。通常情况下,中央分析师会从项目开始到实施甚至后续阶段协调所有活动,但对于这个项目,不同的经理负责项目的一部分,通常是当项目涉及到他们的专业领域或信息系统小组时。用户的参与度非常高,由JeansWear的品牌总监领导。随着项目的进展,监督项目的委员会也不断演变。
#### 6. 组织效益
- **业务支持与市场份额提升**:POS/补货数据仓库对VF的JeansWear部门产生了重大影响。它有助于用VF的商品重新填充零售商的楼层空间,并且能够对商品的流动进行实时分析。计划将其结构作为公司范围内包含POS/补货数据的数据仓库的基础。这种EIS/数据仓库的组合对VF非常有利可图且具有战略重要性,它减缓了设计师品牌和商店品牌的侵蚀,帮助VF在牛仔裤业务中增加了市场份额。
- **供应链优化**:POS/补货系统及其相关的数据仓库加强了VF JeansWear与其零售商之间的关系。随着VF更好地预测产品需求,其补货呈现出即时性的特点。产品的前置时间缩短,库存水平(包括VF和零售商)下降,商品缺货情况减少,并且VF使用的零售空间经过重新设计以更好地满足客户的购买习惯。这种安排对VF和其零售商都有益。
- **沟通改善**:VF与零售商之间的沟通得到了改善。由于双方都对VF的补货计划的成功有重大利益关系,因此双方都提供和接收销售信息。一些零售商进行了数据收集方面的更改,以便VF能够更准确地跟踪销售情况。这种改善的沟通是双向的,小型零售商提供他们能够提供的详细信息,与小型零售商共享的信息有助于他们开发VF产品区域和类似商品。大型零售商(如沃尔玛)在自己的系统中积累了非常详细的信息,并将其反馈给VF,VF利用这些数据进行需求预测、研究需求和验证当前数据。
- **市场份额与利润增长**:尽管Wrangler一直有某种形式的模型库存分析,但EIS和数据仓库的引入可以追溯到1990年左右。在1990年,Lee和Wrangler牛仔裤占总牛仔裤销售额的18%,到1998年,这一比例上升到25%,在每年100亿美元的牛仔裤市场中。分析师指出,VF能够进行微观营销是其在竞争对手Levi's因设计师品牌和自有品牌而失去市场份额时获得市场份额的主要原因。可以推测,如果没有模型库存计划,Wrangler和Lee可能会像Levi's一样失去市场份额。据估计,1998年市场份额从18%增加到25%的7个百分点中,约有4个百分点可归因于数据仓库。这将带来额外4亿美元的销售额,约占JeansWear销售额的七分之一。假设VF的公司毛利率为25%,这意味着仅在1998年,约有1亿美元的利润可能归因于POS/补货计划的成功。
- **管理与决策支持**:品牌经理及其员工现在可以以前所未有的方式挖掘数据仓库。通过数据仓库和BRIO的OLAP工具,可以获得以前无法获得或不准确的管理报告。
- **合作关系改善**:数据仓库带来的另一个显著好处是VF与其零售商之间更紧密的制造商/零售商关系。在一些零售商处,VF自行管理零售空间。零售商不再以传统方式向VF下订单,而是VF根据双方商定的约束条件告诉零售商将在其楼层放置什么商品以及如何放置。这为零售商节省了时间和金钱,同时最大化了销售额,实现了双赢的局面。
综上所述,这个数据仓库项目虽然面临诸多挑战,但通过合理的决策、有效的实施和持续的管理,最终为企业带来了显著的效益,提升了企业在市场中的竞争力和盈利能力。
### 数据仓库项目:从挑战到成功的蜕变
#### 7. 数据仓库项目的关键成功因素分析
为了更好地理解该数据仓库项目成功的原因,我们可以从多个方面进行分析,以下是一些关键的成功因素:
|成功因素|详细说明|
| ---- | ---- |
|技术选型合理|在数据库平台选择上,选择了Informix,因其是完全关系型数据库,基于UNIX系统且有多个OLAP工具配合,同时企业对其现有应用满意且认为其概念设计长远来看更优。OLAP软件选择了BRIO Technology的BrioSuite,该软件功能齐全且易于使用,学习曲线短,适合非技术用户广泛使用。|
|用户深度参与|从数据需求构建阶段,用户就深度参与其中。在实施阶段的用户培训,也是基于用户前期的参与情况,主要进行可用信息及其更新周期的回顾,以及BRIO课程和SQL指导。高用户参与度使得系统更贴合实际业务需求。|
|团队专业能力|信息系统工作人员和项目团队对业务流程有深入了解和丰富经验。虽然在数据仓库开发上经验有限,但凭借对业务的熟悉,能够在不熟悉数据仓库的情况下,保证项目朝着正确的业务目标前进,并且能够灵活应对各种挑战。|
|灵活的项目管理|项目没有采用传统的由中央分析师全程协调的方式,而是不同的经理负责项目涉及到自己专业领域或信息系统小组的部分。这种灵活的管理方式适应了项目跨多个业务单元、需求不断变化的特点,使得项目能够根据实际情况进行调整。|
|数据质量控制严格|在整个项目过程中,数据质量始终受到严格审查。从数据提取时对多年数据完整性的验证,到开发过程中对遗留系统和遗留系统馈送信息与数据仓库的持续验证,以及生产前的最终系统检查,确保了数据的准确性和可靠性。|
#### 8. 数据仓库项目对企业未来发展的启示
该数据仓库项目的成功为企业未来的发展提供了许多有价值的启示:
- **重视数据资产**:数据已经成为企业的重要资产,通过构建数据仓库,企业能够整合和利用这些数据,为业务决策提供支持。企业应将数据管理提升到战略层面,加强对数据的收集、存储、分析和利用。
- **持续创新与改进**:数据仓库项目不是一次性的工作,而是一个持续的过程。随着业务的发展和市场环境的变化,企业需要不断对数据仓库进行优化和改进,以满足新的业务需求。例如,在该项目中,数据库通过许多迭代步骤不断演变,信息需求发生变化时及时添加新的字段。
- **培养复合型人才**:数据仓库项目需要既懂技术又懂业务的复合型人才。企业应加强对员工的培训和培养,提高员工的技术水平和业务能力,以适应数据驱动的业务发展需求。在该项目中,数据专家需要具备丰富的业务知识以及对数据结构和SQL的深入理解。
- **加强合作伙伴关系**:数据仓库项目的成功离不开与合作伙伴的紧密合作。在该项目中,VF与零售商之间通过数据共享和沟通,实现了供应链的优化和业务的共同发展。企业应加强与合作伙伴的合作,建立互利共赢的合作关系。
#### 9. 对比其他数据仓库项目案例
为了更全面地了解该数据仓库项目的特点和优势,我们可以将其与其他数据仓库项目案例进行对比:
|对比维度|本数据仓库项目|其他部分数据仓库项目|
| ---- | ---- | ---- |
|数据库设计|采用基于维度模型概念的关系型表格设计,将数据仓库分为三个数据库,多个存储库,每个存储库有独立表格,便于用户查询和数据安全管理。|部分项目可能采用传统的E - R关系型模型设计,或者在维度建模上不够完善,导致数据查询效率和灵活性较差。|
|数据提取与转换|从遗留系统中提取数据,经过复杂的提取、清理、转换过程,耗时较长但保证了数据质量。初始加载需处理多年销售历史数据。|有些项目可能对数据提取和转换的重视程度不够,导致数据质量问题,或者在处理历史数据时缺乏有效的方法。|
|项目管理|采用灵活的项目管理方式,不同经理负责涉及自己专业领域的部分,用户参与度高。|部分项目可能采用传统的集中式项目管理方式,对变化的响应速度较慢,用户参与度相对较低。|
|效益体现|在市场份额提升、供应链优化、沟通改善、利润增长等多个方面取得显著效益。|有些数据仓库项目可能只在某一个或几个方面取得一定效益,整体效益不够全面。|
通过对比可以看出,本数据仓库项目在数据库设计、数据处理、项目管理和效益体现等方面具有一定的优势,这些优势也是其能够成功的重要因素。
#### 10. 数据仓库项目的未来发展趋势展望
随着信息技术的不断发展和企业对数据利用需求的增加,数据仓库项目未来可能呈现以下发展趋势:
```mermaid
graph LR
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
A(智能化):::process --> B(自动化数据处理):::process
A --> C(智能数据分析):::process
D(云化):::process --> E(降低成本):::process
D --> F(提高灵活性):::process
G(集成化):::process --> H(与其他系统深度集成):::process
G --> I(数据共享与协同):::process
J(安全强化):::process --> K(数据加密):::process
J --> L(访问控制):::process
```
- **智能化**:未来的数据仓库将更加智能化,实现自动化的数据处理和智能的数据分析。例如,利用机器学习和人工智能技术,自动完成数据清洗、转换和挖掘,提供更精准的数据分析和预测。
- **云化**:越来越多的企业将选择将数据仓库部署在云端,以降低硬件成本和维护成本,提高系统的灵活性和可扩展性。云服务提供商能够提供更强大的计算资源和存储能力,满足企业不断增长的数据需求。
- **集成化**:数据仓库将与企业的其他信息系统进行更深度的集成,实现数据的共享和协同。例如,与企业资源规划(ERP)系统、客户关系管理(CRM)系统等集成,为企业提供更全面的业务视图。
- **安全强化**:随着数据泄露事件的不断增加,数据安全将成为数据仓库项目的重中之重。未来的数据仓库将采用更先进的安全技术,如数据加密、访问控制、安全审计等,保障数据的安全性和隐私性。
#### 11. 总结
这个数据仓库项目从建设到运维,虽然面临了数据库设计、数据提取与转换、管理和战略等多方面的挑战,但通过合理的技术选型、用户深度参与、专业的团队能力、灵活的项目管理以及严格的数据质量控制,最终取得了成功。该项目为企业带来了显著的组织效益,包括市场份额提升、供应链优化、沟通改善、利润增长等。同时,项目的成功也为企业未来的发展提供了宝贵的经验和启示,如重视数据资产、持续创新改进、培养复合型人才和加强合作伙伴关系等。对比其他数据仓库项目案例,本项目在多个方面具有优势。展望未来,数据仓库项目将朝着智能化、云化、集成化和安全强化的方向发展。企业应充分认识到数据仓库的重要性,不断探索和实践,以适应不断变化的市场环境和业务需求,提升自身的竞争力和盈利能力。
0
0
复制全文
相关推荐










