
数据仓库建模
文章平均质量分 58
Cormier-an
且行且思
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
设计点击流数据仓库时遇到的挑战
目前在做一个有关网站点击流信息方面的数据仓库(集市)项目,一开始发现存在着很多难以完美解决的挑战1.丢失的来源 点击流信息库当中会比较在意会话的来源,来源网页,来源搜索相关的关键字、搜索引擎等相关信息 但是不管如何,总是会存在着会话来源丢失的问题,这可能跟访问者所使用的浏览器设置,以及其他一些因素有关 。这部分丢失的数据会占到整个数据的10-20%左右,如何找回这部分丢失的原创 2013-09-07 15:24:02 · 1286 阅读 · 0 评论 -
SQL Server 2008-数据仓库查询性能
SQL Server 2008数据仓库查询性能Sunil Agarwal and Torsten Grabs and Dr. Joachim Hammer 概览:星型联接查询优化分区表并行处理ROW 和 PAGE 压缩分区对齐的索引视图较前期同类产品相比,SQL Server 2008 将提供功能更为强大的关系数据仓库,但是您可能转载 2013-09-18 15:34:43 · 1653 阅读 · 0 评论 -
ETL----如何决定是否采用ETL工具
ETL工具还是手工编码(购买工具集还是自己写程序?) 在《智能企业》杂志的一篇精彩的文章(2003.5.31,Ralph Kimball编辑)中,Gary Nissen对这个问题总结概括后,回答是:“看情况”。我们展开来分析一下Gary的观点。 基于ETL工具的优势 根据某个ETL工具厂商的说法:“一个有价值的工具目的不在于能够解决琐碎的问题,而是要原创 2013-10-06 16:15:09 · 2741 阅读 · 1 评论 -
SQL Server-高效维护数据库的关键技巧
SQL Server高效维护数据库的关键技巧Paul S. Randal 概览:管理数据和事务日志文件清除索引碎片确保统计数据准确、最新检测遭到破坏的数据库页建立有效的备份策略 目录数据和日志文件管理 索引碎片 统计数据 损坏检测 备份 总结 在一周之内多次有人向我转载 2013-09-18 15:46:02 · 1049 阅读 · 0 评论 -
ETL----如何抽取变化的数据
在初始化加载时,捕获源数据中的数据内容的变化不是很重要,因为很可能会导出整个数据源或其中的一部分。然而一旦初始加载完成,捕获源系统中的数据变化立即变成非常重要的任务。如果等到初始加载完成才开始规划数据变化的捕获技术,则将遇到很大的麻烦,捕获数据变化绝不是一个简单的任务,必须制定相应的策略来在项目中捕获源数据中不断增长的变化。 ETL 小组在后续的加载过程中负责捕获数据内容的变化原创 2013-10-08 10:51:56 · 3431 阅读 · 1 评论 -
ETL----源业务系统数据库跟踪报告
一旦源系统被确定,就要说明这些系统的意义以及谁对他们负责。下图就是为这个目的建立的图表。这个图表,也就是源系统跟踪报告,使得我们不用总是麻烦系统管理员或者业务管理者。如果走运的话,数据建模工程师将开始制作这个列表。不管谁定的初稿,这个列表的维护应该是ETL小组和数据建模小组共同努力来完成。如果在分析过程中认为一个源系统不适合作为数据仓库的源,保留它在这个列表中,并说明不使用它的原因;可能在后续阶段原创 2013-10-07 15:26:13 · 1525 阅读 · 0 评论 -
ETL----数据表规模估算表
规模估算表中列出了集结区中每张表的如下信息: 表名称。在集结区中的表或者文件的名字。在计算表中每个集结表都占用一行。 更新策略。这个字段表明表的维护方式。如果是一个永久表,可能的策略为追加数据、更新或删除。如果是临时集结表,在每个过程中都会被删减和重新加载。 加载频率。ETL 过程对表中的数据以什么样的频率加载和更改。通常是每日一次。还可以为每周、每月或者任意的时间间原创 2013-10-06 17:45:48 · 1840 阅读 · 1 评论 -
BI通用流程的设计
BI流程:原创 2013-09-04 10:12:22 · 1950 阅读 · 0 评论 -
ETL----从源数据到数据仓库的逻辑数据映射
逻辑数据映射的组成 逻辑数据映射(见下图 )通常用一个表或者电子表格格式来表示,它包括以下特定的组成部分: 目标表名称:数据仓库中出现的物理表名称;目标列名称:数据仓库表中的列名称; 表类型:表示这个表是事实表,维表或者子维表(支节) SCD(缓慢变化维)类型:对维表,这个部分表示是类型1,类型2或者类型3的缓慢变化维。这个指标对维表中的不同的列可以是不同的。原创 2013-10-07 15:00:28 · 6656 阅读 · 0 评论 -
数据仓库多维建模笔记
《数据仓库工具箱—维度建模的完全指南》笔记一、数据仓库体系结构和建模过程、技巧关键点:数据仓库体系结构、维度建模的四个步骤、数据仓库总线结构、一致性维度。1、对于数据仓库DW来说,业务需求是第一位的。2、数据仓库的目标: 1)、随心所欲的访问数据。直观、明显、简单、易用、切割、合并、下钻、上卷; 2)、一致的展现数据(相对于原来从多个系统中出来的报表不一转载 2013-10-02 09:48:05 · 2778 阅读 · 0 评论 -
ETL---数据清洗转化
1、数据清洗数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据和重复的数据三大类。 A、不完整的数据 其特征是是一些应该有的信息缺失,如供应商的名称,分公司的名称,客户的区域信息缺失、业务系统中主表与明细表不能匹配等。需要将这一类数据过滤出来,按缺失的原创 2013-09-14 11:13:56 · 4796 阅读 · 0 评论 -
多维模型---不可累加度量(求和之外的度量聚合)
定义半累加性行为在很多业务方案中,半累加性度量值是非常常见的,它不在所有维度中统一进行聚合。 每个基于余额快照的多维数据集都会随着时间的推移而出现此问题。 您可以在用于处理证券、帐户余额、预算、人力资源、保险策略和法律事务以及很多其他业务领域的应用程序中找到这些快照。通过在多维数据集中添加半累加行为,可以为帐户类型属性的单个度量值或成员定义聚合方法。 如果多维数转载 2013-09-12 08:43:11 · 2947 阅读 · 0 评论 -
数据ETL面临的问题----数据缺失
数据缺失的类型有:完全随机缺失(Missing Completely at Random,MCAR):数据的缺失与不完全变量以及完全变量都是无关的;随机缺失(Missing at Random,MAR):数据的缺失不是完全随机的,数据的缺失只依赖于完全变量; 完全非随机缺失(Missing Not At Random,MNAR):数据的缺失依赖于不完全变量自身原创 2013-09-12 09:44:10 · 4259 阅读 · 0 评论 -
社保行业---数据仓库建模
背景介绍熟悉社保行业的读者可以知道,目前我们国家的社保主要分为养老,失业,工伤,生育,医疗保险和劳动力市场这 6大块主要业务领域。在这 6大业务领域中,目前的状况养老和事业的系统已经基本完善,已经有一部分数据开始联网检测。而,对于工伤,生育,医疗和劳动力市场这一块业务,有些地方发展的比较成熟,而有些地方还不够成熟。1.业务建模阶段基于以上的背景介绍,我们在业务建模阶段,就很容易转载 2013-09-04 11:25:46 · 2058 阅读 · 0 评论 -
零售营销-数据仓库建模
第2章 零 售 营 销理解维度建模原理的最佳途径,是通过一系列切实的例子去进行实践。通过观察实际的实例,就能使设计方面的挑战与解决办法了然于心,这比仅仅通过抽象的表述进行学习要有效得多。本书中采用了大量取自诸多行业方面的实例,目的在于使读者不要为自己的业务细节所困扰而得到恰当的设计。如果打算学习维度建模方面的知识,请不妨通读本书各章,即使不从事零售业务或者不在一个电信公司工作也要这样做。转载 2013-09-04 10:50:49 · 7230 阅读 · 0 评论 -
【转】SQL Server 2008数据仓库查询性能
SQL Server 2008数据仓库查询性能Sunil Agarwal and Torsten Grabs and Dr. Joachim Hammer 概览:星型联接查询优化 分区表并行处理 ROW 和 PAGE 压缩 分区对齐的索引视图 较前期同类产品相比,SQL Server 2008 将提供功能更为强大的关系数据仓库,但是您可能仍希望了解如何充分利用这项新转载 2013-09-04 14:16:59 · 2211 阅读 · 0 评论 -
数据仓库开始----范围的确定
数据仓库项目准备完毕后,接着就要考虑设置初始项目的范围。项目的范围需要 IT 机构与业务管理人员一起就进行确定。数据仓库项目范围应该在带给机构的价值与可管理性这两个方面都显得富有意义,避免过于考虑价值而忽略了可操作性。首轮设计开始阶段,应该将注意力集中在来自单个业务处理的数据上,这样可以尽快让用户看到初始原型,以便有进一步的功能需求。 对于那些更有挑战性的交叉处理项目,应该等到以后原创 2013-09-09 09:11:09 · 1062 阅读 · 0 评论 -
数据仓库成功的主要指标
数据仓库项目开始之前,为慎重起见,先花费一点时间评估一下继续行进所需要的机构准备情况。根据从开发实践中积累起来的经验,确定了五个用于区别能够平稳推进的项目与总是出问题的项目的因素。这些因素是衡量数据仓库成功与否的主要指标。虽然并不需要在项目推进过程的每个因素方面都取得高分,但是任何欠缺都意味着风险或者脆弱。1. 最为重要的因素是拥有精明强干的业务赞助人。业务赞助人应该对数据仓原创 2013-09-09 09:36:34 · 4146 阅读 · 0 评论 -
事实表和维表中多对多关系 ----桥接表
桥接表(Bridge Table)是维度建模中的一类比较特殊的表。在数据仓库的建模时,会遇到具有层次结构的维度表,对于这样的表有一种建模方式是建立父子表,即每条记录上包括一个指向其父记录的字段。这种父子表的建立在层级深度可变时尤其有用,是一个紧凑而有效的建模方式。但是这种建模方式也有缺点,就是用标准SQL很难对递归结构进行操作。与这种递归结构的父子表不同,桥接表采用不同的建模方式也转载 2013-09-06 09:21:20 · 7193 阅读 · 0 评论