邮件订阅
首页 > 软件

数据仓库本质解析及典型设计技巧

我也说几句2010年06月06日 21:56分         作者:CNW.com.cn      来源:论坛

摘要:数据仓库究竟是什么?它和事务交易处理系统(OLTP)又有什么区别?初次接触它的朋友往往觉得它很神秘、很复杂,其实不然。今天就和大家来认识一下数据仓库的本质,以及在实施商务智能过程中它的一些设计技巧。

关键字典型设计  商务智能  数据仓库  

数据仓库究竟是什么?它和事务交易处理系统(OLTP)又有什么区别?初次接触它的朋友往往觉得它很神秘、很复杂,其实不然。今天就和大家来认识一下数据仓库的本质,以及在实施商务智能过程中它的一些设计技巧。

Ralph Kimball,数据仓库(Data Warehouse,DW)领域最权威的专家之一,曾下过这样的结论:BI系统=数据仓库。或许这种说法有一定的片面性,经不起咬文嚼字的推敲,但从中我们却不难看出数据仓库在BI系统中举足轻重的地位。

仔细想想,的确如此。几乎所有的BI项目,都是在数据仓库这个“大舞台”之上“演出”的,它就像是BI系统的心脏,源源不断地为前端提供新鲜的血液——最新的业务数据,有了这些数据,我们才会看到前端详尽的报表、直观的分析和神奇的预测。

数据仓库究竟是什么呢?它和事务交易处理系统(OLTP)又有什么区别?初次接触它的朋友往往觉得它很神秘、很复杂,其实不然。今天就和大家来认识一下数据仓库的本质,以及在实施商务智能过程中它的一些设计技巧。

概念解析

目前,关于数据仓库的定义有很多种,都是从不同的角度和层面概括的。著名数据仓库专家W.H.Inmon在其著作《Building the Data Warehouse》一书中有过如下描述:数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、稳定的(Non-Volatile)、随时间不断变化(Time Variant)的数据库系统,主要用于企业的决策支持。对于上述概念,结合与OLTP系统的比较,我们可以从以下几个方面来理解数据仓库:

“遗传”性 从 “数据库”到“数据仓库”,虽然多了一个“仓”字,但却没有改变它数据库的“本性”。从物理上来讲,它依然是一个关系型的数据库,表、字段、主键、索引、 键约束等概念,在数据仓库中依然存在,无论数据的组织方式还是在表中二维的存放,数据的存储规则也基本遵循关系型数据库的各种范式。从这个层面来看,数据 仓库与普通的数据库系统并无本质区别。

主题性 OLTP系统是被设计用来处理和存储事务交易数据 的,通常一个企业内存在多个OLTP系统,各自之间相互独立。而数据仓库是被设计用来进行决策支持,主要是进行数据分析,因此它的数据组织方式是按主题划 分的。主题是一个抽象的概念,是指用户使用数据仓库进行分析时所关注的具体的业务领域。如一个企业的数据仓库中可能包含了财务系统、销售系统、库存系统、 人力资源系统等方面的数据,它们都被划分为一个主题(通常对应着一个数据集市)。

集成性 所谓“ 集成”,也是与OLTP系统相比较而言。OLTP系统通常是与某些特定的应用相关的,数据库之间相互独立,结构不一。而数据仓库中的数据是对原有独立的、 分散的、异构的各种OLTP系统(包括文本文件、半结构化文件)中的数据进行了大汇总,并对这些数据进行了清洗和转换,消除了其中的不一致性,统一规范了 数据格式,保证了这些数据是关于整个企业的全局性数据。

稳定性 OLTP系统由于面向事务操作,经常会有增、删、改等操作,所以其中的数据会经常更新。而数据仓库的数据主要供企业决策分析使用,所涉及的数据操作主要是数据查询。数据一旦进入数据仓库,将会被长期保存,一般不会进行修改和删除操作,通常只需要定期进行加载和刷新。

时变性 既 “稳定”又“时变”,听起来有些矛盾,这更为数据仓库增添了几分神秘色彩。这里说的时变,指的是其中的数据不是一成不变的,而是按一定的时间间隔进行更新 的。随着OLTP系统数据的积累,新的数据按时经过转换加工后被源源不断地抽取到数据仓库中。只有数据不断更新,新数据不断的注入,我们基于数据仓库进行 的前端分析展现的结果才会更符合企业当前的实际状况,来有效地辅助企业决策。

“外观”解析

前面提到,数据仓库在物理上仍然是一个关系型的数据库系统,那从外观上来看,数据仓库有什么特点呢?如图1所示,是一个比较典型的数据仓库(准确地说是一 个数据集市),大家可以看到,与普通的数据库不同,其中的表都以“Dim”或“Fact”开始,这是因为数据仓库中的数据不外乎维度数据和事实数据(元数 据除外),为了我们直观上容易判断和以后多维建模过程中便于识别,我们通常在维度表的表名前加“Dim”,在事实表的表名前加“Fact”,当然,这只是 一种良好的命名习惯,并不是必须这样来命名。

地位解析

数据仓库在整个BI的流程中的地位可以概括为“承前启后”。所谓“承前”,正如前面所提到的,它汇总了来自异构数据源的、经过清洗整合后的数据, 使数据与业务系统脱离,保障了业务系统的安全和效率;所谓启后,是因为它为以后建设多维数据库做好了准备,是建立多维数据库的基础和平台。

更多相关文章
更多相关专题
[专题]IBM软件:云时代的黄金盛宴
IBM连续发起了对Lotus、Tivoli、Informix、Rational等领先软件企业的重量级收购,组建起业内最为丰富的中间件产品家族,并成长为全球最大的企业级软件提供商。
年终巨献 2010软件业界大事记盘点
2010即将过去,在这一年中必然有几家欢喜几家愁,有成有败。软件行业也不例外。今年软件业界出现的新潮流主要有社交网站Facebook、Twitter等与软件进行整合,网络地图...
我也说几句
  • 频道周TOP10
  • 频道月TOP10
最新发布
更多重磅专题
Fortinet全方位安全产品与...
Fortinet公司是全球领先的网络安全设备供应商和统一威胁管理(UTM)市场领...
RSA安全大会2013全程直击
RSA大会是信息安全界最有影响力的业界盛会。21年来,RSA大会一直吸引着世界...
E5的盖头掀起来
北京时间3月7日下午,英特尔在中国正式发布英特尔至强处理器E5-2600/1600产...