解读ETL
作者:CNW.com.cn
ETL是商业智能(BI)的重要组成部分。我们先看一下在WIKI中的定义:
ETL,是英文Extract-Transform-Load的缩写,即填充、更新数据仓库的数据抽取、转换、装载的过程。这是实现商业智能之前的数据采集步骤。这一步骤完成之后,对库中数据的数据挖掘、分析处理才可以进行。
对于ETL而言,“是什么”是很容易理解的,也就是将分散的、不易利用的数据进行整理,变成规则清晰的、易于利用的、(可能同时还是)集中的数据。在ETL过程之外,就可以基于报表分析系统、多维分析系统和数据挖掘系统等,进行进一步的数据分析利用。
这一过程可以通过Hard Codding,即编写程序实现,也可以通过各种ETL工具实现。
对于ETL,实际常见的问题有两个:
1、为什么要做ETL,而不是直接利用数据?
这个原因有多种多样,比如可能原始数据量太大,需要加以提炼;可能业务数据的服务器面临性能压力,不希望分析工作影响性能;可能源数据的异构性和低质量,需要加以规范;还有可能有些数据直接利用起来有困难,例如SAP系统中的数据。
2、不同ETL工具与方法的差异主要是什么?
由于ETL是一个可以用Hard Codding并不大困难就可以实现的过程,因此很容易会问“为什么要用ETL工具”。实际上,Hard Codding也是一种可供选择ETL方法,而各种工具与方法主要的差异在于两点,一是设计与建立ETL过程的复杂度,比如有些工作用工具可以很快建立和修改、调试,而写程序要花很大力气,有些工作则配置ETL工具很费力,还不如直接写一个SQL,不同的工具之间也有很大的差异;二是运行时的效率,有些ETL工作,要经常进行,有些则是初始时进行一次,有些数据量大、时效要求高,有些则反之。这样,在不同情况下,就可能需要根据运行效率的需要选择合适的ETL工具。
从上面两个问题,我们可以理解ETL的必要性与适用性,同时,也可以认识到,ETL是一个概念,应该根据实际的情况与需要,选择(包括不使用)合适的ETL工具或方法。
更多关于 ERP,CRM,SCM,数据库 的文章
- [新闻]AMD将在明天公布Phenom 2新产品(图)
- [OS]Windows 7免费升级理由:记住鲍尔默
- [产业新闻]开放云计算联盟制定基于开源的云计算标准
- [产品新闻]思科推出iPhone版WebEx网络会议系统
- [服务器应用]AMD核心高速运行Solaris的9大秘诀
- [OS]Win Server 2008和Vista:相煎何太急
- [新闻]市场报告:中国已成第二大服务器消费国
- [新闻]经济危机 华硕推出服务器管理解决方案
- [产业新闻]联想海外裁员2500人超1/3 大中华区幸免
- [产业新闻]美IT刺激计划将创造百万就业机会
精彩专题
- [产业新闻]开放云计算联盟制定基于开源的云计算标准
- [产品新闻]思科推出iPhone版WebEx网络会议系统
- [产业新闻]美IT刺激计划将创造百万就业机会
- [产业新闻]2009年IT专业人士不能不知道的9大网站
- [多核]三大原因致2009年服务器销售放缓
- [产业新闻]印度第四大外包公司承认造假 股价狂跌69%
- [产业新闻]联想集团昨起停牌 重组计划或将落实
- [产业新闻]曲晓东:联想蛇吞象后最艰难时刻到来
- [产业新闻]联想海外裁员2500人超1/3 大中华区幸免
- [新闻]2009年如何快乐?收购、创新是上策
- [EternitySYQ]中电信策反启动争夺战
- [风之谷]华为老总写给抑郁员工的信
- [bigrong]网络民意是真正的民意?
- [邢小萍]“打工皇帝”加入SAP
- [宋家雨]虚拟化遭遇刀片服务器
- [睡袋熊]分散式的身份识别系统
- [EternitySYQ ]盗版论坛停止Win下载
- [温仔]工信部明确3G牌照发放方案
- [温仔]惠普增速将高于行业2倍
- [bigrong]移动支持P2P 发布DSN白皮书
- [HonestQiao]嗨!PS的脚本呢?
- [姜子牙]免费Hypervisor如何挣钱
- [宋家雨]金融危机是虚拟化的良机
- [HonestQiao]PS脚本入门系列之十二
- [姜子牙]Oracle挺Xen入Xen顾问委员会
- [宋家雨]是谁瓦解了Wintel?
- [zyzowen]搜索引擎优化的核心思想
- [bigrong]国电信跻身全球TOP10
- [宋家雨]Forge:一种虚拟化新产品
- [bigrong]饭岛爱推动网络技术革新
- [网管专区] 春节期间网络运维策略
- [网管专区]TCP/IP详解学习笔记
- [网管专区] 无法在内网用外部IP访问
- [网管专区] 网格计算中的 TCP
- [软件下载] 中铁时刻表不容错过!
- [软件下载] 硬件检测合集
- [软件下载] 横行天下flv视频下载
- [软件下载] 优化大师破解版
- [网络安全] 云安全给局域网带来机遇
- [网络安全] 内网安全面临的挑战
- [网络安全] 打造企业安全VPN连接
- [网络安全] 入侵检测模式算法新技术
- [系统应用] TCP-Wrapper管理服务
- [系统应用] RHEL5配置YUM服务器端
- [系统应用] 奇招妙计助你玩转Vista
- [系统应用] Linux难称完美几大命门
- [数据库] 自动生成bcp脚本
- [数据库] SQLServer中执行SELECT语句
- [数据库] 找到MySQL的优点
- [数据库] DB2数据库优化小技巧
- [OS]Windows 7免费升级理由:记住鲍尔默
- [产业新闻]开放云计算联盟制定基于开源的云计算标准
- [产品新闻]思科推出iPhone版WebEx网络会议系统
- [服务器应用]AMD核心高速运行Solaris的9大秘诀
- [OS]Win Server 2008和Vista:相煎何太急
- [产业新闻]美IT刺激计划将创造百万就业机会
- [数据中心管理]展望2009年数据中心行业的发展趋势
- [产业新闻]2009年IT专业人士不能不知道的9大网站
- [产业新闻]印度第四大外包公司承认造假 股价狂跌69%
- [产业新闻]联想集团昨起停牌 重组计划或将落实
- [OS]Windows 7免费升级理由:记住鲍尔默
- [SOA]如何把握SOA发展给企业带来的优势
- [产业新闻]开放云计算联盟制定基于开源的云计算标准
- [产品新闻]思科推出iPhone版WebEx网络会议系统
- [服务器应用]AMD核心高速运行Solaris的9大秘诀
- [OS]Win Server 2008和Vista:相煎何太急
- [新闻]微软张亚勤:对中国的投资不会改变
- [产业新闻]美IT刺激计划将创造百万就业机会
- [新闻]微软云计算Azure中文服务平台上线
- [数据中心管理]展望2009年数据中心行业的发展趋势



