2006-09-13 19:57 文章来源:网界网
重复数据删除的五个阶段
作者:本报记者 张峰
数据收集
在数据收集阶段,软件通过比较进入的备份数据和先前的备份缩小需要进行分析数据的范围,使用“内容已知”数据库辨别它们之间可能的重复和相似数据。例如,如果名为同一个客户端中的 “\root\documents\abc.txt”文件在备份中存在两次,软件自动决定采取何种动作。如果进入的数据是已存在数据的修改版本,该数据就进入下一阶段(数据识别、数据比较)的处理流程以确定数据发生的具体变化;如果进入的数据和已存在数据完全相同,那么进入下一阶段对数据副本进行校验。另外的数据收集操作包括:标志保存在不同位置(例如,不同的客户端、目录等)的相同对象副本。软件还为数据收集阶段发现的冗余数据对创建一工作列表,该表格用于数据识别和比较阶段进行进一步分析。
数据识别/数据比较
在数据识别/数据比较阶段,软件以字节为单位分析数据收集阶段标志出的相似数据对象。如果数据收集阶段创建的工作表表明需要进行数据识别,那么软件就会用 delta 差分算法确定备份组中的哪些数据是唯一的、哪些数据是重复的。
该算法可以有效地以字节为单位映射发生变化的数据,并且对数据对象内的偏移或者位置改变不敏感,所以,即使相关的对象之间发生明显的结构改变,该算法仍可以定位冗余的数据。
如果数据收集阶段从元数据级别认定备份组中的数据和前一个备份相同,那么在数据识别阶段将以字节为单位对数据进行比较。在该步骤中,软件调用数据比较器识别出数据发生变化的文件。
数据重组
数据识别/数据比较的结果被传递给数据重组过程,在该过程中数据被重新组装,放入临时的“保留磁带”中,新数据被保存,前一阶段被标出的重复数据被已存数据的指针替代。对备份软件而言,保留磁带和真正的磁带完全相同,只是存储在新磁带中的数据要远少于真正的磁带上存储的数据。从备份软件看来,数据是连续的并且也没有删除副本,软件可以根据嵌入在文件系统中的指针读取重复数据的唯一一份副本。该过程的最终结果是产生一份经过重复数据删除的备份组视图。
可选的完整性检查
在实际删除所有的重复数据前,软件执行一次可选的检查,以保证数据100%的完整性。在本阶段中,软件通过将“保留磁带”(代表经过重复数据删除的数据)和原始数据进行比较验证其结构和整个数据内容。
空间回收
在空间回收阶段,软件从文件系统中删除冗余的数据,释放先前被占用的磁盘空间以备他用。保留磁带和原始的、没有经过重复数据删除的磁带交换位置(比如条码、槽位以及属性等),然后软件智能的释放重复的区块并将它们放回空闲空间池。经过这样的处理以后,所有其他需要存储空间的数据处理过程都可以重用先前被重复数据占用的空间。
责任编辑:宋家雨
更多关于 重复数据删除 的文章
- [虚拟化]VMware公司正式宣布进军移动虚拟化
- [多核]推多款“上海”服务器 Dell力挺AMD
- [OS]7个极其具有杀伤力的Linux命令
- [备份]用户看重硬件容量优化
- [新闻]数据裂变:数据以生物形式快速增长
- [新闻]面临财务危机 “日蚀”或将到来
- [虚拟化]谁需要移动虚拟化?
- [多核]“上海”能给AMD带来什么?
- [HPC]全民HPC时代——从最新HPC TOP 500说起
- [刀片]惠普虚拟化刀片服务器采用SSD盘
精彩专题
- [虚拟化]谁需要移动虚拟化?
- [多核]“上海”能给AMD带来什么?
- [HPC]全民HPC时代——从最新HPC TOP 500说起
- [新闻]年内将有18万IT精英失业
- [网页技术]什么是CMS?CMS是什么意思?
- [新闻]未来十大热门专业全纵览
- [SEO]站长必读:推广网站最实用的77种方法
- [新闻]全球10%域名系统服务器仍处于裸露状态
- [主机托管]网络安全不容忽视 企业服务器托管导购
- [虚拟主机]2008年中国虚拟主机服务商排名
- [姜子牙]Sun公司面临陨落
- [jyiufe]ARP攻击防御术心法
- [papada]生命游戏 c语言完成
- [淡月]裁员名单让你一次看个够!
- [wope]Linux命令之网络安全基础知识
- [obfw]机房网速缓慢真相
- [owenglyn]杨致远下课了我有点难过
- [ekkq]过255台电脑的内网IP规划问题
- [owenglyn]10位伟大IT界CEO你最服谁
- [wujie]window shopping的启示
- [jyiufe]对Android平台Linux部分理解
- [DU的世界]网络安全忍无可忍!
- [rugg]Java专业术语标准化规范
- [天空空]谁扼杀了VoIP革命?
- [bigrong]ASR 9000让你不明白
- [姜子牙]AMD发布“上海”皓龙处理器
- [牛牛]如何避免办公室沦为免费网吧
- [姜子牙]服务器虚拟化之后的热点是?
- [fxingji]C语言高效编程的四大绝招
- [小希大人]08微软技术大会现场[图]
- [软件下载] 最流行磁盘碎片整理工具
- [软件下载] 最强大的PDF工具包
- [软件下载] 3GPMP4视频音频转换工具
- [争议人物] 杨致远:给雅虎的一半阴霾
- [争议人物] 李彦宏:IT企业家的霸气
- [争议人物] 杨致远解释辞职原因[图]
- [争议人物] 快钱副总托马斯离职
- [争议人物] 名人刘韧被警方正式批捕
- [IDC专区] “CMS文章”的汇总贴
- [IDC专区] 让中国web2.0去死!
- [网络安全] 能解任何电脑的开机密码
- [网络安全]教你如何防范U盘病毒
- [网络安全] 把自己的IP地址隐藏起来
- [网络安全] 六大措施保障网络安全
- [网管专区] 教你如何分辨网线的好坏
- [网管专区] 利用Sniffer做被攻击分析
- [网管专区] 网络协议工具测网络故障
- [网管专区] 某证劵网络故障排除实例
- [系统应用] 30秒完成清除任务
- [系统应用] 无线网络下载小技巧
- [新闻]Alexa世界排名作弊分析
- [SEO]网站推广十忌
- [网页技术]WEB 2.0图形设计样式指南
- [新闻]让中国web2.0去死!
- [新闻]百度信任危机 李彦宏内部电邮辩白
- [新闻]危机公关,百度为何能医不自医
- [新闻]众里寻他千百度,答案却在何处?
- [新闻]谈谈百度门事件和站长的关系
- [新闻]谷歌反驳垃圾信息是搜索不公正主因
- [新闻]对症下药 如何防止被百度潜规则
- [数据中心管理]IBM成立中国NEDC领导力中心
- [虚拟化]VMware公司正式宣布进军移动虚拟化
- [多核]推多款“上海”服务器 Dell力挺AMD
- [新闻]Alexa世界排名作弊分析
- [SEO]网站推广十忌
- [新闻]从百度事件看网络规则非虚拟性
- [新闻]面临财务危机 “日蚀”或将到来
- [虚拟化]谁需要移动虚拟化?
- [多核]“上海”能给AMD带来什么?
- [HPC]全民HPC时代——从最新HPC TOP 500说起






