根据伯克利加利福尼亚大学提供的一份资料数据显示,目前数量增长速度最快的商业数据并不是文件,而是关系数据库的管理系统中所包含的数据块。凡是从事过数据备份/容灾恢复类工作的人,都知道“将数据库——特别 是大型数据库——备份到磁带库中、然后再复原磁带上的文件备份”是一个多么复杂的过程。
所以,看到加利福尼亚大学的分析报告,人们或许可以稍稍松了一口气,由于文件元数据在数据库上保存备份,系统可以通过数据库中的文件元数据恢复文件。对于普通数据块损坏,可以通过应用程序让磁头跳过坏块重新定位,读取其他数据块到硬盘中。不过,即使如此,仍然有部分数据库备份问题值得我们深入探讨。
比如说:假设一个体积超过单盘磁带容量数倍的大型数据库,如果用磁带来做备份,那么,在备份过程中就需要人为干预进行换带操作,如果换带不及时,很容易造成数据流失,而且,即使在实验室理想条件下,磁带每小时可备份的数据量最多也只能达到2TB,倘若这个数据库有好几个TB的话,单单制作一个备份就需要好几个小时,这岂不是太费时间了吗?拥有这样一个大型数据库的企业,如果需要制作备份的话,是不是只能象服务供应商建议的那样,只能选择“磁盘到磁盘”存储方案、镜像存储方案,或者是SAN存储区域网络系统呢?大型数据库的出现,是不是彻底地否决了“备份窗口”存在的意义了呢?(注:一个备份窗口指的是“完成一次给定备份所需的时间”。这个备份窗口的长短,是由需要备份数据的总量和处理数据的网络构架的速度来决定。)因为,将大型数据库内的数据拷贝到磁带或磁盘上的这段时间内,数据库将处于持续锁定的状态,对于某些企业用户来说,备份窗口根本不是什么问题,它们可以在非工作时间来进行备份。不过,随着数据容量的增加,完成备份所需时间也会增加,久而久之,备份就将占用工作时间,值得一提的是,在制作备份的过程中,用户将无法访问数据库。现在的许多公司都没有所谓的非工作时间——他们需要24x7 的网络访问能力,这样留下的备份窗口就非常短,甚至根本就不存在。
好在这些问题终于引起了存储服务供应商们的高度重视,“信息生命周期管理”(简称ILM)的管理概念随之诞生了。在2003年12月和2004年1月底,EMC Corporation派出专人前往加利福尼亚州坎贝尔,与OuterBay Technologies公司私下进行接洽,而后又将甲骨文(Oracle)公司列为战略合作伙伴,寻求可将大型数据库内的数据信息加以分类的工具和技术——简单来说,就是将数据库内一些不会再做变更的旧数据转移到第二级存储磁盘平台上。
数据库内的参考数据
近年来EMC一直活动频繁,比如说上文中曾提到的,与OuterBay Technologies和甲骨文的合作。EMC对于扩大公司的社交和业务网络,有着自己的一套“参考数据”理论:人类社会其实就是一个庞大的数据库,每个人都是其中的数据项,有一些经常被访问但很少做修改的数据,就应该一直放在网络上,供其它人查询和参考。但是,如果将这些数据一直摆放在主机上,在价值不菲的高性能存储平台上占用了一大块空间,显然是很不经济的。
目前,EMC正在寻求一套可将“参考数据”理论应用于大型数据库管理的方法,并在该理论的基础之上发展出一套容灾恢复和业务可持性计划供应商们多年来一直在摸索的支持策略。它的核心原理其实非常简单:当需要备份的数据库体积太大时,它的大部分数据(即:不会改变的数据)也许将无法预存入系统的恢复中心内。如果备份过程突然中断,磁带上预存的数据就会被加载到磁盘上,然后由IT部门的人送往紧急恢复中心或热站(hot site)。采用数据隔离和预存相结合的方法,灾难恢复中心的职员将会带上数据库中被更改部分的数据文件备份,赶往热站,然后再将这部分数据记录加入到此时已经被修复了的存放未改变数据或参考数据的数据库内。在极短的时间就可以迅速实现容灾恢复。
可以预见得到,这套方案一旦推出,一定会吸引那些已投资购买了磁带存储产品的企业用户,它们之所以一直没有更新存储设备,大概是觉得镜像存储的投资太大了,不划算。而且,该方案肯定会被StorageTek、Quantum、ADIC、Overland、Sony、Breece Hill、Spectra Logic等诸多磁带库生产厂商采用,因为它可以增加硬件的附加值,带来更大的利润空间。
目前,业内人士唯一的担忧是:EMC和其它存储厂商现在正在研发的“将数据库中的‘参考数据’单独分离出来”的支持技术具有多高的可行性?能否充分体现数据库的“唯一性”和“差异性”优势。答案只是:也许。
2/14/2005
|