本内容是《基本指南》的一部分: 建立一个更好的档案存储策略
评估 权衡你正在考虑的技术、产品和项目的利弊。

解决长期数据归档:三个关键因素

Jon Toigo提供了深度档案存储选项的见解,以及它们影响数据完整性和潜在技术问题的方式。

本系列的前一篇技巧文章介绍了长期数据归档规划中固有的前两个问题:决定归档什么以及如何使归档有效地吸收数据。

在本技巧中,我们将考虑剩下的三个问题:如何存储数据?如何维护数据完整性?如何解决技术问题?

决定数据将如何存储应该分两部分考虑。一部分与软件容器或包装器那将会被使用。这将在减少潜在的问题中扮演重要的角色,即在用于创建归档文件的软件被渲染过时后,找到读取归档文件的方法。在之前的一篇关于长期数据归档的技巧文章中,我提到了使用商业软件容器(例如Adobe的可移植文档格式(Portable Document Format, PDF))和保存的可能性源代码或者,也可以使用XML或标准化的对象包装器。

需要注意这一步,以避免落入必须重复“取消摄取”存档中的所有数据的陷阱,从而可以使用首选容器的较新版本重新包装它。几年前,国家博物馆的档案管理员在选择早期的Adobe PDF格式作为档案容器后遇到了这个问题。令他们失望的是,Adobe在第一年就将容器更换了30次。

档案数据如何存储的问题的另一部分与媒体技术有关。现在的选择似乎可以归结为磁带、磁盘或云(通常是远程托管的基于磁带或磁盘的存储库,并作为服务提供)。

根据企业战略集团(Enterprise Strategy Group)去年的一项调查,趋势似乎倾向于使用磁盘阵列作为首选的归档存储库技术。然而,云计算供应商也开始进入归档领域,提供归档存储服务,其成本模式令人信服。

一个基于磁盘的文件具有相对简单的实现的吸引力,尽管这一点并不确定。更新的技术,如高容量SATA硬盘与过去的归档到磁盘解决方案相比,阵列上的重复数据消除和压缩等功能以及横向扩展(又称群集)体系结构相结合,提供了更经济的磁盘解决方案。也就是说,基于磁盘的归档仍然存在成本模型问题,需要仔细考虑。磁盘必须以每个磁盘7 W到21 W的功率连续供电(即使在某些驱动器上使用低功耗模式)。最近的研究来自INSIC(包括五年的总拥有成本,100年结核病磁盘文档)和快速帆船集团(包括基于磁盘的TCO归档相同大小的12年段)表明,能源成本就比同等尺寸的TCO档案利用磁带技术。除了平台获取、运营和能源成本以及维护成本外,基于磁盘的归档问题通常与另一个因素有关:磁盘介质漏洞。由于各种原因,磁盘非常容易发生故障——大大高于供应商公布的故障统计数据。

另一个日益令人担忧的问题是误比特率在磁盘上。未检测到的位错误,有时称为沉默的腐败,据估计,大约每67 TB的磁盘中就会发生一次。

在磁盘未使用的部分可能会发生一个比特错误,它不会产生任何后果,或者它可能会影响单个文件,导致该文件不可读。在最坏的情况下,比特错误可能发生在RAID条纹或奇偶校验磁盘上的数据,可能导致RAID集中的所有数据都不可用。

从无法检测到的比特错误的角度来看,磁带更坚固一些。当代磁带媒体的误码率在十分之一之间17(大约每12.5 pb的媒体容量中有一个错误)或(在写入媒体后使用读/验证通道)每10个错误中就有一个27也就是说,无穷小。

最后,从投资的角度来看,磁带在几个方面胜过磁盘。首先,带技术每一代磁带都被明确地设计为与上一代磁带读写兼容,与上一代磁带读写兼容。相比之下,磁盘阵列保证不向后兼容,而且阵列通常在交付到市场的17个月内由制造商宣布“寿命结束”。

基于云计算的档案服务它可能是基于磁盘或磁带的,具有以看似便宜的价格提供归档空间的吸引力。一家供应商的宣传册上有这样一行字:“每存储(十亿字节)数据一便士”。然而,更仔细的检查显示,该服务每月每g的费用为1美分,如果用户在给定的年份中检索的归档数据超过5%,费用就会更高。

存档完整性,不断变化的技术

因此,当平台设计用于长期数据归档时,存储介质的选择与软件容器的选择同样重要。在对媒体选项的分析中,还有两个附加问题:确保归档完整性和选择应对技术变化的方法。事实上,供应商强调媒体耐用性来回答这两个问题并不少见,但问题并不是那么明确。

媒体耐久性——无论定义为媒体将保留记录位的电磁状态的时间长度,还是媒体、驱动器组件或整个阵列或库的使用寿命——都无关紧要。如果保养得当,胶带的保质期约为30年,而磁盘有一个预期寿命据制造商称,这一期限为5年左右。这并不意味着你只需要每30年更新一次磁带或者每5年更新一次磁盘。

事实是,大多数使用基于磁带的归档的公司大约每两代(或14年)就会在几代磁带之间迁移数据,并且在优化归档使用的媒体时更频繁。磁盘用户喜欢让阵列保持5到7年的服务,尽管更新3年保修和维护协议的成本往往与一个全新阵列的成本一样高。而且,不能肯定基于磁盘的归档文件可以很容易地迁移到新硬件,即使新硬件来自与现有硬件相同的供应商。在极端情况下,跨平台迁移可能是令人生畏的,因为许多人可以证明,他们试图从一个EMC Centera平台或者从Isilon Networks (EMC)的钻机上,比如NetApp坐头把交椅

底线:通过定期测试存储的文件或对象,并在检测到错误时修复或替换备份副本中的数据,可以保证归档中的完整性。更换介质(和其他部件)通常可以使阵列保持正常运行5年左右,而磁带库可以保持更长时间的服务,并在两代驱动器设备之间提供有保证的介质交换能力。

深入挖掘数据存储遵从性和法规

搜索灾难复苏
搜索数据备份
搜索聚合基础设施
关闭
Baidu