定义

重复数据消除

重复数据消除--通常称为智能压缩单实例存储——是一个消除的过程冗余的数据的副本和减少存储开销.重复数据删除技术确保存储介质上只保留一个唯一的数据实例,例如磁盘,闪光磁带.冗余数据被替换为指向唯一数据副本的指针。这样,重复数据删除就与增量备份,它只复制自上次备份以来更改过的数据。

例如,一个典型的电子邮件系统可能包含100个相同1兆字节的实例(MB)文件附件。如果备份或归档邮件平台,则会保存全部100个实例,需要100mb的存储空间。使用重复数据删除,只存储附件的一个实例;每个后续实例都被引用回已保存的副本。在本例中,100mb的存储需求下降到1mb。

目标与源重复数据删除

重复数据消除可以在源或目标级别进行。

源位置重复数据消除在向客户端或服务器级的备份目标传输数据之前,移除冗余块。不需要额外的硬件。在源端重复数据删除可以减少带宽和存储的使用。

基于目标的重复数据消除,备份通过网络传输到远程位置的基于磁盘的硬件。使用重复数据消除目标会增加成本,尽管与源重复数据消除相比,它通常具有性能优势,特别是对于拍字节-鳞片数据集

数据去重技术

有两种主要的重复数据消除方法:内联重复数据消除和后处理重复数据消除。您的备份环境将决定您使用哪种方法。

内联重复数据消除在备份系统中分析数据。当数据写入备份存储时,冗余被删除。内联重复数据删除需要更少的备份存储,但可能导致瓶颈。存储阵列供应商建议关闭内联数据重复数据删除工具以提高性能主存储器。

后处理重复数据消除是一个异步冗余数据写入存储后,将其删除的备份过程。重复的数据被删除,并用指向块第一次迭代的指针替换。后处理方法为用户提供了删除特定工作负载的灵活性,并可以在不需要水合作用的情况下快速恢复最近的备份。这样做的代价是提供比内联重复数据删除所需的更大的备份存储容量。

文件级与块级重复数据消除

重复数据删除一般在文件或块级别进行操作。文件重复数据删除可以消除重复文件,但不是一种有效的重复数据删除方式。

文件级重复数据消除将要备份或存档的文件与已存储的副本进行比较。这是通过对照索引检查其属性来完成的。如果文件是唯一的,则存储该文件并更新索引;如果不是唯一的,则只存储指向现有文件的指针。结果是仅保存该文件的一个实例,并且随后的副本将替换为树桩指向原始文件。

块级重复数据消除在文件中查找并保存每个块的唯一迭代。所有块都被分成具有相同固定长度的块。每个数据块都使用哈希算法进行处理,例如MD5或sha - 1。

该过程为每个工件生成一个唯一的编号,然后将其存储在索引中。如果更新了文件,则仅保存更改的数据,即使文档或演示文稿中只有几个字节发生了更改。这些更改并不构成一个全新的文件。这种行为使块重复数据消除更加高效。但是,块重复数据消除需要更大的处理能力,并使用更大的索引来跟踪单个块。

可变长度重复数据消除是一种替代方法,它可以将文件系统分成不同大小的块,从而使重复数据消除工作能够实现更好的性能数据简化比固定长度块。缺点是它也会产生更多的元数据,而且往往会更慢。

哈希重复数据删除的潜在问题是冲突。当一段数据接收到一个哈希号时,该哈希号将与其他现有哈希号的索引进行比较。如果该哈希号已经在索引中,则该数据片段被认为是副本,不需要再次存储。否则,将新的哈希号添加到索引中,并存储新的数据。在极少数情况下,哈希算法可能会为两个不同的数据块产生相同的哈希数。当哈希冲突发生时,系统不会存储新数据,因为它看到它的哈希号已经存在于索引中。这叫做假阳性,并可能导致数据丢失。一些供应商结合哈希算法以减少哈希冲突的可能性。一些供应商也在检查元数据以识别数据并防止冲突。

重复数据删除、压缩和精简配置

分析师Mike Matchett讨论了压缩和重复数据删除的好处,并解释了两者之间的区别。

另一种经常与重复数据消除相关的技术是压缩.然而,这两种技术的操作方式是不同的:数据重复数据删除寻找冗余的数据块,而压缩使用一种算法来减少表示数据所需的比特数。

压缩和三角洲差分通常与重复数据删除一起使用。综上所述,这三种数据缩减技术旨在优化存储容量。

精简资源调配优化如何在一个存储区域网.相反,擦除编码是一种方法数据保护它将数据分解成片段,并用冗余数据片段对每个片段进行编码,以帮助重建损坏的数据集。

重复数据消除的其他好处包括:

主数据和云的重复数据消除

重复数据删除来源于备份和辅助存储器,尽管可以重复原始数据集。它特别有助于最大化闪存容量和性能。主存储重复数据删除是存储硬件或操作系统软件的功能。

数据重删技术有希望云服务提供商在费用合理化方面的优势。他们能够消除存储的重复数据,从而降低磁盘存储成本和用于异地复制的带宽。

上次更新是在年2019年3月

继续阅读有关重复数据消除的内容

深入挖掘数据存储管理

搜索灾难复苏
搜索数据备份
搜索汇聚基础设施
Baidu