本内容是《基本指南》的一部分: 有效的数据管理,应对即将到来的数据灾难
管理 学习应用最佳实践并优化您的操作。

为什么现在比以往任何时候都更需要分层存储

利用新型SSD和存储类内存技术的成本和性能优势,结合人工智能机器学习的分层存储正在卷土重来。

分层存储已经存在了十多年。它在几年前达到了流行的顶峰,当时ssd…

它最初是作为一种将闪存的性能优势与hdd的较低成本相结合的方式引入的。然而,随着闪存成本的下降和SSD容量的增长,越来越多的企业转向全闪存存储,多层系统变得不那么流行了。

快进到今天,我们有不同类型的ssd性能和成本水平;从高带宽、低延迟NVMe到低带宽、高延迟SATA的一系列SSD flash接口;以及即将到来的存储级存储技术。分层正在重新出现因为企业的目标是利用所有这些新技术的成本和性能优势。

分层的进化

存储分级是一种基于策略的引擎,它将数据值匹配到正确的性价比存储层。随着数据的老化和访问频率的下降,它会失去价值,并从性能和成本较高的层(如ssd)转移到性能和成本较低的层(如旋转hdd)。

研究表明,对数据的大部分访问往往发生在数据创建后的72小时内,之后数据会稳步下降。访问量通常在30天后急剧下降。当然也有例外,但这是普遍规律。自上次访问以来的时间、自上次修改以来的时间和自创建以来的时间是常见的与存储年龄相关的分级策略。

分级存储软件传统上是基于策略阈值来放置或移动数据的。高性能、高成本的存储层保留给最高值的数据。数据在冷却时从主要性能层转移到较低的性能层。由于可以有多个层由ssd、快速hdd和大容量hdd组成,数据可以多次移动。

随着闪存成本的下降,闪存ssd和快速hdd之间的成本差异消失了。此外,SSD容量快速增长,存储系统已成为全闪存,因此多层存储系统不再受欢迎。

但是,分级的情况已经改变,随着扩散各种类型的flash ssd包括多层细胞、三维MLC、三维三级细胞(TLC)和三维四层细胞(QLC)。随着每个单元的比特数增加,性能和磨损寿命降低。这些差异导致制造商交付了大量不同的闪存ssd。每一个都有一个唯一的平衡,延迟、IOPS、吞吐量、容量、磨损寿命和成本。它们彼此之间有很大的不同。

以最新的大容量、低成本3D QLC固态硬盘为例。因为3D QLC ssd有磨损寿命是3D TLC ssd的十分之一,磨损寿命是3D MLC ssd的百分之一,它们不太适合写密集型应用。对于不影响磨损寿命的阅读密集型应用程序来说,它们要好得多。存储管理员再一次面临着管理不同性能存储层的棘手问题。

此外,flash SSD接口有高带宽、低延迟NVMe、低带宽、高延迟、低成本SAS、更低带宽、高延迟、低成本SATA等多种接口可供选择。由于这些接口影响性能和成本,全flash不再意味着单个存储性能层。

存储类的内存层

下一代的基于存储类内存的ssd(SCM)——包括Optane 3D XPoint、电阻RAM、自旋转移扭矩RAM、纳米RAM和磁阻RAM——正在增加另一个存储性能层。与flash相比,ssd盘延迟低、IOPS高、吞吐量大、磨损寿命长。大多数也将采用NVMe接口路线。然而,SCM的成本远远高于现有的存储技术。

今天,要在不占用过多存储预算的情况下充分利用各种闪存和SCM ssd,就需要使用分层。最有效的方法依赖于人工智能机器学习的最新进展,它能适应不断变化的环境,并充分利用不同的性能层次。分级存储可以是外部存储系统、软件定义的存储或单独的存储应用程序的组成部分。

云存储在哪里

在这个现代性价比存储扩散的时代,智能、自主分层存储不再是一种奢侈品。这是一个必需品。

还有另一个分层存储问题:公有和私有云存储已经变得越来越重要,但高效、经济的分层云存储并不容易。问题是如何以低成本有效地将数据从高成本的数据中心存储转移到低成本的公共或私有云存储。

不同存储类型、供应商、技术和云之间的分层——称为系统存储分层——有其独特的挑战。最流行的方法是使用分层存储管理(HSM)技术,云存储网关、存储系统和软件定义存储仍在使用。该技术是为局域网环境而设计的,而不是云,尤其是公共云存储。

HSM是基于存根的。从一个系统移动到另一个系统的数据将从原始系统中删除,并由一个小存根取代。当访问数据时,该访问实际上是对存根的访问,存根从当前存储单元检索数据,并将其重新补充到原始存储中。当与云一起使用时,HSM是缓慢和昂贵的。每次将数据重新水化到原始的快速主存储时,都要评估云出口费用,这些费用可以迅速增加。虽然云存储本身可能相当便宜,但使用HSM涉及的出口费用可能会变得昂贵。

然后还有存根脆性的问题。如果数据第二次移动到另一个存储库,则HSM存根会中断,因为它找不到数据,从而导致另一组问题。

存储分层的新方法

当将分层与公共或私有云存储相结合时,主要关注的是非结构化数据。IDC认为,非结构化数据约占组织数据的80%,其年增长率约为结构化数据的3倍。大多数新的搜索和分析工具也针对非结构化数据。

这种现代分层存储方法被称为数据管理或与人工智能机器学习技术相结合的自主数据管理。数据管理分层软件——如Dell EMC的ClarityNow、Hammerspace、Komprise和StrongBox Data Solution的StrongLink——可以安装具有管理员权限的高性能全闪存SSD文件或对象为主存储系统。这使得分层软件能够在插入全局命名空间的同时,根据存储分层策略读取数据并将其复制到公共或私有云存储中。全局名称空间使移动对用户和应用程序透明。数据在其所在位置被读取和访问;不需要再补水,可以从原始存储中删除。

其他数据管理产品,例如InfiniteIO,它位于快速SSD存储和公共或私有云存储的前面,看起来就像一个交换机。这种方法既适用于结构化数据,也适用于非结构化数据。

很明显,在这个现代性价比存储激增的时代,智能、自主存储分层不再是一种奢侈品。这是一个必需品。

深入挖掘存储分层

搜索灾难复苏
搜索数据备份
搜索聚合基础设施
关闭
Baidu