保管部

管理和保护所有企业数据

朱尔斯- Fotolia

开始 让自己跟上我们介绍内容的速度。

深入研究云归档

尽管云归档被视为云存储的重要组成部分,但在起飞之前仍有一些问题需要考虑。

公共云存储的最佳特性之一是能够轻松存储大量数据,而无需管理支持数据的基础设施。随着大多数组织中持续的指数级数据增长,管理存储的业务可能是一件混乱的苦差事,需要应对增长和基础设施更新。对于那些想要摆脱管理基础设施的单调工作、以便专注于数据的IT部门来说,云存储可能是一个救星。但云存档这确实是一种独特的服务,使用云归档所付出的努力是否会超过所获得的好处?

为什么要归档

在讨论基于云的归档的技术方面之前,有必要首先讨论一下为什么需要归档数据。最明显的原因是成本;生产系统(数据库、文件和非结构化数据)由大量不活动且很少访问的信息组成,所有这些信息都非常昂贵主存储器. 公司希望“永远”保留数据,或者至少保留很长一段时间,前提是从内容中获得未来的价值。在某些情况下,监管限制要求数据保存很长一段时间(几十年),或者在医疗记录保存的情况下,将患者的生命周期作为最低限度。将数据移出生产环境还可能会对其他生产成本产生重大影响,包括节省数据库许可证、较小的虚拟机或物理主机的成本,其中许可证基于数据量。

在主系统中存储大量数据也有操作方面的问题;系统越大,备份/恢复或恢复过程越长,备份也就越大。当数据可以从主系统归档并以不同的方式存储和保护时,持续备份从不更改的数据没有任何好处。生产系统的性能也会受到影响。例如,在一个有1亿行的数据库中访问和存储数据的开销要比只有50万行的数据库大得多。

为什么应该考虑云归档

因此,归档的需求显而易见,但为什么要选择云作为目标呢?它有许多固有的操作好处使用云服务这使得它成为归档数据的一个有吸引力的目的地。这些措施包括:

  • 弹性。云存储提供商承担着确保归档容量始终可用以满足需求的责任和相关难题。客户只是在假设有无限可用容量的情况下消耗资源。不需要考虑数据中心空间、电源、冷却或其他物理方面。
  • 抽象。客户不需要知道或关心数据是如何存储在云中的,只需要知道云提供商正在以某种商定的服务级别交付服务。这意味着数据可能存在于磁盘、磁带、光盘或任何组合中。随着技术的发展和需要的更新,云供应商负责管理和刷新存储媒体和相关的基础设施。
  • 耐久性主存储弹性是根据可用性或系统提供的正常运行时间来衡量的。我们通常会看到引用的数字是5、6或现在的7个9,这意味着99.999%的正常运行时间或更好。在存档领域,度量是基于持久性和较低的可用性水平,因为数据被假定访问频率较低,但需要在5年、10年、20年或50年的时间内存在。Amazon Web服务的S3产品例如,它鼓吹耐久性水平为99.999999999%,即“11个9”。
  • 成本。云存储的成本是可预测的,并且基于访问配置文件和存储的数据量(稍后将对此进行详细介绍),这使得重新计费和记帐更加容易。

因此,云归档是有意义的,问题是,IT运营团队如何以满足运营要求的方式进出数据?

云归档的成本

基于云的归档的成本结构可能与内部部署的成本结构大不相同,通常基于存储的数据量,再加上将来调用和访问数据的费用。

云归档注意事项

对于云归档,最明显的担忧可能是安全性。我的数据到达服务提供商的数据中心后,如何通过网络在飞行中以及在静止状态下对其进行保护?飞行中的问题很容易解决;由于云内外的数据都是通过安全的HTTPS协议(SSL)进行管理的。因此,通过公共网络传输的数据在飞行中是安全的。

大多数供应商现在也提供能力加密数据储存在他们的云里。作为额外的安全级别,客户可以提供自己的加密密钥,供提供者代表客户加密数据。或者,数据可以在发送到云之前进行加密。加密选项的选择取决于客户的风险概况;基于提供者的加密可能就足够了,而遵从性规则或完全偏执可能要求使用个人加密密钥。在这种情况下,客户必须维护未来数据检索所需的密钥,如果数据要存储多年,这可能是一项重大工作。

云中存档=没有硬件问题

基于云的归档消除了与规划和维护大型归档(如定期硬件和数据格式刷新)相关的难题。

要考虑的第二个问题是性能,或者数据可以从云中存储和检索的速度。根据所处的连接类型延迟或者将数据写入云的往返时间可能高达20到30毫秒。这个级别的响应时间对于顺序传输来说很好,但对于“随机”访问就不太好了。实际上,大多数归档过程在存储和检索大量数据时不会遇到延迟问题,但如果基于云计算,则更新元数据可能是个问题。

另外两个问题影响访问数据的性能。首先,提供者本身可以对访问进行限制。例如,Amazon Web Services的冰川(Glacier)提供了S3(简单存储服务)的低成本替代方案,但通过分段过程提供访问,分段过程需要3到5个小时来检索数据,然后最多24小时可用(之后需要再次检索数据)。在冰川上访问超过1 GB的免费数据也有传输成本,我们稍后将讨论这个问题。并非所有供应商都对数据访问有性能限制;谷歌云存储近线例如,为长期归档数据提供大约3秒的响应时间(或对第一个字节的访问)。显然,在选择正确的服务价格和服务提供的性能之间存在一种权衡。

使用云归档时,可访问性和数据格式是另一个需要关注的领域。归档平台通常是通过基于Web的协议访问的对象存储。然而,本地数据可以是结构化数据(如数据库)、半结构化数据(如电子邮件)或非结构化数据(如文件)的形式。每种数据格式都将与用于描述内容的元数据相关联。那么,如何将这些数据转换为通用对象格式呢?一个答案是使用充当网关或归档平台的产品来提供本地和归档格式之间的桥梁。示例包括AWS存储网关,EMC CloudBoost,微软Azure的StorSimple,数据云NASNetApp的AltaVault. 这些产品中的大多数都是云存储的管道,不直接与特定应用程序集成。但是,它们确实为归档数据提供了一个更易使用的协议,并能够在本地缓存某些内容,减少总是恢复到云存储以访问数据的影响。可能仍然需要进行应用程序集成工作,但无论数据是在现场还是非现场,情况都可能如此。

云中的物体

云归档提供了将大量数据存储为对象的能力,因此需要某种类型的协议或格式转换(使用元数据)来有效地利用云存储。

最后,你应该考虑成本。大多数内部部署归档系统通常是基于基础设施本身的成本,而基于云的归档将由存储的数据量和访问配置文件驱动。随着更多的数据被存储和从归档中召回,每月的成本也会增加。IT组织需要准备好重新向最终用户(在适当的地方)支付成本,这将意味着创建关于数据保留和检索的策略,以及将归档数据分区到可以单独报告的逻辑存储库(如保险库)。使用云存储的成本可能成为一个真正的问题,因为大量数据被放置在一个单一的提供商中。这是因为在存档(和提供者)之间移动数据可能成本过高,即使出于冗余和降低风险的目的可能需要这样做。

降低成本的一个机会是考虑实现数据减少技术,如重复数据删除和压缩。这些可以在数据存档之前在应用程序中实现,或者在云网关中部署。其中一个产品是StorReduce来自一家同名的初创公司。StorReduce设备位于公共云中,接受S3格式的数据,以消除重复的格式将数据写回AWS S3。该公司声称,在存储数据方面可节省高达95%的成本,这可以大大降低大型归档的成本。

云归档:是好事还是坏事?

归档可以作为仅云计算的应用程序工作,并考虑这里提出的几点:安全性、性能、可访问性和成本。在决定云是否是存放归档数据的正确位置时,必须权衡计费和管理方面的灵活性问题,以及实现将数据转换为对象兼容格式的本地系统的需求。

有关云存档的更多信息…

阅读:针对冷存储和非冷存储的云归档

观察:关于云中归档的专家建议

书签:数据存储遵从性和归档

最后要考虑的一点是将来如何访问归档数据。数据已经存在于云中,可以针对归档运行基于云的分析。从作为虚拟实例运行的基于云的应用程序访问云中的数据通常不会带来任何额外的访问成本,因此云可能会成为利用所有这些冷数据实际做一些有用事情的垫脚石。

第2条,共8条

下一步

基于云计算的存档冷藏

基于云的档案如何影响合规数据

云档案服务与磁带档案

深入挖掘Nearline存储

获得更多存储空间

查阅我们所有的过期杂志 查看所有
搜寻灾难复苏
搜寻资料备份
搜寻聚合基础设施
关闭
Baidu