Hadoop技术和存储的完整指南

最后更新:2013年10月

编者按

讨论了Hadoop技术与大数据携手并进已经有一段时间了,但IT专业人士仍然不知道该技术能做什么,以及如何使用它。

开源Hadoop框架基于谷歌的MapReduce软件,可以在粒度级别上处理大型数据集。它以低成本和高速度提供分析,一些分析师表示,这是其他任何方式都无法实现的。Hadoop的有效性的关键是Hadoop分布式文件系统(HDFS),它允许在单个集群的不同节点上进行数据并行处理,并提供容错功能。

然而,HDFS是Hadoop技术的主要问题之一:由于Hadoop存储每条数据的三份副本,因此对容量的需求增加了DataNode失败或离线。这种故障转移设置是必要的,因为控制数据的复制和分发过程的每个NameNode都是一个单点故障。其他的抱怨指向了复杂的技术Hadoop的Java框架

尽管Hadoop技术存在障碍,但分析师和用户都认为它的好处是值得的。为了帮助您自己确定,本指南将引导您通过基本的Hadoop技术可以实现什么,阐述了对这项技术的主要关注,并概述了它如何与存储和云一起工作。

1处理Hadoop的痛点

尽管Hadoop很受欢迎,但对它的批评从对专门技能集的要求到Hadoop集群中的几个单点故障都有。在下面的链接中,您将找到这些问题和其他Hadoop问题的解释,并学习如何面对它们。

2理解Hadoop技术和存储

因为Hadoop为每一份数据存储了三个副本,所以Hadoop集群中的存储必须能够容纳大量文件。为了支持Hadoop架构,传统的存储系统可能并不总是能工作。下面的链接解释了Hadoop集群和HDFS如何与各种存储系统一起工作,包括网络连接存储(NAS)、san和对象存储。

搜索灾难复苏
搜索数据备份
搜索聚合基础设施
关闭
Baidu