Hadoop技术和存储的完整指南

讨论了Hadoop技术与大数据携手并进已经有一段时间了，但IT专业人士仍然不知道该技术能做什么，以及如何使用它。

开源Hadoop框架基于谷歌的MapReduce软件，可以在粒度级别上处理大型数据集。它以低成本和高速度提供分析，一些分析师表示，这是其他任何方式都无法实现的。Hadoop的有效性的关键是Hadoop分布式文件系统(HDFS)，它允许在单个集群的不同节点上进行数据并行处理，并提供容错功能。

然而，HDFS是Hadoop技术的主要问题之一:由于Hadoop存储每条数据的三份副本，因此对容量的需求增加了DataNode失败或离线。这种故障转移设置是必要的，因为控制数据的复制和分发过程的每个NameNode都是一个单点故障。其他的抱怨指向了复杂的技术Hadoop的Java框架．

尽管Hadoop技术存在障碍，但分析师和用户都认为它的好处是值得的。为了帮助您自己确定，本指南将引导您通过基本的Hadoop技术可以实现什么，阐述了对这项技术的主要关注，并概述了它如何与存储和云一起工作。

尽管Hadoop很受欢迎，但对它的批评从对专门技能集的要求到Hadoop集群中的几个单点故障都有。在下面的链接中，您将找到这些问题和其他Hadoop问题的解释，并学习如何面对它们。

因为Hadoop为每一份数据存储了三个副本，所以Hadoop集群中的存储必须能够容纳大量文件。为了支持Hadoop架构，传统的存储系统可能并不总是能工作。下面的链接解释了Hadoop集群和HDFS如何与各种存储系统一起工作，包括网络连接存储(NAS)、san和对象存储。