箴+优质内容/电子书

谢谢你的参与!
访问您的箴+下面的内容。
2016年4月

解决大数据问题的工具

大数据的存储通常由扩展的NAS或对象存储组成,许多人认为商用硬件是捕获拍字节信息的一种经济有效的方式。大数据最具挑战性的问题之一是,大数据存储系统必须有足够好的性能,才能实现实时分析。大数据分析通常需要具有特定技能的流程和人员,但有一些分析学科的软件工具,如预测分析、数据挖掘、文本分析和统计分析。

由于大数据可以扩展到pb的容量,组织正在寻找比传统的扩展NAS更容易、更便宜的管理方法。对象存储和软件定义存储是解决大数据问题的常用工具。两者都可以增加分析数据所需的智能,并利用低成本的磁盘存储。

数据湖可以帮助管理这些大数据问题,但在迈出这一步之前,你需要了解以下几点。数据湖与Hadoop密切相关,并使用开源软件替代传统的数据仓库。Hadoop集群基于商用硬件,可以保存结构化、非结构化和半结构化数据。这使得Hadoop成为日志文件、Web点击流、传感器数据、社交媒体帖子和其他产生大数据的应用程序的一个很好的选择,但要记住它的缺点。

章节可免费访问

  • 编目Hadoop数据分析的缺点

    数据正以创纪录的速度增长,没有放缓的迹象。但是,如果你不能从中获得商业优势,那么拥有拍字节的数据又有什么用呢?准确的数据分析可以带来积极的商业结果,但需要正确的工具和技术。有效的数据分析需要有存储和管理大量结构化和非结构化数据的策略,以及一种分析它以解锁业务数据的方法。

    大数据的存储通常由扩展的NAS或对象存储组成,许多人认为商用硬件是捕获拍字节信息的一种经济有效的方式。大数据存储系统不仅要能够存储大量数据,而且要有足够的性能来进行实时分析。带宽和响应时间是关键因素,云和Hadoop等其他方面可能也会发挥作用,这取决于存储和分析的数据类型。

    的确,Hadoop数据分析有利有弊,但事实是,没有什么灵丹妙药软件可以处理大数据分析。它通常需要具有特定技能的流程和人员,通常还需要标准商业智能和分析应用程序之外的工具。然而,有一些分析学科的软件工具,如预测分析、数据挖掘、文本分析和统计分析。对于不适合传统关系数据库的非结构化和半结构化数据,Hadoop和其他相关技术正逐渐流行起来。

    仔细看看Hadoop数据分析,特别是在企业方面。您将更好地理解Hadoop分布式文件系统以及它在Hadoop数据分析中扮演的角色。

    下载
  • 用于大数据的Hadoop分布式文件系统选项

    由于大数据可以扩展到pb的容量,组织正在寻找一种比传统的扩展NAS更容易、更便宜的方式来管理它。对象存储和软件定义存储作为大数据工具经常被提及。两者都可以增加分析数据所需的智能,并利用低成本的磁盘存储。

    对象存储系统处理文件的方式与传统文件系统不同。服务器使用惟一标识符来查找对象,它以比文件系统更详细的方式使用元数据。唯一标识符意味着对象可以在地理上分散,因为可以在存储系统不知道它们的物理位置的情况下检索它们。这使得对象成为大型数据存储或存储在云中的数据的一个很好的选择。

    软件定义的存储有许多形式和用例,但当用于跨现成的商品硬件汇集和管理数据时,它适用于大数据。因为管理和分析是在软件设备中进行的,所以硬件可以很便宜,没有附加功能的深度磁盘。

    也许最著名的可用选项是Apache Hadoop Distributed File System (HDFS),它是设计用于Hadoop集群的基于java的文件系统。HDFS目前可扩展到200pb,可以支持单个4000个节点的Hadoop集群。它提供了大规模且低成本的存储性能,这与大多数不能同时执行所有三个任务的企业阵列不同。

    在“解决大数据问题的工具”这一章,我们将看到一些核心的HDFS特性,三个HDFS商业发行版和其他Hadoop存储相关的工具及其相关应用。

    下载
  • Hadoop替代品现在提供数据中心级别的存储

    数据正以创纪录的速度增长,没有放缓的迹象。但是,如果你不能从中获得商业优势,那么拥有拍字节的数据又有什么用呢?准确的数据分析可以带来积极的商业结果,但需要正确的工具和技术。有效的数据分析需要有存储和管理大量结构化和非结构化数据的策略,以及一种分析它以解锁业务数据的方法。

    数据湖与Hadoop密切相关,并使用开源软件替代传统的数据仓库。Hadoop集群基于商用硬件,可以保存结构化、非结构化和半结构化数据。这使得Hadoop成为日志文件、网络点击流、传感器数据、社交媒体帖子和其他产生大数据的应用程序的好选择。直到最近,Hadoop的替代方案还非常少。

    然而,没有很好规划的Hadoop实现可能会产生数据沼泽而不是湖泊。Hadoop不是为了在共享存储上运行而开发的,存储供应商必须调整他们的阵列以支持Hadoop分布式文件系统,从而促进Hadoop替代方案的兴起。此外,Hadoop不像许多数据仓库工具那样内置数据治理,这使得Hadoop替代方案可以弥补这一差距。

    下载

更多的箴+内容

查看所有
搜索灾难复苏
搜索数据备份
搜索聚合基础设施
关闭
Baidu