DrHitch——Fotolia

内存软件初创公司Alluxio在大数据存储圈中大放异彩

开源的Alluxio是一个内存中的虚拟分布式存储系统,它允许数据以内存速度在应用程序和存储系统之间共享。

加州大学伯克利分校(University of California at Berkeley)培育的一家软件专用存储初创公司推出了一款分布式存储软件。

文件系统的大数据分析。

Alluxio Inc.今天发布了其同名内存软件的免费社区版和基于订阅的商业版。这家初创公司的主要关注点是大数据分析使用Apache Spark的作业

总部位于加州圣马特奥的Alluxio将其开源产品描述为内存中的虚拟分布式存储这使得数据能够以内存速度在任何应用程序和任何存储系统之间共享。其目标是将未充分使用的内存转化为存储容量。

Alluxio背后的技术由加州大学伯克利分校和麻省理工学院的研究人员于2012年在AMPLab加州大学伯克利分校的科技孵化器。

在2015年改名之前,Alluxio被称为超光速粒子。同年,风险投资公司安德森•霍洛维茨(Andreessen Horowitz)收购了该公司投资了750万美元.Alluxio的主要投资者彼得•莱文(Peter Levine)曾担任XenSource(现为思杰(Citrix)的一部分)的首席执行官,并曾担任Veritas Software的执行副总裁。

我们所做的是以存储器的速度统一数据。
Haoyuan李首席执行官Alluxio

Alluxio软件层安装在计算框架和存储之间,以虚拟化底层文件和对象数据存储。Alluxio首席执行官李皓远表示,大约有十多家网络规模的公司已经在生产中部署了基于apache的Flink、Samza、Spark和Storm。上榜的公司包括阿里巴巴集团、巴克莱银行、百度、第一资本、CERN、Esri、谷歌、Juniper Networks、京东、去哪儿网、瑞士电信和雅虎。

“我们所做的是以存储速度统一数据,”李说。“您可以将不同的存储系统以文件夹的形式挂载在Alluxio中,可以通过操作层访问。我们基本上虚拟化了不同存储系统的数据,并在全局文件系统命名空间中将统一的api暴露给计算系统。”

Hadoop作为大数据作业的事实标准已被广泛采用。Hadoop的核心组件是Hadoop分布式文件系统(HDFS)和MapReduce编排和处理。但是apachespark作为hadoopmapreduce配置的附属品(如果不是完全的替代品的话)正在取得进展。

“Apache Spark作为大数据处理框架的一部分正变得越来越重要,”他说Gartner Inc.的研究副总裁阿伦·钱德拉塞卡伦(Arun Chandrasekaran)说,“Alluxio希望在现有文件系统之上构建一个非常简单的文件系统。这给了你一个memory-centric架构

“他们想做的另一件事是将计算与后端存储解耦。它们在前端提供了一个与经典Hadoop应用程序兼容的HDFS或mapreduce API。这意味着你不需要在前端做任何软件更改。”

Alluxio在内存中创建一种列数据格式,它覆盖在以磁盘为中心的批处理之上,允许在内存中进行读取和写入。热文件是缓存在内存中而Alluxio的分层引擎通过标准文件或对象api将冷数据和热数据吸进后端存储。Alluxio文件系统为Amazon S3和Amazon S3提供对象存储接口OpenStack Swift和HDFS的文件存储接口红帽GlusterFS扩展NAS。

互联网供应商Sparks阅读速度更快

百度USA是中文互联网提供商百度的北美分支,管理的Alluxio集群规模可达1000个节点,超过2pb,包括50tb内存存储和磁盘容量平衡。业务分析师和产品经理挖掘数据以建议产品改进。

百度美国公司的软件架构师Leo Wang说,使用Alluxio的阅读速度要快50倍。

“以前,查询结果需要几个小时,这并不满足我们的业务需求,”王说。“Alluxio通过将所有的热数据存储在内存中进行处理来解决这个问题,从而避免从远程[存储]读取数据。这一点非常重要,因为我们的特别查询平台的目标是在几分钟内做出响应。”

Alluxio Enterprise Edition嵌入Kerberos身份验证以实现安全性,并嵌入数据复制以实现高可用性。Alluxio不会跨集群复制文件系统数据,而是记录对文件数据和元数据的所有更改,并将日志保存在内存中。如果一台服务器在计算过程中被中断,Alluxio将利用空闲的处理能力,使另一台服务器能够从该点恢复分析。

数据压缩未包含在企业版中,但李彦宏表示,它已列入未来软件发布的产品路线图中。

免费的Alluxio社区版是一个可从Alluxio网站下载的精简包。Alluxio Manager包含在社区和企业版本中,以帮助部署、管理和监控Alluxio群集。

华为存储集成了Alluxio

为了获得最佳性能,Alluxio建议将其软件安装在处理大数据计算的节点上。

Alluxio产品副总裁Neena Pemmaraju表示:“这样一来,您的数据总是最接近计算机。但如果这对您的工作更有意义的话,您可以在节点子集上安装Alluxio。”。

扩展是通过在添加到计算集群的每个新节点上安装Alluxio来实现的。Li和Pemmaraju没有透露定价,但Alluxio Enterprise Edition许可证将基于部署存储软件的节点数量。

这家初创公司列出了十几个企业部署,并声称与华为、英特尔、Mellanox Technologies和Rackspace等公司建立了行业合作伙伴关系。华为在9月份表示,它正在将Alluxio整合到其业务中聚变存储分布式弹性块存储软件。

Alluxio是今年第二家推出基于内存的存储软件产品的初创公司。Plexistor于1月份推出了一款软件,该软件使用非易失性内存作为持久存储来支持内存数据库和传统企业应用程序,声称它可以消除对集群计算和存储的需求。

下一步

符号IO计划内存中的收缩存储

Plexistor长效磺胺将内存、存储整合在一起

ApacheSpark被吹捧为MapReduce替换

深入挖掘大数据存储

搜索灾难恢复
搜索数据备份
搜索聚合基础设施
关闭
Baidu