定义

并行文件系统

并行文件系统是一种软件组件,设计用于跨多个联网服务器存储数据,并通过同步、协调的输入/输出操作(眼压)在客户端和存储节点之间。

并行文件系统分解数据集并分发,或条纹,块到多个存储驱动器,这些驱动器可以位于本地和/或远程服务器。用户检索文件时不需要知道数据块的物理位置。系统使用全局名称空间方便查阅资料。并行文件系统通常使用元数据服务器存储有关数据的信息,如文件名、位置和所有者。

作为计算机程序的一个或多个进程的一部分,并行文件系统使用多个I/O路径并发地将数据读写到分布式存储设备。协调使用多个I/O路径可以提供显著的性能优势,特别是在涉及大量客户机的流工作负载时。

容量和带宽可以伸缩,以容纳大量的数据。存储特性包括高可用性、镜像、复制和快照。

并行文件系统的常见用例

并行文件系统历来以高性能计算为目标(HPC)环境需要访问大文件、大量数据或同时从多个计算服务器访问。应用包括气候建模、计算机辅助工程、探索性数据分析、金融建模、基因组测序、机器学习和人工智能、地震处理、视频编辑和视觉效果渲染。

并行文件系统的用户遍布国家实验室、政府机构和大学,以及金融服务、生命科学、制造业、媒体和娱乐以及石油和天然气等行业。

并行文件系统实现可能跨越数千台服务器节点并管理pb或exabytes的数据。用户通常部署高速网络,如快速以太网、InfiniBand或专有技术,以优化I/O路径并启用更大的带宽。

并行文件系统与分布式文件系统

并行文件系统是一种分布式文件系统。分布式文件系统和并行文件系统都可以跨多个存储服务器传播数据,可扩展以容纳数PB的数据,并支持高带宽。

分布式文件系统通常支持共享的全局名称空间,就像并行文件系统一样。但是对于分布式文件系统,所有访问命名空间给定部分的客户端系统通常都要通过相同的存储节点来访问数据和元数据,即使文件的部分存储在其他服务器上。使用并行文件系统,客户端系统可以直接访问所有存储节点进行数据传输,而无需通过单个协调服务器。

其他区别可能包括:

  • 分布式文件系统通常使用标准网络文件访问协议(如NFS或SMB)来访问存储服务器。并行文件系统通常需要安装基于客户端的软件驱动程序来访问共享存储通过高速网络,如以太网、InfiniBand和OmniPath。
  • 分布式文件系统通常将文件存储在单个存储节点上,而并行文件系统通常将文件拆分为多个存储节点条纹跨多个存储节点的数据块。
  • 分布式文件系统部署可以将数据存储在应用程序服务器或集中式服务器上,而典型的并行文件系统部署由于性能原因将计算服务器和存储服务器分开。
  • 分布式文件系统往往以松散耦合、数据密集的应用程序或活动归档为目标。并行文件系统专注于高性能工作负载,这些工作负载可以从协调的I/O访问和显著的带宽中获益。
  • 分布式文件系统通常使用诸如三向复制或擦除编码等技术来提供容错在软件中,许多并行文件系统运行在共享存储上。

并行文件系统示例

并行文件系统的两个最突出的例子是IBM的Spectrum Scale,它建立在通用并行文件系统(GPFS),以及开源Lustre文件系统。

IBM的GPFS/Spectrum Scale是一个基于块的并行文件系统,它使用宽度可调的块和动态元数据进行信息分发。Spectrum Scale支持本机AIX、Linux和Windows客户端,并提供快照、加密和内置数据策略管理等功能。

光泽是一个基于对象的并行文件系统,具有长度可变的文件区域和用于信息分发的静态元数据。Lustre支持一系列Linux发行版,并提供诸如元数据服务器扩展、在线一致性检查和服务质量等功能。

光泽图

并行文件系统的其他示例包括:

Panasas PanFS。PanFS是由Panasas Inc.开发的并行文件系统,它使用纠删码在基于对象的存储池和动态元数据上分层文件以进行信息分发。PanFS支持本机Linux和macOS客户端,并以预先配置的横向扩展设备形式出售。

Panasas PanFS并行文件系统
Panasas PanFS并行文件系统

并行虚拟文件系统。PVFS是一个开源由克莱姆森大学并行架构研究实验室和阿贡国家实验室的数学和计算机科学部开发和支持的基于linux集群的文件系统。PVFS是基于灶神星的,灶神星是由IBM的T.J.沃森研究中心开发的。

橘子。面向并行计算环境的开源并行文件系统;由Clemson开发人员创建的PVF分支,用于支持更广泛的用例和功能。

上次更新是在年2017年12月

继续阅读有关并行文件系统的内容

深入了解并行文件系统

搜索灾难恢复
搜索数据备份
搜索聚合基础设施
关闭
Baidu