亚历克斯- stock.adobe.com

评估 权衡你正在考虑的技术、产品和项目的利弊。

下一代PCIe是可组合基础设施发展的关键

高性能计算和人工智能环境只是可组合架构的两个强大用途。探索PCIe在可组合系统中的优缺点。

IT行业充满了充满希望的想法,但这些想法从未得到落实。由于对可组合基础设施的兴趣在过去五年里停滞不前,人们可以原谅将硬件资源从主机中分离出来的技术归类为失败的想法。我们还没有准备好放弃这个概念,尽管现有的少量使用数据并不令人满意。

Statista对IT主管和经理的一项调查发现,只有11%的受访者有生产可组合系统的实现而52%的人对这项技术不感兴趣。实际上,在这10种基础架构中,可组合基础架构的关注度最低技术调查

尽管如此,在过去的几年里还是有一些重要的产品开发。这些发展为可组合的倡导者提供了希望,即这个概念将在企业中找到一个家,特别是在为高性能计算(HPC)和人工智能工作负载构建大型集群的组织中。

硬件组合:背景和技术

可组合硬件的想法可以追溯到大约10年前,当时Calxeda构建了一个可扩展的、集成了10gb以太网结构的模块化Arm服务器。它在当时是快速的,连接着底盘上相邻的节点。Calxeda已不复存在,但其知识产权现在被Silver Lining Systems使用项目计划的服务器它可以说是构建可组合软硬件系统的第一次尝试。然而,惠普随后放弃了它,转而使用英特尔的新Atom处理器。“登月计划”后来演变成了惠普的Synergy阵容。

可组合基础设施设置图

2015年,另一家初创公司liquid推出了一种基于PCIe结构的可组合硬件,进一步推动了这一概念的发展。的liquid系统的核心部分包括基于Broadcom组件的PCIe交换机。通过软件管理系统,可以配置和连接由CPU、内存、网卡、存储、GPU和现场可编程门阵列(FPGA)资源组成的裸金属服务器,这些资源集中在附加服务器和扩展机箱中。

为什么作为PCIe ?

Liqid最初使用了一种内部设计的交换机,该交换机由PLX的硅制成。它后来采用了Broadcom的PEX8700和PEX9700 PCIe Gen 3.0交换机硅。2020年中期,Liqid和Broadcom合作开发了作为PCIe创4.0参考设计。该合作使用了Broadcom的PEX88000交换机,其吞吐量是第3.0代的两倍,每个端口的带宽为每秒256 gigatransfers。交换机支持24端口或48端口配置。每个端口默认为4个PCIe通道,可配置为x8或x16,具有100纳秒的端口到端口延迟。

PCIe是服务器集群和可组合基础设施的理想互连方式。

PCIe是服务器集群和可组合基础设施的理想互连方式,因为它在现代处理器中无处不在、高带宽(每通道64gbps)、低延迟、无损传输和直接内存访问(DMA)支持。它的非透明桥接特性使主机处理器能够将交换机端口视为PCIe端点。第4.0代交换机,如Broadcom PEX88000,嵌入了一个Arm处理器,用于配置、管理和处理热插拔事件。它们通过I/O共享和DMA等特性提供非阻塞的行速度性能。

PCIe的缺点包括端口成本比以太网高,以及对电缆长度的严格限制,将光纤限制在服务器机架上。因此,以太网和InfiniBand已经成为可组合基础设施的替代方案。例如,liquid宣布支持所有资源类型(CPU、内存、GPU、NIC、FPGA和存储)的多fabric组合,支持所有主要fabric类型,包括PCIe Gen 3.0、Gen 4.0、Ethernet和InfiniBand。相比之下,HPE在其Synergy组合产品中只支持以太网和用于存储的光纤通道。

可组合体系结构的应用程序

可组合基础设施最初是作为一种在人工智能环境中成本有效地共享昂贵gpu的方法提出的,特别是对于计算强度更高的模型训练。然而,可组合也适用于高性能计算集群和裸金属云基础设施,特别是对较小的利基提供商。它也适用于多租户边缘计算集群,例如,在5G基站或云“微”区域。使用PCIe-to-NVMe、NVMe- of、FC或InfiniBand的多节点可组合结构是分布式、向外扩展存储系统的流行选择,在这种存储系统中,NVMe磁盘池与服务器集群共享。

尽管PCIe网卡、GPU和FPGA卡与PCIe fabric无关,但PCIe网卡、GPU和FPGA卡越来越多地共享,并在使用Nvidia虚拟GPU、FPGA共享、SmartNICs等技术的多个虚拟机之间进行虚拟分割数据处理单元(DPUs)。例如,VMware最近引入了蒙特雷项目(Project Monterey),将VMware Cloud Foundation的一些特性扩展到Nvidia的BlueField-2等DPUs。该软件使DPU的多个Arm核托管一个ESXi实例,从主机CPU卸载网络和存储服务。

VMware Cloud的首席技术官Kit Colbert认为,从长远来看,蒙特雷将支持多主机和其他硬件加速器。

“[这个项目]使我们能够重新思考集群架构,使集群更动态,更api驱动,更优化应用程序需求,”他在一个博客.“我们通过硬件组合实现了这一点。”

跨服务器共享和动态分配硬件资源的选项越来越多。它们通过更大的资源利用率提供更广泛的硬件加速器访问和更低的成本。

深入挖掘数据中心存储

搜索灾难复苏
搜索数据备份
搜索聚合基础设施
关闭
Baidu