估计

NVMe at Scale:一种改进性能和利用率的全新方法

下面将介绍应用程序如何通过选择正确的基础架构实现转型，使NVMe能够以最小的限制、HPC和下一代HCI用例等实现规模化。

通过

Shahar Noy和Nishant Lodha客座撰稿人

发表:2021年2月23日

00:06作者Nishant Lodha:大家好，欢迎来到2020虚拟闪存峰会。我是Nishant Lodha，和我一起的是Shahar Noy。今天我们要讲的是一个有趣的新概念关于一个相对较老的话题，即大规模部署NVMe，但使用一种完全不同的方法来研究如何在大规模部署NVMe时提高利用率和效率。

在我们进入主题之前，先简单介绍一下。我说过了，我叫尼桑特·洛达。我是Marvell的技术专家，专注于连接解决方案。沙哈尔是我的英俊变体。他是存储解决方案的技术专家，所以把我们想象成电线的两端。当我研究连接和存储连接时，Shahar把他的时间集中在高效、可靠和连接的存储上。我们两个人在一起，我们称自己是有远见的人，但同时也是促成者。所以，我们不仅展望未来，我们也致力于产品;将产品推向市场;与客户、合作伙伴、社会各界共同努力，让客户成功。 With that, let's talk about the agenda today.

01:29荷兰：我们想要开始的是让我们来谈谈现在NVMe是如何部署的. 如今，NVMe是如何大规模部署的？它能否——使用现有的范例——在没有复杂性的情况下高效地部署？然后，我想从介绍一种新的技术范例、问题陈述和部署场景开始，这些新的技术、问题陈述和部署场景现在或即将出现在数据中心中。云计算和企业数据中心，以及这些新模式，都将带来新的挑战。我们谈论这些范例，这些挑战。

最后,原因我想和你们所有的日常用品是我们引入一个全新的方法,一种完全不同的方法,利用我们的过去的经验与NVMe规模,但是给了它一个全新的视角,你如何看待事物,如何应用程序和客户使用存储,连接到存储设备上，并在规模和轻松的情况下高效地做到这一点。

本文是本文的一部分

2020年闪存峰会从第二天开始

02:42问:Shahar会回来给你们更多的用例的颜色他的用例你们会看到与今天相关的东西，例如，关于软件定义存储和机器学习，深度学习的东西。他还将讨论一些有趣的即将到来的用例，在这些用例中，这种新的、激进的方法可以显著提高效率、性能和规模等。最后，Shahar会告诉你从山顶看什么。

一旦我们完成了这一切，我们就实现了这一切，当我们回到过去，坐下来看看我们所做的一切，世界会变成什么样子?所以，坚持住，让我们给你讲讲那个故事。当您想到PCI Express上的NVMe或非易失性内存时，您首先想到的是什么?你可以把它看作是性能，作为下一代的存储设备，这一切都与性能有关。

03:40问:类似地，当你想到结构上的NVMe时，你想到的是规模，你想到的是可伸缩性，你想到的是到达和访问NVMe，而不管它位于何处--遥远的，远程的，在一些外部存储和一些其他可消费的对象或类似的东西中。但越来越多的客户提出这样的要求：“我在NVMe上获得的比例尺比面料更有效吗？”他们在问人们今天所说的这种效率是否真实。他们要求的是效率，而不仅仅是性能；他们问的是容量利用率，他们问的是总体拥有成本、单个I/O成本等等。需要注意的是，无论应用程序驻留在何处，无论它位于prem上、云中，甚至某一天在连接的汽车中，它们都需要高效地访问NVMe和大规模的效率。

04:44问:因此，让我们来看看一些市场数据。在右边，总的来说，我认为这是大家都知道的NVMe价位已经大幅下降，而且据许多人估计，它们已经接近过去基于SaaS和sata的ssd。不仅仅是价格下跌加速了NVMe的采用，应用程序、对性能的需求、对应用程序、云计算和网络规模应用程序的响应时间的需求，也将NVMe推向了新的高度。

我们看看右边的图表，它画了两条线。其中一个映射的是NVMe(这里被称为PCIe ssd)是如何在服务器上或更具体地说在服务器内部的连接率，以及这个连接率在存储中是如何表现的?把它想象成外部的专用存储盒，设备，存储阵列，所有的flash阵列，随便你怎么叫它。

05:55荷兰：从这张图表中我们可以得出几个关键的结论。首先，您肯定会看到服务器内部NVMe PCIe ssd的采用比例要大得多。但话虽如此，预计在未来几年内，NVMe将出现显著增长，即便是在外部存储消耗方面。我和日常用品要给一点颜色,有一个世界之间的服务器和存储,作为PCIe, NVMe ssd不仅受制于服务器,也不遥远坐在外部存储,但是不久我们将向你们介绍一个新概念。

06:48问:但关键在于，无论是安装在服务器内部的PCIe固态硬盘，还是通过某种方式挂在服务器上的PCIe固态硬盘，还是通过外部存储连接到服务器的PCIe固态硬盘，客户都要求他们提供这种服务……供应商、开发人员、工程师和技术领导者为客户提供大规模高效的解决方案，这是一个需要监控的重要市场。而这一切都主要依赖于NVMe而不是fabric。很多人都知道，NVMe over fabric，提供了一种高效且可扩展的方法来访问NVMe不管它在哪里。我在这里讨论的不仅仅是NVMe over fabric，而是NVMe over fabric内部的这种趋势，即在下一代应用程序将满足的新范式下，如何构建和使用存储。

07:54问:我们来谈谈面料本身，好吗?实际上，要在整个数据中心有效地向外扩展NVMe，需要两件大事。你肯定需要一个高度性能优化的网络，一个能够理解，并且能够意识到NVMe贯穿网络的网络。我们想要一个能感知存储的网络，而不是对穿越网络的帧或包的内容一无所知。我们还需要一个端到端的NVMe堆栈和…你要好好考虑一下。稍后再详细讲。

很多人会跟你讲端到端NVMe堆栈，但如果你更深入地研究今天的架构，你会发现端到端NVMe堆栈并不是真的端到端。如右侧图表所示，可能有多个不同的协议使用NVMe并在从服务器到存储的过程中转换NVMe。有几个不同的结构协议，每个人都在谈论。当然有RoCE v2和TCP，然后是企业关键业务应用程序，还有Fibre Channel。

09:08问:今天，我们的大部分讨论都集中在基于以太网的传输，包括RDMA、RoCE和TCP。因此，如果你考虑有效的NVMe与fabric之间的连接，那么要成功地部署NVMe与fabric之间的连接，需要具备哪些要素、本质和关键因素?

从左到右，一切都从服务器连接开始。您需要从主机开始的端到端NVMe协议来完成本地支持，从应用程序一直到虚拟机、通过堆栈、通过支持RDMA或tcp的颈部，您需要从上到下高效地管理和部署这些协议。因为，记住，技术可以是非常强大的;但如果它太难部署，太难管理，就不能在所有的数据中心都部署它。然后，它被限制到专门的应用程序…它不仅是连接服务器和存储的粘合剂，还是一个支持存储、理解NVMe、通过fabric理解NVMe的基础设施，并提供一个低延迟无限的基础设施，这样NVMe就可以无限制地扩展。

28问:关于存储方面的东西，Shahar会回到这里，并进行更详细的讨论。但是如果从存储的角度来看，服务器用于与NVMe通信的相同协议需要是端到端协议。这意味着，在数据包或帧到达存储媒体之前，我们绝对不会期待任何转换。不仅如此，我们还需要端到端的无缝连接。有这样的选择需求，没有一个单一的NVMe over fabric协议，RDMA或非RDMA，可以服务于每个不同的用例，而且必须理解，您需要的任何存储、网络或服务器连接解决方案都必须提供选择。

十一14问:总之，如果你看。如果您想确保NVMe在规模上取得成功、可部署、可管理，并能够提供客户在云或数据中心所需的规模和效率，那么您必须开始以不同的方式考虑NVMe在规模上的问题。看看我和Shahar将要在这里与你们讨论的技术，要在面料上实现NVMe，需要一定程度的中断。它是实现性的，但需要不同的思维方式。所以，我说有两大面料对客户很重要。如果您希望使用最简单的选项进行部署，并在现有以太网基础设施上进行部署，那么通过TCP部署NVMe是绝对正确的选择，但话虽如此，重要的是要了解，无论您选择何种通过TCP部署NVMe的解决方案，您都需要加速它们，因为没有加速，通过TCP使用NVMe的解决方案的成功可能会受到限制。

唯一问:因此，请看一些解决方案，它们可以通过加速该结构实现卸载并带来价值，这样您就可以满足NVMe的需求．NVMe在RDMA上的情况也类似。出色的性能，低延迟，但您需要技能集或受控环境来确保部署能够成功。所以，再次强调，但是你需要理解…重要的是要明白，客户将需要选择，客户将需要加速，无论是通过TCP卸载NVMe，还是提供简单、易于使用的端到端RDMA堆栈。

13:04问:好的，我一直在和你们谈论的这个方法是什么？所以，如果你看一下，这种方法有两个组成部分。如果您查看服务器连接本身，首先是选择，这意味着您将查看的任何网络解决方案或NIC都需要支持RDMA或不同类型的RDMA。因为RoCE、iWARP，最后是通过TCP的NVMe但值得注意的是，如果你想要成功，你需要选择和加速。而基于TCP的NVMe可以解决许多简单性、部署和管理方面的问题，但它需要您……如果你想在这方面取得成功，就需要卸载和加速。事物的联网方面，它们的技术……Shahar还会讲到Safe，这是一种空气流量控制引擎的存储，它可以让网络了解NVMe，并根据客户的需求进行配置。

14:01问:最后，在存储方面，这个创新的概念是以太网固态硬盘，你拿NVMe，给它一个IP地址，把它放在以太网LAN上，这样它就可以被应用程序直接访问和寻址。这就允许从应用程序到实际媒体的管道不受限制，这就为你提供了效率、性能和规模。但是解决方案并不是以以太网ssd这样的简单概念结束的。这里有一些概念，比如我们将图形化地向您描述的Marvell以太网的一组flash技术或EBOF技术，它们允许所有这些结合在一起，并提供一个单一的解决方案，以满足多种需求。

14:50荷兰时间：好的，在我把这个交给Shahar之前还有一分钟。如果你看…我讲过基于TCP加速的NVMe。关于RDMA上的NVMe我已经讲得够多了，我想给TCP上的NVMe多一点颜色。如果您能够通过TCP卸载NVMe，无论是网卡还是常规网卡(如Marvell FastLinQ)，还是某种智能网卡或可编程网卡，该解决方案都有潜力提供与RDMA相当的性能。它的部署要容易得多，当事情易于部署和管理时，它们就会成功，这就是通过TCP实现NVMe的简单性。它可以在任何规模、任何网络上工作，不需要特殊的技能。但重要的是，当你看TCP堆栈时，健壮性非常重要。例如，Marvell 10/25/50/ 100gb FastLinQ网卡中的堆栈，它有超过10年的强化TCP卸载堆栈，我们在过去十年中一直在数据中心使用和部署这些堆栈。

15:56问:最后，根据我们自己的内部测量，我们已经看到，如果您决定通过TCP运行软件NVMe，I/O成本将非常高。您需要消耗大量CPU周期，而客户不愿意这样做。云计算客户或on-prem客户希望将其CPU货币化，他们希望卸载解决方案能够帮助他们降低I/O成本。有了这样一个基准，它表明，大约400000 IOPS，您就可以节省超过1000美元的CPU成本，并最终为您的数据中心带来规模和效率。因为这正是使这个解决方案成功所需要的。接下来，我将向Shahar介绍这一点，Shahar将向您介绍更多关于网络粘合剂的内容，最后，我们在Marvell称之为以太网闪存组的创新存储盒，以及所有这些解决方案如何结合起来解决当今的问题，从深度学习到软件定义存储，一些有趣的新概念。谢谢大家。沙哈尔，地板都是你的了。

17:10沙哈尔诺伊：谢谢你，Nishant，谢谢你的介绍和突出说明，为什么NVMe优于Fabric，通过启动器端的TCP加速，或者我们有时喜欢称为服务器连接端的方式。现在让我们转到下一个支柱，网络交换机。

我们提到，网络交换机无处不在，这些设备也无处不在，但是以太网交换机需要什么才能支持NVMe在Fabric上的可伸缩性和效率?今天，当我们讨论以太网交换机时，我们将重点放在存储感知功能上，希望以太网交换机能够以一种更友好的方式支持存储。首先，我们需要讨论一下以太网交换机的性能，因为如果你想想今天，我们有Gen3x4驱动器。我们的货架上通常有24个。如果我们将性能乘以24个驱动器，那么市面上的NVMe驱动器的性能大约是600gb / s。如果你想把所有信息都暴露在上游，我们还需要600g的连接。所以，我们今天至少需要1.2兆位的开关。

32 SN:当我们继续前进，进入第四代硬盘，我们转到EDSFF你可以在货架上放置超过24个驱动器，我们实际上需要3倍的性能。这是什么意思?你需要3.6太比特的开关。如果(但愿不会发生这种情况)你想把100块ssd放到架子上，比如你的客户端，你需要12.8兆位的交换机。所以，所有这些都要求交换机架构进化成我们所说的太比特片或太比特片，所以你可以选择你的网络中需要的交换机类型。

交换机的第二个方面是存储感知。记住，我们正在连接它后面的NVMe驱动器。我们需要交换机能够发现并向网络公开这些SSD，我们需要流量控制。想象一下，混合使用Optane SSD和TLC SSD。我们可能希望优先考虑Optane驱动器，因为它们具有更好的延迟，因此我们需要以某种方式将流量引导到非常特定的端口。顺便说一句，这对于今天的PCIe交换机来说是非常困难的，但是具有存储感知功能的以太网交换机具有这样做的能力。最后是遥测和诊断，不仅要了解您在设置中遇到的网络挑战或端口问题，还要了解我们如何通过此诊断和遥测接收NVMe智能命令，并将其公开给网络。

20:04 SN:第三个要素是健壮性。与我们交谈的客户，与我们交谈的潜在客户，他们都希望以太网能像PCIe一样强大。记住，个人电脑的架构已经存在了一段时间，超过十年，它被强化了。现在，我们如何使用以太网来保证同样级别的健壮性?我们喜欢称之为拥塞管理和控制，但在某种程度上，这是我们如何在端口之间启用熔炉来平衡流量，如何防止长尾延迟。在研究以太网交换机以提高NVMe-oF性能时，需要考虑所有这些问题。

最后，也是我们经常讨论的主要话题，就是我们如何让它在未来具有成本竞争力?市场上的观点是，以太网端口比PCIe端口更贵，这是事实。但如果你研究一下如何把所有这些放在一起，如果你把以太网交换机和基于PCIe的交换机解决方案放在一起，基于PCIe交换机的解决方案有计算连接，DRAM连接，NIC连接，所有这些都增加了系统的总成本。因此，当您比较NVMe与Fabric之间的可伸缩性时，也需要考虑这些组件。我们看到的是，实际的基于以太网的解决方案在每千兆字节的性能上更具有成本效益。

21:38 SN:所以，当你开始你的任务时，你需要考虑所有这四个关键变量，“嘿，我如何让我的NVMe-oF更有效和更可扩展?”现在，让我们进入第三个支柱，即存储。所以，Nishant用TCP加速覆盖了服务器的慢性TBT。我们只是触及了您的网络交换机中的存储感知需求，我们将在一对夫妇中涉及更多这方面的内容…在接下来的用例中，现在让我们来了解一下让所有这些都能工作的额外关键部分是什么，这是与以太网SSD一起的存储部分。这些以太网SSD需要支持多结构，但今天我们将更多地关注如何启用，启用以太网SSD需要什么。现在，很多客户问我们，“嘿，为什么要考虑以太网ssd，或者为什么要考虑EBOF?”

22:39 SN:如果您研究数据中心用于扩展存储的典型架构，我们再次讨论的是扩展效率。通常有一个应用服务器，一个存储控制器，所有这些都通过某种开关，某种网络连接到flash阵列中。今天，我们称之为NVMe-oF。当你构建这个NVMe-oF盒子时，最基本的构建块是什么?它建立在传统的JBOF架构之上。现在，JBOF是JBOD的遗产，它主要是为SATA和SAS hdd设计的，后来被转换为支持第一个进入市场的闪存SATA ssd。今天，相同的架构被用于连接NVMe ssd。

23:30 SN:现在，虽然这种体系结构很漂亮，而且它是在十年前创建的，以支持通过HDD和后来的SATA SSD对更多存储的需求，但它在这里存在一些关键瓶颈，阻止这种体系结构扩展到NVMe空间。您在这里看到的第一个瓶颈是实际的NIC。通过JBOF的所有通信都将由NIC终止。如今，最先进的NIC的速率高达200 GBps。每个NIC都需要连接到CPU，CPU需要运行NIC的驱动程序，CPU需要控制数据计划，并具有控制平面的某些方面。对于某些盒子，它提供服务，但对于其他许多盒子，它只是一个传递元素，所以它不。在这种特殊情况下，我们看不到这些x86的实际应用。它更像是一个连接件。我们需要通过PCIe交换机扇出，进入一堆NVME。

24:36 SN:挑战,我们看到的不仅是一个连接的瓶颈,但也在x86处理瓶颈,因为你试图扩展性能,记得有一个最低600 GBps的吞吐量可以从NVMe驱动器在这个架子上,规模和连接更多的网卡,您还需要增加x86中的内核数量。你需要增加你的DRAM来管理所有的流量，这使得系统更复杂，更昂贵。我们实际上在市场上听说，有一些设计，后面的点几乎不像你放在前面海湾的驱动器的数量那么贵。

25:19 SN:第三个因素或者说第三个挑战是可靠性。你盒子里的可编程元件越多，我们从超尺度上听到的，它越容易失败。我们能做些什么来减少这里的可编程性?保持简单，少一些组件，多一些硬件类型的解决方案。

这种体系结构的第四个挑战是可伸缩性，因为每次您想将另一个JBOF连接到网络时，基本上都会使用另一个机架顶部端口。那些箱子不能用菊花链拴住。输入EBOF。那么，什么是EBOF？以太网SSD启用的以太网闪存束。因此，首先也是最重要的是，我们不再因为一次泄漏就终止通信。以太网SSD正在终止通信。您可以将Ethernet SSD视为带有另一个组件的NVMe SSD，例如非常高效的目标存储NIC，它低功耗、低占地面积，位于SSD内部。这就是为什么SSD现在不仅可以与NVMe对话，还可以通过结构与NVMe对话，它们可以用结构封装或解封NVMe。

26:35 SN:现在，这种体系结构的美妙之处在于，现在您可以通过嵌入式以太网交换机展开，我们在前面的幻灯片中讨论了为什么以太网交换机需要更多的存储感知，下面是一个示例。现在，以太网交换机可以是现在的以太网交换机，你可以从几家供应商那里购买，它们的容量可以达到12.8TB。如果你研究一下最先进的NIC，它们的速度高达每秒200千兆位。因此，在千兆位、千兆位性能的时代，以太网交换机更为原生，它们可以支持您用血汗钱购买的所有吞吐量。NVME速度很快。但是，如果我们不将这些NVMe驱动器公开给网络，我们基本上是在创建低效的体系结构。

27:22 SN:这里的额外元素是，当我们移动到以太网交换机(它是一种状态机)，并移动到以太网ssd(它可以为状态机启用)时，我们就有了更少的可编程实体。同样，更少可编程的实体意味着系统更可靠。这就是为什么我们听到大数据中心说他们喜欢搬到以太网他们喜欢这种架构，不仅仅是闪存，可能也包括hdd，因为它使集群，存储集群更可靠。这里的第四个优势是可伸缩性。就像你在后面看到的，有几个盒子，几个额外的ebof它们可以相互连接。所以，严格来说，你可以…你只要把第一个盒子连接到架子的顶部;所有其他盒子都可以用菊花链连接在一起，所以我们节省了数据中心所需的端口数量。因此，总的来说，当您采用这种体系结构并研究EBOF相对于JBOF的所有优势时，您将通过这种创新的以太网SSD体系结构获得更好的性能和更好的利用率。

28:40 SN:现在，让我试着为您设想一下，EBOF如何实际提高您的网络效率。如果我们采用类似的成本，如果我们采用基于EBOF的解决方案，连接到网络的容量为600千兆，这与传统JBOF的成本大致相同，每秒200千兆。您可以在这里看到，我们可以从每秒600千兆位的数据中获得的最大值约为1600万I/O。这就是网络速度。当我们开始将驱动器插入EBOF时，您会看到驱动器1、驱动器2等等。您可以看到，每次我们将另一个驱动器连接到网络时，整个驱动器都可用于网络。所以，当我们插入第24个驱动器时，你将其乘以每个驱动器提供给你的I/O数量，你将得到1600万个I/O。这就是我们所说的非超额订阅架构，对吗？您购买的所有驱动器，所有这些大容量驱动器，现在都可用于网络。

29:49 SN:如果你使用类似的JBOF系统，在相同的价格点，它只能提供200千兆每秒。它具有我们在JBOF页面中讨论过的计算。它有计算和网络限制，允许您的驱动器扩展到第8个驱动器。让我们看看这里，我们增加了一个，两个，三个——当我们到达第8个驱动器时，我们基本上饱和了JBOF的能力。所以，我们之后添加的每一个额外的驱动器，这里发生了什么，每个SSD的平均性能开始下降。当您将第24个驱动器插到架子上时，您只能获得驱动器性能或整体性能的三分之一。

30:34 SN:现在你看到JBOF的挑战了吧?这些驱动器都是你花钱买的。这些驱动力将提高未来的运力;它们是高性能的，但通过这种低效的JBOF架构，您只能获得可用带宽的三分之一。

现在让我们试着从更高层次的角度来考虑，把它们放在一起，看看这个JBOF或EBOF是如何在您的数据中心内连接的。你拥有的传统架构，计算，计算将运行应用程序，虚拟机，容器，所有的数据将被下推通过一个存储目标来管理所有的数据，以保护数据下推到你的JBOF。你在这里看到的，橙色和绿色之间的区别是我们转换协议。这是今天数据中心存在的额外低效，然后我们把它推到JBOF，我们提到过为什么JBOF没有暴露所有的存储带宽。所以，总而言之，这个体系结构对于SATA和SAS时代来说非常漂亮，但现在当我们转向NVMe时，我们带来了挑战。这种架构实际上带来了许多挑战。进入NVMe-oF,对吧?

31:45 SN:NVMe-oF有着巨大的前景。这都是关于我们如何统一这个传输，这样计算就可以一直谈论NVMe-oF，一直到驱动器，现在都是橙色的。都是同一种语言。但这里仍然有JBOF限制。同样的问题与计算和没有足够的网络暴露所有这些驱动器到网络，因此进入以太网SSD启用所有这些吞吐量。但这种架构的美妙之处不仅仅是实现或取代JBOF。现在，由于这个EBOF使您的所有驱动器都可以用于网络，为什么不将数据保护部分移到计算中，并将其作为容器或虚拟机运行呢?通过这种方式，我们现在能做的是，你可以独立于存储增长你的计算。因为有了EBOF，所有这些驱动器对网络都是可用的，所以中间不再有瓶颈。因此，如果您的工作负载需要更多数据，您只需缩放ebof即可。 If your workloads needs more compute, more GPUs as an example, big AI application, you just scale your compute. In any case, what you pay for, you get the ability to use its entire resources because through EBOF all of the SSDs are exposed to the network.

33:09 SN:现在，让我们检查几个特定的用例。第一个是SDS的出现。因此，再一次，总结一下现有JBOF的局限性，我们需要在下行时对协议进行转换。在这种情况下，你使用TCP或InfiniBand，一直到存储目标。然后你把它转换成光纤通道协议或iSCSI通过以太网与你的驱动器交谈。这条道路上有很多低效之处。

当我们研究SDS时，现在您可以移动重复数据消除、加密和压缩，所有这些都可以在数据中心的一台计算机上运行。如果它不适用于特定租户，则可以运行特定的存储管理应用程序。通过这样做，您可以使整个计算基础架构更加高效。

想想这里发生了什么，你有一个专门用于存储服务的计算——它效率很低，不能一直工作。在取消种族隔离的情况下，SDS可以利用您的数据中心中可用的计算。现在，多亏了EBOF，您现在可以再次将所有驱动器公开给网络，因此您所有的计算客户，所有需要存储的租户都可以轻松访问，并行访问数据中心中存在的所有ssd。

34:41 SN:一个更令人兴奋的用例是人工智能，如果你看看最先进的集群，GPU集群，它们是由一堆Nvidia的A100芯片组成的。英伟达称其为DGX系统。如果你研究DGX系统，它不仅受到JBOF的限制，还受到gpu之间的内部互连的限制，当它们将数据下推到驱动器时，它们要么受到限制……A100没有超过两个iport用于存储。如果你想把它展开，你需要使用一些x86。你通过一些x86，你需要使用弹跳缓冲区和弹跳缓冲区…Nvidia对此非常公开，它将你的性能限制在50gb / s，而一个典型的DGX系统可以给你200gb / s。

因此，由于存储瓶颈，您只使用了GPU集群功能的四分之一。很有趣,对吧?所以,进入EBOF。EBOF可以传输RDMA。现在的情况是GPU集群，多亏了英伟达的新堆栈，他们称之为GPUDirect Storage，可以直接与EBOF通信。所以，我们绕过这里存在的x86，我们绕过限制性能的反弹缓冲区，我们可以公开，我们可以通过EBOF提供对大数据湖的无缝高吞吐量访问。

36:20 SN:如果你们在FMS展示期间有时间，我建议你们听一下美光的演示，因为美光将演示EBOF在gpu直接存储环境中的表现。在改善方面有一些惊人的数字。

好吧，让我们把它放在一起，好吗?因此，在NVMe-oF的规模上，全新的方法是确保服务器连接具有加速，TCP加速，网络也支持存储，存储支持以太网SSD。如果我们把它们放在一起，同样在左边，我们解决了JBOF的所有限制，网络的混合，JBOF性能的限制。现在,如果你看看网卡,能普遍RDMA或TCP卸载的能力,推动数据到一个以太网交换机在EBOF内部,存在这storage-aware以太网交换机,所以它可以帮助发现驱动器,它可以帮助管理驱动器,它提供了许多专门针对存储进行优化的服务。然后启用以太网SSD和使他们的能力,就像在这个例子中,今天我们有合作伙伴,能够具有连接到EBOF 3.2 t比特信息能力,实际上你解锁所有NVMe性能网络,和你会克服所有的瓶颈,我们在左边。

38:01 SN:我要感谢Nishant帮助并领导了今天的讨论。我想感谢你们的参与并聆听这个令人兴奋的，激进的方法如何扩大nvme的规模，继续前进。谢谢你！

NVMe at Scale:一种改进性能和利用率的全新方法

下面将介绍应用程序如何通过选择正确的基础架构实现转型，使NVMe能够以最小的限制、HPC和下一代HCI用例等实现规模化。

2020年闪存峰会从第二天开始

深入挖掘闪存

分析存储对人工智能工作负载的影响

以太网ssd可以提升存储解决方案的五种方式

使用ebof和开源软件优化NVMe-oF存储

SSD本机NVMe的好处