0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA DOCA 2.9版本的亮点解析

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-11-27 11:15 次阅读

NVIDIA DOCA通过为开发者提供全面的软件框架以利用硬件加速来增强 NVIDIA 网络平台的功能,从而提高性能、安全性和效率。其 API、库和工具生态系统简化了数据中心基础设施的开发,实现了工作负载卸载、加速和隔离,以支持现代、高效的数据中心。

如今,许多主要的 CSP 和 NVIDIA 云合作伙伴(NCP)都在使用 DOCA,并且 DOCA 为快速开发和部署创新解决方案提供了标准化平台。这种方法可加快上市时间、降低成本,并帮助合作伙伴在使用 NVIDIA 硬件加速的同时专注于自身的核心优势。

DOCA 培育的开放生态系统促进了协作和互操作性,创造了各种互补解决方案。合作伙伴可以探索 AI 驱动的网络、高级安全和高性能存储等新兴市场,让自己处于数据中心创新的前沿。

DOCA 2.9的最新版本标志着 AI 计算网络架构和云计算基础设施的重大进步。这次全面的更新引入了许多新功能和改进功能,有助于改变高性能计算和网络格局。

ba6579b2-ab12-11ef-93f3-92fbcf53809c.png

图 1:DOCA 2.9 架构

利用增强的东西向计算网络架构优化 AI 网络

DOCA 2.9 版本的亮点包括改进的拥塞控制和新的遥测库,这对于优化数据中心内的网络流量至关重要,从而提供更好的性能、效率、可见性和控制。

支持 Spectrum-X 1.2 参考架构

Spectrum-X(SPC-X) 1.2 参考架构针对东西向以太网 AI 云环境进行了多项改进。该更新支持大规模横向扩展能力,可在单个网络架构中容纳多达 128K 个 GPU。该架构使用NVIDIA BlueField-3 SuperNIC和NVIDIA Spectrum-4 交换机的强大组合,连接到 NVIDIA DGX 和 NVIDIA HGX 平台,为 AI 工作负载提供出色的性能和效率。

DOCA 2.9 还改进了 Spectrum-X 的遥测能力和拥塞控制算法。这有助于更精细、更实时地监控网络性能,并改进拓扑检测,这对于优化大规模和长距离的 AI 工作负载至关重要。

DOCA 拥塞控制

DOCA 2.9 提升了适用于高性能计算和 AI 工作负载的拥塞控制算法,即NVIDIA 网络拥塞控制(NVNCC)。

NVNCC Gen2 和 InfiniBand 拥塞控制 IBCC 的全面推出标志着一个重要的里程碑。IBCC 专门针对 InfiniBand 上的 AI 工作负载进行了优化,而 NVNCC 通过改进的拓扑检测功能增强了 Spectrum-X 拥塞控制算法,现在支持长距离的 RoCE。

DOCA 遥测库

作为此版本的新增功能,DOCA 遥测库引入了高频采样功能,从而提高了 AI 驱动环境的网络监控能力。此更新可实现低于 100 微秒间隔的计数器读取,与之前的 0.5-1 秒间隔相比,实现了巨大飞跃。

主要功能包括用于指定计数器、时间间隔和频率的新 API,以及对多个性能计数器(例如 RX/TX 字节、端口、拥塞通知和 PCIe 延迟)的支持。这些增强功能可满足关键用例的需求,例如用于全集群异常检测的高频遥测(HFT)和用于应用程序分析的本地性能分析。

南北向云计算基础设施

的连接性和安全性正在增强

DOCA 2.9 中的南北向改进侧重于增强云资源与外部网络之间的连接性。

DOCA Flow

DOCA 2.9 为 DOCA Flow 引入了一项令人兴奋的新功能:“tune”性能分析工具。该工具目前处于 alpha 阶段,已无缝集成到 DOCA Flow 软件包之中,为用户提供有关其网络流配置的深入洞察。

“tune"工具可直观呈现已配置的流水线,使用户能够清楚地了解其流结构。这项可视化功能使管理员和开发者能够快速识别和优化流配置。

OVS-DOCA

OVS-DOCA现已正式发布,它具有本地镜像功能,并在 NVIDIA BlueField DPU 的软件定义网络方面向前迈出了一大步。此长期支持(LTS)版本为用户提供了一种对传统使用 DPDK 或内核数据路径(kernel datapath)的 OVS 解决方案的替代方案,为现代网络环境提供更高的效率和扩展功能。

发布版本引入了一些关键的增强功能,可提升 DOCA 的功能,包括通过 DOCA Flow API 大幅提升连接追踪(CT)功能的性能。用户可将每秒连接数(CPS)提高 100%,每秒数据包数(PPS)提高 50%。可扩展性和吞吐量也得到了增强,最多可支持三个网卡(NIC),从而实现更灵活、更强大的网络配置。

DOCA 基于主机的网络 2.4 版本

DOCA 基于主机的网络(HBN)不断发展,2.4 版本为适用于裸金属及服务环境的无控制器 VPC 网络带来了许多增强功能。DOCA HBN 2.4 以 BGP EVPN 为基础,引入了令人印象深刻的可扩展性改进,支持高达 8K 个 VTEP 和 80K 个 Type-5 路由。

最新版本通过内核下一跳(Next-Hop)组和 OVS-DOCA 故障转移增强了 ECMP 路由,提高了网络弹性和性能。其中一个关键的新增功能是 Overlay 网关的有状态 SNAT+PAT,使私有租户 IP 能够通过共享公共 IP 地址访问外部网络。

DOCA FireFly

增强的DOCA Firefly服务通过硬件加速为 NVIDIA DPU(数据处理器)带来先进的时间同步功能。此更新引入了两项显著特性:同步以太网(SyncE)支持和数据传输服务(DTS)集成。

SyncE 可在网络设备之间实现高精度频率同步,对于电信网络(尤其是移动基础设施)至关重要。DTS 支持支持通过遥测通道传输 PTP 信息,从而实现持续的网络时间服务监控。

NVIDIA Rivermax SDK

Rivermax SDK的增强功能主要侧重于降低延迟、最小化 CPU 使用率,以及最大化数据密集型应用程序的带宽和 GPU 利用率。一项重要的新增功能是支持 Internet Protocol Media Experience(IPMX),这是专业视听环境中新兴的 AV over IP 开放标准。

在 Rivermax 的支持下,DOCA 2.9 还支持 NVIDIA Holoscan for Media,这是一个专为媒体和娱乐行业定制的认证平台。该功能优化了未压缩和压缩视频流的处理,简化了用于高性能媒体处理的 I/O 操作。

NVIDIA DOCA App Shield

DOCA App Shield 库的增强功能提高了其在主机监控和威胁检测方面的能力。一项重要的新增功能是包括了预先生成的操作系统配置文件,使各种操作系统的设置过程更加简化。

对于 Linux 环境,App Shield 现在提供高级容器监控功能,使安全团队能够密切关注容器化工作负载。该服务已得到扩展,可列出网络连接,并提供有关每个进程的网络连接详细信息,从而更深入地洞察潜在的安全威胁。

DOCA SNAP virtio-fs

DOCA SNAP virtio-fs 测试版是一项利用 NVIDIA BlueField-3 DPU 强大功能来提供安全加速文件系统存储的服务。此解决方案使用内置的 virtio-fs 驱动程序向主机公开本地文件系统语义,同时直接在 DPU 上运行远程文件系统存储逻辑。

该版本还引入了 SNAP Virtio-fs 的测试版,作为公共 NGC 服务容器提供。它启用了 NFS Linux 内核文件系统,并集成到 BlueField-3 内核中。开发者可以基于 SPDK FSDEV 创建自定义文件系统堆栈,从而实现灵活性和性能优化。

此解决方案支持在 AI 计算服务器中实现云规模分布式文件系统存储,提供具有隔离和策略实施的安全环境,同时加速性能并卸载虚拟机管理程序任务。

开放虚拟网络裸金属租户隔离

DOCA 2.9 包括一项新的编排服务,增强软件定义网络(SDN)环境中的租户隔离。开放虚拟网络(OVN)裸金属租户隔离功能可保护多租户环境中的南北向流量,确保 AI 工作负载保持安全和独立,即使在密集的计算集群中也是如此。

此服务基于上游 OVN 构建,提供用于租户隔离的简化、强大的 API,以及用于在 BlueField DPU 上轻松部署的 Ansible Playbook。关键创新在于卸载和加速基于 SDN 的租户 BlueField DPU,通过隔离特定进程来提高速度和效率。这种集中组织允许使用 API 调用轻松更改隔离设置,从而更好地控制网络管理。这使得它非常适合希望使用 SDN 创建多租户云的 AI 云和工厂。

设备管理和开发工具

DOCA 2.9 简化了大规模部署所需的设备管理流程。此版本还为开发者提供了新的优化和分析工具,可帮助他们更好地洞察应用程序和数据路径性能。

DOCA 管理服务 (DMS)

DOCA 管理服务(DMS)也升级为发布状态,为管理 BlueField DPU 和 SuperNIC 提供了增强功能。此更新引入了通过单个 API 端点管理多台设备的能力,从而简化了在复杂的多设备环境中的操作。

一项重要改进是支持节点重启后的配置“持久性”,从而确保设备设置在系统重启期间保持不变。此外,还新增了设配配置的批量导入/导出功能,可实现大规模部署的高效管理。

DOCA 数据路径加速器

数据路径加速器(DPA)工具包的增强功能为开发者提供了更强大的性能优化和分析工具。其中一项突出功能是将 DPA 性能计数器与新的 Nsight 工具相集成,从而更深入地洞察应用程序性能。

一个重要的新增功能是DOCA-DPA-Comms 库,目前处于测试阶段。该库简化了基于 DPA 的数据路径实现,为开发者提供了更高级别的抽象。它可用于 BlueField-3 DPU 和即将推出的 NVIDIA ConnectX-8 SuperNIC,确保 NVIDIA 高级网络硬件产品线具有广泛的兼容性。

用于简化部署和支持的平台和 DOCA 软件包

改善用户体验是 DOCA 发展的核心。本次发布包括许多旨在简化和改进部署的功能,例如 DOCA-Host 配置文件 DOCA-ROCE,它适用于需要 RDMA over Converged Ethernet 功能的环境。

NVIDIA 还针对 BlueField-3 推出了 PLDM 固件更新。该测试版支持使用 PCIe 上的标准 PLDM over MCTP 实现无缝固件更新,使服务器在激活之前能够正常运行。这一零信任功能支持 NIC 和 DPU 模式,并且无需 DPU-BMC 1GbE 连接。

此外,此版本标志着 MLNX_OFED 的最终长期支持(LTS)成为独立版本,该版本现已作为主机配置文件 DOCA-OFED 使用。

从用于 InfiniBand 和以太网解决方案的 MLNX_OFED 驱动和工具套件过渡到 DOCA-OFED,可实现集成在 DOCA 框架内的统一、可扩展和可编程网络堆栈。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4981

    浏览量

    102997
  • 云计算
    +关注

    关注

    39

    文章

    7776

    浏览量

    137362
  • 数据中心
    +关注

    关注

    16

    文章

    4764

    浏览量

    72100
  • AI
    AI
    +关注

    关注

    87

    文章

    30763

    浏览量

    268906

原文标题:NVIDIA DOCA 2.9 通过新的性能和安全功能来增强 AI 和云计算基础设施

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    豆神AI Windows PC端1.0版本登陆微软商城

    豆神 Al Windows PC端 1.0 版本已于 12 月初正式登陆微软商城。作为定制版本的核心亮点,豆神教育首次面向 Windows用户全面推出为中国青少年提供大语文领域素质能力培养的数字内容产品和 AI智能学习工具 PC
    的头像 发表于 12-10 11:16 319次阅读

    NVIDIA DOCA-OFED的主要特性

    NVIDIA DOCA 软件平台释放了 NVIDIA BlueField 网络平台的潜力,并为NVIDIA BlueField和ConnectX设备提供了所需的所有主机驱动程序。
    的头像 发表于 11-09 13:50 257次阅读

    浅谈Xpedition 2409版本的新功能

    在《创新不止|Xpedition 2409版本新功能揭秘(上)》一文中,我们了解了Xpedition 2409版本的部分改进部分。今天,我们继续看Xpedition 2409新版本给我们带来了什么样的全新用户体验。
    的头像 发表于 10-31 15:33 696次阅读

    NVIDIA Parabricks v4.3.1版本的新功能

    会(ESHG)上发布,其加入了新的体细胞数据变异检测功能,并将业内领先的工具升级到最新版本。这个版本是继在 NVIDIA GTC 2024 大会上发布 Parabricks v4.3 之后推出的新
    的头像 发表于 09-10 10:22 376次阅读
    <b class='flag-5'>NVIDIA</b> Parabricks v4.3.1<b class='flag-5'>版本</b>的新功能

    NVIDIA JetPack 6.0版本的关键功能

    NVIDIA JetPack SDK 支持 NVIDIA Jetson 模块,为构建端到端加速 AI 应用提供全面的解决方案。JetPack 6 通过微服务和一系列新功能,扩展了 Jetson 平台的灵活性和可扩展性,是 2024 年截至目前下载量最高的 JetPack
    的头像 发表于 09-09 10:18 409次阅读
    <b class='flag-5'>NVIDIA</b> JetPack 6.0<b class='flag-5'>版本</b>的关键功能

    IB Verbs和NVIDIA DOCA GPUNetIO性能测试

    NVIDIA DOCA GPUNetIO 是 NVIDIA DOCA SDK 中的一个库,专门为实时在线 GPU 数据包处理而设计。它结合了 GPUDirect RDMA 和 GPUD
    的头像 发表于 08-23 17:03 593次阅读
    IB Verbs和<b class='flag-5'>NVIDIA</b> <b class='flag-5'>DOCA</b> GPUNetIO性能测试

    OpenVINO 2024.2版本亮点解析

    生成式 AI 正在被应用程序设计人员快速地使用着。这不仅体现在使用来自商业云服务模型的传统REST API形式上,而且还发生在客户端和边缘。越来越多的数据正在客户端处理,通过AIPC,我们为此开始看到更多的机会。其中一种场景是人工智能助手,它能够生成文本(邮件草稿、文档摘要、文档内容的答案等等)。这一切都由 LLM(大型语言模型)和不断增长的 SLM(小型语言模型)系列提供支持。
    的头像 发表于 08-16 15:26 333次阅读

    RaftKeeper v2.1.0版本发布,性能大幅提升!

    新特性,包括异步创建 snapshot。该版本的最大亮点在于性能优化:写请求性能提升 11%, 读写混合场景更是大幅提升了 118% 。本文将从工程细节的角度深入解析版本的改进
    的头像 发表于 07-15 15:10 327次阅读
    RaftKeeper v2.1.0<b class='flag-5'>版本</b>发布,性能大幅提升!

    超级猛兽 GPU ?NVIDIA GeForce RTX 5090 基本频率接近 2.9 GHz

    ABSTRACT摘要根据最新传言,旗舰级NVIDIAGeForceRTX5090GPU看起来将是一款超级猛兽。据称,显卡的基本时钟速度将设定在2.9GHz左右,几乎达到3GHz的门槛
    的头像 发表于 07-12 08:26 435次阅读
    超级猛兽 GPU ?<b class='flag-5'>NVIDIA</b> GeForce RTX 5090 基本频率接近 <b class='flag-5'>2.9</b> GHz

    借助NVIDIA DOCA 2.7增强AI 云数据中心和NVIDIA Spectrum-X

    NVIDIA DOCA 加速框架为开发者提供了丰富的库、驱动和 API,以便为 NVIDIA BlueField DPU 和 SuperNIC 创建高性能的应用程序和服务。
    的头像 发表于 05-29 09:22 486次阅读

    华为数据存储伙伴赋能六大亮点解

    精彩回顾 | 华为数据存储伙伴赋能六大亮点解
    的头像 发表于 03-28 11:33 556次阅读
    华为数据存储伙伴赋能六大<b class='flag-5'>亮点解</b>读

    华为中国合作伙伴大会2024:Net5.5G融合广域网亮点解

    华为中国合作伙伴大会2024 | Net5.5G融合广域网亮点解
    的头像 发表于 03-20 15:13 512次阅读
    华为中国合作伙伴大会2024:Net5.5G融合广域网<b class='flag-5'>亮点解</b>读

    基于NVIDIA DOCA 2.6实现高性能和安全的AI云设计

    作为专为 NVIDIA® BlueField® 网络平台而设计的数据中心基础设施软件框架,NVIDIA® DOCA™ 使广大开发者能够利用其行业标准 API 在 NVIDIA Blue
    的头像 发表于 02-23 10:02 470次阅读

    NVIDIA TAO 5.2版本发布

    NVIDIA TAO 提供了一个低代码开源 AI 框架,无论你是初学者还是专业的数据科学家,都可以使用该框架加速视觉 AI 模型开发。开发者现在可以利用迁移学习的强大功能和效率,通过调整和优化等措施,以史无前例的速度实现一流的准确性,以及生产级吞吐量。
    的头像 发表于 01-03 10:11 621次阅读

    NVIDIA DOCA 2.5 长期支持版本发布

    正值 NVIDIA DOCA 面世三周年之际,NVIDIA 于近日发布了适用于 NVIDIA BlueField-3 网络平台的 NVIDIA
    的头像 发表于 12-26 18:25 406次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>DOCA</b> 2.5 长期支持<b class='flag-5'>版本</b>发布