0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

适用于数据中心和 AI 时代的网络

NVIDIA英伟达 来源:未知 2023-10-27 20:05 次阅读

十多年来,传统的云数据中心一直是计算基础设施的基石,满足了各种用户和应用程序的需求。然而,近年来,为了跟上威廉希尔官方网站 的进步和对 AI 驱动的计算需求的激增,数据中心进行了发展。本文探讨了网络在塑造数据中心的未来和推动 AI 时代方面发挥的关键作用。

专用数据中心:AI 工厂和 AI 云

目前正在涌现两类不同的数据中心:AI 工厂和 AI 云。这两类数据中心都是为满足 AI 工作负载的独特需求而定制的,其特点是都依赖于加速计算。

AI 工厂旨在处理大语言模型(LLM)和其他基础 AI 模型等大规模算法模型,这些模型是构建更先进 AI 系统的基础模组。因此,为了实现拥有数千个 GPU 的集群可以无缝扩展和资源的高效利用,强大的高性能网络势在必行。

AI 云扩展了传统云基础设施的功能,以支持大规模生成式人工智能应用程序。生成式 AI 超越了传统的 AI 系统,它基于其训练的数据创建新的内容,例如图像、文本和音频。管理拥有数千名用户的 AI 云需要高级管理工具和网络基础设施,以便高效处理各种工作负载。

AI 和分布式计算

AI 工作负载具有计算密集型,尤其是涉及 ChatGPT 和 BERT 等大型复杂模型的工作负载。为了加速模型训练和对大量数据集的处理,AI 从业者已转向分布式计算。这种方法涉及将工作负载分配到多个通过高速、低延时网络连接的服务器节点上。

分布式计算是 AI 取得成功的关键,而网络的可扩展性和处理越来越多节点的能力至关重要。高度可扩展的网络使 AI 研究人员能够利用更多的计算资源,从而更快、更出色地提升性能。

在为 AI 数据中心构建网络架构时,必须优先创建以分布式计算为核心的集成解决方案。需要数据中心架构师必须认真考虑网络设计,根据他们计划部署的 AI 工作负载的独特需求定制解决方案。

NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 是两个专为应对 AI 数据中心的网络挑战而设计的网络平台,每个平台都有自己独特的功能和创新。

InfiniBand 提升 AI 性能

InfiniBand 威廉希尔官方网站 一直是大规模复杂分布式科学计算部署应用的驱动力。它已成为 AI 工厂网络的事实标准。凭借超低延迟,InfiniBand 已成为加速当今主流高性能计算(HPC)和 AI 应用的关键。高效 AI 系统所需的许多关键网络功能均原生于 NVIDIA Quantum-2 InfiniBand 平台。

InfiniBand 的网络计算是将基于硬件的计算引擎集成到网络中,利用 NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol(SHARP)(一种网络内聚合机制)。SHARP 支持多个并发集合操作,可将数据带宽翻倍,以增强集群性能,卸载大量复杂的计算到网络上来。

InfiniBand 自适应路由能够以最佳方式分散流量,从而缓解拥塞并提高资源利用率。在子网管理器的管理下,InfiniBand 会根据网络条件选择无拥塞的路由,从而在不影响数据包到达顺序的情况下最大限度地提高效率。

InfiniBand 拥塞控制架构可确保确定性带宽和延迟。它使用三个阶段来管理拥塞,从而防止 AI 工作负载中遇到性能瓶颈。

这些固有的优化使 InfiniBand 能够满足 AI 应用的需求,最终实现卓越的性能和效率。

以太网中探索 AI 部署

为 AI 基础架构部署以太网产品首先需要满足以太网协议的特定需求。但是,随着时间的推移,为了满足各种网络场景的需求,以太网融入了非常广泛而复杂的功能。

因此,开箱即用的传统以太网并非专为高性能而设计。使用传统以太网络搭建的 AI 云只能实现部署了优化过以太网络的 AI 云所能实现的一小部分性能。

在多个 AI 作业同时运行的多租户环境中,性能隔离对于防止性能降低至关重要。如果出现链路故障,传统以太网可能会导致 AI 集群性能减半。这是因为传统以太网主要针对日常企业工作流程进行了优化,而不是为了满足那些依赖于 NVIIDA Collective Communication Library(NCCL)的高性能 AI 应用程序的需求而设计的。

这些性能问题是由传统以太网的固有因素造成的,包括:

  • 更高的交换机延时,在其他商用的 ASIC 竞品中很常见

  • 分立的交换机 Buffer 架构,这可能会导致带宽不公平

  • 负载均衡缺乏针对 AI 工作负载生成的大型流进行了二次优化

  • 缺乏性能隔离而导致相邻噪声问题严重

Spectrum-X 网络平台解决了这些问题以及更多其他问题。Spectrum–X 基于标准以太网协议构建,支持 RDMA over Converged Ethernet(RoCE)协议,可提高 AI 的性能。Spectrum-X 网络平台利用 InfiniBand 原生的最佳实践,并为以太网带来了自适应路由和拥塞控制等创新。

Spectrum-X 是唯一一款能够为多租户生成式 AI 云提供高效带宽和性能隔离的以太网平台,这得益于 Spectrum-4 和 NVIDIA BlueField-3 DPU。

总结

AI 时代已然来临,而网络是其成功的基石。为了充分发挥 AI 的潜力,数据中心架构师必须仔细考虑网络设计,并根据 AI 工作负载的独特需求定制这些设计。解决网络问题是释放 AI 威廉希尔官方网站 潜力和推动数据中心行业创新的关键。

NVIDIA Quantum InfiniBand 凭借超低延时、可扩展性能和先进的功能集,成为 AI 工厂的理想选择。而 NVIDIA Spectrum-X 则凭借专为 AI 打造的威廉希尔官方网站 创新,为构建基于以太网的 AI 云的组织提供了突破性解决方案。

扫描下方二维码查看更多有关NVIDIA Spectrum-X 的信息

wKgZomU7qJyAdshbAAAC82xYpcM888.png

扫描下方二维码查看更多有关NVIDIA Quantum-2 InfiniBand 的信息。

wKgZomU7qJyAAjJmAAAC_QZti7Q336.png


wKgZomU7qJyAUftJAABAFFJlyZc645.gif  

更多精彩内容 新的 MLPerf 推理网络部分展现 NVIDIA InfiniBand 网络和 GPUDirect RDMA 的强大能力
借助 NVIDIA Spectrum 以太网最大限度地提高存储网络性能
使用 NVIDIA Spectrum-X 网络平台加速生成式 AI 工作负载


原文标题:适用于数据中心和 AI 时代的网络

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英伟达
    +关注

    关注

    22

    文章

    3771

    浏览量

    90999

原文标题:适用于数据中心和 AI 时代的网络

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Meta AI数据中心网络用了哪家的芯片

      在Meta,我们相信开放的硬件会推动创新。在当今世界,越来越多的数据中心基础设施致力于支持新兴的AI威廉希尔官方网站 ,开放硬件在协助分解方面发挥着重要作用。通过将传统数据中心威廉希尔官方网站 分解为其核心组件,我们可以
    的头像 发表于 11-25 10:05 351次阅读
    Meta <b class='flag-5'>AI</b><b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>用了哪家的芯片

    NVIDIA推出适用于网络安全的NIM Blueprint

    德勤使用适用于容器安全的 NVIDIA NIM Agent Blueprint 帮助企业利用开源软件构建安全的 AI
    的头像 发表于 11-20 09:58 216次阅读

    简述数据中心网络架构的演变

    随着全球对人工智能(AI)的需求不断增长,数据中心作为AI计算的重要基础设施,其网络架构与连接威廉希尔官方网站 的发展变得尤为关键。
    的头像 发表于 10-22 16:23 286次阅读

    适用于实现VR13.HC Vccin规范的数据中心应用的负载点解决方案

    电子发烧友网站提供《适用于实现VR13.HC Vccin规范的数据中心应用的负载点解决方案.pdf》资料免费下载
    发表于 09-21 10:09 0次下载
    <b class='flag-5'>适用于</b>实现VR13.HC Vccin规范的<b class='flag-5'>数据中心</b>应用的负载点解决方案

    数据中心应用中适用于Intel Xeon Sapphire Rapids可扩展处理器的负载点解决方案

    电子发烧友网站提供《数据中心应用中适用于Intel Xeon Sapphire Rapids可扩展处理器的负载点解决方案.pdf》资料免费下载
    发表于 09-03 11:20 0次下载
    <b class='flag-5'>数据中心</b>应用中<b class='flag-5'>适用于</b>Intel Xeon Sapphire Rapids可扩展处理器的负载点解决方案

    数据中心应用中适用于Intel® Xeon® Sapphire Rapids可扩展处理器的负载点解决方案

    电子发烧友网站提供《数据中心应用中适用于Intel® Xeon® Sapphire Rapids可扩展处理器的负载点解决方案.pdf》资料免费下载
    发表于 08-26 09:54 0次下载
    <b class='flag-5'>数据中心</b>应用中<b class='flag-5'>适用于</b>Intel® Xeon® Sapphire Rapids可扩展处理器的负载点解决方案

    适用于符合VR13.HC VCCIN规范的数据中心应用的负载点解决方案

    电子发烧友网站提供《适用于符合VR13.HC VCCIN规范的数据中心应用的负载点解决方案.pdf》资料免费下载
    发表于 08-26 09:39 0次下载
    <b class='flag-5'>适用于</b>符合VR13.HC VCCIN规范的<b class='flag-5'>数据中心</b>应用的负载点解决方案

    适用于数据中心应用中的硬件加速器的直流/直流转换器解决方案

    电子发烧友网站提供《适用于数据中心应用中的硬件加速器的直流/直流转换器解决方案.pdf》资料免费下载
    发表于 08-26 09:38 0次下载
    <b class='flag-5'>适用于</b><b class='flag-5'>数据中心</b>应用中的硬件加速器的直流/直流转换器解决方案

    哪些是数据中心的重要系统?

    服务器:支持虚拟化威廉希尔官方网站 ,将物理服务器分割成多个虚拟实例。 2. 存储系统 存储区域网络(SAN):提供高速的数据存取通道,通常用于大型存储需求。 网络附加存储(NAS):通过
    的头像 发表于 08-16 13:37 266次阅读

    数据中心AI时代转型:挑战与机遇

    随着人工智能(AI)的迅速发展和广泛应用,数据中心作为AI威廉希尔官方网站 的基石,也面临着前所未有的挑战和机遇。为了满足AI的高性能和低延迟要求,数据中心
    的头像 发表于 07-24 08:28 488次阅读
    <b class='flag-5'>数据中心</b>的<b class='flag-5'>AI</b><b class='flag-5'>时代</b>转型:挑战与机遇

    AI时代,我们需要怎样的数据中心AI重新定义数据中心

    超过60%的中国企业计划在未来12至24个月内部署生成式人工智能。AI、模型的构建,将颠覆数据中心基础设施的建设、运维和运营。一个全新的数据中心智能化时代已经拉开序幕。
    发表于 07-16 11:33 703次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>时代</b>,我们需要怎样的<b class='flag-5'>数据中心</b>?<b class='flag-5'>AI</b>重新定义<b class='flag-5'>数据中心</b>

    英飞凌引领AI数据中心走向高效能电源新篇章

    致力于引领行业发展方向。   英飞凌的新型电源装置(PSU)在保证高效运行的基础上,能够有效降低服务器的冷却能耗,从而降低整体运营成本。这些先进的PSU不仅适用于未来的数据中心,更有望替代现有服务器中的电源设备,提升整体效率。
    的头像 发表于 06-04 14:50 594次阅读

    HNS 2024:星河AI数据中心网络,赋AI时代新动能

    华为数据通信创新峰会2024在巴库隆重举办,在“星河AI数据中心网络,赋AI时代新动能”主题论坛
    的头像 发表于 05-15 09:15 651次阅读
    HNS 2024:星河<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>,赋<b class='flag-5'>AI</b><b class='flag-5'>时代</b>新动能

    华为联合中国信通院发布《华为星河AI数据中心网络测试报告》

    2024 开放数据中心委员会(以下简称ODCC)春季全会在江西婺源顺利召开,全会由ODCC副主席李洁博士主持。全会期间,华为联合中国信通院云大所数据中心团队发布《华为星河AI数据中心
    的头像 发表于 04-02 09:25 1463次阅读

    一图看懂星河AI数据中心网络,全面释放AI时代算力

    华为中国合作伙伴大会 | 一图看懂星河AI数据中心网络,以网强算,全面释放AI时代算力
    的头像 发表于 03-22 10:28 752次阅读
    一图看懂星河<b class='flag-5'>AI</b><b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>,全面释放<b class='flag-5'>AI</b><b class='flag-5'>时代</b>算力