写在开头,本文主要介绍智能网卡在AI网络的作用并在一定场景下说明DPU和智能网卡在功能上的一些区别以理解两者的相似点和不同点。
智算中心又称人工智能计算中心,通常配置有大量的图形处理单元(GPU)和张量处理单元(TPU),以及针对人工智能工作负载优化的高带宽内存和存储系统。它们为机器学习和深度学习提供专门支持,包括数据预处理、模型训练以及推理服务。
人工智能计算中心的设计非常重视并行处理能力,并且能够处理大量的数据集。它们通常包括深度学习框架和库的支持,为开发者提供方便的开发环境。此外,它们可能会提供针对人工智能应用的优化工具与API,从而最大化硬件性能。
以GPU为核心的分布式计算
GPU拥有高度并行的处理架构,能够同时处理大量的计算任务,特别适合于人工智能领域中大规模的矩阵运算和向量计算。在智算中心,GPU是主要的计算节点,而CPU则更多承担任务调度、系统管理和其他非并行计算任务。智算中心是以GPU为中心的架构设计,是为了满足人工智能领域对高性能计算资源的需求,且要求网络高可靠、超低延时及超高的带宽。
AI智能网卡在AI网络中的作用
我们所说的Scale-out架构的流量特性究竟是什么呢?它要求具备高吞吐量,通常约为100 Gbps,同时包长较短,典型的往返时间仅为10微秒。Scale-out架构的关键在于必须有效利用所有可用带宽,并确保流量的均匀分布。GPU流量通常较大,与典型的服务器间流量存在差异,因此应高效采用负载均衡方案,如路径感知(Path-aware)、自适应(Adaptive)或无损(Lossless)负载均衡方式。此外,还需具备快速的丢包恢复和重传机制,以避免产生高延迟,并结合适用于该架构需求的拥塞控制算法以实现最佳性能。
AI智能网卡Smart NIC主要解决的问题就是通过与交换机、GPU等硬件互联实现尽可能的无损通信。由于AI集群的规模从万卡到十万卡演进,北向网络的扩展即Scale-out网络互联(又可以理解为后端网络)通常需要配备高性能、高带宽的智能网卡,配合其他硬件设备共同解决大规模网络拥塞、死锁、丢包及乱序等一系列网络传输的问题。智能网卡的功能是重在网络加速传输,而DPU则更适合需要降低CPU工作负载以及需要加密存储的多类功能的场景。
以下以AMD不久前发布的AI网络互联结构为例可以帮助我们理解原生智能网卡和DPU的应用区别:
传统以太网Frontend:连接非AI服务器的其他数据中心基础设施和外部网络,需确保安全和存储加速能力并降低CPU开销,AMD通过最新的Saline 400 DPU与ZEN 5 EPYC CPU连接并降低其工作负载。
后端网络Backend:Scale-out网络直接连接GPU,以便共享查询和激活结果,支持大规模训练和推理。当前面临的挑战主要包括高效扩展、故障恢复、网络拥塞和数据丢失等一系列网络传输问题。AMD使用8张Pollara 400 SmartNIC 与GPU /交换机互通,所以这里的网卡与DPU存在适用场景的区别。
下一代的智能网卡应该具备更高的速率带宽(400G-800G演进),除了自适应路由、选择性重传功能以及支持智能堆栈的可扩展性与灵活性,能够支持更高的QP队列动态管理也是重要的优选性能之一。随着UEC超以太联盟的壮大以及基于以太网 RDMA优化的智算网络Scale out改进路线的明确,下一代支持UEC的智能网卡将是迈向十万卡集群的重要互联硬件。这些创新威廉希尔官方网站 为AI网络的未来奠定了坚实的基础,使得网络更加高效与可靠。
智能网卡和DPU的主要结构区别
我们以英伟达BlueField-3 DPUs为例来解释DPU和网卡的主要结构区别,BlueField 架构本质上是将网卡子系统(基于 ConnectX)与可编程数据路径、用于加密、压缩和正则表达式的硬件加速器以及用于控制平面的 Arm控制器融为一体。在 BlueField-3 中,可编程包处理器包含 16 个核可处理 256 个线程,实现了 Arm 核上的零负载数据路径处理。在许多应用中,由数据路径自主处理已知的网络流量,由 Arm 核处理新流量等例外情况及控制平面功能。
从其内部架构我们发现BlueField-3 DPU 自带一部分CX7的智能网卡网络传输功能,针对云计算和云原生环境对多租户安全及加密的高要求,DPU内置了强大的压缩和加密功能。同时,为了适应云计算场景下多样化的软件应用需求,DPU集成了众多加速器引擎,并配备了高性能的Arm CPU内核,有效减轻了CPU在相关领域的工作负担。
相对而言,智能网卡主要专注于网络加速和传输性能的提升,其内嵌的CPU内核更为精简,对于加密、压缩功能以及软件应用加速引擎的需求并不高。因此,相较于DPU,智能网卡在功能上显得更为“轻量级”,这一说法也因此而来。
以上综述可以得出一个结论:新一代的SmartNIC的主要面向的是AI网络,尤其是在分布式训练、大规模推理的应用场景进行网络传输加速与管理;它使用比DPU更少的计算能力及成本来实现这一目标。反过来说,DPU除了标准的网络接口功能,它通常还包含多个处理核心、专用加速模块(如加密解密、深度包检查、虚拟化支持)等,普遍成本高于SmartNIC。
GenAI IaaS背景下SmartNIC的需求
根据国际数据公司 (IDC)发布的《中国智算服务市场(2023下半年)跟踪》报告显示,2023下半年中国智算服务市场整体规模达到114.1亿元人民币,同比增长85.8%。其中,2023下半年,智算集成服务市场规模为36.0亿元人民币,同比增速129.4%;GenAI IaaS市场在2023年从0到1爆发式增长,在下半年市场规模达到32.2亿元人民币;Non-GenAI IaaS市场规模达到45.9亿元人民币,以较低增速保持增长。
智算集成服务以及GenAI IaaS贡献了市场重要增量:回顾整个2023年,中国Gen AI进入发展元年,智能算力需求爆发式增长。相比于2022年,2023年智算服务市场增长81.6亿元人民币。其中GenAI IaaS市场贡献59%,智算集成服务市场贡献38%。
头部云厂商过往在AI+云计算领域有双向积累的公司正在获得先发优势,如字节、阿里、百度、腾讯受益于过往在AI领域的沉淀、GPU资源以及在基础设施上的领先威廉希尔官方网站 储备,在市场上获得先发优势并将其资源投入不断向GenAI IaaS市场靠拢。
随着AI网络威廉希尔官方网站 的不断迭代,以Scale-out 互联作为集群服务器间大规模扩展的需求已经成为业内共识。如今,智能网卡作为Scale-out 的关键组件,其产品定位与发展路线显然与DPU不同。
根据Dell’Oro集团发布的《Ethernet Adapter and Smart NIC 5-Year July 2024 Forecast Report》,预计到2028年,以太网智能网卡的市场价值将超过160亿美元。这一增长主要得益于AI服务器集群Scale-out对后端网络以太网连接的强烈需求。随着人工智能通用应用的出现,服务器与后端以太网网络的连接需求日益增长,这对于大型语言模型的训练至关重要。
以上数据并不意味着国内DPU的市场已经萎缩,由于AI大模型的爆发,云厂商们正在通过加强发展生态合作伙伴来寻求异构算力的调度以及基础设施的集成,推动云计算与AI网络的按需融合。
DPU和智能网卡作为现代网络基础设施中不可或缺的硬件组件,它们在各自的目标应用领域内展现出了潜力和广阔的发展前景。在我国云计算、边缘计算以及智算中心的迅猛发展背景下,我们有理由相信,未来将会有更多创新威廉希尔官方网站 在这两类产品中得到推陈出新,为国内新质生产力的崛起提供支撑。
关于我们
AI网络全栈式互联架构产品及解决方案提供商
奇异摩尔,成立于2021年初,是一家行业领先的AI网络全栈式互联产品及解决方案提供商。公司依托于先进的高性能RDMA 和Chiplet威廉希尔官方网站 ,创新性地构建了统一互联架构——Kiwi Fabric,专为超大规模AI计算平台量身打造,以满足其对高性能互联的严苛需求。我们的产品线丰富而全面,涵盖了面向不同层次互联需求的关键产品,如面向北向Scale out网络的AI原生智能网卡、面向南向Scale up网络的GPU片间互联芯粒、以及面向芯片内算力扩展的2.5D/3D IO Die和UCIe Die2Die IP等。这些产品共同构成了全链路互联解决方案,为AI计算提供了坚实的支撑。
奇异摩尔的核心团队汇聚了来自全球半导体行业巨头如NXP、Intel、Broadcom等公司的精英,他们凭借丰富的AI互联产品研发和管理经验,致力于推动威廉希尔官方网站 创新和业务发展。团队拥有超过50个高性能网络及Chiplet量产项目的经验,为公司的产品和服务提供了强有力的威廉希尔官方网站 保障。我们的使命是支持一个更具创造力的芯世界,愿景是让计算变得简单。奇异摩尔以创新为驱动力,威廉希尔官方网站 探索新场景,生态构建新的半导体格局,为高性能AI计算奠定稳固的基石。
-
网络
+关注
关注
14文章
7554浏览量
88733 -
AI
+关注
关注
87文章
30747浏览量
268901 -
智能网卡
+关注
关注
1文章
53浏览量
12235
原文标题:Kiwi Talks | AI网络为何需要智能网卡?一文看懂智能网卡与DPU的差异
文章出处:【微信号:奇异摩尔,微信公众号:奇异摩尔】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
相关推荐
评论