关于AI网络的五个基本要点-电子发烧友网

随着大模型的兴起，为了应对新的AI应用，AI或算力数据中心建设如火如荼。

无论是作为聊天机器人，推荐系统还是在各个领域中实现流程自动化，比如无人驾驶、人脸识别；AI威廉希尔官方网站都有望提升并加速众多企业和公共设施的运营，甚至改变人们的生活方式。

然而，AI网络或算力网络作为一个概念，常常让人感到困惑且被误解，AI和算力需要网络么？

在本文中，我们将探讨关于AI网络的五个基本要点，以及随着AI的发展，网络所面临的独特挑战。

GPU是AI的核心

简单来说，AI的核心是图形处理单元（GPU）或神经处理单元（NPU）。

过去，我们通常认为中央处理单元（CPU）是计算机的核心。但GPU的优势在于，它在执行数学计算特别是矩阵计算方面非常出色，从某种角度来说，与人脑神经元更接近。

CPU时代的数据中心网络处理的大多是供人阅读的文字或多媒体，典型的就是网站的浏览、文件传输以及观看视频，数据中心往往能够同时支持数亿人的同时在线及高速的视频码流传输。

而在构建大语言模型或深度学习模型时，需要让GPU进行“训练”，这涉及到解决可能包含数十亿参数的矩阵和梯度运算。GPU的计算非常的快，整个“训练”过程异常严苛，不允许有任何的错误发生，一旦发生错误或延迟，整个“训练”的周期就会被拉长。这样的运算量，以及对无损和低延时的要求，对于传统的数据中心而言，突然就变得捉襟见肘了。

AI训练任务由多GPU协同完成

大语言模型在训练的参数和模型复杂度上有非常明显的提升，完成这些计算必须让多达上千个GPU共同处理训练任务，即便如此，训练或微调大模型也可能需要数周甚至数月的时间。

一般的多GPU互联的架构是将一组GPU服务器放置在机架中，并通过机架顶部的交换机相互连接。机架与机架通过CLOS网络结构将它们全部连接起来。随着解决问题复杂性的提升，对GPU的需求也会增加，有些情况下单个数据中心的电力不足以支持的时候，甚至需要跨数据中心连接通信来完成更大型的训练任务。

AI集群是一台超级计算机

在构建AI集群时，不仅仅要将GPU相互连接，更需要把它作为一个系统，解决很多错误和优化的问题。正因为AI集群的规模不断的上升，其中任何单点错误会导致整体训练任务的失败或效率低下，整个系统的组成部件比如模块、线缆、交换机、网卡、服务器、存储甚至电源，冷却系统等，都会影响整个系统的执行和维护。AI集群已经慢慢由一个组网变成为一台超级计算机，越来越多的工作将会围绕在部件之间的协同而不仅是部件内部的单点优化展开。

网络成为了训练效率的关键瓶颈

在去年秋天的开放计算项目（OCP）全球峰会上，Marvell Technology的Loi Nguyen指出，网络成为了AI部署的新瓶颈。GPU在解决计算问题或处理训练负载方面非常有效。然而，进行并行计算的GPU在完成本身处理的信息之外需要获取其他GPU处理完成的信息，彼此之间需要相互通信和同步。

如果一个GPU无法获取所需信息，或者同步需要较长时间，其他所有GPU都必须等待，直到协作任务完成。在威廉希尔官方网站层面上，由网络拥塞导致的数据包延迟或丢失可能会引发数据包重传，显著增加任务完成时间（JCT）。

这意味着价值数百万甚至数千万美元的GPU长时间处于闲置状态，从而导致AI产品的上市时间延迟并影响公司的财务成果。

测试对于AI网络至关重要

为了确保AI集群的高效运行，需要网络对GPU协同作业可能存在的拥塞和错误有提前的感知以及良好的应对。

这要求对网络处理AI负载的性能进行详尽的测试和基准评估。但这并非易事，因为GPU协同作业的负载区别于传统网络的流量负载，微突发、大象流、低熵是比较典型的特征。

因此，在测试AI网络时，我们会面临诸多挑战：

• GPU短缺，无法复刻生产网络环境或无法长时间复现问题。

•在生产系统上进行测试可能会降低系统的处理能力。

•系统内的部件不能提供足够的日志及调试能力，无法准确定位问题。

•此外，获取GPU之间集合通信更细节的信息，比如 Queue-Pair 的信息是一个挑战。

为了应对这些挑战，可以首先在实验室环境中对建议配置的一个子集或小的组网进行测试，对关键参数进行基准测试，比如任务完成时间（JCT）、AI集群可达到的带宽，以及这些参数与网络利用率和交换机缓存消耗的比较。

这种基准测试有助于找到GPU/工作负载与网络设计/参数设置之间的平衡。当计算架构师和网络工程师对结果满意时，他们可以将这些设置应用于生产环境，并测量新的结果。

结论

为了充分利用AI算力，必须对AI网络的设备和基础设施进行优化。

企业和学术界正在提出更多好的架构和算法来优化AI系统的各个部件及部件间协同，以应对未来更多AI应用给大型网络带来的挑战。

测试对AI系统非常关键，只有通过确定可重复的测试，行业才能实现从探索性实验到可交付的迭代，这会是优化AI这台超级计算机的基础。

关于是德科技

是德科技（NYSE：KEYS）启迪并赋能创新者，助力他们将改变世界的威廉希尔官方网站带入生活。作为一家标准普尔 500 指数公司，我们提供先进的设计、仿真和测试解决方案，旨在帮助工程师在整个产品生命周期中更快地完成开发和部署，同时控制好风险。我们的客户遍及全球通信、工业自动化、航空航天与国防、汽车、半导体和通用电子等市场。我们与客户携手，加速创新，创造一个安全互联的世界。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

gpu

gpu

+关注

关注
28

文章
4729

浏览量
128892
网络

网络

+关注

关注
14

文章
7553

浏览量
88732
AI

AI

+关注

关注
87

文章
30728

浏览量
268892
是德科技

是德科技

+关注

关注
20

文章
875

浏览量
81765

原文标题：关于AI网络你应该知道的五件事

文章出处：【微信号：是德科技KEYSIGHT，微信公众号：是德科技KEYSIGHT】欢迎添加关注！文章转载请注明出处。

AI for Science：人工智能驱动科学创新》第4章-AI与生命科学读后感

很幸运社区给我一个阅读此书的机会，感谢平台。《AI for Science：人工智能驱动科学创新》第4章关于AI与生命科学的部分，为我们揭示了人工智能威廉希尔官方网站在生命科学领域中的广泛应用和

发表于 10-14 09:21

《AI for Science：人工智能驱动科学创新》第二章AI for Science的威廉希尔官方网站支撑学习心得

非常高兴本周末收到一本新书，也非常感谢平台提供阅读机会。这是一本挺好的书，包装精美，内容详实，干活满满。关于《AI for Science：人工智能驱动科学创新》第二章“AI

发表于 10-14 09:16

pcb设计中布局的要点是什么

在PCB设计中，布局是一个非常重要的环节，它直接影响到电路的性能、可靠性和成本。以下是关于PCB布局的一些要点，这些要点将帮助您设计出高质量的PCB。确定设计目标和要求在开始布局之

发表于 09-02 14:48 •392次阅读

六类网络模块与五类网络模块区别

六类网络模块与五类网络模块在多个方面存在显著差异，以下是对两者区别的详细分析：一、传输速率六类网络模块：支持高达10Gbps的传输速率，能够满足大容量数据传输和高频率应用的需求。这

发表于 07-30 10:05 •1515次阅读

OpenAI公布AI发展的五个阶段

北京时间7月12日，OpenAI为追踪其人工智能（AI）威廉希尔官方网站追赶并超越人类智能的进程，正式公布了AI发展的五个阶段性划分，旨在加深公众对公司AI

发表于 07-12 15:50 •1653次阅读

ESP8266如何连接五个Wifi网络？

正如我在文档中读到的那样，ESP8266最多可以连接五个 Wifi 网络。但我无法做到这一点。在启动过程中，我使用以下代码将最大网络数设置为 5： printf(\"err:%irn

发表于 07-10 07:11

中国移动揭晓关于人工智能生态发展的五个100计划

的宏伟蓝图——“五个100”计划。该计划旨在通过开放百项AI融合应用场景、汇聚百家顶尖合作伙伴、设立百亿级权益支持基金、解锁百项核心威廉希尔官方网站要素，并培育百万量级智能实体，全面加速AI生态的

发表于 07-08 16:56 •1322次阅读

生成式AI与神经网络模型的区别和联系

生成式AI与神经网络模型是现代人工智能领域的两个核心概念，它们在推动威廉希尔官方网站进步和应用拓展方面发挥着至关重要的作用。本文将详细探讨生成式AI与神经网络

发表于 07-02 15:03 •717次阅读

2030 年2030 年关于人工智能的五点预测

本文由半导体产业纵横（ID：ICVIEWS）编译自semiengineering以下是关于2030年人工智能世界将会呈现出的五个大胆预测。2030年，人工智能领域将会有怎样的变化

发表于 03-28 08:26 •671次阅读

ai_reloc_network.h引入后，ai_datatypes_format.h和formats_list.h报错的原因？

当准备使用神经网络的relocatable方式，将ai_reloc_network.h头文件加入程序编译后，ai_datatypes_format.h在cubeIDE和Keilc里分别报如下错误

发表于 03-14 06:23

NanoEdge AI的威廉希尔官方网站原理、应用场景及优势

能耗并提高数据安全性。本文将对 NanoEdge AI 的威廉希尔官方网站原理、应用场景以及优势进行综述。 1、威廉希尔官方网站原理 NanoEdge AI 的核心威廉希尔官方网站包括边缘计算、神经网络压缩和低功耗硬件设计。边缘计算

发表于 03-12 08:09

关于变频器的15个要点知识（2/2）

接上《关于变频器的15个要点知识（1/2）》 8、失速防止功能是什么意思？如果给定的加速时间过短，变频器的输出频率变化远远超过转速（电角频率）的变化，变频器将因流过过电流而跳闸，运转

发表于 02-02 15:59 •421次阅读

AI Agent：大模型的下一个高地

关于AI的想象力

发表于 01-15 12:36 •443次阅读

关于AI PC，英特尔CEO帕特·基辛格说了三个法则

美国拉斯维加斯时间1月9日，英特尔CEO帕特·基辛格在CES 2024大会上，总结了关于AI PC的三大法则。首先是经济法则。帕特·基辛格认为，未来的AI数据应在本地

发表于 01-10 18:04 •351次阅读

【2023电子工程师大会】ARM嵌入式AI边缘计算开发流程要点p

【2023电子工程师大会】ARM嵌入式AI边缘计算开发流程要点ppt

发表于 01-03 16:31 •27次下载