ADS算力芯片的多模型架构研究-电子发烧友网

在过去十几年里，深度神经网络（DNN）得到了广泛应用，例如移动手机，AR/VR，IoT和自动驾驶等领域。复杂的用例导致多DNN模型应用的出现，例如VR的应用包含很多子任务：通过目标检测来避免与附近障碍物冲突，通过对手或手势的追踪来预测输入，通过对眼睛的追踪来完成中心点渲染等，这些子任务可以使用不同的DNN模型来完成。像自动驾驶汽车也是利用一系列DNN的算法来实现感知功能，每个DNN来完成特定任务。然而不同的DNN模型其网络层和算子也千差万别，即使是在一个DNN模型中也可能会使用异构的操作算子和类型。

此外，Torch、TensorFlow和Caffe等主流的深度学习框架，依然采用顺序的方式来处理inference 任务，每个模型一个进程。因此也导致目前NPU架构还只是专注于单个DNN任务的加速和优化，这已经远远不能满足多DNN模型应用的性能需求，更迫切需要底层新型的NPU计算架构对多模型任务进行加速和优化。而可重配NPU虽然可以适配神经网络层的多样性，但是需要额外的硬件资源来支持（比如交换单元，互联和控制模块等），还会导致因重配网络层带来的额外功耗。

开发NPU来支持多任务模型面临许多挑战：DNN负载的多样性提高了NPU设计的复杂度；多个DNN之间的联动性，导致DNN之间的调度变得困难；如何在可重配和定制化取得平衡变得更具挑战。此外这类NPU在设计时还引入了额外的性能标准考量：因多个DNN模型之间的数据共享造成的延时，多个DNN模型之间如何进行有效的资源分配等。

目前的设计研究的方向大体可以分成以下几点：多个DNN模型之间并行化执行，重新设计NPU架构来有效支持DNN模型的多样性，调度策略的优化等。

DNN之间的并行性和调度策略：

可以使用时分复用和空间协同定位等并行性策略。调度算法则大概可以分为三个方向：静态与动态调度，针对时间与空间的调度，以及基于软件或者硬件的调度。

时分复用是传统优先级抢占策略的升级版，允许inter-DNN的流水线操作，来提高系统资源的利用率（PE和memory等）。这种策略专注调度算法的优化，好处是对NPU硬件的改动比较少。

空间协同定位则专注于多个DNN模型执行的并行性，也就是不同DNN模型可以同时占用NPU硬件资源的不同部分。这要求在设计NPU阶段就要预知各个DNN网络的特性以及优先级，以预定义那部分NPU硬件单元分配给特定的DNN网络使用。分配的策略可以选择DNN运行过程中的动态分配，或者是静态分配。静态分配依赖于硬件调度器，软件干预较少。空间协同定位的好处是可以更好的提高系统的性能，但是对硬件改动比较大。

动态调度与静态调度则是根据用户用例的特定目标来选择使用动态调度或者静态调度。

动态调度的灵活性更高，会根据实际DNN任务的需求重新分配资源。动态调度主要依赖于时分复用，或者利用动态可组合引擎（需要在硬件中加入动态调度器），算法则多数选择preemptive策略或者AI-MT的早期驱逐算法等。

对于定制化的静态调度策略，可以更好的提高NPU的性能。这种调度策略是指在NPU设计阶段就已经定制好特定硬件模块去处理特定神经网络层或者特定的操作。这种调度策略性能高，但是硬件改动比较大。

异构NPU架构：

结合动态可重构和定制化的静态调度策略，在NPU中设计多个子加速器，每个子加速器都是针对于特定的神经网络层或者特定的网络操作。这样调度器可以适配多个DNN模型的网络层到合适的子加速器上运行，还可以调度来自于不同DNN模型的网络层在多个子加速器上同步运行。这样做既可以节省重构架构带来的额外硬件资源消耗，又可以提高不同网络层处理的灵活性。

异构NPU架构的研究设计可以主要从这三个方面考虑：

1）如何根据不同网络层的特性设计多种子加速器；

2）如何在不同的子加速器之间进行资源分布；

3）如何调度满足内存限制的特定网络层在合适的子加速器上执行。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

加速器

加速器

+关注

关注
2

文章
799

浏览量
37843
神经网络

神经网络

+关注

关注
42

文章
4771

浏览量
100720
算力芯片

算力芯片

+关注

关注
0

文章
46

浏览量
4516

原文标题：ADS算力芯片的多模型架构研究

文章出处：【微信号：iotmag，微信公众号：iotmag】欢迎添加关注！文章转载请注明出处。

ChatGPT背后的算力芯片

今年以来可以说是最热的赛道，而AI大模型对算力的需求爆发，也带动了AI服务器中各种类型的芯片需求，所以本期核芯观察将关注ChatGPT背后所用到的算

发表于 05-21 00:01 •3479次阅读

名单公布！【书籍评测活动NO.41】大模型时代的基础架构：大模型算力中心建设指南

工作日内未联系，视为放弃本次试用评测资格！书籍介绍大模型是近年来引人注目的热点之一。大模型蓬勃发展的基础，是针对其需求设计的算力及基础架构

发表于 08-16 18:33

大模型时代的算力需求

现在AI已进入大模型时代，各企业都争相部署大模型，但如何保证大模型的算力，以及相关的稳定性和性能，是一个极为重要的问题，带着这个极为重要的问

发表于 08-20 09:04

名单公布！【书籍评测活动NO.43】算力芯片 | 高性能 CPU/GPU/NPU 微架构分析

追求单核心性能转向追求并行度，关注并研究算力芯片，这个方向是绝对没错的。这些年作者在自己所工作的量化金融行业取得的成绩有目共睹，他作为算

发表于 09-02 10:09

【「大模型时代的基础架构」阅读体验】+ 未知领域的感受

国庆前就收到《大模型时代的基础架构》一书，感谢电子发烧友论坛。欢度国庆之余，今天才静下心来体验此书，书不厚，200余页，彩色图例，印刷精美！当初申请此书，主要是看到副标题“大模型算

发表于 10-08 10:40

【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】--全书概览

、GPU、NPU,给我们剖析了算力芯片的微架构。书中有对芯片方案商处理器的讲解，理论联系实际，使读者能更好理解

发表于 10-15 22:08

算力网络的架构

算力网络的核心特征，是它通过算力，实现了对算力资源、网络资源的全面接管，可以让网络实时感知用户的

发表于 08-17 09:32 •5335次阅读

1000TOPS背后的“大算力芯片”

不断发展的人工智能也对芯片的算力提出更高的要求。人工智能的应用对于算力最大的挑战依然来自于核心数据中心的

发表于 12-12 15:53 •3521次阅读

AI算力研究框架（2023）

Transfomer架构大模型训练对算力的消耗呈指数级增长。2023年1月，ChatGPT计划再向微软融资100亿美金，该融资将是新一代大模型

发表于 06-15 14:54 •846次阅读

科大讯飞、华为强强联合：攻关算力卡脖子问题

科大讯飞拥有自研大模型训练平台，具备训练和数据闭环全流程设计、大模型训练和推理一体化设计、大规模异构算力兼容、支持混合云架构易拓展等优势，华

发表于 08-22 16:17 •1800次阅读

打通AI芯片到大模型训练的算力桥梁，开放加速设计指南强力助推

等产业议题进行研讨分享。面向大模型时代的计算需求，算力创新已不仅是单个处理器微架构和芯片工艺的突破，而需要产业携手进行软硬件全栈系统

发表于 10-17 16:51 •857次阅读

PODsys：大模型AI算力平台部署的开源“神器”

大模型是通用人工智能的底座，但大模型训练对算力平台的依赖非常大。大模型算

发表于 11-08 09:17 •904次阅读

浅谈为AI大算力而生的存算-体芯片

大模型爆火之后，存算一体获得了更多的关注与机会，其原因之一是因为存算一体芯片的裸算力相比传统

发表于 12-06 15:00 •389次阅读

数据语料库、算法框架和算力芯片在AI大模型中的作用和影响

数据语料库、算法框架和算力芯片的确是影响AI大模型发展的三大重要因素。

发表于 03-01 09:42 •1081次阅读

存算一体架构创新助力国产大算力AI芯片腾飞

在湾芯展SEMiBAY2024《AI芯片与高性能计算（HPC）应用论坛》上，亿铸科技高级副总裁徐芳发表了题为《存算一体架构创新助力国产大算力

发表于 10-23 14:48 •285次阅读