专门构建的“计算有效”神经网络模型的优点和挑战-电子发烧友网

在本系列的前几篇文章中（ "人工智能引发能源问题，我们该怎么办（一） “ 和”在 "人工智能引发能源问题，我们该怎么办（二）"），我们讨论了 Dennard Scaling 和摩尔定律的细目以及对专用和适应性加速器的需求。然后，我们深入研究了功耗问题，并讨论了网络压缩的高级优势。

在这第三篇文章中，我们将探讨专门构建的“计算有效”神经网络模型的优点和挑战。

神经网络可以被归类为一组大致模仿人脑建模方式的算法，能够通过引入新数据来完成“学习”过程。事实上，开发专用的“计算高效型”神经网络模型能提供大量优势。然而，为了确保模型的有效性，需要考虑几项关键需求。

关键点之一是在实现推断加速器（或就此点而言，广义的硬件加速器）时应采用何种方式访问存储器。在机器学习 (ML) 推断范畴内，我们特别需要考虑如何将权重和中间激活值一起存储。过去几年里已有多种方法投入使用并获得不同程度的成功。相关的架构选择带来的影响十分显著：

时延：对 L1、L2 和 L3 存储器的访问表现出相对较低的时延。如果与下一个图形运算有关的权重和激活值被缓存起来，那么我们就能保持合理水平的效率。然而，如果我们要从外部 DDR 提取数据，就会发生流水线停顿，进而影响时延和效率。

功耗：访问外部存储器的能耗至少比访问内部存储器大一个数量级。

计算饱和：一般而言，应用要么受计算限制，要么受存储器限制。这可能会影响给定推断范式中可实现的 GOP/TOP，而且在某些情况下，这种影响不可小视。如果被部署的具体网络的实际性能是 1 TOP，那么使用能达到 10 TOP 峰值性能的推断引擎价值就不大。

在此基础上更进一步，考虑到访问现代赛灵思器件里的内部 SRAM（熟悉赛灵思 SoC 的人也称其为 BRAM 或 UltraRAM）的能耗大约在几微微焦耳，与访问外部 DRAM 的能耗相比，低大约两个数量级。

我们可以考虑将 TPUv1 作为架构示例。TPUv1 内置有一个 65,536 INT8 MAC 单元，与 28MB 的片上存储器结合，用于存储中间激活值。权重从外部 DDR 提取。TPUv1 的理论峰值性能是 92 TOPS。

图 1：TPUv1 架构

参考资料：Jouppi 等，2017 年，https://arxiv.org/ftp/arxiv/papers/1704/1704.04760.pdf

TPU 是其中一种非常普遍的 Tensor 加速器。它使用复杂的编译器来调度图形运算。这种 TPU 对于特定工作负载（引用 CNNO 的速率达到 86 TOPS）体现出极为优异的吞吐效率。然而，CNN 的计算/内存引用比低于 MLP 和 LSTM。因此我们可以看出这些特定的工作负载受存储器限制。在必须将新权重加载到矩阵单元中时，会导致流水线停顿，CNN1 性能也就会随之劣化（14.1 TOPS）。

图 2：各种网络拓扑下 TPUv1 的极限性能水平

参考资料：Jouppi 等，2017 年，

https://arxiv.org/ftp/arxiv/papers/1704/1704.04760.pdf

神经网络架构对性能有巨大影响，而且对于选择推断解决方案而言，峰值性能指标的价值微乎其微（除非我们能为需要加速的特定工作负载实现高水平的效率）。如今，众多 SoC、ASSP 和 GPU 厂商继续为 LeNet、AlexNet、VGG、GoogLeNet 和 ResNet 等经典图像分类模型推广性能测试基准。然而，图像分类任务的实际用例数量有限，而许多时候这种模型只是用作对象检测与分割等更复杂的任务的后台特征提取器。

更贴近现实的实际可部署模型的示例包括对象检测与分割。尽管众多市售半导体器件标榜可提供数十 TOP 的性能，而这又与不得不花长时间为 YOLOv3 和 SSD 等网络辛苦找寻正式的 IPS 性能基准测试的现状有何关联？开玩笑的说，如果只是要在云存储中简单查找照片，比如找出您的猫的照片，我看这真不是什么问题：

图 3：作者收养的家猫“TumbleWeed”

大量开发者在首次尝试设计带有 AI 功能的产品时往往以不能满足性能要求而告终，迫使他们在设计中途迁移到不同的架构上。这不足为奇。如果这么做意味着需要同时对 SOM 基板的软硬件进行重新构建，难度将不可小觑。选择赛灵思 SoC 的主要原因在于，与竞争对手的解决方案不同的是，赛灵思推断解决方案能在保持处理器和推断加速器架构不变的情况下，直接提供超过一个数量级的性能缩放。

2017 年谷歌的一个研发团队（Howard 等，《MobileNet：面向移动视觉应用的高效卷积神经网络》https://arxiv.org/pdf/1704.04861.pdf ）发表了针对移动应用的一类新的模型。MobileNet 的优势在于它能在保持高精度水平的同时，显著降低计算成本。MobileNet 网络采用的重大创新之一是深度可分卷积。在经典卷积中，每个输入通道对每个输出通道都有影响。如果我们有 100 个输入通道和 100 个输出通道，就有 100x100 条虚拟路径。然而对深度卷积而言，我们将卷积层划分为 100 个群组，因此只得到 100 条路径。每个输入通道仅与一个输出通道相连接，这样就能节省大量计算。

图 4：经典卷积和深度卷积的连接方式

参考资料：Song Yao，Hotchips Hc30，第 8 节：