谷歌大脑采用神经结构搜索发现了一种新的特征金字塔结构NAS-FPN-电子发烧友网

谷歌大脑的研究人员发表最新成果，他们采用神经结构搜索发现了一种新的特征金字塔结构NAS-FPN，可实现比 Mask R-CNN、FPN、SSD 更快更好的目标检测。

目前用于目标检测的最先进的卷积架构都是人工设计的。

近日，谷歌大脑的研究人员发表最新成果，他们采用神经结构搜索发现了一种新的特征金字塔结构NAS-FPN，可以更好地用于目标检测。论文已被CVPR 2019接收。

论文地址：

https://arxiv.org/pdf/1904.07392.pdf

研究人员采用神经结构搜索，在一个新的可扩展搜索空间中发现了一种新的特征金字塔架构。

这个被发现的架构被命名为NAS-FPN，可实现比 Mask R-CNN、FPN、SSD 更快更好的目标检测。

与目前最先进的目标检测模型相比，NAS-FPN与RetinaNet框架中各种主干模型相结合，可以实现更好的精度和延迟权衡。

与MobileNetV2中最先进的SSDLite相比，NAS-FPN在移动检测精度方面提高了2 AP，达到48.3 AP，超过了Mask R-CNN的检测精度，并且计算时间更少。

设计搜索空间，生成特征表示

学习视觉特征表示是计算机视觉中的一个基本问题。近年来，针对图像分类和目标检测的深度卷积网络(ConvNets)模型架构的设计取得了很大进展。与预测图像类别概率的图像分类任务不同，目标检测有其自身的挑战，即在多种尺度和位置上检测和定位多个对象。为了解决这一问题，许多先进的目标检测器通常使用金字塔特征表示，它以多尺度特征层来表示图像。

特征金字塔网络(FPN)是产生用于目标检测的金字塔特征表示的典型模型架构之一。该方法采用通常用于图像分类的主干模型，通过自顶向下的连接和横向连接，将主干模型特征层中的相邻两层按顺序组合，从而构建特征金字塔。

设计特征金字塔结构的挑战在于其巨大的设计空间。组合来自不同尺度的特征的可能连接的数量随层数呈指数增长。

最近的研究表明，神经结构搜索算法在巨大搜索空间中可以有效发现性能最佳的图像分类架构。受此启发，我们提出可扩展架构的搜索空间，用以生成金字塔表示。

本研究的主要贡献是设计了涵盖所有可能的跨尺度连接的搜索空间，以生成多尺度特征表示。

在搜索过程中，我们的目标是发现一个原子架构(atomic architecture)，它具有相同的输入和输出特性级别，并且可以重复应用。

模块化搜索空间使搜索金字塔架构易于管理。模块化金字塔结构的另一个好处是能够随时检测目标(或“提前退出”)。

所发现的架构名为NAS-FPN，为构建对象检测架构提供了很大的灵活性。NAS-FPN适用于各种主干模型，如MobileNet、ResNet和AmoebaNet。它为快速移动模型和精确模型提供了更好的速度和精度的权衡。在相同的推理时间下，结合RetinaNet框架中的MobileNetV2主干网络，其性能优于目前最先进的基于MobileNetV2的SSDLite移动检测模型，精度提高了2 AP。

凭借强大的AmoebaNet-D主干模型，NAS-FPN在单次测试中达到48.3 AP单模型精度。

NAS-FPN的检测精度也超过了Mask R-CNN，且所需推理时间更短。

我们的结果摘要如图1所示。

图1：移动设备上精确模型(上)和快速模型(下)的平均精度vs每张图像的推理时间。绿色曲线突出了NAS-FPN与RetinaNet组合的结果。

方法：基于RetinaNet框架，搜索最佳架构

我们的方法基于RetinaNet框架，因为它简单有效。RetinaNet框架有两个主要组件：主干网络(通常是最先进的图像分类网络)和特征金字塔网络(FPN)。该算法的目标是为RetinaNet找到一个更好的FPN架构。图2显示了RetinaNet架构。

图2：具有NAS-FPN的RetinaNet。在我们的方法中，特征金字塔网络将由一个神经结构搜索算法来搜索。主干模型和用于类和边界框预测的子网络遵循了RetinaNet的原始设计。FPN的架构可以堆叠N次，以获得更高的精度。

为了找到一个更好的FPN，我们利用了B. Zoph等人提出的神经结构搜索框架[44]。神经结构搜索利用强化学习训练一个控制器(controller)，在给定的搜索空间中选择最优的模型结构。controller利用搜索空间中子模型的精度作为奖励信号来更新其参数。因此，通过反复试验，controller学会了随着时间的推移生成更好的架构。正如之前的研究所指出的，搜索空间对于架构搜索的成功起着至关重要的作用。

接下来，我们将为FPN设计一个搜索空间来生成特征金字塔表示。为FPN的可伸缩性(即，这样一个FPN架构就可以在RetinaNet中重复堆叠)，在搜索过程中，我们还强制FPN自身重复N次，然后连接成一个大型架构。我们将这个特征金字塔结构称为NAS-FPN。

架构的搜索空间

在搜索空间中，特征金字塔网络由许多“合并单元”组成，这些单元将许多输入层组合成RetinaNet的表示。

特征金字塔网络

特征金字塔网络以多尺度特征层为输入，在相同尺度下生成输出特征层，如图2所示。

合并单元(Merging cell)

在以往的目标检测工作中，一个重要的发现是，需要在不同尺度上“合并”特征。跨尺度连接允许模型将具有强语义的高级特性和具有高分辨率的低级特性结合。

我们提议merging cell，这是FPN的一个基本构建块，将任意两个输入特性层合并到一个输出特性层中。

在我们的实现中，每个merging cell接受两个输入特性层(可能来自不同scale)，应用处理操作，然后将它们组合起来，生成一个所需规模的输出特性层。

构建merging cell的过程如图3所示。

图3：merging cell中需要四个预测步骤。

每个 merging cell 有4个预测步骤：

步骤1：从候选项中选择一个特征层；

步骤2：从候选项中选择另一个特性层，无需替换；

步骤3：选择输出特性分辨率

步骤4：选择一个二进op，将步骤1和步骤2中选择的hi和hj组合起来，生成具有步骤3中选择的分辨率的特征层。

在步骤4中，我们在搜索空间中设计了两个二进操作，sum和global pooling，如图4所示：

图4：Binary operations

实验和结果

我们在实验中使用了RetinaNet的开源实现。实验设置细节请参考原论文。

模型在COCO train2017上进行训练，大部分实验采用COCO val2017进行评估。在表1中，我们报告了test-dev的准确度，以便与现有方法进行比较。

表1：使用NAS-FPN和其他最先进的检测器的RetinaNet在COCO的test-dev set上的性能比较

架构搜索找到的特征金字塔结构

什么是好的特性金字塔结构？我们希望通过可视化所发现的架构来阐明这个问题。

在图7(b-f)中，我们绘制了在RL训练过程中奖励逐渐提高的NAS-FPN架构。

图7：NAS-FPN架构图。

图7中，每个点代表一个特征层。同一行的特征层具有相同的分辨率。分辨率在自底向上下降。箭头表示内部层之间的连接。图中左侧是输入层。金字塔网络的输入用绿色圆圈标记，输出用红色圆圈标记。(a)基线FPN架构。(b-f)通过对RNN控制器的训练进行神经结构搜索发现的7-cell NAS-FPN结构。(f)我们在实验中使用的NAS-FPN。

可扩展的特征金字塔结构

在本节中，我们展示了如何通过调整(1)主干模型、(2)重复金字塔网络的数量和(3)金字塔网络的维数来控制模型容量。我们将讨论这些调整如何权衡计算时间和速度。

叠加金字塔网络。

我们的金字塔网络有一个很好的特性，它可以通过叠加多个重复的架构来扩展成更大的架构。

在图8a中，我们显示了普通FPN架构的叠加并不总是提高性能，而NAS-FPN的叠加显著提高了精度。

这个结果突出了我们的搜索算法可以找到可扩展的架构，这可能很难手工设计。

图8：通过(a)叠加金字塔网络，(b)改变主干结构，(c)增加金字塔网络的特征维数，可以控制NAS-FPN的模型容量。

采用不同的主干架构。

在对象检测架构的准确性和速度之间进行权衡的一种常见方法是更改主干架构。

图8b显示了不同主干上的NAS-FPN的性能。在MobilenetV2上应用NAS-FPN时，我们在160B FLOPs时得到了36.6 AP的精度。

调整特征金字塔网络的特征维数。

另一种提高模型容量的方法是在NAS-FPN中增加特征层的特征维数。图8c显示了采用ResNet-50主干架构的NAS-FPN中128、256和384个特征维度的结果。毫无疑问，增加特征维可以提高检测性能。

高检测精度的架构

利用可扩展的NAS-FPN架构，我们讨论了如何在保持效率的同时构建准确的模型。

图9显示，与现有方法相比，NAS-FPN与最先进的Mask R-CNN模型一样精确，且计算时间更短。

图9：检测精度与推理时间(左)、FLOPs(中)和参数(右)的关系。

结论

本文提出利用神经结构搜索进一步优化用于目标检测的特征金字塔网络的设计过程。在COCO数据集上的实验表明，神经结构搜索发现的架构，名为NAS-FPN，具有良好的灵活性和高性能，可用于构建精确的检测模型。在广泛的精度和速度权衡方面，NAS-FPN在许多主干架构上产生了显著的改进。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

检测器

检测器

+关注

关注
1

文章
863

浏览量
47679
谷歌

谷歌

+关注

关注
27

文章
6164

浏览量
105325
SSD

SSD

+关注

关注
21

文章
2859

浏览量
117376

原文标题：谷歌大脑重磅研究：神经结构搜索发现全新特征金字塔架构，超越Mask R-CNN等

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

PCB工程师金字塔分级标准

PCB工程师金字塔分级标准

发表于 08-06 13:21

自制for循环打印金字塔

自制for循环打印金字塔

发表于 09-18 08:46

基于金字塔模型的地形网格裂缝消除算法

本文针对基于多分辨金字塔模型绘制海量地形时的网格裂缝问题，提出了一种网格裂缝消除算法。该算法利用分裂标记表，结合金字塔模型本身分块与多分辨率的特性，从整体上

发表于 12-30 12:02 •8次下载

新型太阳能电池板之光伏金字塔结构反射红外线

很好的解决方案。因为一方面主动冷却方式会消耗能源，成本较高，另一方面还会干扰太阳能电池板有效吸收光线。为了解决这个问题，近日斯坦福大学的科学家们发明了一种新型太阳能电池板，能够通过表面的微型三角

发表于 10-24 10:47 •5次下载

新型太阳能电池板之光伏<b class='flag-5'>金字塔结构</b>反射红外线

绘制金字塔程序实现

用c语言编程绘制金字塔

发表于 11-27 16:24 •822次阅读

可控特性的金字塔变换

本文设计了一种具有平移不变性、方向和尺度联合可控特性的金字塔变换，称为几何变形可控金字塔变换（DPT）。此DPT从一种数值形式表示的方向可控

发表于 12-14 16:41 •4次下载

基于梯度方向直方图与高斯金字塔的车牌模糊汉字识别方法

针对现有车牌识别方法中对模糊车牌识别率不高的问题，提出一种结合高斯金字塔与梯度方向直方图（HOG）特征的车牌识别算法。利用金字塔模型多尺度表达的方法，首先对车牌模糊汉字图像建立两层高斯

发表于 12-25 10:43 •0次下载

基于梯度方向直方图与高斯<b class='flag-5'>金字塔</b>的车牌模糊汉字识别方法

一种金字塔注意力网络，用于处理图像语义分割问题

基于以上观察，我们提出了特征金字塔注意力模块 (FPA)，该模块能够融合来自 U 型网络 (如特征金字塔网络 FPN) 所提取的三

发表于 06-05 09:21 •1.2w次阅读

<b class='flag-5'>一种</b><b class='flag-5'>金字塔</b>注意力网络，用于处理图像语义分割问题

FAIR何恺明团队最新论文提出“全景FPN”，聚焦于图像的全景分割任务

特征金字塔网络(Feature Pyramid Network)：首先简要回顾一下FPN。FPN采用

发表于 01-11 08:57 •6178次阅读

采用多任务金字塔重叠匹配特征识别行人

针对基于局部特征的行人重识别方法在行人错位和姿态变化时识别精度较低的问题，提出一种采用多任务金宇塔重叠匹配特征的重识别方法。在训练阶段，使用

发表于 03-11 16:05 •10次下载

基于全局特征金字塔网络的信息融合方法

特征不平衡问题是影响神经网络检测效率的关键因素。针对 Mask r-CNN中的特征不平衡问题，提出种基于全局特征

发表于 03-24 14:51 •13次下载

基于非对称空间金字塔池化模型的CNN结构

卷积神经网络因具有强大的表征能力而被广泛用于图像处理算法，但其在处理过程中存在耗时和信息损失等不足。为此，提出一种基于非对称空间金字塔池化模型的卷积神经网络结构。设计非对称

发表于 03-30 11:16 •16次下载

基于非对称空间金字塔池化模型的CNN结构

卷积神经网络因具有强大的表征能力而被广泛用于图像处理算法，但其在处理过程中存在耗时和信息损失等不足。为此，提出一种基于非对称空间金字塔池化模型的卷积神经网络结构。设计非对称

发表于 03-30 11:16 •11次下载

基于规范化函数的深度金字塔模型算法

传统深度金字塔模型作为一种有效的行人检测算法备受关注，融合可变形部件模型和卷积神经网络模型，但特征提取部分使用的算法像素区堿的大小不冋，导致模型之间不能完全融合，在行人数量多、姿势复杂

发表于 03-30 14:09 •14次下载

晶片表面刻蚀工艺对碳硅太阳能电池特性的影响

引言为了分析不同尺寸的金字塔结构对太阳能电池特性的影响，我们通过各种刻蚀工艺在硅片上形成了金字塔结构。在此使用一步蚀刻工艺（碱性溶液蚀刻、反应离子蚀刻(RIE)和金属辅助化学蚀刻）以及两步蚀刻

发表于 01-11 14:05 •1236次阅读