0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看威廉希尔官方网站 视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于由神经网络架构建立的Gram矩阵的特定结构

DPVg_AI_era 来源:未知 作者:李倩 2018-11-18 09:31 次阅读

深度学习网络训练损失问题一直是学术界关注的热点。过去,利用梯度下降法找到的一般都是局部最优解。近日,CMU、MIT和北京大学的研究人员分别对深度全连接前馈神经网络、ResNet和卷积ResNet进行了分析,并表明利用梯度下降可以找到全局最小值,在多项式时间内实现零训练损失。

在目标函数非凸的情况下,梯度下降在训练深度神经网络中也能够找到全局最小值。本文证明,对于具有残差连接的超参数化的深度神经网络(ResNet),采用梯度下降可以在多项式时间内实现零训练损失。

本文的分析基于由神经网络架构建立的Gram矩阵的特定结构。该结构显示在整个训练过程中,Gram矩阵是稳定的,并且这种稳定性意味着梯度下降算法的全局最优性。使用ResNet可以获得相对于全连接的前馈网络架构的优势。

对于前馈神经网络,边界要求每层网络中的神经元数量随网络深度的增加呈指数级增长。对于ResNet,只要求每层的神经元数量随着网络深度的实现多项式缩放。我们进一步将此类分析扩展到深度残余卷积神经网络上,并获得了类似的收敛结果。

找到梯度下降全局最优解,实现训练零损失

深度学习中的一个难题是随机初始化的一阶方法,即使目标函数是非凸的,梯度下降也会实现零训练损失。一般认为过参数化是这种现象的主要原因,因为只有当神经网络具有足够大的容量时,该神经网络才有可能适合所有训练数据。在实践中,许多神经网络架构呈现高度的过参数化。

训练深度神经网络的第二个神秘现象是“越深层的网络越难训练”。为了解决这个问题,采用提出了深度残差网络(ResNet)架构,该架构使得随机初始化的一阶方法能够训练具有更多层数的数量级的神经网络。

从理论上讲,线性网络中的残余链路可以防止大的零邻域中的梯度消失,但对于具有非线性激活的神经网络,使用残差连接的优势还不是很清楚。

本文揭开了这两个现象的神秘面纱。我们考虑设置n个数据点,神经网络有H层,宽度为m。然后考虑最小二乘损失,假设激活函数是Lipschitz和平滑的。这个假设适用于许多激活函数,包括soft-plus。

论文链接:

https://arxiv.org/pdf/1811.03804.pdf

首先考虑全连接前馈神经网络,在神经元数量m=Ω(poly(n)2O(H))的情况下,随机初始化的梯度下降会以线性速度收敛至零训练损失。

接下来考虑ResNet架构。只要神经元数量m =Ω(poly(n,H)),那么随机初始化的梯度下降会以线性速率收敛到零训练损失。与第一个结果相比,ResNet对网络层数的依赖性呈指数级上升。这证明了使用残差连接的优势。

最后,用相同的威廉希尔官方网站 来分析卷积ResNet。结果表明,如果m = poly(n,p,H),其中p是patch数量,则随机初始化的梯度下降也可以实现零训练损失。

本文的研究证据建立在先前关于两层神经网络梯度下降的研究理念之上。首先,作者分析了预测的动力学情况,其收敛性由神经网络结构引出的Gram矩阵的最小特征值确定,为了降低其最小特征值的下限,从初始化阶段限制每个权重矩阵的距离就可以了。

其次,作者使用Li和Liang[2018]的观察结果,如果神经网络是过参数化的,那么每个权重矩阵都接近其初始化状态。本文在分析深度神经网络时,需要构建更多深度神经网络的架构属性和新威廉希尔官方网站 。

本文附录中给出了详细的数学证明过程

接下来,论文分别给出了全连接前馈神经网络、ResNet和卷积ResNet的分析过程,并在长达20余页的附录部分(本文含附录共计45页)给出了详细的数学证明过程,对自己的数学功底有自信的读者可以自行参看论文。这里仅就ResNet分析过程中,Gram矩阵的构建和研究假设做简要说明。

Gram矩阵的构建

以上是网络宽度m趋于无限时的渐进Gram矩阵。我们特做出如下假设,该假设条件决定了收敛速度和过参数化数量。

注意,这里的λ和全连接前馈神经网络中的不同,因为这里的λ只由K(0)决定,一般来说,除非两个数据点是平行的,否则λ总是正数。

研究结论和局限:目前还不是随机梯度下降

在本文中,我们表明深度过度参数化网络上的梯度下降可以获得零训练损失。其中关键是证明了Gram矩阵在过参数化条件下会越来越稳定,因此梯度下降的每一步都以几何速率减少损失。

最后列出未来的一些潜在研究方向:

1.本文主要关注训练损失,但没有解决测试损失的问题。如何找到梯度下降的低测试损失的解决方案将是一个重要问题。尤其是现有的成果只表明梯度下降在与kernel方法和随机特征方法相同的情况下才起作用。

2.网络层的宽度m是ResNet架构的所有参数的多项式,但仍然非常大。而在现实网络中,数量较大的是参数的数量,而不是网络层的宽度,数据点数量n是个很大的常量。如何改进分析过程,使其涵盖常用的网络,是一个重要的、有待解决的问题。

3、目前的分析只是梯度下降,不是随机梯度下降。我们认为这一分析可以扩展到随机梯度下降,同时仍然保持线性收敛速度。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4771

    浏览量

    100720
  • 深度学习
    +关注

    关注

    73

    文章

    5500

    浏览量

    121117

原文标题:Reddit热文:MIT\北大\CMU合作, 找到深度神经网络全局最优解

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    AI知识科普 | 从无人相信到万人追捧的神经网络

    在一起,计算机就会判定这是一只猫! C、递归神经网络递归神经网络是一种深度神经网络,它将相同的权重递归地应用在神经网络架构上,以拓扑排序的方
    发表于 06-05 10:11

    【PYNQ-Z2试用体验】神经网络基础知识

    学习和认知科学领域,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型,用于对函数进行估计或近似。神经网络
    发表于 03-03 22:10

    【案例分享】ART神经网络与SOM神经网络

    的拓扑结构,即将高位空间中相似的样本点映射到网络输出层中的邻近神经元。SOM神经网络中的输出层神经元以
    发表于 07-21 04:30

    卷积神经网络的层级结构和常用框架

      卷积神经网络的层级结构  卷积神经网络的常用框架
    发表于 12-29 06:16

    如何构建神经网络

    原文链接:http://tecdat.cn/?p=5725 神经网络是一种基于现有数据创建预测的计算系统。如何构建神经网络神经网络包括:输入层:根据现有数据获取输入的层隐藏层:使用反
    发表于 07-12 08:02

    基于BP神经网络的PID控制

    神经网络可以建立参数Kp,Ki,Kd自整定的PID控制器。基于BP神经网络的PID控制系统结构框图如下图所示:控制器两部分组成:经典增量式
    发表于 09-07 07:43

    神经网络移植到STM32的方法

    问题,一个是神经网络的移植,另一个是STM32的计算速度。神经网络的移植网络采用的是最简单的BP神经网络,基本原理可以自己去了解一下,大概就是通过若干次
    发表于 01-11 06:20

    卷积神经网络模型发展及应用

    十余年来快速发展的崭新领域,越来越受到研究者的关注。卷积神经网络(CNN)模型是深度学习模型中最重要的一种经典结构,其性能在近年来深度学习任务上逐步提高。由于可以自动学习样本数据的特征表示,卷积
    发表于 08-02 10:39

    卷积神经网络简介:什么是机器学习?

    模型。第 3 部分将研究使用专用 AI 微控制器测试模型的特定用例。什么是卷积神经网络神经网络是系统或神经结构,使人工智能能够更好地理解
    发表于 02-23 20:11

    如何构建神经网络

    神经网络是模拟人体生物神经元原理构建的,比较基础的有M-P模型,它按照生物 神经元的结构和工作原理构造出来的一个抽象和简化的模型。
    的头像 发表于 02-24 16:06 1847次阅读
    如何<b class='flag-5'>构建</b><b class='flag-5'>神经网络</b>

    卷积神经网络结构

    Learning)的应用,通过运用多层卷积神经网络结构,可以自动地进行特征提取和学习,进而实现图像分类、物体识别、目标检测、语音识别和自然语言翻译等任务。 卷积神经网络结构包括:输入层、卷积层、激活函数、池化层和全连接层。
    的头像 发表于 08-17 16:30 1218次阅读

    FPGA加速神经网络矩阵乘法

    电子发烧友网站提供《FPGA加速神经网络矩阵乘法.pdf》资料免费下载
    发表于 09-15 14:50 0次下载
    FPGA加速<b class='flag-5'>神经网络</b>的<b class='flag-5'>矩阵</b>乘法

    神经网络架构有哪些

    神经网络架构是机器学习领域中的核心组成部分,它们模仿了生物神经网络的运作方式,通过复杂的网络结构实现信息的处理、存储和传递。随着深度学习威廉希尔官方网站 的不断发展,各种
    的头像 发表于 07-01 14:16 695次阅读

    构建神经网络模型方法有几种

    (Feedforward Neural Networks) 前飨神经网络是一种最基本的神经网络结构输入层、隐藏层和输出层组成。前飨神经网络的特点是信息只在一个方向上流动,即从输入层
    的头像 发表于 07-02 10:15 342次阅读

    基于神经网络算法的模型构建方法

    神经网络是一种强大的机器学习算法,广泛应用于各种领域,如图像识别、自然语言处理、语音识别等。本文详细介绍了基于神经网络算法的模型构建方法,包括数据预处理、网络结构设计、训练过程优化、模
    的头像 发表于 07-02 11:21 515次阅读