机器学习中梯度下降法的过程

最优化问题是机器学习算法中非常重要的一部分，几乎每一个机器学习算法的核心都是在处理最优化问题。

本文中我将介绍一些机器学习领域中常用的且非常掌握的最优化算法，看完本篇文章后你将会明白：

• 什么是梯度下降法？

• 如何将梯度下降法运用到线性回归模型中？

• 如何利用梯度下降法处理大规模的数据？

• 梯度下降法的一些技巧

让我们开始吧！

梯度下降法

梯度下降法是一个用于寻找最小化成本函数的参数值的最优化算法。当我们无法通过分析计算（比如线性代数运算）求得函数的最优解时，我们可以利用梯度下降法来求解该问题。

梯度下降法的直觉体验

想象一个你经常用来吃谷物或储存受过的大碗，成本函数的形状类似于这个碗的造型。

碗表面上的任一随机位置表示当前系数对应的成本值，碗的底部则表示最优解集对应的成本函数值。梯度下降法的目标就是不断地尝试不同的系数值，然后评估成本函数并选择能够降低成本函数的参数值。重复迭代计算上述步骤直到收敛，我们就能获得最小成本函数值对应的最优解。

梯度下降法的过程

梯度下降法首先需要设定一个初始参数值，通常情况下我们将初值设为零（coefficient=0coefficient=0），接下来需要计算成本函数 cost=f（coefficient）cost=f（coefficient）或者cost=evaluate（f（coefficient））cost=evaluate（f（coefficient））。然后我们需要计算函数的导数（导数是微积分的一个概念，它是指函数中某个点处的斜率值），并设定学习效率参数（alpha）的值。

coefficient=coefficient−（alpha∗delta）

重复执行上述过程，直到参数值收敛，这样我们就能获得函数的最优解。

你可以看出梯度下降法的思路多么简单，你只需知道成本函数的梯度值或者需要优化的函数情况即可。接下来我将介绍如何将梯度下降法运用到机器学习领域中。

批量梯度下降法

所有的有监督机器学习算法的目标都是利用已知的自变量（X）数据来预测因变量（Y）的值。所有的分类和回归模型都是在处理这个问题。

机器学习算法会利用某个统计量来刻画目标函数的拟合情况。虽然不同的算法拥有不同的目标函数表示方法和不同的系数值，但是它们拥有一个共同的目标——即通过最优化目标函数来获取最佳参数值。

线性回归模型和逻辑斯蒂回归模型是利用梯度下降法来寻找最佳参数值的经典案例。

我们可以利用多种衡量方法来评估机器学习模型对目标函数的拟合情况。成本函数法是通过计算每个训练集的预测值和真实值之间的差异程度（比如残差平方和）来度量模型的拟合情况。

我们可以计算成本函数中每个参数所对应的导数值，然后通过上述的更新方程进行迭代计算。

在梯度下降法的每一步迭代计算后，我们都需要计算成本函数及其导数的情况。每一次的迭代计算过程就被称为一批次，因此这个形式的梯度下降法也被称为批量梯度下降法。

批量梯度下降法是机器学习领域中常见的一种梯度下降方法。

随机梯度下降法

处理大规模的数据时，梯度下降法的运算效率非常低。因为梯度下降法在每次迭代过程中都需要计算训练集的预测情况，所以当数据量非常大时需要耗费较长的时间。当你处理大规模的数据时，你可以利用随机梯度下降法来提高计算效率。该算法与上述梯度下降法的不同之处在于它对每个随机训练样本都执行系数更新过程，而不是在每批样本运算完后才执行系数更新过程。

随机梯度下降法的第一个步骤要求训练集的样本是随机排序的，这是为了打乱系数的更新过程。因为我们将在每次训练实例结束后更新系数值，所以系数值和成本函数值将会出现随机跳跃的情况。通过打乱系数更新过程的顺序，我们可以利用这个随机游走的性质来避免模型不收敛的问题。

除了成本函数的计算方式不一致外，随机梯度下降法的系数更新过程和上述的梯度下降法一模一样。对于大规模数据来说，随机梯度下降法的收敛速度明显高于其他算法，通常情况下你只需要一个小的迭代次数就能得到一个相对较优的拟合参数。

梯度下降法的一些建议

本节列出了几个可以帮助你更好地掌握机器学习中梯度下降算法的技巧：

• 绘制成本函数随时间变化的曲线：收集并绘制每次迭代过程中所得到的成本函数值。对于梯度下降法来说，每次迭代计算都能降低成本函数值。如果无法降低成本函数值，那么可以尝试减少学习效率值。

• 学习效率：梯度下降算法中的学习效率值通常为0.1，0.001或者0.0001。你可以尝试不同的值然后选出最佳学习效率值。

• 标准化处理：如果成本函数不是偏态形式的话，那么梯度下降法很快就能收敛。隐蔽你可以事先对输入变量进行标准化处理。

• 绘制成本均值趋势图：随机梯度下降法的更新过程通常会带来一些随机噪声，所以我们可以考虑观察10次、100次或1000次更新过程误差均值变化情况来度量算法的收敛趋势。

总结

本文主要介绍了机器学习中的梯度下降法，通过阅读本文，你了解到：

• 最优化理论是机器学习中非常重要的一部分。

• 梯度下降法是一个简单的最优化算法，你可以将它运用到许多机器学习算法中。

• 批量梯度下降法先计算所有参数的导数值，然后再执行参数更新过程。

• 随机梯度下降法是指从每个训练实例中计算出导数并执行参数更新过程。

阅读全文

机器学习(130423) 机器学习(130423)

探讨机器学习与深度学习基本概念与运算过程

人工智慧隶属于大範畴，包含了机器学习（Machine Learning）与深度学习（Deep Learning）。如下图所示，我们最兴趣的深度学习则是规範于机器学习之中的一项分支，而以下段落将简单介绍机器学习与深度学习的差异。

2020-12-18 15:45:31

3870

25个机器学习面试题，你都会吗？

`机器学习有非常多令人困惑及不解的地方，很多问题都没有明确的答案。但在面试中，如何探查到面试官想要提问的知识点就显得非常重要了。在本文中，作者给出了 25 个非常有意思的机器学习面试问题，这些

2018-09-29 09:39:54

学习单片机过程中对编译原理的学习理解精选资料推荐

学习单片机过程中对编译原理的学习理解编译原理的理解几个问题编译原理的理解1.预处理这个阶段预处理器将按照预处理命令进行宏展开，其中,头文件例如 Stm32f10x.h 中的内容将会被完全替换到包含

2021-07-14 08:12:09

机器学习新手必学的三种优化算法（牛顿法、梯度下降法、最速下降法）

法、梯度下降法、最速下降法）进行了介绍和比较，并结合算法的数学原理和实际案例给出了优化算法选择的一些建议。阅读本文的基础准备线性代数多变量微积分对凸函数的基本知识我们都知道，机器学习中最重要的内容之一

2019-05-07 08:30:00

机器学习的创新/开发和应用能力

机器学习的未来在工业领域采用机器学习机器学习和大数据工业人工智能生态系统

2020-12-16 07:47:35

机器学习的未来

机器学习的未来在工业领域采用机器学习机器学习和大数据

2021-01-27 06:02:18

梯度下降法姿态解算

由陀螺仪数据+加速度计数据或者陀螺仪数据+加速度计数据+电子罗盘数据得到姿态数据。

2014-04-07 19:11:09

梯度更新算法的选择

深度学习入门（四）梯度更新算法的选择(附执行代码)

2020-06-09 11:02:14

AI工程师 10 个深度学习方法

梯度下降的一个直观理解就是想象一条源自山顶的河流。这条河流会沿着山势的方向流向山麓的最低点，而这也正是梯度下降法的目标。我们所期望的最理想的情况就是河流在到达最终目的地（最低点）之前不会停下。在机器学习

2019-03-07 20:17:28

TensorFlow优化器种类及其用法详解

。随机梯度下降：在随机梯度下降中，一次提供一个训练样本用于更新权重和偏置，从而使损失函数的梯度减小，然后再转向下一个训练样本。整个过程重复了若干个循环。由于每次更新一次，所以它比 Vanilla 快

2020-07-28 14:39:34

keras内置的7个常用的优化器介绍

，随机梯度下降，小批量梯度下降法。它们的学习率是固定的。 1.1 基础梯度下降算法顾名思义，梯度下降法的计算过程就是沿梯度下降的方向求解极小值（使得损失函数最小，也即准确率最高）。假设

2023-08-18 06:32:13

labview中如何进行图像的梯度化

labview中如何进行图像的梯度化请大神指点迷津{:4_107:}

2013-12-17 18:51:34

什么是机器学习? 机器学习基础入门

模型这组读数是否与一台空闲的、正在运行的或坏掉的机器相对应。在这个过程中 TinyML 是如此重要，如此开创性。那么 TinyML 适合哪里呢？如果还不清楚的话，机器学习是一个数据密集型的过程。当您

2022-06-21 11:06:37

从梯度下降法、牛顿法到拟牛顿法它们的联系与区别是什么

从梯度下降法、牛顿法到拟牛顿法，浅谈它们的联系与区别

2020-05-21 11:06:52

分享一个自己写的机器学习线性回归梯度下降算法

单变量线性回归算法，利用Batch梯度梯度下降算法迭代计算得到误差最小的代价函数theta0,theta1。调节学习率a可以观察拟合得到的函数和代价函数误差收敛情况。

2018-10-02 21:48:58

回归预测之入门

的方法，在stanford机器学习开放课最后的部分会推导最小二乘法的公式的来源，这个来很多的机器学习和数学书上都可以找到，这里就不提最小二乘法，而谈谈梯度下降法。梯度下降法是按下面的流程进行的： 1

2018-10-15 10:19:03

图像识别究竟是如何做到识别出不同的物体的

上一回为大家介绍了人工智能的基本概念和算法，讲到了梯度下降法、神经网络、机器学习的基本概念，还没看过的小伙伴可以点击这里。人工智能有一个重要领域就是图像识别。比如：有许多软件可以通过拍照的方法识别

2021-08-31 08:35:35

如何学习机器学习

【吴恩达机器学习】学习笔记13（Normal Equation& 与梯度下降比较）

2020-04-26 11:05:59

如何更新权重实现梯度下降

实现梯度下降

2019-07-15 10:09:11

接地电阻测试仪怎么使用电位下降法

叠时，就可以测量电阻。在这种情况下，电阻区域外的所有体积都非常接近相同的电位，这样就可以开发以下测量方法。　　接地电阻测试仪怎么使用电位下降法　　为了可以避免电极H的接地电阻引入误差，使用了第三电极S。在

2021-12-03 17:11:56

最值得学习的机器学习编程语言

如果你对人工智能和机器学习感兴趣，而且正在积极地规划着自己的程序员职业生涯，那么你肯定面临着一个问题：你应该学习哪些编程语言，才能真正了解并掌握 AI 和机器学习？可供选择的语言很多，你需要通过战略

2021-03-02 06:22:38

深度学习威廉希尔官方网站的开发与应用

逼近1.函数逼近器2.线性函数逼近3.常见的特征表示方法4.价值迭代+离散化方法5.Fitted Q Iteration6.策略迭代+最小二乘7.预测学习+随机梯度下降法8.控制学习+随机梯度下降法

2022-04-21 14:57:39

超前角是什么

永磁同步电机的矢量控制策略（十三）13.1 弱磁控制（超前角）在前面我们了解电压极限环和电流极限环的概念后，学习了一种基于梯度下降法的电流修正计算的弱磁控制。基于梯度下降法，在此我们介绍另外一种弱磁

2021-08-27 06:27:26

通过Excel表格来学习机器学习算法

五步解析机器学习难点—梯度下降【转】

2019-09-27 11:12:18

斯坦福公开课 - 吴恩达机器学习 | 多元梯度下降法 #机器学习

人工智能

AI苦行僧发布于 2022-01-05 14:21:40

斯坦福公开课 - 吴恩达机器学习 | 多元梯度下降法II 学习率 #机器学习

机器人

AI苦行僧发布于 2022-01-05 14:23:30

吴恩达《深度学习》系列课 - 10.梯度下降法#深度学习

人工智能

AI苦行僧发布于 2022-01-06 20:55:01

吴恩达《深度学习》系列课 - 61.Mini-batch 梯度下降法#深度学习

人工智能

AI苦行僧发布于 2022-01-10 18:25:35

火电站负荷调度混沌变步长混合遗传算法

结合混沌运动的遍历性和遗传算法的群体搜索性,提出一种基于混沌变尺度梯度下降的混合遗传算法,应用于电厂负荷优化调度。算法采用梯度下降法对遗传变异获得的优良个体进行局

2009-02-05 12:13:16

用基于计算机随机模拟的下降法求解报童问题

Mr_haohao发布于 2022-09-24 09:38:39

#硬声创作季机器学习入门到精通：4-梯度下降模块

基于梯度下降法和互补滤波的航向姿态参考系统

针对微型无人机航向姿态参考系统低成本、小型化的工程实现需求，基于三轴陀螺仪、加速度计和磁力计，提出了一种在线实时姿态估计算法。该算法采用四元数描述系统模型，采用改进的梯度下降法预处理加速度计和磁力计

2017-11-16 10:29:24

一种结合梯度下降法的二层搜索粒子群算法

针对标准粒子群优化（PSO）算法在求解复杂优化问题中出现的早熟收敛问题，提出一种结合梯度下降法的二次搜索粒子群算法。首先，当全局极值超过预设的最大不变迭代次数时，判断全局极值点处于极值陷阱中；然后

2017-11-27 17:28:12

机器学习：随机梯度下降和批量梯度下降算法介绍

随机梯度下降（Stochastic gradient descent）批量梯度下降（Batch gradient descent）梯度下降（GD）是最小化风险函数、损失函数的一种常用方法，随机

2017-11-28 04:00:28

8197

一文看懂常用的梯度下降算法

编辑：祝鑫泉一概述梯度下降算法（ Gradient Descent Optimization ）是神经网络模型训练最常用的优化算法。对于深度学习模型，基本都是采用梯度下降算法来进行优化训练

2017-12-04 18:17:54

1477

从方向导数这个角度来解析梯度的负方向为什么是局部下降最快的方向

刚接触梯度下降这个概念的时候，是在学习机器学习算法的时候，很多训练算法用的就是梯度下降，然后资料和老师们也说朝着梯度的反方向变动，函数值下降最快，但是究其原因的时候，很多人都表达不清楚。所以我整理出自己的理解，从方向导数这个角度把这个结论证明出来，让我们知其然也知其所以然。

2018-02-05 13:42:13

9340

感知机能做什么？

上面这个 fit 函数中有个 lr 和 epoch，它们分别代表了梯度下降法中的学习速率和迭代上限（p.s. 由后文的推导我们可以证明，对感知机模型来说、其实学习速率不会影响收敛性【但可能会影响收敛速度】）

2018-04-04 10:22:37

8181

梯度下降算法及其变种：批量梯度下降，小批量梯度下降和随机梯度下降

现在我们来讨论梯度下降算法的三个变种，它们之间的主要区别在于每个学习步骤中计算梯度时使用的数据量，是对每个参数更新（学习步骤）时的梯度准确性与时间复杂度的折衷考虑。

2018-05-03 15:55:34

20236

基于numpy实现合成梯度

这提出了一个问题，生成合成梯度的网络如何学习？当我们进行完整的前向传播和反向传播时，我们实际得到了“正确”的梯度。我们可以将其与“合成”梯度进行比较，就像我们通常比较神经网络输出和数据集一样。因此

2018-05-14 17:32:16

2608

讲解随机梯度下降、类别数据编码、Vowpal Wabbit机器学习库

在数据量不大的情况下，上面的数学效果不错（我们这里不讨论局部极小值、鞍点、学习率选择、动量等问题，请参考《深度学习》一书的数值计算那一章）。批量梯度下降有一个问题——梯度演算需要累加训练集中所有对象

2018-07-17 09:11:43

5797

机器学习优化算法中梯度下降,牛顿法和拟牛顿法的优缺点详细介绍

梯度下降法实现简单，当目标函数是凸函数时，梯度下降法的解是全局解。一般情况下，其解不保证是全局最优解，梯度下降法的速度也未必是最快的。

2018-08-04 11:40:10

50637

【连载】深度学习笔记6：神经网络优化算法之从SGD到Adam

的数学模型尽管形式不一，各有头面，但到最后几乎到可以归约为最优化问题。所以，有志于奋战在机器学习和深度学习领域的各位，学好最优化，责无旁贷啊。要说机器学习和深度学习的优化算法，梯度下降必然

2018-08-20 12:47:11

5990

深度学习笔记6：神经网络优化算法之从SGD到Adam

，并没有区别。唯一的区别就在于它们执行一次训练过程所需要用到的训练样本数。梯度下降法用到的是全集训练数据，随机梯度下降则是单个样本数据，而小批量则是介于二者之间。带动量的梯度下降法（momentum

2018-08-24 18:31:54

3876

简单的梯度下降算法，你真的懂了吗？

通俗的语言来详细解释梯度下降算法公式的数学推导过程。下山问题假设我们位于黄山的某个山腰处，山势连绵不绝，不知道怎么下山。于是决定走一步算一步，也就是每次沿着当前位置最陡峭最易下山的方向前进一小步，然后继续

2018-09-19 00:17:01

668

深入浅出地介绍了梯度下降这一概念

初始化权重时，我们在损失曲面的A点。我们首先要做的，是检查一下，在x-y平面上的所有可能方向中，沿着哪个方向移动能带来最陡峭的损失值下降。这就是我们需要移动的方向。这一方向恰好是梯度的反方向。梯度，导数的高维表兄弟，为我们提供了最陡峭的上升方向。

2018-09-28 09:06:47

4992

机器学习进入游戏的过程的探讨

George Doubler（首席威廉希尔官方网站官，IBM Interactive Media）探讨了机器学习平台（如IBM的Watson或Google的计划）刚刚开始进入游戏的过程。

2018-11-13 06:27:00

1514

回溯的共轭梯度迭代硬阈值算法如何解决迭代次数多重构时间长的问题

并成候选集；然后，在候选集所对应的矩阵列张成的空间中选择新的支撑集，以此减少支撑集被反复选择的次数，确保正确的支撑集被快速找到；最后，根据前后迭代支撑集是否相等的准则来决定使用梯度下降法或共轭梯度法作为寻优方法，加速算法

2018-12-20 14:08:49

“深度学习”虽然深奥，本质却很简单

但就像爱情，“深度学习”虽然深奥，本质却很简单。无论是图像识别还是语义分析，机器的“学习”能力都来源于同一个算法 — 梯度下降法 (Gradient Descent)。要理解这个算法，你所需要的仅仅是高中数学。在读完这篇文章后，你看待 AI 的眼光会被永远改变。

2018-12-27 15:15:29

4375

以线性回归算法来对三种梯度下降法进行比较

从上面公式可以注意到，它得到的是一个全局最优解，但是每迭代一步，都要用到训练集所有的数据，如果样本数目 m 很大，那么可想而知这种方法的迭代速度！所以，这就引入了另外一种方法，随机梯度下降。

2019-04-19 17:03:26

3827

机器学习之感知机python是如何实现的

算法选择，最终的目标是求损失函数的最小值，利用机器学习中最常用的梯度下降GD或者随机梯度下降SGD来求解。

2020-03-30 09:36:51

845

机器学习中的梯度下降法是怎样的

最优化问题是机器学习算法中非常重要的一部分，几乎每一个机器学习算法的核心都是在处理最优化问题。

2020-03-30 09:44:26

1036

解决机器学习中有关学习率的常见问题

梯度L/w是损失函数递增方向上的向量。L/w是L递减方向上的向量。由于η大于0，因此是正值，所以-ηL/w朝L的减小方向向其最小值迈进。如果η为负值，则您正在远离最小值，这是它正在改变梯度下降的作用，甚至使神经网络无法学习。

2020-04-15 11:52:05

4832

基于智能PID控制器实现电加热炉控制系统的设计

BP算法是在导师指导下，适合于多层神经元网络的一种学习，它是建立在梯度下降法的基础上的。理论证明，含有一个隐含层的BP网络可以实现以任意精度近似任何连续非线性函数。

2020-05-03 11:31:00

2344

机器学习的基本过程及关键要素

机器学习的基本过程，罗列了几个主要流程和关键要素；继而展开介绍机器学习主要的算法框架，包括监督学习算法，无监督学习算法和常用的降维，特征选择算法等；最后在业务实践的过程中，给出了一个可行的项目管理流程，可供参考。

2020-11-12 10:28:48

10451

基于深度学习的自适应梯度阀值判别方法

深度学习的自适应梯度阈值判别方法。对海温梯度图进行标注，通过 Mask r-CNN训练得到海洋锋像素级识别模型，统计每一类锋特有的梯度值分布作为该类锋的基准梯度阈值，并基于该阈值对像素级的锋面识别结果做精细化调整，对锋面识

2021-03-19 16:18:40

基于分布式编码的同步随机梯度下降算法

基于数据并行化的异步随机梯度下降（ASGD）算法由于需要在分布式计算节点之间频繁交换梯度数据，从而影响算法执行效率。提出基于分布式编码的同步随机梯度下降（SSGD）算法，利用计算任务的冗余分发策略

2021-04-27 13:56:06

带延迟调整的脉冲神经元学习算法

脉冲神经元有监督学习算法通过梯度下降法调整神经元的突触权值，但目标学习序列长度的增加会降低其精度并延长学习周期。为此，提出一种带延迟调整的梯度下降学习算法。将每个突触的延迟作为学习参数，在学习过程

2021-06-11 16:37:41

各种梯度下降法是如何工作的

导读一图胜千言，什么？还是动画，那就更棒啦！本文用了大量的资源来解释各种梯度下降法（gradient descents），想给大家直观地介绍一下这些方法是如何工作的。

2022-08-17 11:50:18

785

机器学习基本过程

机器学习（Machine Learning）本质上就是让计算机自己在数据中学习规律，并根据所得到的规律对未来数据进行预测。

2022-10-27 15:12:27

5293

AI是干什么的？机器学习的基础流程和理论基础

机器学习的“训练”部分就是找到f( )，即成本函数按照梯度下降的方法找到最优的f( )。大家理解了找f()，才能进入各种算法讨论。

2023-02-01 10:46:46

664

永磁同步电机的矢量控制策略之弱磁控制(超前角)

在前面我们了解电压极限环和电流极限环的概念后，学习了一种基于梯度下降法的电流修正计算的弱磁控制。基于梯度下降法，在此我们介绍另外一种弱磁控制方法，即超前角的方式。基于矢量控制框架下的采用双电流调节器的超前角弱磁控制

2023-03-13 11:21:51

机器学习常用术语汇总，中英对照！

在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算（并缓存）每个节点的输出值，然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

2023-03-13 10:23:33

1661

梯度下降法在机器学习中的应用

梯度下降法沿着梯度的反方向进行搜索，利用了函数的一阶导数信息。

2023-05-18 09:20:34

768

人工智能领域的梯度学习研究

前向梯度学习通常用于计算含有噪声的方向梯度，是一种符合生物学机制、可替代反向传播的深度神经网络学习方法。然而，当要学习的参数量很大时，标准的前向梯度算法会出现较大的方差。

2023-05-30 10:34:07

191

230

PyTorch教程-12.5。小批量随机梯度下降

12.5。小批量随机梯度下降¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab [jax

2023-06-05 15:44:31

485

机器学习是什么意思？机器学习属于什么分支？机器学习有什么用处？

机器学习是什么意思？机器学习属于什么分支？机器学习是什么有什么用处？机器学习是指让计算机通过经验来不断优化和改进自身的算法和模型的过程。因此，机器学习可以被理解为是一种从数据中自动获取规律和知识

2023-08-17 16:30:04

1148

已全部加载完成

搜索历史

机器学习中梯度下降法的过程

梯度下降法

梯度下降法的过程

评论