批量梯度下降(BGD)、随机梯度下降(SGD)以及小批量梯度下降(MBGD)的理解

https://www.cnblogs.com/lliuye/p/9451903.html

梯度下降法作为机器学习中较常使用的优化算法，其有着三种不同的形式：批量梯度下降（Batch Gradient Descent）、随机梯度下降（Stochastic Gradient Descent）以及小批量梯度下降（Mini-Batch Gradient Descent）。其中小批量梯度下降法也常用在深度学习中进行模型的训练。接下来，我们将对这三种不同的梯度下降法进行理解。
为了便于理解，这里我们将使用只含有一个特征的线性回归来展开。此时线性回归的假设函数为：

h θ (x (i)) = θ 1 x (i) + θ 0

其中 $i = 1, 2, . . ., m$

J (θ 0, θ 1) = 1 2 m \sum i = 1 m ( h θ ( x ( i ) ) - y

$i = 1, 2, . . ., m$

1、批量梯度下降（Batch Gradient Descent，BGD）

批量梯度下降法是最原始的形式，它是指在每一次迭代时使用所有样本来进行梯度的更新。从数学上理解如下：
（1）对目标函数求偏导：

Δ J ( θ 0 , θ 1 ) Δ θ j = 1 m \sum i = 1 m ( h θ ( x ( i

$i = 1, 2, . . ., m$

θ j := θ j - α 1 m \sum i = 1 m ( h θ ( x ( i ) ) - y ( i ) )

$i = 1, 2, . . ., m$

2、随机梯度下降（Stochastic Gradient Descent，SGD）

随机梯度下降法不同于批量梯度下降，随机梯度下降是每次迭代使用一个样本来对参数进行更新。使得训练速度加快。
对于一个样本的目标函数为：

J (i) (θ 0, θ 1) = 1 2 ( h θ ( x ( i ) ) - y ( i ) ) 2

$i = 1, 2, . . ., m$

Δ J ( i ) ( θ 0 , θ 1 ) θ j = ( h θ ( x ( i ) ) - y ( i )

$i = 1, 2, . . ., m$

θ j := θ j - α (h θ (x (i)) - y (i)) x (i) j

$i = 1, 2, . . ., m$

3、小批量梯度下降（Mini-Batch Gradient Descent, MBGD）

小批量梯度下降，是对批量梯度下降以及随机梯度下降的一个折中办法。其思想是：每次迭代 使用 ** batch_size** 个样本来对参数进行更新。
这里我们假设 $b a t c h_{s} i z e = 10$

引用及参考：
[1] https://www.cnblogs.com/maybe2030/p/5089753.html
[2] https://zhuanlan.zhihu.com/p/37714263
[3] https://zhuanlan.zhihu.com/p/30891055
[4] https://www.zhihu.com/question/40892922/answer/231600231

写在最后：本文参考以上资料进行整合与总结，文章中可能出现理解不当的地方，若有所见解或异议可在下方评论，谢谢！

posted @ 2019-07-14 09:51 Alexander 阅读(2220) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 10年+ .NET Coder 心语，封装的思维：从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热？
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用

阅读排行：
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源！
· 周边上新：园子的第一款马克杯温暖上架

公告

昵称： Alexander
园龄： 15年10个月
粉丝： 192
关注： 1

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:从NSGA到 NSGA II
谢谢，您的博客帮我迅速理解了NSGA-II算法思想。
--Tomato-In
2. Re:破解打开证书加密的PDF文档-数字证书(电子书私钥)下载和导入教程
想下载证书，谢谢
--达里弗
3. Re:机器学习算法GBDT
@Thunder_007 你好，这块我没有看明白的，我觉得这边特征值取5.8时，损失函数值最小的啊，而且算4.9的时候那个表达式 (1-0.333)^2+ (1-0.333)^2 + (0-0.333...
--zkai501650\
4. Re:机器学习算法GBDT
一共有24种情况,4个特征*每个特征有6个特征值。在这里我们算出来让这个式子最小的特征花萼长度,特征值为5.1 cm。这个时候损失函数最小为 0.8。特征值取5.8，损失函数最小值不是等于0嘛？这...
--Thunder_007
5. Re:机器学习算法GBDT
好文章啊，新注册用户点赞收藏
--Thunder_007