《深度学习思考》的读书笔记

这篇文章还不错，有一些值得继续思考的地方。

《周志华教授：关于深度学习的一点思考》

https://mp.weixin.qq.com/s/DlJZII9yKtgskcjTBfZCtQ

Hinton 等通过“逐层训练后联合微调”来缓解梯度消失，使人们看到训练深层神经网络是可能的，由此激发了后来的研究，使得深度神经网络得以蓬勃发展。

例如该领域一个重要技术进步就是用图 2 右边的 ReLU 函数来代替以往常用的 Sigmoid 函数，由于前者在零值附近的导数比后者更“平缓”，使得梯度不会因下降得太快而导致梯度消失。

有人可能会问，既然机器学习界早就知道能通过把神经网络模型加深来提升学习能力，为什么以往不这样做呢？除了前面提到的“梯度消失”这个技术障碍，这还涉及另外一个问题：因为存在“过拟合”（overfitting）。

小结一下，这套对“为什么深”的“复杂度解释”主要强调三点：第一，今天有大数据；第二，有强力的计算设备；第三，有很多有效的训练技巧。

但这套解释有个重要问题没解决：为什么扁平的（宽的）网络不如深度神经网络？

进一步我们再问：对表示学习来说最关键的是什么？我们的答案是：逐层加工处理。

虽然在真实的神经网络中未必有这么清晰的分层，但总体上确有自底向上不断抽象的趋势。

我们认为，“逐层加工处理”正是表示学习的关键，也是深度学习成功的关键因素之一。

以前已经有很多技术是在进行逐层加工处理。例如决策树、Boosting 都是“逐层加工处理”模型，但是与深度神经网络相比，它们有两个弱点：一是模型复杂度不够。

二是在学习过程中缺乏特征变换，学习过程始终在同一个特征空间中进行。

有三个关键因素：

逐层加工处理

内置特征变换

模型复杂度够

这是我们认为深度神经网络能够成功的关键原因

深度神经网络的一些最新研究进展，例如网络剪枝、权重二值化、模型压缩等，实质上都是试图在训练过程中适当减小网络复杂度。

深度神经网络的其他缺陷例如小数据上难以使用、黑箱模型、理论分析困难等就不赘述了。

机器学习领域有一个著名的“没有免费的午餐”定理[2]，它告诉我们，没有任何一个模型在所有任务上都优于其他模型。

以往我们以为深度学习就是深度神经网络，只能基于可微构件搭建，现在我们知道了这里有更多的可能性。

posted @ 2022-02-16 16:03 blcblc 阅读(121) 评论(0) 收藏举报

刷新页面返回顶部

笨鸟居士的博客