《深度学习思考》的读书笔记
这篇文章还不错,有一些值得继续思考的地方。
《周志华教授:关于深度学习的一点思考》
https://mp.weixin.qq.com/s/DlJZII9yKtgskcjTBfZCtQ
Hinton 等通过“逐层训练后联合微调”来缓解梯度消失,使人们看到训练深层神经网络是可能的,由此激发了后来的研究,使得深度神经网络得以蓬勃发展。
例如该领域一个重要技术进步就是用图 2 右边的 ReLU 函数来代替以往常用的 Sigmoid 函数,由于前者在零值附近的导数比后者更“平缓”,使得梯度不会因下降得太快而导致梯度消失。
有人可能会问,既然机器学习界早就知道能通过把神经网络模型加深来提升学习能 力,为什么以往不这样做呢?除了前面提到的“梯度消失”这个技术障碍,这还涉及另外一个问题:因为存在“过拟合”(overfitting)。
小结一下,这套对“为什么深”的“复杂度解释”主要强调三点:第一,今天有大数据;第二,有强力的计算设备;第三,有很多有效的训练技巧。
但这套解释有个重要问题没解决:为什么扁平的(宽的)网络不如深度神经网络?
进一步我们再问:对表示学习来说最关键的是什么?我们的答案是:逐层加工处理。
虽然在真实的神经网络中未必有这么清晰的分层,但总体上确有自底向上不断抽象的趋势。
我们认为,“逐层加工处理”正是表示学习的关键,也是深度学习成功的关键因素之一。
以前已经有很多技术是在进行逐层 加工处理。例如决策树、Boosting 都是“逐层加工处理”模型,但是与深度神经网络相 比,它们有两个弱点:一是模型复杂度不够。
二是在学习过程中缺乏特征变换,学习过程始终在同一个特征空间中进行。
有三个关键因素:
逐层加工处理
内置特征变换
模型复杂度够
这是我们认为深度神经网络能够成功的关键原因
深度神经网络的一些最新研究进展,例如网络剪枝、权重二值化、模型压缩等,实质上都是试图在训练过程中适当减小网络复杂度。
深度神经网络的其他缺陷例如小数据上难以使用、黑箱模型、理论分析困难等就不赘述了。
机器学习领域有一个著名的“没有免费的午餐”定理[2],它告诉我们,没有任何一个模型在所有任务上都优于其他模型。
以往我们以为深度学习就是深度神经网络,只能基于可微构件搭建,现在我们知道了这里有更多的可能性。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!
2018-02-16 这道题目还是很难得- 剑指Offer - 正则表达式
2018-02-16 剑指Offer - 做过的一道题目- 之字形打印
2018-02-16 剑指Offer - 做出来了- 字符流中第一个不重复的字符
2018-02-16 哇,好厉害,做出来啦 - 剑指Offer - 找出排序二叉树中第K大的节点
2018-02-16 剑指Offer - 经典的按照行来打印节点
2018-02-16 好厉害啊 - 剑指Offer - 二叉树的下一个结点
2018-02-16 又做出来一道题目 - 不错的 - 想了一会儿- 剑指Offer - 对称的二叉树