NTU ML2023Spring Part2.1 基础知识

License: CC BY-NC-SA 4.0

机器学习的任务是什么？考虑几个常见的任务：输入一段语音，输出语音中的文字；输入一张图片，输出图片中的内容；输入棋局局面，输出下一步怎么走。总结一下就是找到一个函数。

几个常见的任务：

Model：一个这样的函数，带有一些参数（Parameter）。

如何找到一个函数？

根据对该领域知识的理解先确定函数的大致类型（有点类似于数学中求回归方程的时候用一次函数还是二次函数拟合）
设计 loss 函数（输入为 Model 的 Parameter，输出一般是标量）。loss 越低代表 parameter 越好。（loss 可以是负的）

用不同参数得到的 loss 的等高线图就是 error surface.
对参数进行优化（optimization）

在这门课中只会用到 gradient descent. 基本原理就是在 error surface 上沿着地形较低的地方走一步，重复多次。步长即 learning rate，是超参数之一。超参数就是要自己调的参数（有点像模拟退火里的退火率，反正就是玄学调参）。

让 loss 最小的参数值叫 global minima，极小值处叫 local minima。

模型的更改往往伴随 domain knowledge 的加深。模型也许无法拟合真实数据（例如线性回归拟合二次函数就会有较大的差距），这种现象叫 model bias。

显然 linear model 是不够复杂的，那怎样的 model 足够复杂呢？

其实加上 ReLU 函数（\(f(x) = \dfrac{x + |x|}{2}\)）就够了。注意到曲线可以用折线拟合，而折线可以由一堆 ReLU 函数（与线性函数的复合）之和表示。当然 sigmoid（\(f(x) = \dfrac{1}{1+\exp(-x)}\)）也是可以的。

然后我们就有比较复杂的模型了。为了简化表示，可以用向量与矩阵描述：

如何进行 Gradient descent？

为什么叫 deep learning？因为神经网络有很多层，比较 deep。

posted @ 2025-02-03 11:41 383494 阅读(35) 评论(0) 收藏举报

刷新页面返回顶部

x383494