神经网络学习

感知和学习#

Rosenblatt Perceptron计算流程：

初始化：随机初始化权重 $\mathbf{W}$ 和偏置 b 。
循环训练：
- 从训练集中随机选择一个样本 $(\mathbf{X}_i, y_i)$ 。
- 检查分类结果是否正确：如果 $y_i \cdot (\mathbf{W} \cdot \mathbf{X}_i + b) \leq 0 $（分类错误），则更新权重和偏置：$ \mathbf{W} \leftarrow \mathbf{W} + \eta \cdot y_i \cdot \mathbf{X}_i $；$ b \leftarrow b + \eta \cdot y_i$
- 其中 \eta 是学习率。
停止条件：重复第 2 步，直到所有样本都被正确分类，或者达到最大迭代次数。

逻辑回归的损失函数： $\text{Loss}(w, b) = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log \left( \sigma(w \cdot X_i + b) \right) + (1 - y_i) \log \left( 1 - \sigma(w \cdot X_i + b) \right) \right]$

梯度下降优化：

$w := w - \eta \frac{\partial \text{Loss}}{\partial w} \\ b := b - \eta \frac{\partial \text{Loss}}{\partial b}$

批量梯度下降BGD:
$\theta \leftarrow \theta - \eta \cdot \frac{1}{N} \sum_{i=1}^N \nabla f_i(\theta)$

随机梯度下降SGD:

$\theta \leftarrow \theta - \eta \cdot \nabla f_i(\theta)$

小批量梯度下降：

$\theta \leftarrow \theta - \eta \cdot \frac{1}{m} \sum_{i=1}^m \nabla f_i(\theta)$

动量优化MGD：累积历史梯度，减少振荡，加速收敛

$v_t = \beta v_{t-1} + \nabla f(\theta_t) \\ \theta_t = \theta_t - \eta v_t$

AdaGrad：动态调整每个参数的学习率

$g_t = \nabla f(\theta_t) \\ G_t = G_{t-1} + g_t^2 \\ \theta_t = \theta_t - \frac{\eta}{\sqrt{G_t} + \epsilon} g_t$

RMSprop：动态调整每个参数的学习率

$E[g^2]_t = \beta E[g^2]_{t-1} + (1 - \beta) g_t^2 \\ \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{E[g^2]_t} + \epsilon} g_t$

Adam（Adaptive Moment Estimation）：动量+动态调整每个参数的学习率

$v_t = \beta_1 v_{t-1} + (1 - \beta_1) g_t \\ s_t = \beta_2 s_{t-1} + (1 - \beta_2) g_t^2 \\ \hat{v_t} = \frac{v_t}{1 - \beta_1^t}, \quad \hat{s_t} = \frac{s_t}{1 - \beta_2^t} \\ \theta_{t+1} = \theta_t - \frac{\eta}{\sqrt{\hat{v_t}} + \epsilon} \hat{v_t}$

基本思路：

Trail Feedforward： $y_p=f(wx+b)$
Evaluate Loss Function： $E = \frac{1}{2}(Y_A - Y_P)^2$ ， minimize GD
Analist Back-Progagation： new - old

卷积神经网络#

基本概念#

特点：

Image Processing
Feed-Forward & Back-Propagation
recongnize visual patten（the ordering and patterns）
Filter/Kernel：权重矩阵
End-To-End

拓扑结构：

C(Convolution Layer) : feature extraction
- Kernel：Flatten：Local Connectivity Parameter Sharing
P(Pooling Layer): Subsampling 进一步减少结点大小
- Max Pooling
- Average Pooling
- Normal Pooling
- Log propability Pooling
上面两层可以不断重复
Flatten：拉平，送进全连接神经网络
F(Fully-Connected Layer): classifier

局部连接：一个卷积核在图像上Move Around

权重共享：卷积核同位置参数一致

Convulation Operation(Stride, Padding)
Kernel
Feature Map： $FeatureMap_{size} = \left\lfloor \frac{Image_{size} + 2Padding - Kernel_{size}}{S} \right\rfloor + 1$

Pooling#

The number of channels is the number of filters

Feature Map：计算方法同卷积特征图计算方法

计算：特征图大小，参数量

（图中池化阶段得到的特征图大小不准确，应该和卷积层阶段的计算方法一样）

（参数了计算不准确：9*25和25*9*50）

卷积神经网络模型#

LeNet#

AlexNet#

背景：大数据，超算

创新点：

Dropout：过拟合
Norm（归一化）：LRN
ReLu激活函数：梯度消失

GoogleNet#

创新点：

Inception结构：并行；1*1卷积核降维
- 最左：保留初始信息
- 中间两列：不同尺度的特征提取
- 最右：池化提取
- 合并：特征图层叠拼接
辅助分类器
- 及时反向传播
- 决策融合

参考链接

ResNet#

残差（短路）：保留原始特征，解决退化问题
BN（批量归一化）：解决梯度消失/爆炸（过拟合）【减均值除方差】

DenseNet#

DenseBlock：内部结构BottleNeck

BN + ReLU+1*1 Conv + BN + ReLU + 3*3 Conv

1*1卷积降维，先激活后卷积
Transation：池化，降低参数量

BN + ReLU + 1*1 Conv + 2*2 AvgPooling
优势：解决退化问题，进一步减少梯度消失/爆炸