一、损失(Loss)类型:
- L1损失【Re】:对模型对各个样本的预测的绝对误差求和。
- 平均绝对误差 (MAE)【Re】:一组样本L1损失的平均值。
- L2 损失:【Re】对模型【Re】对各个样本的预测的误差的平方求和。
- 均方误差【Re】:一组样本的L2 损失的平均值。
如果数据中特征值超过了一定范围,或者模型预测结果严重失真,这类特征值或结果被称为离群值【Re】。
二、梯度下降:
线性模型的损失函数始终为凸面【Re】。
三、超参数
两种训练方法:
- stochastic gradient descent(SGD):批次大小为一,即每次只随机取一个样本计算梯度、更新模型参数。此方法极易产生大量噪声(体现在整条损失曲线上,不单单是临近收敛时,损失不降反增)
- 小批次随机梯度下降法:每次取一批样本计算梯度、更新模型参数。需要注意的是,在神经网络中,噪声可以帮助模型更好地泛化【Re】。
处理完一批,更新一次参数。