在模型评估过程中,过拟合和欠拟合具体指什么现象
在模型评估过程中,过拟合和欠拟合具体指什么现象?
过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集上的表现好,但是在测试集和新数据上的表现较差。
欠拟合指的是模型在训练和预测时表现都不好。用模型在数据上的偏差和方差指标来表示就是。欠拟合时候,偏差和方差都比较大,而过拟合时,偏差较小但方差较大。
降低过拟合和欠拟合的方法 |
L1和L2正则先验分别服从什么分布?
L1 的分布容易使得 目标函数只与有限的 L1限制函数在“棱角”上产生交集。
这里的pw 是写成x---w
-----------------------------------
什么是数据不平衡,如何解决?
数据不平衡主要指的是在有监督机器学习任务中,样本标签值的分布不均匀。这将使得模型更倾向于将结果预测为样本标签分布较多的值,从而使得少数样本的预测性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。
解决方法:
1. 重新采样训练集
a. 欠采样 –减少丰富类的大小来平衡数据集
b. 过采样 – 增加稀有样本,通过使用重复,自举或合成少数类
2. 设计使用不平衡数据集的模型
a. 在代价函数中惩罚稀有类别的错误分类。
DuY:embedding 是什么啊,能通俗的讲一下吗?”
- - - - - - - - - - - - - - -
比如 老虎 这一个动物用一个 vector (0, 1, 0, 0, 0) 表示,经过embedding 之后它可以表示为 (0.23, 0.12) 表示。而这种表示方法是通过训练数据训练出来的。
没有撤退可言!