在模型评估过程中,过拟合和欠拟合具体指什么现象

在模型评估过程中,过拟合和欠拟合具体指什么现象?


过拟合是指模型对于训练数据拟合呈过当的情况,反映到评估指标上,就是模型在训练集上的表现好,但是在测试集和新数据上的表现较差。

欠拟合指的是模型在训练和预测时表现都不好。用模型在数据上的偏差和方差指标来表示就是。欠拟合时候,偏差和方差都比较大,而过拟合时,偏差较小但方差较大。

 

降低过拟合和欠拟合的方法

 

 

 

 L1和L2正则先验分别服从什么分布?

L1 的分布容易使得 目标函数只与有限的 L1限制函数在“棱角”上产生交集。

 

 这里的pw 是写成x---w

 

 

 

 -----------------------------------

什么是数据不平衡,如何解决?
数据不平衡主要指的是在有监督机器学习任务中,样本标签值的分布不均匀。这将使得模型更倾向于将结果预测为样本标签分布较多的值,从而使得少数样本的预测性能下降。绝大多数常见的机器学习算法对于不平衡数据集都不能很好地工作。
解决方法:
1.  重新采样训练集
a.       欠采样 –减少丰富类的大小来平衡数据集
b.       过采样 – 增加稀有样本,通过使用重复,自举或合成少数类
2.  设计使用不平衡数据集的模型
a.       在代价函数中惩罚稀有类别的错误分类。

 

 

DuY:embedding 是什么啊,能通俗的讲一下吗?”
- - - - - - - - - - - - - - -
比如 老虎 这一个动物用一个 vector (0, 1, 0, 0, 0) 表示,经过embedding 之后它可以表示为 (0.23, 0.12) 表示。而这种表示方法是通过训练数据训练出来的。

posted @ 2020-11-10 17:34  MiQing4in  阅读(1448)  评论(1编辑  收藏  举报