【机器学习与深度学习理论要点】10.什么是置信概率、什么是交叉验证、解决类别不均衡问题?

1)什么是置信概率?

置信概率是用来衡量推断结果的概率,该值越大说明推断结果确定性越大,该值越小说明推断结果不确定性越大。

2)什么是交叉验证?

交叉验证指将含有N个样本的数据集,分成K份,每份N/K个样本。选择其中1份作为测试集,另外K-1份作为训练集,测试集就有K种情况。将K种情况下,模型的泛化误差取均值,得到模型最终的泛华误差。

交叉验证的作用是为了得到更为稳健可靠的模型,对模型的泛化误差进行评估。

3)列举解决类别不均衡问题的方法

  • 扩大数据集。增加包含小类样本数据的数据,更多的数据能得到更多的分部信息。

  • 对大数据欠采样。减少大类数据样本个数,使与小样本个数接近。

  • 使用新评价指标。如果当前评价指标不适用,则应寻找其他具有说服力的评价指标。

  • 选择新算法。不同的算法适用于不同的任务与数据,应该使用不同的算法进行比较。

  • 数据代价加权。例如当分类任务是识别小类,那么可以对分类器的小类样本数据增加权值,降低大类样本的权值,从而使得分类器将重点集中在小类样本身上。

posted @ 2020-08-08 23:24  野哥李  阅读(31)  评论(0编辑  收藏  举报  来源