【机器学习与深度学习理论要点】10.什么是置信概率、什么是交叉验证、解决类别不均衡问题?
1)什么是置信概率?
置信概率是用来衡量推断结果的概率,该值越大说明推断结果确定性越大,该值越小说明推断结果不确定性越大。
2)什么是交叉验证?
交叉验证指将含有N个样本的数据集,分成K份,每份N/K个样本。选择其中1份作为测试集,另外K-1份作为训练集,测试集就有K种情况。将K种情况下,模型的泛化误差取均值,得到模型最终的泛华误差。
交叉验证的作用是为了得到更为稳健可靠的模型,对模型的泛化误差进行评估。
3)列举解决类别不均衡问题的方法
-
扩大数据集。增加包含小类样本数据的数据,更多的数据能得到更多的分部信息。
-
对大数据欠采样。减少大类数据样本个数,使与小样本个数接近。
-
使用新评价指标。如果当前评价指标不适用,则应寻找其他具有说服力的评价指标。
-
选择新算法。不同的算法适用于不同的任务与数据,应该使用不同的算法进行比较。
-
数据代价加权。例如当分类任务是识别小类,那么可以对分类器的小类样本数据增加权值,降低大类样本的权值,从而使得分类器将重点集中在小类样本身上。