机器学习中数据处理与处理不当的影响 - 学习思考
1、不公平性
由于数据组的分布不均匀(与真实场景分布不一致),会导致真实的预测结果会有一些“偏见”。在引入使用的预测特征时需要更加结合真实场景需求。
2、因果偏差
相关关系误用为因果关系或者因果关系建立不合理时会产生因果偏差。(非常重要 相关性 不等于因果性)
3、公平性
(1)意识公平性:是否显示使用敏感属性用于模型的训练与预测过程
(2)统计公平性:要求弱势、少数群体的待遇与非弱势、整体群体相似
4、基于平均因果效应与实验组平均因果效应的公平性:
FATE:基于平均因果效应
FACT:即将于试验组平均因果效应公平性
5、训练数据的修正:可以根据分布,在替代的数据上进行数据修正,使得训练的数据模型能够符合真实的分布模型