基于样例的迁移学习:密度比估计的不可或缺性
基于样例的迁移学习:密度比估计的不可或缺性
工作中遇到需要用迁移学习解决的风控问题:贷中模型,一个新的项目,如何冷启动。
1)目标域没有标签,即不知道未来是否逾期。2)没有足够的训练数据。
新项目的数据分布和旧项目不同,P(y|x) 假设相同, 但P(x)必定不同,此时需要用到密度比估计。估计出密度比之后,再对抽样后的源域数据进行训练,以达到在目标域上更好的效果。
covariate shift 的解释:
https://blog.csdn.net/mao_xiao_feng/article/details/54317852
一个问题,P(X)不同,但P(Y|X)不变,训练出来的模型会不同么??比如xgboost,是否对样本的分布敏感?