摘要: 1. 发生在 KAGGLE 比赛中的“地震”现象 主要原因:训练集和测试集数据分布不一致 检测:在训练集合和测试集合上训练一个二分类,并在测试集合上进行 auc 检测,如果 auc = 0.5,说明训练集合和测试集合没有显著差异。当 > 0.7 时,说明有较大差异。 应用1:二分类预测测试集上所有样 阅读全文
posted @ 2021-04-25 18:17 nuo-o 阅读(404) 评论(0) 推荐(0) 编辑
摘要: DPP 为什么 当用户在我们系统中点击行为比较少的时候,我们会补充一些热门特征来丰富用户画像。 所谓的热门特征,是累加了所有用户点击过的新闻特征,然后取topk得到的。 会发现,尤其对于一些细粒度的特征,头部会集中在同一语义下。为了平衡热门特征的语义多样性和热门程度,我采用了DPP 的方法。 举个例 阅读全文
posted @ 2021-04-25 08:09 nuo-o 阅读(177) 评论(0) 推荐(0) 编辑