摘要: Spark架构图如下: Spark 的计算过程:Stage内部数据高效并行计算,Stage边缘处进行消耗资源的shuffle或者reduce操作。 特征处理方法: 1.类别特征:one-hot编码 2.数值特征:归一化(不同类别特征权重不统一)与分桶(解决特征值分布不均与,过程:特征值高低排序->分 阅读全文
posted @ 2020-12-31 15:28 Marklong 阅读(101) 评论(0) 推荐(0) 编辑
摘要: 下图是特征工程在推荐系统中的位置: 推荐系统常用的特征: 1.用户行为数据:显性反馈与隐性反馈(容易获得)。 2.用户关系数据:强关系(好友)和弱关系(有点关系)。 3.属性与特征数据:一般先用muti-hot编码,再进行embedding,目前业界大多先构建属性与主体之间的知识图谱,再进行embe 阅读全文
posted @ 2020-12-31 13:36 Marklong 阅读(122) 评论(0) 推荐(0) 编辑