随笔档案「2020年12月31日」：05Spark特征处理 ... - Marklong

2020年12月31日

摘要： Spark架构图如下： Spark 的计算过程：Stage内部数据高效并行计算，Stage边缘处进行消耗资源的shuffle或者reduce操作。特征处理方法： 1.类别特征：one-hot编码 2.数值特征：归一化（不同类别特征权重不统一）与分桶（解决特征值分布不均与，过程：特征值高低排序->分阅读全文

posted @ 2020-12-31 15:28 Marklong 阅读(125) 评论(0) 推荐(0)

04 推荐系统可用特征

摘要：下图是特征工程在推荐系统中的位置：推荐系统常用的特征： 1.用户行为数据：显性反馈与隐性反馈（容易获得）。 2.用户关系数据：强关系（好友）和弱关系（有点关系）。 3.属性与特征数据：一般先用muti-hot编码，再进行embedding，目前业界大多先构建属性与主体之间的知识图谱，再进行embe 阅读全文

posted @ 2020-12-31 13:36 Marklong 阅读(152) 评论(0) 推荐(0)

Marklong

公告