2021 年 9月随笔档案 - xd_xumaomao

NFM

摘要：https://zhuanlan.zhihu.com/p/92293407 待整理阅读全文

posted @ 2021-09-18 17:33 xd_xumaomao 阅读(26) 评论(0) 推荐(0) 编辑

摘要：1. 避免创建重复的RDD 2. 尽可能复用同一个RDD 3. 对多次使用的RDD进行持久化 // 如果要对一个RDD进行持久化，只要对这个RDD调用cache()和persist()即可。 // 正确的做法。 // cache()方法表示：使用非序列化的方式将RDD中的数据全部尝试持久化到内存中。阅读全文

posted @ 2021-09-15 20:51 xd_xumaomao 阅读(128) 评论(0) 推荐(0) 编辑

pyspark 参数配置

摘要：Executor配置 conf={ "spark.executor.memory": "4g", "spark.executor.cores":"4", "spark.executor.instances": "150", "spark.yarn.executor.memoryOverhead": 阅读全文

posted @ 2021-09-15 20:30 xd_xumaomao 阅读(2697) 评论(0) 推荐(0) 编辑

spark任务调度

摘要：Application application（应用）其实就是spark-submit提交的spark应用程序。一个完整的Spark应用程序包含如下几个基本步骤：获取输入数据（通过序列获取，读取HDFS，读取数据库，读去S3等！）处理数据（具体的代码逻辑）输出结果（导入到HDFS，Hbase，阅读全文

posted @ 2021-09-14 20:31 xd_xumaomao 阅读(263) 评论(0) 推荐(0) 编辑

推荐系统中为什么要有召回、粗排、精排

摘要：推荐系统中的召回和排序在推荐系统中一般会分为召回和排序两个阶段：召回召回的目标是从千万级甚至亿级的候选中召回几千个item，召回一般由多路组成，每一路会有不同的侧重点（优化目标），如在广告中成熟期广告和冷启动广告分为两路召回（如果广告比较多，还可能分冷热广告分别召回）。在推荐系统，不同路可能代阅读全文

posted @ 2021-09-07 13:22 xd_xumaomao 阅读(9258) 评论(0) 推荐(0) 编辑

DeepWalk

摘要：deepwalk 的主要思想就是：先在图中随机采样一批节点然后一这批节点为起点，按边权重随机选一个邻点，重复该步骤，得到节点序列把这些节点序列看成一个个句子，可以用word2vec的方法来把这些节点表示为向量具体的细节待整理阅读全文

posted @ 2021-09-06 15:57 xd_xumaomao 阅读(130) 评论(0) 推荐(0) 编辑

AFM 论文阅读

摘要：背景 FM 模型引入了二阶特征的交叉方法，但是在 FM 中，所有二阶特征的权重是一样的，在实际中，应该给重要的交叉特征更大的权重，对一些可能引入噪音的特征给一个非常小的权重或0 AFM 通用引入一个 attention 结构，让模型自己调节二阶特征的权重模型结构 AFM 模型的结构如上图所示（省略阅读全文

posted @ 2021-09-06 12:59 xd_xumaomao 阅读(130) 评论(0) 推荐(0) 编辑

《Deep Neural Networks for YouTube Recommendations》论文阅读

摘要：背景 google 在这篇论文中介绍了在 YouTube 中使用两阶段推荐系统（召回和排序）召回：和协同过滤原理相似，根据不同用户的历史行为召回用户可能感兴趣的视频排序：根据用户对视频可能的观看时间对候选视频进行排序，最大化YouTube的商业化价值和其它论文不同，这篇论文不是在介绍某个技术点阅读全文

posted @ 2021-09-03 18:17 xd_xumaomao 阅读(193) 评论(0) 推荐(0) 编辑

MAP

摘要：MAP(Mean Average Precision)，平均正确率均值参考资料 https://www.cnblogs.com/genyuan/p/9788294.html 阅读全文

posted @ 2021-09-02 19:55 xd_xumaomao 阅读(28) 评论(0) 推荐(0) 编辑

MRR

摘要：MRR(Mean Reciprocal Rank)，平均倒数排名 MRR 要求检索结果只有一个相关，其它都是不相关参考资料 https://www.cnblogs.com/genyuan/p/9788294.html 阅读全文

posted @ 2021-09-02 18:49 xd_xumaomao 阅读(129) 评论(0) 推荐(0) 编辑

Bandit 算法

摘要：https://zhuanlan.zhihu.com/p/80261581 待整理阅读全文

posted @ 2021-09-02 15:23 xd_xumaomao 阅读(11) 评论(0) 推荐(0) 编辑

ERR

摘要：ERR(Expected Reciprocal Rank)，预期倒数排名参考资料 https://www.cnblogs.com/genyuan/p/9788294.html https://www.cnblogs.com/memento/p/8673309.html 阅读全文

posted @ 2021-09-02 15:05 xd_xumaomao 阅读(51) 评论(0) 推荐(0) 编辑

华为PAL论文阅读 - 解决推荐中的position-bias问题

摘要：https://zhuanlan.zhihu.com/p/83571732 《PAL: A Position-bias Aware Learning Framework for CTR Prediction in Live Recommender Systems》待整理阅读全文

posted @ 2021-09-02 13:16 xd_xumaomao 阅读(467) 评论(0) 推荐(0) 编辑

NDCG

摘要：https://www.cnblogs.com/by-dream/p/9403984.html https://zhuanlan.zhihu.com/p/84206752 待整理阅读全文

posted @ 2021-09-02 12:48 xd_xumaomao 阅读(13) 评论(0) 推荐(0) 编辑

xd_xumaomao

09 2021 档案

公告

搜索

我的标签

随笔档案

阅读排行榜

推荐排行榜

最新评论