上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 37 下一页
摘要: 背景 这是阿里发的一篇 Multi-Domain CTR 预估论文 模型结构 star模型结构如上图所示,和普通的ctr模型对比,主要有以下几个区别: 1. BN层换成了PN,简单来说就是对不同domain的样本采用了不同的BN 2. Star Topology FCN,不同domain有一个共享的 阅读全文
posted @ 2022-03-28 19:59 xd_xumaomao 阅读(1451) 评论(0) 推荐(0) 编辑
摘要: 背景 在推荐系统中存在用户行为稀疏的问题,特别是在召回阶段,用户有过交互的item只占非常少的一部分,只有这部分数据我们能用来训练,但是serving时要serving全库item,这可能会导致倾向热门的item,特别是对冷启动非常不友好。这篇论文引入来在CV、NLU中取得成功的对比学习方法,通过一 阅读全文
posted @ 2022-02-22 11:57 xd_xumaomao 阅读(797) 评论(2) 推荐(0) 编辑
摘要: 背景 xDeepFM方法是DCN系列的延续与改进,DCN方法主要问题是特征交叉是bit-wise,但是实际中,特征是分field(每个feature对应的embedding),因此xDeepFM中提出了field-wise的显式高阶特征交叉方法CIN 模型原理 xDeepFM模型结构的整体框架保持了 阅读全文
posted @ 2021-12-07 22:04 xd_xumaomao 阅读(168) 评论(0) 推荐(0) 编辑
摘要: 如何理解柏松分布? https://blog.csdn.net/ccnt_2012/article/details/81114920 阅读全文
posted @ 2021-10-09 14:29 xd_xumaomao 阅读(55) 评论(0) 推荐(0) 编辑
摘要: 定义 简单理解 二项分布其实就是 n 次独立重复事件成功 k 次的概率 期望和方差 阅读全文
posted @ 2021-10-09 11:41 xd_xumaomao 阅读(1029) 评论(0) 推荐(0) 编辑
摘要: https://zhuanlan.zhihu.com/p/92293407 待整理 阅读全文
posted @ 2021-09-18 17:33 xd_xumaomao 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 1. 避免创建重复的RDD 2. 尽可能复用同一个RDD 3. 对多次使用的RDD进行持久化 // 如果要对一个RDD进行持久化,只要对这个RDD调用cache()和persist()即可。 // 正确的做法。 // cache()方法表示:使用非序列化的方式将RDD中的数据全部尝试持久化到内存中。 阅读全文
posted @ 2021-09-15 20:51 xd_xumaomao 阅读(105) 评论(0) 推荐(0) 编辑
摘要: Executor配置 conf={ "spark.executor.memory": "4g", "spark.executor.cores":"4", "spark.executor.instances": "150", "spark.yarn.executor.memoryOverhead": 阅读全文
posted @ 2021-09-15 20:30 xd_xumaomao 阅读(2386) 评论(0) 推荐(0) 编辑
摘要: Application application(应用)其实就是spark-submit提交的spark应用程序。一个完整的Spark应用程序包含如下几个基本步骤: 获取输入数据(通过序列获取,读取HDFS,读取数据库,读去S3等!) 处理数据(具体的代码逻辑) 输出结果(导入到HDFS,Hbase, 阅读全文
posted @ 2021-09-14 20:31 xd_xumaomao 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 推荐系统中的召回和排序 在推荐系统中一般会分为召回和排序两个阶段: 召回 召回的目标是从千万级甚至亿级的候选中召回几千个item,召回一般由多路组成,每一路会有不同的侧重点(优化目标),如在广告中成熟期广告和冷启动广告分为两路召回(如果广告比较多,还可能分冷热广告分别召回)。在推荐系统,不同路可能代 阅读全文
posted @ 2021-09-07 13:22 xd_xumaomao 阅读(8606) 评论(0) 推荐(0) 编辑
上一页 1 ··· 5 6 7 8 9 10 11 12 13 ··· 37 下一页