推荐系统学习
基于内容的推荐:通过分析内容数据,推荐与用户的浏览历史相似的内容。
基于协同过滤的推荐:item-based、user-based。
item-based:计算物品和物品被同一用户评分的相似度,将相似度最高的几个物品推荐给用户。算法假设一个人会喜欢和他之前喜欢的物品相似的物品。
user-based:计算用户和用户对同一物品评分的相似度,将相似度最高的几个用户他们喜欢的物品推荐给用户。算法假设行为相似的人有相似的兴趣。
推荐系统冷启动问题:在新用户/新物品/新系统没有历史数据的情况下如何解决其个性化推荐问题。
1、新用户 推荐他感兴趣的物品。用户冷启动
2、新物品 推荐给对它感兴趣的用户。物品冷启动
3、新系统 设计个性化推荐系统。系统冷启动
解决方案:
一、利用用户注册信息
1、获取用户注册信息 2、根据用户注册信息对用户进行分类 3、给用户推荐他所属类别中用户感兴趣的商品
二、选择热门/代表性的物品启动用户的兴趣
1、给用户推荐一些热门/代表性的商品 2、让用户反馈他们对这些物品的兴趣 3、根据用户反馈提供个性化推荐
三、基于内容的推荐
利用NLP技术提取物品内容信息中的关键词,根据关键词进行个性化推荐。
推荐算法的原则:
1、根据和你具有相同爱好的人给你推荐
2、根据你喜欢的物品找到和它相似的给你推荐
3、根据你给出的关键字给你推荐
4、根据以上条件组合起来给你推荐
word2vec生成的词向量可以看成是N维语义空间中的坐标值,每个坐标轴对应一个语义,当2个词在同一个N维语义空间中距离较近时,说明这两个词的含义接近。
TF-IDF
优点: 依赖于整个语料库,通过TF和IDF的统计可以预先知道一个词的重要程度
缺点:没有用到词之间的关联性
textRank
优点:用到词之间的关联性
缺点:texRank认为一开始每个词的重要程度是一样的
召回
处理数据量大,速度要够快,模型不能太复杂,使用较少特征(基于表示学习)
排序
处理数据量小,模型要够准,可以上复杂模型,使用较多特征(基于特征组合)
CTR模型排序模型演进路线:
策略规则(人工指定特征权重,规则) ---> 线性模型(人工特征组合,LR) ---> 线性模型+树模型(半自动特征组合,LR+GBDT) ---> 因子分解机模型(自动二阶特征组合,FM、FFM) ---> 深度学习模型(自动高阶特征组合,DNN)
CTR模型关键:特征及特征组合能力
CTR模型发展方向:如何有效解决特征组合问题
线性排序模型:LR ---> FM ---> FFM ---> 双线性FFM
深度排序模型:
1.提供新型FM函数:更加有效地捕获二阶特征组合
wide&deep DeepFM DeepFFM
2.显式捕获高阶特征组合
Deep&cross xDeepFM
以点击率(CTR)预估为例,精排学习的目标的范围一般是所有存在曝光的样本。有曝光但没有点击的是负样本,有曝光也有点击的就是正样本。在其他目标中可以以此类推:比如转化率(CVR)预估,点击了没转化的是负样本,点击了,也转化了就是正样本。
参考资料
1、https://github.com/PaddlePaddle/PaddleRec
2、https://aistudio.baidu.com/aistudio/projectdetail/3240640
3、https://paddlerec.readthedocs.io/en/latest/
天池-安泰杯跨境电商智能算法大赛分享(冠军)
https://zhuanlan.zhihu.com/p/100827940
https://github.com/RainFung/Tianchi-AntaiCup-International-E-commerce-Artificial-Intelligence-Challenge
4、对白的推荐系统笔记
5、DSSM双塔模型:https://mp.weixin.qq.com/s?__biz=MzA4NTUxNTE4Ng==&mid=2247511761&idx=1&sn=9e51c0b0f9d915225d5b9c669dbc2298&chksm=9fd4200ca8a3a91a2bbab1744d2df13eac33b8b3f76ac74411f2ace54f47d41176e7921dace7&mpshare=1&scene=1&srcid=0321fS11x9OkEVw5YIjtQh6s&sharer_sharetime=1647821048021&sharer_shareid=546bd079429f4880a353b991a015fc00&key=81795c52cefeb0ffd5b2e4400f6a7c71ada7f193c373a6956d6ac805c8071a20aee491c5eb859f7f62fb542dd1f016bd694fba7ab35bfaeaa65de63aac5062eb44cfe341bb98183094f82939e3f5f0d9d8bc1cdf7732cbc25c41ad2d048d146dee61a9b31a54abad4d2010d33c23a31fc3c2151f2e69fd01e56b14779962d6cd&ascene=1&uin=NjQ3MTEwMDA1&devicetype=Windows+10+x64&version=6209007b&lang=zh_CN&exportkey=AegC7%2Bu0N7PhYEErqkyPuCw%3D&acctmode=0&pass_ticket=XAle8Lbc37rHn25L0RHugX%2B3siq7D2rzqGfdp8LPIckcs%2F0wtYb5ns6NiOz8ihY8&wx_header=0
6、总结比较全面的推荐系统内容:https://mp.weixin.qq.com/s?__biz=MzA4MjEyNTA5Mw==&mid=2652591856&idx=2&sn=9e5d503c6550217b12e2a6c7bc5b57de&chksm=84657ebab312f7acf2e2ac1e96d99765e1b085081f595c8263a6b431ae86e3bbd5e286441673&mpshare=1&scene=1&srcid=0322UxEk0wuKPwokDr8PqLXn&sharer_sharetime=1647909446998&sharer_shareid=546bd079429f4880a353b991a015fc00&key=78f63d48a771ba98507d9b0290eb4b2c498449df51d62b7fcd4fcd7f2cadcd52fffc8bb546fa97eab22d0dabe5bd3cf1c2ef0f3274965b98131fb80ac99910cde835f6b6eaf4b57addff13973e5c40acd89a177512079ddb9c490382c55a598370d0184f99e1f998c9294e82f06d471fae4e57a16f5185eb916d96696c67b856&ascene=1&uin=NjQ3MTEwMDA1&devicetype=Windows+10+x64&version=6209007b&lang=zh_CN&exportkey=AQnRn7JePQqp1sBXyVp93uc%3D&acctmode=0&pass_ticket=tkelr8xa7c5bh44yhK%2Bf9hT3mzhD7rLtRQ3N7kSWdMHOIa62vtxlG3xsb9JBFZQV&wx_header=0
7、https://mp.weixin.qq.com/s?__biz=MzU5NzkyMTYzNw==&mid=2247494498&idx=1&sn=b9b665328ce0989985014f7ce7c16634&chksm=fe4eb168c939387e2f8fa1b979f48ded7de691606f70b6f27acd2be3b85352ab659907a52115&mpshare=1&scene=1&srcid=0323ORZdesMwK3WK6AUJBcB4&sharer_sharetime=1648041627233&sharer_shareid=546bd079429f4880a353b991a015fc00&key=c5ac73bb09560f71ca45ac8ee63255872b0decb57be7ced53e28768ecb40508ff7c4030171862c53c9fb263a9da1f7985f1b40fc42117614263e3d3da98f7d2b72f308d719923789355379f15bb6fd0cc3d53eb1112e25d0ad389c252227d006b07f5cad89019a47869114f164c2b1c19f8cea369a7f1de2d290d49543e6e25e&ascene=1&uin=NjQ3MTEwMDA1&devicetype=Windows+10+x64&version=6209007b&lang=zh_CN&exportkey=AQKKV4XCcFZzuJqq7yQCCD8%3D&acctmode=0&pass_ticket=tkelr8xa7c5bh44yhK%2Bf9hT3mzhD7rLtRQ3N7kSWdMHOIa62vtxlG3xsb9JBFZQV&wx_header=0
8、电影推荐双塔例子:https://mp.weixin.qq.com/s?__biz=MzUzODYwMDAzNA==&mid=2247558268&idx=2&sn=3d7d37443246e51f1a923f0610cf74e3&chksm=fad69371cda11a6708f1b41c623e783084f87914bfd81b2d8b119689943f1abc01097b0b2a6f&mpshare=1&scene=1&srcid=0323FkteF44CFtMdxCVK2gbG&sharer_sharetime=1647991434274&sharer_shareid=546bd079429f4880a353b991a015fc00&key=81795c52cefeb0ff679c16a5793b6c139adbdc84e9cb8211503b959337705e8a32b046cba3da22d495da32c3ce3a558eebdb8fa517002b8129a7b848044fbeb5cee5fc8cf4f155ff5f9be0860281dc030e905cbfc15ecbfe6b8086bdddf7a194cfcc3637c6793f00c6ec99789f62999ec42b507fac0966fc82594c1bdfcf59aa&ascene=1&uin=NjQ3MTEwMDA1&devicetype=Windows+10+x64&version=6209007b&lang=zh_CN&exportkey=AebJFJugHw1ue26ConBX%2Fhw%3D&acctmode=0&pass_ticket=tkelr8xa7c5bh44yhK%2Bf9hT3mzhD7rLtRQ3N7kSWdMHOIa62vtxlG3xsb9JBFZQV&wx_header=0
9、京东的推荐算法分享:https://mp.weixin.qq.com/s?__biz=MzIxMzkwNjM2NQ==&mid=2247513916&idx=1&sn=c58af7ac089f6d810e023862e638fc4a&chksm=97ad51eea0dad8f899cb1b36f67e44e55d91ae1c54263daa9a9505a4166382b80036af508915&mpshare=1&scene=1&srcid=0316vc4bkucI4BsgcWXbAR67&sharer_sharetime=1647853927889&sharer_shareid=546bd079429f4880a353b991a015fc00&key=97bcfa82f6791b8a5c334c8eaf373bb583c79a541f0dfed3748a66ffd15486523055d2396ca2ceae962df6f7123c12241a083f4c0b7e50a5a6ccadd94c3f8fcd4a3467d94081b5e188a455a57d3623fde6d31b9a79a6ae4b5091427058a813299a62f5a3205d48a9ad08af73656dd2083813f66e1472c8930a2f488dd62bb68e&ascene=1&uin=NjQ3MTEwMDA1&devicetype=Windows+10+x64&version=6209007b&lang=zh_CN&exportkey=ARn47S9qZ3pC%2FahHynPFlVw%3D&acctmode=0&pass_ticket=tkelr8xa7c5bh44yhK%2Bf9hT3mzhD7rLtRQ3N7kSWdMHOIa62vtxlG3xsb9JBFZQV&wx_header=0
12、推荐算法工程师需要掌握哪些核心技能点? (qq.com)
13、NLP模型一统推荐系统?谈新型推荐系统建模范式 (qq.com)
14、datawhalechina/fun-rec: 推荐系统入门教程,在线阅读地址:https://datawhalechina.github.io/fun-rec/
排序模型
https://mp.weixin.qq.com/s?__biz=MzIwNDA5NDYzNA==&mid=2247484370&idx=1&sn=efda9a904cb47e396af0cf5dfcce4bc3&chksm=96c42e17a1b3a7019f616966319c174e6cf28d5e967df7ff97716b1ed2f161312a46196bbd19&scene=178&cur_album_id=1555890573570523140#rd
https://mp.weixin.qq.com/s?__biz=MzIwNDA5NDYzNA==&mid=2247486585&idx=1&sn=04edb6d2c4eb1bb142024e7907cffdeb&chksm=96c421bca1b3a8aaf5e5cee68e0fe69c6eeb3191520708e79a1f51713329941daa12d9bf83c6&scene=178&cur_album_id=1555890573570523140#rd
https://mp.weixin.qq.com/s?__biz=MzIwNDA5NDYzNA==&mid=2247486930&idx=1&sn=df8671025460e927d7e54d543e4fe807&chksm=96c42017a1b3a90124dbbf3064d2f951e7f0dc7531612bd4fac681f59734521acc6334d1e41b&scene=178&cur_album_id=1555890573570523140#rd
https://mp.weixin.qq.com/s?__biz=MzIwNDA5NDYzNA==&mid=2247489962&idx=1&sn=4201dff21c21cea79bb6893ccbcf72fd&chksm=96c4346fa1b3bd7915ef0fbd90ff64ef851705344a527a28c26df1fe45b743504e29c4d1cf10&scene=178&cur_album_id=1555890573570523140#rd
https://mp.weixin.qq.com/s?__biz=MzIwNDA5NDYzNA==&mid=2247490538&idx=1&sn=3ec9e1601032debabeced51f6c62fe0d&chksm=96c4362fa1b3bf3954ab625761eb2c9a178c8c8b874d3526a8421cdc03f4ded8e118fb4f4b1c&scene=178&cur_album_id=1555890573570523140#rd
https://mp.weixin.qq.com/s?__biz=MzIwNDA5NDYzNA==&mid=2247493141&idx=1&sn=c323bfdf5114607a37408b61bdbb0c89&chksm=96c7cbd0a1b042c6a332132820643d08eacdc193dc6971948df07efca7d70d8e2e3b66e879b6&scene=178&cur_album_id=1555890573570523140#rd
https://mp.weixin.qq.com/s?__biz=MzIwNDA5NDYzNA==&mid=2247497425&idx=1&sn=dd08c9b7e96290024bda613a9587635c&chksm=96c7db14a1b052021afaf1e5a29d198f81a67cfb2e1a8d7398a27c22bcdc9794c4b3f234dd49&scene=178&cur_album_id=1555890573570523140#rd
https://mp.weixin.qq.com/s?__biz=MzIwNDA5NDYzNA==&mid=2247498212&idx=1&sn=d8c7c9f37f2927b80f8855ef29b11c4c&chksm=96c7d421a1b05d376e5db06e24976bf8477f71cf38b0e13fe5c49f12e603c25441e14658b16c&scene=178&cur_album_id=1555890573570523140#rd
posted on 2022-03-11 14:39 enhaofrank 阅读(746) 评论(0) 编辑 收藏 举报