揭秘!信息检索技术高端玩法
《SIGIR 顶会论文解读》重磅发布
由 7 位阿里巴巴技术专家精心打造,内容覆盖推荐系统 、成交转化模型 、 回音室效应 、 全空间多任务转化率预估建模 、 DeepMatch 召回模型 、 跨领域冷启动用户推荐网络 、 表示学习模型等信息检索领域新技术。
精彩内容抢先看
1、对抗推荐系统
回顾推荐系统的发展,离不开模型、数据、训练方式三个维度的创新。模型层面,基于内容的推荐系统到协同过滤的矩阵分解,以及神经网络带来的序列化建模,使得用户表征和商品表征刻画越来越精细;数据层面,长短期行为的切分,基于session 的推荐 [1],跨场景行为的引入,数据的丰富和建模为用户兴趣的挖掘提供更多的可能;训练方式上,分布式训练框架,在线学习,高维稀疏特征处理,优化器设计,从而支撑商业化推荐系统。然而,性能提升的同时,我们也看到推荐系统的可解释性逐渐变成黑盒。用户的兴趣偏好如何表征,兴趣如何演变,不同时间点的历史行为由哪种因素主导,这一系列的问题都对现代化推荐系统的解释提出了挑战。
2、GMCM基于微观行为图的成交转化模型
电商推荐系统帮助用户寻找感兴趣的商品。在这个系统中,两个任务扮演了至关重要的角色,点击率预估(CTR Estimation)和成交转化率预估(CVREstimation)。顾名思义,点击率是商品从被曝光到被点击的概率,成交转换率是商品从被点击到被购买的概率。
虽然学界和业界在 CVR预估方面做了不少有意义的工作,但是工业应用中的 CVR预估仍然是个有挑战性的任务。
3、属性二部图的表示学习
网络数据是一种常见的数据表示形式,可以用来建模现实世界中的多种应用场景。网络表示学习(又称作图嵌入学习),作为一种建模网络数据的模型,近年来受到学界和工业界的广泛重视,得到了极大发展。网络表示学习旨在把复杂的网络图数据结构嵌入到低维的连续向量空间中,并且使每一个节点的特征信息在低维空间中得到反馈。近年来,大量的网络表示学习方法和模型被不断提出并且在链路预测、节点分类、网络可视化等相关的实际任务上有很好的表现指标。
4、了解电子商务中的回音室效应
个性化推荐系统在为用户带来更精准商品的同时,也对消费者的兴趣偏好和行为造成影响,例如回音室效应。回音室是指用户不断接受相似的信息和内容, 从而使得他们的兴趣或者态度被不断强化。这种现实通常出现在社交媒体和网络平台,也同样可能出现在电子商务等推荐系统中。我们的研究集中在电子商务的推荐系统对用户兴趣的影响,利用淘宝的大规模用户数据检验是否存在回音室效应。
5、基于post-click行为分解的全空间多任务转化率预估建模
随着移动互联网的兴起,从海量的数据中挖掘出有价值的信息并呈现给用户,已成了电商、社交、新闻等主流应用的核心功能,推荐系统正是在这样的背景下诞生的。在电商领域,高质量的推荐系统能为用户提供精准、及时、甚至带有一定惊喜性的个性化服务,进而有效地增加了用户与系统之间的黏性,同时也能为平台带来一定的收入。一般说来,电商领域 ( 如淘宝 ) 的推荐系统架构主要包括两个阶段:系统决策和用户决策。
6、一种挖掘用户评论文本的跨领域冷启动用户推荐网络
在大型推荐场景中,存在着众多类目(例如亚马逊平台中的书籍、影视推荐等)。用户往往只与其中部分类目有过交互,对于其他类目,由于缺少相应的历史行为记录,协同过滤方法会遭遇冷启动问题。
为了缓解冷启动问题,一类可行的方法为利用用户在其他类目上的历史交互记录进行知识迁移(跨领域推荐),比如,给喜欢武侠小说的用户推荐古装电影。同时,为了更细致地刻画用户形象,参考用户的历史评论进行辅助推荐也能起到促进作用。
近年来,跨领域推荐和基于评论的个性化推荐均取得了不俗的进展,却鲜有工作将二者结合。这类工作主要存在以下挑战:
1)用户在不同类目下的关注点是不同的,且只有少量稀疏特性存在关联,导致模型较难发现此类隐式关联;
2)对于在当前类目下无历史记录的冷启动用户,若直接利用其他类目下该用户的评论文本,则会不可避免地带来用户特征的抽取误差,例如,喜欢粗糙质地工艺品的用户,不一定会喜欢粗糙材质的衣物。鉴别不同类目间评论文本的语义差异,也是一个不小的挑战。
针对以上问题,本文提出了一种挖掘用户在不同类目下的评论关联,进而对冷启动用户进行推荐的深度模型,称作CATN
7、全局自适应模块:为召回模型装上第三只眼
DeepMatch在搜索、推荐和广告等系统都大量应用,是一种重要的召回方式。通常将用户 ( 搜索场景下包含 Query) 和商品通过深度模型编码成向量,线上通过向量近邻查找 top K 个商品作为召回结果。
原文链接:https://developer.aliyun.com/article/768517?utm_content=g_1000163102
本文为阿里云原创内容,未经允许不得转载。