美团多场景多任务学习论文《HiNet: Novel Multi-Scenario & Multi-Task Learning with Hierarchical Information Extraction》阅读

模型结构

模型主要包含场景抽取层任务抽取层(上图A):

场景抽取层

场景抽取层主要包括了场景共享专家(Scenario-shared expert)模块、当前场景特有专家(Scenario-specific expert)模块以及场景感知注意力网络,通过这三部分的信息抽取,最终形成了场景层次的信息表征

场景共享专家

就是一个MMOE结构(论文称为SEI结构,上图C所示)

场景特有专家

第i个场景特有专家计算方式如下:

场景感知注意力网络

场景感知注意力网络的结构如上图B所示,计算方式如下所示:

其中Emb(si)表示第i个场景的指示向量,Sm表示其他场景的特有专家算出来的场景表示向量,场景感知注意力网络采用了attention结构计算了其他场景对这个场景的影响

最终每个场景到任务抽取层的输入为:Ci = Concat(G, Si, Ai)

任务抽取层

受到PLE(Progressive Layered Extraction)模型的启发,采用了自定义门控网络CGC模块,主要由两部分组成:任务共享专家网络和任务特有专家网络。前者主要负责学习当前场景中所有任务中的共享信息,后者用于提取当前场景中各个任务的特有信息

 

损失函数

 

posted @ 2024-05-31 11:36  xd_xumaomao  阅读(60)  评论(0编辑  收藏  举报