erine
1.概述
erine是一种自然语言处理的预训练模型,对自然语言推理,命名实体识别,文本分类有很好的效果。
2.模型结构
3.模型结构
1).Transformer Encoder
该模型使用多层Transformer作为基本编码器,与其他预训练类似GPT、BERT等模型。Transformer可以捕获每个Token的上下文信息在序列中通过自我注意,并生成一个上下文嵌入序列。给定一个序列,特殊的
分类嵌入[CLS]被添加到序列的第一个位置。此外,还添加了[SEP]符号
作为多个输入段任务的段间隔的分隔符。
2).Task Embedding
任务嵌入模型为任务嵌入提供信息,以调节不同任务的特性。我们使用
id从0到N的不同任务。每个任务id都分配给一个唯一的任务嵌入。相应的
模型以tokwn、分段、位置和任务嵌入作为输入。我们可以使用任何任务id来初始化
4.任务
1).Word-aware Pre-training Tasks
提出了一种通过知识增强表示的有效策略
整合。它引入了短语掩蔽和命名实体掩蔽,并对整个掩蔽短语进行预测
实体来帮助模型学习本地上下文和全局上下文中的依赖关系信息。我们用这个任务训练模型的初始版本。
2).Structure-aware Pre-training Tasks
我们添加一个句子重新排序任务来学习句子之间的关系。在
在这个任务的预训练过程中,一个给定的段落被随机分成1到m段,然后
组合被随机排列的顺序洗牌。我们让预先训练的模型重新组织这些排列
分段,建模为k类分类问题。根据经验,句子重新排序任务
可以使预先训练的模型学习文档中句子之间的关系。
3).Semantic-aware Pre-training Tasks
除了上面提到的距离任务之外,我们还引入了一个任务来预测语义
或两个句子之间的修辞关系。我们使用Sileo等人[18]建立的数据来训练预先训练的模型
英语任务。按照Sileo等人[18]的方法,我们还自动构建了
训练前。
4).IR Relevance Task
我们构建了一个学习信息检索中短文本相关性的预训练任务。这是三等舱
预测查询和标题之间关系的分类任务。我们把这个问题当作第一句话
标题作为第二句话。我们使用百度搜索引擎的搜索日志数据作为我们的训练前数据。
此任务中有三种标签。标记为“0”的查询和标题对表示强相关性,
这意味着用户在输入查询后会单击标题。那些标为“1”的代表软弱
相关性,这意味着当用户输入查询时,这些标题出现在搜索结果中,但失败了
被用户点击。标签“2”表示查询和标题完全不相关,并且在以下方面是随机的
语义信息。