07 2019 档案
摘要:主流的序列到序列模型都是基于含有encoder和decoder的复杂的循环或者卷积网络。而性能最好的模型在encoder和decoder之间加了attentnion机制。本文提出一种新的网络结构,摒弃了循环和卷积网络,仅基于attention机制。 self-attention是一种attentio
阅读全文
摘要:https://zhuanlan.zhihu.com/p/74547224 摘要 BERT是“Bidirectional Encoder Representations from Transformers"的简称,顾名思义,它使用transformer联合上下文学习文本的双向表示。在这个表示的基础上
阅读全文
摘要:预训练 先在某个任务(训练集A或者B)进行预先训练,即先在这个任务(训练集A或者B)学习网络参数,然后存起来以备后用。当我们在面临第三个任务时,网络可以采取相同的结构,在较浅的几层,网络参数可以直接加载训练集A或者B训练好的参数,其他高层仍然随机初始化。底层参数有两种方式: frozen ,即预训练
阅读全文
摘要:命名实体识别 1. 问题定义 广义的命名实体识别是指识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、日期、货币和百分比)命名实体。但实际应用中不只是识别上述所说的实体类,还包括其他自定义的实体,如角色、菜名等等。 2. 解决方式 命名实体识别其本质是一个序列标注问题,
阅读全文