摘要:
基本原理: Encoder-decoder框架为文本处理领域的一种非常流行的框架,这项技术突破了传统的输入大小固定的问题,将深度神经网络模型用到了自然语言处理的相关任务之中。其不仅可以用在对话生成任务中,同样应用在自然语言处理的其他领域,如机器翻译、文本摘要、句法分析等任务中。 Seq2seq模型最 阅读全文
摘要:
论文地址: https://arxiv.org/abs/1906.06298 研究的问题: 已有研究工作: 神经网络训练的主流方法是在大型数据集上最小化任务损失,但是它需要大量的训练集,比如训练一个翻译模型需要大量对应的句子对,对于有注释的数据就很难使用。比如下面这个例子。 以往的研究是需要通过改变 阅读全文
摘要:
论文地址:https://arxiv.org/abs/1902.01541 已有的研究工作: 本文关注的是文献的实体解析问题,当前的state-of-art是mention-pair模型,但是该方法在计算和标记数据方面的成本都比较高。 本文的工作和创新点: 本文提出了一种以增量方式处理文本、动态解析 阅读全文
摘要:
论文地址:https://arxiv.org/abs/1905.07799?context=cs.LG 研究的问题: 相对于LSTM来说,Transformer几乎在所有的NLP任务上都能胜出。但是有一点,Transformer的时间复杂度是O(n^2)的,因为对于每一步,它都需要计算该步与之前的所 阅读全文
摘要:
论文地址: https://arxiv.org/abs/1907.03748 已有研究工作: 已有的研究工作主要关注完全监督情况下的问题,如有对应文本的机器翻译,在弱监督领域研究较少,往往使用结构化的预测目标。 本文的创新点: 本文主要研究的是从弱反馈中提取输出结构监控信号的方法。也就是对于不依赖于 阅读全文
摘要:
论文地址:https://www.aclweb.org/anthology/P19-1030/ 已有的研究工作: 最近有众多的模型关注对于句子的通用编码建模,从而将其用在任何监督任务中。针对单词序列,完全基于Attention的模型存在两个主要的问题:1、随着句子长度的增长,其对内存的消耗会呈2次方 阅读全文
摘要:
论文地址:https://arxiv.org/abs/1907.05190?context=stat.ML 已有研究工作: 在主动强化学习框架中,已经解决了将查询成本纳入强化学习的问题。对于主动强化学习,它的核心问题是量化reward信息的长期价值,但通常假定每一轮的每个动作的cost都是固定的;当 阅读全文