(2018, IJCAI, Yiping Song et al.)An Ensemble of Retrieval-Based and Generation-Based Human-Computer Conversation Systems笔记

论文提出了：一种检索式对话与生成式对话结合的方法，主要用于单轮对话。

动机

把检索式对话与生成式对话优点结合起来。
* 检索式对话的优点是，只要语料库足够大，就能找到信息量丰富、对用户有帮助的回答，缺点是，它会受限于语料库的丰富程度，而且找到的回答是固定，不一定是一个正常的、合适的回答。
* 生成式对话的优点是，回答是生成的，比较灵活，缺点是，它容易生成一些通用的、没有什么信息的、对用户帮助不大的回答。
* 作者认为，检索式对话与生成式对话可以相辅助，得到灵活且对用户有帮助的回答

基本思路

总体架构图
论文方法包括3个模块：检索模块Retrieval Process、生成模块Multi-Seq2Seq Generator、重排序模块Re-ranker，算法步骤是：
1. 检索模块Retrieval Process：通过现成的检索系统lucene 检索出 \(k\)个问答对，这\(k\)个问答对的问题与用户问题最相近
2. 生成模块Multi-Seq2Seq Generator：\(k\) 个问答对的回答与用户问题输入到一个end2end生成模型Multi-Seq2Seq Generator，生成回答
3. 重排序模块Re-ranker：对回答进行评分，选出最佳的回答。参加评分的回答包括 Retrieval Process中\(k\)个问答对的回答，和 Multi-Seq2Seq Generator生成的回答

生成模块Multi-Seq2Seq Generator

Multi-Seq2Seq Generator采用多源seq2seq的方式，并在其中加入两种attention机制、copy mechanism机制

多源seq2seq：用多个encoder，分别对用户问题与 \(k\)个问答对的回答进行编码
两种attention机制分别是句子级别的注意力sentence-level attention、字级别的注意力character-level attention
- 句子级别的注意力sentence-level attention：把多个encoder 最后一个时间步的输出进行线性变换，得到的向量作为 decoder的初始state
- 字级别的注意力character-level attention：对多个encoder 每个时间步的输出进行加权求和，得到的向量作为 decoder每个时间步的context
copy mechanism机制：对 \(k\)个问答对的回答进行编码的encoder 每个时间步的输出进行 copy mechanism

重排序模块Re-ranker

对回答与用户问题进行评分，判断回答与用户问题的合适程度。主要思路是，对回答与用户问题进行特征工程，然后通过 GBDT进行 2分类，GBDT输出的概率越高，则表示回答越适合用户问题。

检索式对话

目前大部分商用的对话系统是检索式对话

(2000, AAAI, Isbell et al.)Cobotin LambdaMOO: A social statistics agent
- 用信息检索的方法，从语料库中检索出相关的用户问题和对应的回答
(2014, arXiv:1408.6988, Ji et al.)An information retrieval approach to short text conversation （引用量有41）
- 在query-reply matching中使用手工特征和神经网络
(2016, SIGIR, Yan et al.)Learning to respond with deep neural networks for retrieval-based human-computer conversation system
- 在query-reply matching中使用手工特征和神经网络
(2016, IJCAI, Li et al.)StalemateBreaker: A proactive content-introducing approach to automatic human-computer conversation
- 提出一个random walk-style algorithm，对候选回答进行排序
- 模型融合了其他知识，主要是从知识库中检索得到的、与context实体相关的知识

生成式对话

生成式对话越来越受到学术界的重视

(2011, EMNLP, Ritter et al.)Data-driven response generation in social media
- 将 query-reply transformation问题视为基于短语的机器翻译问题
(2014, NIPS, Sutskeveret al.)Sequence to sequence learning with neural networks
- 首次提出 seq2seq模型的论文（发表单位：谷歌）
(2015, arXiv:1506.05869, Vinyals and Le)A neural conversational model（引用量有292）
- 同样地，在对话系统中使用了RNN
(2015, NAACL-HLT, Sordoniet al.)A neural network approach to context-sensitive generation of conversational responses
- 同样地，在对话系统中使用了RNN
(2015, ACL, Shanget al.)Neural responding machine for short-text conversation
- 同样地，在对话系统中使用了RNN
(2016, AAAI, Serban et al.)Building end-to-end dialogue systems using generative hierarchical neural network models.
- 同样地，在对话系统中使用了RNN
(2016, NAACL-ACL, Zoph and Knight)Multi-source neural translation
- 使用 2个encoder 和 1个decoder，将 2种语言翻译为一种语言

普遍知道，RNN容易生成短小的、无意义的句子，所以有研究者在这个问题上进行探究

(2016, NAACL, Li et al.)A diversity-promoting objective function for neural conversation models.
- 提出一种基于互信息的优化目标，而不是用传统的最大似然
(2016, COLING, Mou et al.)Sequence to backward and forward sequences: A content-introducing approach to generative short-text conversation.
- 将互信息最大的词或主题信息等额外的内容引入对话生成中
(2016, arXiv:1606.08340, Xing et al.) Topic augmented neural response generation with a joint attention mechanism.（引用量有34）
- 将互信息最大的词或主题信息等额外的内容引入对话生成中
(2017, AAAI, Serban et al.)A hierarchical latent variable encoder-decoder model for generating dialogues.
- 采用变分编码器捕获用户问题的信息分布，在生成回答时从这个信息分布中采样出一个向量，用于生成
(2017, ACL, He et al.)Generating natural answers by incorporating copying and retrieving mechanisms in sequence-to-sequence learning.
- 在问答任务中使用知识库
(2017, ACL, Libovicky and Helcl)Attention strategies for multi-source sequence-to-sequence learning.
- 探索多源输入生成中的不同注意力策略

posted @ 2019-07-13 15:00 hui_lyh 阅读(752) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

hui_lyh