ADL100(5)-ShiShuming-AILab-with-text - zk-liu

1. 文本表示与理解

　　1）文本表示学习

　　　　词语向量化

　　　　　　覆盖率 coverage

　　　　　　新鲜度 freshness

　　　　　　准确性 accuracy ：更好地表达语义关系

　　　　　　a. DSG(Directional Skip-Gram)：引入方向向量

　　　　超文档表示学习

　　　　　　内容敏感、上下文敏感、新文档友好、上下文意图敏感

　　　　　　使用两个向量

　　　　　　　　In 包含内容+出链信息

　　　　　　　　Out 入链 + 入链上下文信息

　　2）语义理解

　　　　语义分析

　　　　　　语义标注：上位词

　　　　　　语义扩展：同类词语联想

　　　　问题：

　　　　　　歧义

　　　　　　　　建立多个映射

　　　　　　　　利用上下文

　　　　　　长难句一句中同时出现不同语义的相同词

　　　　　　　　利用句法分析树度量线索词权重

　　　　上下位关系预测

　　　　　　基于模板

　　　　　　基于分布式语义，如下位词的上下文大致被上位词的上下文包含，个人认为正好反了，如“狗会叫” -> “哈士奇会叫”， P低R高

　　　　　　结合的，模板未覆盖时，用分布式语义来做

　　　　语义扩展

　　　　　　给定基于上下文C的种子词s，给出适合上下文C的s的同类词

　　　　　　上下文，种子词，预测其他词，做一个简单的预测(分类)模型

　　3）社交文本理解

　　　　关键词抽取：目标文本包含关键词

　　　　　　有监督：序列标注，文本分类

　　　　　　无监督：图排序，统计

　　　　之前工作只考虑关键词，没考虑上下文语义

　　　　关键词生成：当目标文本不包含关键词时的任务

　　　　　　问题：抽取局限性

　　　　　　　　目标文本必须出现关键词

　　　　　　　　出现的关键词不一定足够好

　　　　　　模型

　　　　　　　　Context和目标文本输入，关键词作为输出

　　　　　　　　加入topic模块

生成式对话

1. 多样性

　　1）先选bag words(相关topic word)，然后利用topic word生成不同回复，回复中包含topic word

2. 可控性

　　1）风格转换（带风格强度）（应该用的是带有标签R(风格强度)的数据）

　　　　找相似句子，如词语高度重合，但输出截然不同的

　　　　建模内容与输出的不同

　　　　　　相似句子差异词x x'的差 = 相似句子风格y y'的差

　　　　　　相似句子的内容z z'尽量相等

　　　　利用内容与相应输出重建句子

　　　　　　生成x' = f(z, y') 因为z和z'相似

　　2）控制回复行为

3. 问题生成

　　挑战

　　　　1）远距离依赖之前的对话

　　　　2）每一轮之间平滑的转变

　　solution

　　　　1）明确建模代词

　　　　　　估计是，先extract代词，以及对应指代，然后对生产代词时的attention以及代词生成概率做loss

　　　　2）对利用到的额外的passage信息(根据passage来问问题)建模平滑转移

　　　　　　对当前回应内容相关，历史内容不想关(没有focus过)

4. 检索生成结合

　　问题

　　　　生成时简单copy检索的结果，当检索结果不相关时效果急剧下降

　　解决方案

　　　　根据检索的结果先生成骨架(扣去某些无用词的句子)，根据骨架生成。

　　　　骨架生产器和句子生成器看样子是同时训练的

发表于 2019-07-18 00:23 zk-liu 阅读(211) 评论(0) 编辑收藏举报