1. 文本表示与理解

  1)文本表示学习

    词语向量化

      覆盖率 coverage

      新鲜度 freshness

      准确性 accuracy :更好地表达语义关系

      a. DSG(Directional Skip-Gram): 引入方向向量 

    超文档表示学习

      内容敏感、上下文敏感、新文档友好、上下文意图敏感

      使用两个向量

        In 包含内容+出链信息

        Out 入链 + 入链上下文信息

 

  2)语义理解

    语义分析

      语义标注:上位词

      语义扩展:同类词语联想

    问题:

      歧义

        建立多个映射

        利用上下文

      长难句 一句中同时出现不同语义的相同词

        利用句法分析树度量线索词权重

    上下位关系预测

      基于模板

      基于分布式语义,如下位词的上下文大致被上位词的上下文包含,个人认为正好反了,如“狗会叫” -> “哈士奇会叫”, P低R高

      结合的,模板未覆盖时,用分布式语义来做

    语义扩展

      给定基于上下文C的种子词s,给出适合上下文C的s的同类词

      上下文,种子词,预测其他词,做一个简单的预测(分类)模型

  3)社交文本理解

    关键词抽取:目标文本包含关键词

      有监督:序列标注,文本分类

      无监督:图排序,统计

    之前工作只考虑关键词,没考虑上下文语义

    关键词生成:当目标文本不包含关键词时的任务

      问题:抽取局限性

        目标文本必须出现关键词

        出现的关键词不一定足够好

      模型

        Context和目标文本输入,关键词作为输出

        加入topic模块

 

生成式对话

1. 多样性

  1)先选bag words(相关topic word),然后利用topic word生成不同回复,回复中包含topic word

2. 可控性

  1)风格转换(带风格强度)(应该用的是带有标签R(风格强度)的数据)

    找相似句子,如词语高度重合,但输出截然不同的

    建模内容与输出的不同

      相似句子差异词x x'的差 = 相似句子风格y y'的差

      相似句子的内容z z'尽量相等

    利用内容与相应输出重建句子

      生成x' = f(z, y') 因为z和z'相似

  2)控制回复行为

3. 问题生成

  挑战

    1)远距离依赖之前的对话

    2)每一轮之间平滑的转变

  solution

    1)明确建模代词

      估计是,先extract代词,以及对应指代,然后对生产代词时的attention以及代词生成概率做loss

    2)对利用到的额外的passage信息(根据passage来问问题)建模平滑转移

      对当前回应内容相关,历史内容不想关(没有focus过)

4. 检索生成结合

  问题

    生成时简单copy检索的结果,当检索结果不相关时效果急剧下降

  解决方案

    根据检索的结果先生成骨架(扣去某些无用词的句子),根据骨架生成。

    骨架生产器和句子生成器看样子是同时训练的