川山甲

追求内心的非常平静!瞬间清空所有的杂念,达到物我两忘!

  博客园  :: 首页  ::  :: 联系 :: 订阅 订阅  :: 管理

 

 
背景
 
拓展知识图谱-人物关系模块,激发用户兴趣点击,提升流量。
 
 
要解决的问题
 
1、识别人名:ner 命名实体识别。
2、识别两个人是有关系的;
  人名共现来说明两个人之间有关系;
  词向量计算词与词之间的相似度来说明两个人之间关系。
3、人物关系挖掘。
  两个人名满足某种依存模式,则将两个人名和关系抽取出来。
  用到的相关nlp算子:分词、词性标注、命名实体识别(NER)、依存语法分析、语义角色标注
  依存句法中我们所用到的主要关系有:主谓关系(SBV)、动宾关系(VOB)、定中关系(ATT)、并列关系(COO)、介宾关系(POB);
 
技术方案、基于依存句法的人物关系抽取
 
 
 
 
 
 
核心工程
 
 
模式_实例1
 
两人名实体同时位于主语,并列关系
例如:1914年,孔祥熙与宋霭龄于日本结婚。
 
利用哈工大语言云进行句法分析得到结果如下:
 
 
 
模式_实例2
 
  两人名实体同时位于主语,修饰关系。特征词分别采用角色词或者人物词进行不同策略的挖掘。
  例如:邓超的妻子孙俪也是著名演员。
 
  使用句法分析得到结果如下:
 
 
 
 
 
模式_实例3
 
  两人名实体位于宾语,修饰关系
  例如:他的妻子以往被认为是洪秀全的妹妹洪宣娇。
 

 

 
 
模式_实例4
 
  两人名实体分别为主语和宾语,这种情况时,选取谓语动词作为特征词
 
  例如“子路师从孔子”
 
 
 
 
模式_实例5
 
  关系名为主语、人名2为宾语,这种情况时,选取谓语动词“是”作为特征词。
  例如“禹智皓的哥哥是韩国男歌手禹泰云”
 
 
训练数据
 

部分训练样本

金城武在经济公司的安排下师从歌手陈升
子路师从孔子
禹智皓的哥哥是韩国男歌手禹泰云
贾巴里·帕克的父亲桑尼·帕克是前NBA球员   APP
邓超的妻子孙俪也是著名演员  APP两人名实体同时位于主语,修饰关系
1914年,孔祥熙与宋霭龄于日本结婚    两人名实体同时位于主语,并列关系
他的妻子以往被认为是洪秀全的妹妹洪宣娇  两人名实体位于宾语,修饰关系
韩雪在年代武侠剧《叶问》中饰演叶问的妻子张永成
刘涛共同出演古装爱情剧《大理公主》饰演贫苦寡妇杨玉姣的女儿杨阿细

  

 

 

 

优化方案
 
  指代消解。针对那些语句中有代词情况,考虑采用指代消解方案进行优化!
    提高精准度特殊处理方式:
    1、特定关系,必须满足姓氏相同。如:妹妹、弟弟、哥哥、父亲、女儿、儿子、爷爷
    2、语义提取,太依赖于nlp服务本身,在项目中发现,句法分析中出现部分中文词无法提取出来(这种nlp的句法分析服务暂没提供自定义词库功能);
    3、ner的识别问题,通过增加分词,并增加一些自定义的分类方式,提高ner的识别度!
 
数据评估——衡量方法的优劣
 
1、大多采用准确率和召回率和F1值来衡量方法的优劣。
2、F1值为准确率和召回率的加权几何平均值,具体定义如下。
  β是准确率和召回率的相对权重,β= 1,认为两个指标重要性是相同的;β>1,召回率权更重要一些;β<1时,准确率更重要一些。
 

 

 
数据评估方式
 
  数据标注:
      1) 先跑出一版数据,然后再数据上做正确的标注;
  评估方式:
      1) 关系挖掘数据评估;
      2) 内链数据评估;
   新闻数据评估:
      1) 近似认为与原语料相同,进行数据类挖掘;
 
 
规则提取特征:
1) 换行提取
  丘和

 

 2) 单行

丘行恭

 

 

 
推荐
 
 
 
posted on 2018-05-28 10:00  川山甲  阅读(3710)  评论(4编辑  收藏  举报