背景
拓展知识图谱-人物关系模块,激发用户兴趣点击,提升流量。
要解决的问题
1、识别人名:ner 命名实体识别。
2、识别两个人是有关系的;
人名共现来说明两个人之间有关系;
词向量计算词与词之间的相似度来说明两个人之间关系。
3、人物关系挖掘。
两个人名满足某种依存模式,则将两个人名和关系抽取出来。
用到的相关nlp算子:分词、词性标注、命名实体识别(NER)、依存语法分析、语义角色标注依存句法中我们所用到的主要关系有:主谓关系(SBV)、动宾关系(VOB)、定中关系(ATT)、并列关系(COO)、介宾关系(POB);
技术方案、基于依存句法的人物关系抽取
核心工程
模式_实例1
两人名实体同时位于主语,并列关系
例如:1914年,孔祥熙与宋霭龄于日本结婚。
利用哈工大语言云进行句法分析得到结果如下:
模式_实例2
两人名实体同时位于主语,修饰关系。特征词分别采用角色词或者人物词进行不同策略的挖掘。
例如:邓超的妻子孙俪也是著名演员。
使用句法分析得到结果如下:
模式_实例3
两人名实体位于宾语,修饰关系
例如:他的妻子以往被认为是洪秀全的妹妹洪宣娇。
模式_实例4
两人名实体分别为主语和宾语,这种情况时,选取谓语动词作为特征词。
例如“子路师从孔子”
模式_实例5
关系名为主语、人名2为宾语,这种情况时,选取谓语动词“是”作为特征词。
例如“禹智皓的哥哥是韩国男歌手禹泰云”
训练数据
部分训练样本
金城武在经济公司的安排下师从歌手陈升 子路师从孔子 禹智皓的哥哥是韩国男歌手禹泰云 贾巴里·帕克的父亲桑尼·帕克是前NBA球员 APP 邓超的妻子孙俪也是著名演员 APP两人名实体同时位于主语,修饰关系 1914年,孔祥熙与宋霭龄于日本结婚 两人名实体同时位于主语,并列关系 他的妻子以往被认为是洪秀全的妹妹洪宣娇 两人名实体位于宾语,修饰关系 韩雪在年代武侠剧《叶问》中饰演叶问的妻子张永成 刘涛共同出演古装爱情剧《大理公主》饰演贫苦寡妇杨玉姣的女儿杨阿细
优化方案
指代消解。针对那些语句中有代词情况,考虑采用指代消解方案进行优化!
提高精准度特殊处理方式:
1、特定关系,必须满足姓氏相同。如:妹妹、弟弟、哥哥、父亲、女儿、儿子、爷爷
2、语义提取,太依赖于nlp服务本身,在项目中发现,句法分析中出现部分中文词无法提取出来(这种nlp的句法分析服务暂没提供自定义词库功能);
3、ner的识别问题,通过增加分词,并增加一些自定义的分类方式,提高ner的识别度!
数据评估——衡量方法的优劣
1、大多采用准确率和召回率和F1值来衡量方法的优劣。
2、F1值为准确率和召回率的加权几何平均值,具体定义如下。
β是准确率和召回率的相对权重,β= 1,认为两个指标重要性是相同的;β>1,召回率权更重要一些;β<1时,准确率更重要一些。
数据评估方式
数据标注:
1) 先跑出一版数据,然后再数据上做正确的标注;
评估方式:
1) 关系挖掘数据评估;
2) 内链数据评估;
新闻数据评估:
1) 近似认为与原语料相同,进行数据类挖掘;
规则提取特征:
1) 换行提取
推荐
喜欢编程