<知识库的构建> 1–1 信息提取:动机 Information Extraction:Motivation

引自 Fabian Suchanek的讲义

 

IE (Information extraction) : 从数字化文本中导出事实的,结构化的文本的过程

       关键字:Digital text documents,deriving,factual,structured

 

信息提取会遇到这样几个困难:

-      二义性 ambiguity,即同一名字对应多个不同的entity

-      句子检测:即不知道从哪到哪是我们需要的句子成分

-      动词词组 verbal phrases:例如work as,be famous as 等等,he works as singer, he is famous as a singer, etc, 动词有很多种,变化很多,所以很难给实体加标签

-      解析句子:句子成分复杂,难

-      表格解读 table interpretation : 例如,不知道把提头当做hasXX 还是把表格内行的题目当做hasXX

-      解析文字:格式变化过多,例如:日期就有很多种写法,所以难

-      断句 segmentation:句子成分复杂,难

-      HTML没写好:annotation没做好,难以获取到信息

 

做信息提取的原因:

-      未提取的信息:有重复,无清晰结构

-      提取后的信息:重复少,有结构性,useful

 

信息提取的应用:

-      电邮:把相关日期从邮件中提取出来添加至calendar,etc

-      智能助理 intelligent assistant:提取出用户的信息,进行自动提醒

-      售后服务:提取出用户需要进行维护的部分,及预约的维修日期

-      网购:从用户下单的行为中提取出相关信息,名字,购买物品,价格

-      etc

 

知识图 Knowledge graph:是根据

-      不同结构的信息来源

-      和在web上进行信息提取所得到 (Knowledge Vault)

 

关于知识图的应用:问题回答功能 例如siri

-      回答的答案可以是很有结构的信息

-      有结构的信息是从数字化的结构的文本中上进行提取得到的

 

知识库举例:

-      YAGO:从维基百科或者其他地方提取信息,建立了很大的知识图

-      DEANNA

-      IBM WATSON:问题回答系统

 

计算机很聪明吗,它是如何获取信息的呢

-      可以回答问题,但是从数据库中找到的答案

-      可以看懂自然语言并回答问题,但是是解析+数据库找答案

-      在回答问题方面可以打败人类,但也没好很多

-      可以开汽车,开飞机,etc,但这只是computation所带来的结果

posted @ 2018-01-29 17:15  赵梦子  阅读(281)  评论(0编辑  收藏  举报