<知识库的构建> 1–1 信息提取：动机 Information Extraction：Motivation

引自 Fabian Suchanek的讲义

IE (Information extraction) : 从数字化文本中导出事实的，结构化的文本的过程

关键字：Digital text documents，deriving，factual，structured

信息提取会遇到这样几个困难：

- 二义性 ambiguity，即同一名字对应多个不同的entity

- 句子检测：即不知道从哪到哪是我们需要的句子成分

- 动词词组 verbal phrases：例如work as，be famous as 等等，he works as singer, he is famous as a singer, etc, 动词有很多种，变化很多，所以很难给实体加标签

- 解析句子：句子成分复杂，难

- 表格解读 table interpretation : 例如，不知道把提头当做hasXX 还是把表格内行的题目当做hasXX

- 解析文字：格式变化过多，例如：日期就有很多种写法，所以难

- 断句 segmentation：句子成分复杂，难

- HTML没写好：annotation没做好，难以获取到信息

做信息提取的原因：

- 未提取的信息：有重复，无清晰结构

- 提取后的信息：重复少，有结构性，useful

信息提取的应用：

- 电邮：把相关日期从邮件中提取出来添加至calendar，etc

- 智能助理 intelligent assistant：提取出用户的信息，进行自动提醒

- 售后服务：提取出用户需要进行维护的部分，及预约的维修日期

- 网购：从用户下单的行为中提取出相关信息，名字，购买物品，价格

- etc

知识图 Knowledge graph：是根据

- 不同结构的信息来源

- 和在web上进行信息提取所得到 (Knowledge Vault)

关于知识图的应用：问题回答功能例如siri

- 回答的答案可以是很有结构的信息

- 有结构的信息是从数字化的结构的文本中上进行提取得到的

知识库举例：

- YAGO：从维基百科或者其他地方提取信息，建立了很大的知识图

- DEANNA

- IBM WATSON：问题回答系统

计算机很聪明吗，它是如何获取信息的呢

- 可以回答问题，但是从数据库中找到的答案

- 可以看懂自然语言并回答问题，但是是解析+数据库找答案

- 在回答问题方面可以打败人类，但也没好很多

- 可以开汽车，开飞机，etc，但这只是computation所带来的结果

posted @ 2018-01-29 17:15 赵梦子阅读(281) 评论(0) 编辑收藏举报

刷新页面返回顶部

赵梦子