摘要: 如何扩张KB并且使KB打到最大权重即MAXSAT,可以使用穷举法或者Unit Propagation方法,各有利弊。要知道如何使用在有命名的corpus上对实例做标记,例如@D42,利用occurs,means,R等进行pattern detection和pattern application以及消除过程中二义性等问题的方法。 阅读全文
posted @ 2018-01-29 23:56 赵梦子 阅读(409) 评论(0) 推荐(0) 编辑
摘要: 介绍了DIPRE算法,即利用模式提取和模式应用实现事实提取来得到新fact,并不断把fact添加至KB,再得到新fact来使KB扩张,我们要清楚模式提取和模式应用的方法,及DIPRE算法可能遇到的的问题。 阅读全文
posted @ 2018-01-29 23:16 赵梦子 阅读(428) 评论(0) 推荐(0) 编辑
摘要: 介绍了isA这种二元关系和它的应用即推理Taxonomy以得到完整的Taxonomy,再就是介绍了set expansion方法,从种子出发,找到文本中两个与种子相同的实例,就把该文本中其他的实例都添加至种子表中来逐渐的提取实例的方法,此方法也可以应用于HTML表格中。 阅读全文
posted @ 2018-01-29 22:11 赵梦子 阅读(284) 评论(0) 推荐(0) 编辑
摘要: Pos Tagging的目的是利用POS,对句子中的每个单词找到对应的Tag,如果用概率来做这个过程的话,就叫做probabilistic POS Tagging,利用概率计算的话,就需要用到隐式马尔科夫模型,关于这个模型我们需要知道两个马尔科夫假设(tag只由它的predecessor决定和word只由它的tag决定)和两个同质假设(tag在任何位置的概率是相同的即tagA的后面跟着tagB在句子中的任何位置这个概率都是相同的,word在任何位置的概率都是相同的即由tag决定的word在句子中的任何位置出现的概率是相同的),很重要的两个概率:跃进概率和发射概率,跃进概率代表从一个tag后跟着另一个tag的概率,发射概率代表该tag下选择某词的概率,知道这两个概率,就可以根据带有概率的图示计算最大可能的路径,要利用到Virterbi算法,即找到一条路径到END的时候概率为最大。POS Tag可以帮助实例提取,比方说我们可以规定只提取出什么样词性的词。 阅读全文
posted @ 2018-01-29 20:46 赵梦子 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 主要讲述条件随机场在NERC上的应用,即当条件和条件之间是互相依赖的时候就需要使用到条件随机场。需要理解条件随机场的定义,邻居如何形成clique,条件随机场进行矢量化的条件:即场内所有proba都大于0,条件随机场内的clique形成链时如何计算proba即把Ci部分换成当前Y和Y的predecessor,条件随机场的2种特殊形式,即当条件随机场中每个X的势是相同时(即把i放入势函数内,因为每个X的势都一样,只需要知道是对X中的哪一个单词进行计算),和当条件随机场需要根据features来计算势函数的值(W*F) ,以此计算条件随机场的log可能性,即用log函数套在exp之外,进行不断化简。 阅读全文
posted @ 2018-01-29 19:12 赵梦子 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 主要讲了NERC的四种方式, NERC Feature,NERC rules, NERC ML和statistical NERC。NERC Feature主要讲在一个窗口中,其他token可以根据三种不同的features定下自己是什么分类,从而定义主token是什么分类。NERC rules主要讲述一种建立rules来判断token分类的方法,若某个句子或某个部分中的词满足该rule中的特征,那么就可以知道主token是哪一类,当然在面对非常大型的语料库也应该有自动建立rules的算法,本文中也有提到;NERC ML讲述的是使用机器学习做NERC,主要讲述了KNN对NERC的应用,即找到该token附近的token的分类,定义好K的值,看K个最近邻居主要在哪一类则该token就在哪一类;statistical NERC主要要知道如何找到使语料库权重最大的Y向量,若面对大型语料库时,我们无法手动定义权重,则需要有算法去计算权重,主要讲述了两个步骤,如何根据给定的语料库向量X和分类向量Y来计算W,计算了W的概率分布,用到了梯度上升,即计算使该概率分布最大的W,然后根据W的值在去判断新的语 阅读全文
posted @ 2018-01-29 18:11 赵梦子 阅读(373) 评论(0) 推荐(0) 编辑
摘要: 主要讲了消歧的2种方式,即停止词,上下文,大语料库和小语料库消歧的方式是不同的,文章中的实体要注意协调一致标准。 阅读全文
posted @ 2018-01-29 18:09 赵梦子 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 总结:有三个指数可以看出算法是否好,精确度precision,召回率recall和F1指数。所以本章重点为记忆这三种计算方式。 阅读全文
posted @ 2018-01-29 18:07 赵梦子 阅读(124) 评论(0) 推荐(0) 编辑
摘要: NER是为了从语料库中找到实体的名字,即要识别语料库中哪写单词使我们想读出来的。NER的实现主要有两种方法,一种是字典法,另一种是正则表达式法。传统字典法就是把entity放入字典中去找是否有对应的名字,很慢,所以后期有了新字典法,即Trie。正则部分强调了如何根据language的形态写出对应的正则。所以重点是要知道实现NER的两种方法及其优缺点及如何用正则描述language。 阅读全文
posted @ 2018-01-29 18:03 赵梦子 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 这一章节主要讲述我们该如何表示世界上的知识,以及我们怎么从这么多文件中找到它们。重点是要记住定义。 阅读全文
posted @ 2018-01-29 18:01 赵梦子 阅读(399) 评论(0) 推荐(0) 编辑
摘要: 简要讲解人们需要构建知识库的原因 阅读全文
posted @ 2018-01-29 17:15 赵梦子 阅读(281) 评论(0) 推荐(0) 编辑