摘要: 主要讲述条件随机场在NERC上的应用,即当条件和条件之间是互相依赖的时候就需要使用到条件随机场。需要理解条件随机场的定义,邻居如何形成clique,条件随机场进行矢量化的条件:即场内所有proba都大于0,条件随机场内的clique形成链时如何计算proba即把Ci部分换成当前Y和Y的predecessor,条件随机场的2种特殊形式,即当条件随机场中每个X的势是相同时(即把i放入势函数内,因为每个X的势都一样,只需要知道是对X中的哪一个单词进行计算),和当条件随机场需要根据features来计算势函数的值(W*F) ,以此计算条件随机场的log可能性,即用log函数套在exp之外,进行不断化简。 阅读全文
posted @ 2018-01-29 19:12 赵梦子 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 主要讲了NERC的四种方式, NERC Feature,NERC rules, NERC ML和statistical NERC。NERC Feature主要讲在一个窗口中,其他token可以根据三种不同的features定下自己是什么分类,从而定义主token是什么分类。NERC rules主要讲述一种建立rules来判断token分类的方法,若某个句子或某个部分中的词满足该rule中的特征,那么就可以知道主token是哪一类,当然在面对非常大型的语料库也应该有自动建立rules的算法,本文中也有提到;NERC ML讲述的是使用机器学习做NERC,主要讲述了KNN对NERC的应用,即找到该token附近的token的分类,定义好K的值,看K个最近邻居主要在哪一类则该token就在哪一类;statistical NERC主要要知道如何找到使语料库权重最大的Y向量,若面对大型语料库时,我们无法手动定义权重,则需要有算法去计算权重,主要讲述了两个步骤,如何根据给定的语料库向量X和分类向量Y来计算W,计算了W的概率分布,用到了梯度上升,即计算使该概率分布最大的W,然后根据W的值在去判断新的语 阅读全文
posted @ 2018-01-29 18:11 赵梦子 阅读(373) 评论(0) 推荐(0) 编辑
摘要: 主要讲了消歧的2种方式,即停止词,上下文,大语料库和小语料库消歧的方式是不同的,文章中的实体要注意协调一致标准。 阅读全文
posted @ 2018-01-29 18:09 赵梦子 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 总结:有三个指数可以看出算法是否好,精确度precision,召回率recall和F1指数。所以本章重点为记忆这三种计算方式。 阅读全文
posted @ 2018-01-29 18:07 赵梦子 阅读(124) 评论(0) 推荐(0) 编辑
摘要: NER是为了从语料库中找到实体的名字,即要识别语料库中哪写单词使我们想读出来的。NER的实现主要有两种方法,一种是字典法,另一种是正则表达式法。传统字典法就是把entity放入字典中去找是否有对应的名字,很慢,所以后期有了新字典法,即Trie。正则部分强调了如何根据language的形态写出对应的正则。所以重点是要知道实现NER的两种方法及其优缺点及如何用正则描述language。 阅读全文
posted @ 2018-01-29 18:03 赵梦子 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 这一章节主要讲述我们该如何表示世界上的知识,以及我们怎么从这么多文件中找到它们。重点是要记住定义。 阅读全文
posted @ 2018-01-29 18:01 赵梦子 阅读(399) 评论(0) 推荐(0) 编辑
摘要: 简要讲解人们需要构建知识库的原因 阅读全文
posted @ 2018-01-29 17:15 赵梦子 阅读(281) 评论(0) 推荐(0) 编辑