赵梦子

2018年1月29日

<知识库的构建> 3-2 条件随机场 Condition Random Field

摘要：主要讲述条件随机场在NERC上的应用，即当条件和条件之间是互相依赖的时候就需要使用到条件随机场。需要理解条件随机场的定义，邻居如何形成clique，条件随机场进行矢量化的条件：即场内所有proba都大于0，条件随机场内的clique形成链时如何计算proba即把Ci部分换成当前Y和Y的predecessor，条件随机场的2种特殊形式，即当条件随机场中每个X的势是相同时(即把i放入势函数内，因为每个X的势都一样，只需要知道是对X中的哪一个单词进行计算)，和当条件随机场需要根据features来计算势函数的值(W*F) ，以此计算条件随机场的log可能性，即用log函数套在exp之外，进行不断化简。阅读全文

posted @ 2018-01-29 19:12 赵梦子阅读(154) 评论(0) 推荐(0) 编辑

<知识库的构建> 3-1 被命名的实体识别分类 NERC

摘要：主要讲了NERC的四种方式, NERC Feature，NERC rules, NERC ML和statistical NERC。NERC Feature主要讲在一个窗口中，其他token可以根据三种不同的features定下自己是什么分类，从而定义主token是什么分类。NERC rules主要讲述一种建立rules来判断token分类的方法，若某个句子或某个部分中的词满足该rule中的特征，那么就可以知道主token是哪一类，当然在面对非常大型的语料库也应该有自动建立rules的算法，本文中也有提到；NERC ML讲述的是使用机器学习做NERC，主要讲述了KNN对NERC的应用，即找到该token附近的token的分类，定义好K的值，看K个最近邻居主要在哪一类则该token就在哪一类；statistical NERC主要要知道如何找到使语料库权重最大的Y向量，若面对大型语料库时，我们无法手动定义权重，则需要有算法去计算权重，主要讲述了两个步骤，如何根据给定的语料库向量X和分类向量Y来计算W，计算了W的概率分布，用到了梯度上升，即计算使该概率分布最大的W，然后根据W的值在去判断新的语阅读全文

posted @ 2018-01-29 18:11 赵梦子阅读(373) 评论(0) 推荐(0) 编辑

<知识库的构建> 2-3 消歧 Disambiguaion

摘要：主要讲了消歧的2种方式，即停止词，上下文，大语料库和小语料库消歧的方式是不同的，文章中的实体要注意协调一致标准。阅读全文

posted @ 2018-01-29 18:09 赵梦子阅读(154) 评论(0) 推荐(0) 编辑

<知识库的构建> 2-2 检测 Evaluation

摘要：总结：有三个指数可以看出算法是否好，精确度precision，召回率recall和F1指数。所以本章重点为记忆这三种计算方式。阅读全文

posted @ 2018-01-29 18:07 赵梦子阅读(124) 评论(0) 推荐(0) 编辑

<知识库的构建> 2-1 有名字的实体的识别 Named Entity Recognition

摘要： NER是为了从语料库中找到实体的名字，即要识别语料库中哪写单词使我们想读出来的。NER的实现主要有两种方法，一种是字典法，另一种是正则表达式法。传统字典法就是把entity放入字典中去找是否有对应的名字，很慢，所以后期有了新字典法，即Trie。正则部分强调了如何根据language的形态写出对应的正则。所以重点是要知道实现NER的两种方法及其优缺点及如何用正则描述language。阅读全文

posted @ 2018-01-29 18:03 赵梦子阅读(205) 评论(0) 推荐(0) 编辑

<知识库的构建> 1–3 知识的表达 Knowledge Representation

摘要：这一章节主要讲述我们该如何表示世界上的知识，以及我们怎么从这么多文件中找到它们。重点是要记住定义。阅读全文

posted @ 2018-01-29 18:01 赵梦子阅读(399) 评论(0) 推荐(0) 编辑

<知识库的构建> 1–1 信息提取：动机 Information Extraction：Motivation

摘要：简要讲解人们需要构建知识库的原因阅读全文

posted @ 2018-01-29 17:15 赵梦子阅读(281) 评论(0) 推荐(0) 编辑

公告