nxf_rabbit75 - 博客园

2018年9月2日

摘要： 1.文法特征在本章中，我们将探讨建立在基于规则上的文法中特征的作用。对比特征提取，记录已经自动检测到的特征，我们现在要介绍词和短语的特征特征结构包含各种有关文法实体的信息文法实体的信息 CAT(文法类别)　ORTH（拼写) REF（指示物） REL（关系) 句法协议动词的形态属性同主语名词短阅读全文

posted @ 2018-09-02 16:06 nxf_rabbit75 阅读(375) 评论(0) 推荐(0) 编辑

2018年9月1日

8 分析句子结构

摘要： 1.一些语法困境普遍存在的歧义 2.文法的用途学习文法的一个好处是,它提供了一个概念性的框架和词汇拼写这些直觉。成分结构基于对词与其他词结合在一起形成单元的观察。一个词序列形成这样一个单元被证明是可替代的——也就是说，在一个符合语法规则的句子中的词序列可以被一个更小的序列替代而不会导致句子不阅读全文

posted @ 2018-09-01 19:37 nxf_rabbit75 阅读(585) 评论(0) 推荐(0) 编辑

2018年8月31日

python中的re模块中的向后引用和零宽断言

摘要： 1.后向引用 2.零宽断言阅读全文

posted @ 2018-08-31 15:51 nxf_rabbit75 阅读(594) 评论(0) 推荐(0) 编辑

7 从文本提取信息

摘要：一、信息提取信息提取结构二、分块名词短语分块(NP chunking NP 分块) 寻找单独名词短语对应的块缝隙为不包括在大块中的标识符序列定义一个缝隙加缝隙是从大块中去除标识符序列的过程分为三种：标识符贯穿整块、标识符出现在块中间、标识符出现在块的周边分块的表示：标记与树状图Ｉ（阅读全文

posted @ 2018-08-31 12:27 nxf_rabbit75 阅读(864) 评论(0) 推荐(0) 编辑

2018年8月27日

最大熵模型与分类器（不要把鸡蛋放到一个篮子里）

摘要：最大熵模型与分类器 ==最大熵原理== 在熵最大化的情况下，概率分布最均匀，所有的不确定部分是“等可能的”。条件熵用的是条件熵最大的意义（这一点可以看到跟极大似然估计很像），最大熵模型在做分类的时候其实也是判断P(y|x)概率的大小的，从而决定归类。但是这里的P(y|x)不是跟朴素贝叶斯一样从样本阅读全文

posted @ 2018-08-27 20:13 nxf_rabbit75 阅读(820) 评论(0) 推荐(0) 编辑

2018年8月25日

6 学习分类文本

摘要：学习分类文本监督式分类性别鉴定 python from nltk.corpus import names import random def gender_features(word): features = {} features['last_letter'] = word[ 1] retur 阅读全文

posted @ 2018-08-25 15:28 nxf_rabbit75 阅读(245) 评论(0) 推荐(0) 编辑

2018年8月24日

5 分类和标注词汇

摘要： 1.词性标注器 parts of speech 或 POS tagger nltk自带英文标注器 2.标注语料库表示已经标注的标识符tagged_token = nltk.tag.str2tuple('fly/NN') 表示已经标注的标识符print(tagged_token) ('fly', ' 阅读全文

posted @ 2018-08-24 19:49 nxf_rabbit75 阅读(505) 评论(0) 推荐(0) 编辑

2018年8月16日

4 NLP语料库

摘要：文本语料库是一个大型结构化文本的集合 NLTK包含了许多语料库：（1）古滕堡语料库（2）网络和聊天文本（3）布朗语料库（4）路透社语料库（5）就职演讲语料库（6）标注文本语料库词汇列表语料库（1）词汇列表：nltk.corpus.words.words() 词汇语料库是Unix 中的阅读全文

posted @ 2018-08-16 14:28 nxf_rabbit75 阅读(774) 评论(0) 推荐(0) 编辑

3 nltk模块基础操作

摘要：几个基础函数（1）搜索文本：text.concordance(word) 例如，在text1中搜索词”is”在文本中出现的次数以及上下文的词：text1.concordance("is") （2）搜索上下文相似的词：text.similar(word) 例如，在text1中搜索哪些相似的词出现在词阅读全文

posted @ 2018-08-16 13:58 nxf_rabbit75 阅读(303) 评论(0) 推荐(0) 编辑

2018年7月23日

2 python 文本特征提取 CountVectorizer, TfidfVectorizer

摘要： 1. TF-IDF概述 TF-IDF（term frequency–inverse document frequency）是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成阅读全文

posted @ 2018-07-23 10:09 nxf_rabbit75 阅读(11017) 评论(2) 推荐(1) 编辑