摘要:
1.文法特征 在本章中,我们将探讨建立在基于规则上的文法中特征的作用。对比特征提取,记录已经自动检测到的特征,我们现在要介绍词和短语的特征 特征结构包含各种有关文法实体的信息 文法实体的信息 CAT(文法类别) ORTH(拼写) REF(指示物) REL(关系) 句法协议 动词的形态属性同主语名词短 阅读全文
摘要:
1.一些语法困境 普遍存在的歧义 2.文法的用途 学习文法的一个好处是,它提供了一个概念性的框架和词汇拼写这些直觉。 成分结构基于对词与其他词结合在一起形成单元的观察。一个词序列形成这样一个单元被证明是可替代的——也就是说, 在一个符合语法规则的句子中的词序列可以被一个更小的序列替代而不会导致句子不 阅读全文
摘要:
1.后向引用 2.零宽断言 阅读全文
摘要:
一、信息提取 信息提取结构 二、分块 名词短语分块(NP chunking NP 分块) 寻找单独名词短语对应的块 缝隙 为不包括在大块中的标识符序列定义一个缝隙 加缝隙是从大块中去除标识符序列的过程 分为三种:标识符贯穿整块、标识符出现在块中间、标识符出现在块的周边 分块的表示:标记与树状图 I( 阅读全文
摘要:
最大熵模型与分类器 ==最大熵原理== 在熵最大化的情况下,概率分布最均匀,所有的不确定部分是“等可能的”。 条件熵用的是条件熵最大的意义(这一点可以看到跟极大似然估计很像),最大熵模型在做分类的时候其实也是判断P(y|x)概率的大小的,从而决定归类。但是这里的P(y|x)不是跟朴素贝叶斯一样从样本 阅读全文
摘要:
学习分类文本 监督式分类 性别鉴定 python from nltk.corpus import names import random def gender_features(word): features = {} features['last_letter'] = word[ 1] retur 阅读全文
摘要:
1.词性标注器 parts of speech 或 POS tagger nltk自带英文标注器 2.标注语料库 表示已经标注的标识符tagged_token = nltk.tag.str2tuple('fly/NN') 表示已经标注的标识符print(tagged_token) ('fly', ' 阅读全文
摘要:
文本语料库是一个大型结构化文本的集合 NLTK包含了许多语料库: (1)古滕堡语料库 (2)网络和聊天文本 (3)布朗语料库 (4)路透社语料库 (5)就职演讲语料库 (6)标注文本语料库 词汇列表语料库 (1)词汇列表:nltk.corpus.words.words() 词汇语料库是Unix 中的 阅读全文
摘要:
几个基础函数 (1)搜索文本:text.concordance(word) 例如,在text1中搜索词”is”在文本中出现的次数以及上下文的词:text1.concordance("is") (2)搜索上下文相似的词:text.similar(word) 例如,在text1中搜索哪些相似的词出现在词 阅读全文
摘要:
1. TF-IDF概述 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与文本挖掘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成 阅读全文