随笔分类 - python+NLTK 自然语言学习
摘要:从这一章开始将进入到关键部分:模式识别。这一章主要解决下面几个问题 1 怎样才能识别出语言数据中明显用于分类的特性 2 怎样才能构建用于自动执行语言处理任务的语言模型 3 从这些模型中我们可以学到那些关于语言的知识。 监督式分类: 分类是为给定的输入选择正确的类标签。就好比身份证上的身份证号。每个身
阅读全文
摘要:在上一章中介绍了用pos_tag进行词性标注。这一章将要介绍专门的标注器。 首先来看一元标注器,一元标注器利用一种简单的统计算法,对每个标识符分配最有可能的标记,建立一元标注器的技术称为训练。 from nltk.corpus import brown brown_tagged_sents=brow
阅读全文
摘要:在一段句子中是由各种词汇组成的。有名词,动词,形容词和副词。要理解这些句子,首先就需要将这些词类识别出来。将词汇按它们的词性(parts-of-speech,POS)分类并相应地对它们进行标注。这个过程叫做词性标注。 要进行词性标注,就需要用到词性标注器(part-of-speech tagger)
阅读全文
摘要:前面介绍了很多NLTK中携带的词典资源,这些词典资源对于我们处理文本是有大的作用的,比如实现这样一个功能,寻找由egivronl几个字母组成的单词。且组成的单词每个字母的次数不得超过egivronl中字母出现的次数,每个单词的长度要大于6. 要实现这样的一个功能,首先我们要调用FreqDist功能。
阅读全文
摘要:在前面我们通过from nltk.book import *的方式获取了一些预定义的文本。本章将讨论各种文本语料库 1 古腾堡语料库 古腾堡是一个大型的电子图书在线网站,网址是http://www.gutenberg.org/。上面有超过36000本免费的电子图书,因此也是一个大型的预料库。NLTK
阅读全文
摘要:我们首先来加载我们自己的文本文件,并统计出排名前20的字符频率 if __name__=="__main__": corpus_root='/home/zhf/word' wordlists=PlaintextCorpusReader(corpus_root,'.*') for w in wordl
阅读全文
摘要:本节介绍了NLTK中的文本使用
阅读全文
摘要:今天介绍了自然语言处理也就是大名鼎鼎的NLTK环境如何搭建。对于自然语言处理参考的是o'relly出版的python自然语言处理
阅读全文