2016年9月23日

自然语言处理——NLTK中文语料库语料库

摘要: Python NLTK库中包含着大量的语料库,但是大部分都是英文,不过有一个Sinica(中央研究院)提供的繁体中文语料库,值得我们注意。 在使用这个语料库之前,我们首先要检查一下是否已经安装了这个语料库。 检查箭头所指的sinica_treebank是否安装,如果未安装,则首先要进行安装。 安装完 阅读全文

posted @ 2016-09-23 15:27 波比12 阅读(10794) 评论(0) 推荐(1) 编辑

自然语言处理2.1——NLTK文本语料库

摘要: 1.获取文本语料库 NLTK库中包含了大量的语料库,下面一一介绍几个: (1)古腾堡语料库:NLTK包含古腾堡项目电子文本档案的一小部分文本。该项目目前大约有36000本免费的电子图书。 使用:from nltk.corpus import gutenberg 写一段简短的程序,通过遍历前面所列出的 阅读全文

posted @ 2016-09-23 12:57 波比12 阅读(7702) 评论(0) 推荐(0) 编辑

导航