1. NLTK的安装步骤
在做python版的汉语词法分析时用到了NLTK,感觉安装步骤比较繁琐,特整理如下。
一、linux下运行python非常方便,不多说了。
二、windows下安装NLTK,运行一个python比较麻烦些:
1. 安装Python2.5(暂不支持2.6和3.0);
2. 安装NumPy:运行numpy-1.2.1-win32-superpack-python2.5.exe;
3. 安装MatPlotLib:运行matplotlib-0.98.5.2.win32-py2.5.exe;
4. 安装NLTK:运行nltk-0.9.8.win32-py2.5.msi;
5. 安装Prover9:解压LADR1007B-win.zip,将解压产生的文件夹LADR1007B-win改名为prover9,并将文件夹prover9移动到C:\nltk_data中;
6. 安装MSVCP71.DLL:如果有必要,将MSVCP71.zip文件解压,将解压得到的MSVCP71.DLL文件复制到C:\Windows\System32下;
7. 安装NLTK数据:在命令行窗口中运行python -m nltk.downloader all,将自动下载并安装所有数据(语料库、词典等),总共约428M。
如果NLTK数据安装失败,有可能是NLTK的版本冲突,需要卸载老版本的NLTK,重装最新版本。
or
>>> import nltk
>>> nltk.download()
2. 开始看数据
ntlk的示例数据是book
我们可以用命令from nltk.book import * 来看看数据:
*** Introductory Examples for the NLTK Book ***
Loading text1, ..., text9 and sent1, ..., sent9
Type the name of the text or sentence to view it.
Type: 'texts()' or 'sents()' to list the materials.
text1: Moby Dick by Herman Melville 1851
text2: Sense and Sensibility by Jane Austen 1811
text3: The Book of Genesis
text4: Inaugural Address Corpus
text5: Chat Corpus
text6: Monty Python and the Holy Grail
text7: Wall Street Journal
text8: Personals Corpus
text9: The Man Who Was Thursday by G . K . Chesterton 1908
>>>
对这些文本信息的查询,python提供了多种形式:
Any time we want to find out about these texts, we just have to enter their names at the Python prompt:
>>> text1
<Text: Moby Dick by Herman Melville 1851>
concordance(主要词语索引) view :
例如我们向想看词 monstrous(巨大的) 在text1对应的 Moby Dick(白鲸记) 中出现的信息(前后文):
>>> text1.concordance("monstrous")
细心的发现了monstrous容易出新在下面的模式中:
the ___ pictures and the ___