I'm a DMer & MLer & NLPer & IRer
博文有原创,有转载。均为分享学习之用。P.S. 部分转载可能未注明出处。若有冒昧,请与我联系:(ILoveDataMining AT gmail DOT com)

导航

 

1. NLTK的安装步骤

在做python版的汉语词法分析时用到了NLTK,感觉安装步骤比较繁琐,特整理如下。

一、linux下运行python非常方便,不多说了。

二、windows下安装NLTK,运行一个python比较麻烦些:

1. 安装Python2.5(暂不支持2.6和3.0);

2. 安装NumPy:运行numpy-1.2.1-win32-superpack-python2.5.exe;

3. 安装MatPlotLib:运行matplotlib-0.98.5.2.win32-py2.5.exe;

4. 安装NLTK:运行nltk-0.9.8.win32-py2.5.msi;

5. 安装Prover9:解压LADR1007B-win.zip,将解压产生的文件夹LADR1007B-win改名为prover9,并将文件夹prover9移动到C:\nltk_data中;

6. 安装MSVCP71.DLL:如果有必要,将MSVCP71.zip文件解压,将解压得到的MSVCP71.DLL文件复制到C:\Windows\System32下;

7. 安装NLTK数据:在命令行窗口中运行python -m nltk.downloader all,将自动下载并安装所有数据(语料库、词典等),总共约428M。

   如果NLTK数据安装失败,有可能是NLTK的版本冲突,需要卸载老版本的NLTK,重装最新版本。

  or

  >>> import nltk

 >>> nltk.download()

2. 开始看数据

ntlk的示例数据是book

我们可以用命令from nltk.book import * 来看看数据:

*** Introductory Examples for the NLTK Book ***

Loading text1, ..., text9 
and sent1, ..., sent9

Type the name of the text 
or sentence to view it.

Type: 
'texts()' or 'sents()' to list the materials.

text1: Moby Dick by Herman Melville 
1851

text2: Sense 
and Sensibility by Jane Austen 1811

text3: The Book of Genesis

text4: Inaugural Address Corpus

text5: Chat Corpus

text6: Monty Python 
and the Holy Grail

text7: Wall Street Journal

text8: Personals Corpus

text9: The Man Who Was Thursday by G . K . Chesterton 
1908

>>> 

对这些文本信息的查询,python提供了多种形式:

Any time we want to find out about these texts, we just have to enter their names at the Python prompt:

>>> text1

<Text: Moby Dick by Herman Melville 1851>

concordance(主要词语索引) view :

例如我们向想看词 monstrous(巨大的) 在text1对应的 Moby Dick(白鲸记) 中出现的信息(前后文):

>>> text1.concordance("monstrous")

clip_image006

细心的发现了monstrous容易出新在下面的模式中:

the ___ pictures and the ___

 

 

posted on 2011-09-18 21:21  wentingtu  阅读(8010)  评论(0编辑  收藏  举报