nltk词性标注
将词汇按它们的词性(parts-of-speech,POS)分类以及相应的标注它们的过程被称为词
性标注(part-of-speech tagging, POS tagging)或干脆简称标注。词性也称为词类或词汇范
畴。用于特定任务的标记的集合被称为一个标记集。
使用词性标注器进行英文的词性标注。
1. 打开cmd,输入python,进入python编译环境。
import nltk text =nltk.word_tokenize("And now for something completely different") nltk.pos_tag(text)
一开始报错:
那么多,看都不想看。不想看也不行,慢慢看呗,答案肯定就在这里面。
看了下,还真找到了,
按照步骤来,使用下载器获取资源。
然后再运行开始的代码,结果如下:
[('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), ('completely', 'RB'), ('different', 'JJ'), ('.', '.')]
在这里我们看到and 是CC,并列连词;now 和completely 是RB,副词;for 是IN,介
词;something 是NN,名词;different 是JJ,形容词。
2. 另一个例子,这次包括一些同形同音异义词: