【语言处理与Python】3.6规范化文本

词干提取器

porter=nltk.PorterStemmer()

lancaster=nltk.LancasterStemmer()

[porter.stem(t) for t in tokens]

[lancaster.stem(t) for t in tokens]

 

 

词形归并

#WordNet词形归并器删除词缀产生的词

wnl=nltk.WordNetLemmatizer()

[wnl.lemmatize(t) for t in tokens]

 

posted @ 2013-05-24 16:15  createMoMo  阅读(333)  评论(0编辑  收藏  举报