自然语言处理之 nltk 英文分句、分词、统计词频的工具

自然语言处理之 nltk 英文分句、分词、统计词频的工具：

需要引入包：

from nltk.tokenize import RegexpTokenizer
from nltk.corpus import stopwords
from nltk.stem.porter import PorterStemmer
from nltk.tokenize import word_tokenize
from gensim import corpora, models
import gensim

1、nltk 英文分句：sentences = sen_tokenizer.tokenize(paragraph)

2、nltk 英文分词：word_list = nltk.word_tokenize(paragraph)

3、统计词频：freq_dist = nltk.FreqDist(words) #nltk.FreqDist返回一个词典，key是不同的词，value是词出现的次数

posted on 2020-03-20 16:18 CuriousZero 阅读(3709) 评论(0) 收藏举报

刷新页面返回顶部

自然语言处理之 nltk 英文分句、分词、统计词频的工具

导航

公告