中文词频统计及词云制作
2017-09-25 20:25 421徐均钧 阅读(173) 评论(0) 收藏 举报1.中软国际华南区技术总监曾老师还会来上两次课,同学们希望曾老师讲些什么内容?
讲下Python的主要运用领域以及未来就业的方向
关于现在网络工程专业就业情况
2.中文分词
- 下载一中文长篇小说,并转换成UTF-8编码。
- 使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
import jieba
book = "武动乾坤.txt"
txt = open(book,"r",encoding='utf-8').read()
exc = {'林动','女子','男子','敌人'}
ls = []
words = jieba.lcut(txt)
counts = {}
for word in words:
ls.append(word)
if len(word) == 1:
continue
else:
counts[word] = counts.get(word,0)+1
for word in exc:
del(counts[word])
items = list(counts.items())
items.sort(key = lambda x:x[1], reverse = True)
for i in range(20):
word , count = items[i]
print ("{:<10}{:>5}".format(word,count))
浙公网安备 33010602011771号