中文词频统计

import jieba

print('top20词汇出现的次数:')

#读入文本文件
txt=open('G:\wgd.txt','r',encoding='utf-8').read()


#清除无意义符号

for i in ',。!、 \n “” ;':
    txt=txt.replace(i,'')
#词汇的列表

d={}
words=jieba.cut(txt)
keys=set(words)

#单词汇计数元祖的列表
for i in keys:
    if len(i)>1:
        d[i]=txt.count(i)
        a=list(d.items())


a.sort(key=lambda x:x[1],reverse=True)#排序

#输出前20频率词汇
for i in range(20):
    print(a[i])

 

posted on 2017-09-29 21:12  069王国栋  阅读(119)  评论(0编辑  收藏  举报

导航