中文词频统计

import jieba
fo = open('dopo.txt','r',encoding='utf-8').read()
words = list(jieba.cut(fo))#取

exp={',','','!','?',''}#列出没用的字段

keys=set(words)-exp #从获取的文字中删去无用的字段
dic={}  #创建字典
for w in keys:
    if len(w)>1:
        dic[w]=words.count[w]
wc = list(dic.items())      #字典元组的列表
wc.sort(key= lambda x:x[1],reverse=True)  #列表排序

for i in range(20):         #输出top20元组
    print(wc[i])
posted @ 2017-09-29 11:40  blackboardf  阅读(117)  评论(0编辑  收藏  举报