中文词频统计

import jieba
fo = open('dopo.txt','r',encoding='utf-8').read()
words = list(jieba.cut(fo))#取

exp={',','。','!','?','？'}#列出没用的字段

keys=set(words)-exp #从获取的文字中删去无用的字段
dic={}  #创建字典
for w in keys:
    if len(w)>1:
        dic[w]=words.count[w]
wc = list(dic.items())      #字典元组的列表
wc.sort(key= lambda x:x[1],reverse=True)  #列表排序

for i in range(20):         #输出top20元组
    print(wc[i])

posted @ 2017-09-29 11:40 blackboardf 阅读(124) 评论(0) 收藏举报

刷新页面返回顶部

blackboardf

中文词频统计

公告