中文词频统计
import jieba fo = open('dopo.txt','r',encoding='utf-8').read() words = list(jieba.cut(fo))#取 exp={',','。','!','?','?'}#列出没用的字段 keys=set(words)-exp #从获取的文字中删去无用的字段 dic={} #创建字典 for w in keys: if len(w)>1: dic[w]=words.count[w] wc = list(dic.items()) #字典元组的列表 wc.sort(key= lambda x:x[1],reverse=True) #列表排序 for i in range(20): #输出top20元组 print(wc[i])