作业10——中文词频统计
.中文分词
1、下载一中文长篇小说,并转换成UTF-8编码。
2、使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
3、排除一些无意义词、合并同一词。
4、对词频统计结果做简单的解读。
import jieba txt=open('a.txt','r',encoding='utf-8').read() for i in ',。!?:“”……《》()': txt=txt.replace(i,'')#替换 words=list(jieba.cut(txt))#列表 dic={}#空字典 for w in words: if len(w)==1:#除去长度为一的字 continue else: dic[w]=dic.get(w,0)+1 wc=list(dic.items())#(字符,计数)元组列表 wc.sort(key=lambda x:x[1],reverse=True)#列表排序 for i in range(20):#输出TOP20的元组 print(wc[i])