中文词频统计
1.下载一中文长篇小说,并转换成UTF-8编码。
2.使用jieba库,进行中文词频统计,输出TOP20的词及出现次数。
3.排除一些无意义词、合并同一词。
4.对词频统计结果做简单的解读。
import jieba news=open('htys.txt','r',encoding='utf-8').read() words=list(jieba.cut(news)) keys=set(words)
dic={} for w in keys: if len(w)>1: dic[w]=words.count(w) wc=list(dic.items()) wc.sort(key=lambda x:x[1],reverse=True) for i in range(15): print(wc[i])
('叶子', 9) ('荷塘', 8) ('月光', 5) ('采莲', 5) ('一个', 4) ('什么', 4) ('热闹', 4) ('今晚', 4) ('杨柳', 4) ('流水', 3) ('没有', 3) ('可以', 3) ('一片', 3) ('一些', 3) ('四面', 2)
这篇文章写的是作者在烦闷之时外出散步,在荷塘月色中得到心灵的宁静。