文件方式实现完整的英文词频统计实例
可以下载一长篇的英文小说,进行词频的分析。
1.读入待分析的字符串
2.分解提取单词
3.计数字典
4.排除语法型词汇
5.排序
6.输出TOP(20)
7.对输出结果的简要说明。
fr=open('D:/book/test.txt','r') news=fr.read() fr.close #大小写 news=news.lower() #去标点 for i in '“”,.?': news=news.replace(i,' ') #转为列表 words=news.split(' ') #冠词 exp={'with','at','am','had','for','as','has','said','but','and','that','\n\n','was','not','”','to','is','the','of','in','a','i','he','you','be','it','his',''} dic={} #集合,去冠词 key=set(words)-exp #计数字典 for wn in key: dic[wn]=words.count(wn) #列表 ww=list(dic.items()) #排序 ww.sort(key=lambda x:x[1],reverse=True) for i in range(20): print(ww[i])
从结果可以看出这篇文章通过第一人称及briggs这人在讲randolph,gilbert