文件方式实现完整的英文词频统计实例

可以下载一长篇的英文小说,进行词频的分析。

1.读入待分析的字符串

2.分解提取单词 

3.计数字典

4.排除语法型词汇

5.排序

6.输出TOP(20)

7.对输出结果的简要说明。

str=open('D:\\english.txt','r')

#读入待分析的字符串
str=str.read()

#将所有大写转换为小写
str=str.lower()

#将所有将所有其他做分隔符(,.?!)替换为空格
for i in ',.?!:':
    str=str.replace(i,' ')

#分隔出一个一个单词
str=str.split(' ')

#排除语法型词汇
exp={'is','and','that','it','a','our','have','','the','for','of','as','on','be','will','we','can','with','all','more','be','in','to','this','an','own','how','at','are','one'}
word=set(str)-exp

#计数字典 
dic={}
for i in word:
    dic[i]=str.count(i)
str=list(dic.items())

#排序
str.sort(key=lambda x:x[1],reverse=True)
for i in range(10):
    print(str[i])

 

从结果中,可以看出此文章是关于自然环境的还有人类的发展资源对未来自然环境的影响。

posted @ 2017-09-27 16:05  078刘凯敏  阅读(148)  评论(0编辑  收藏  举报