布同:统计英文单词的个数

  最近需要翻译英文文章,所以需要统计单词个数。索性写了一段代码在此,可以简单的统计单词的个数。

  word中对于英文单词的统计也很好,大家不妨试试。如果没有安装word,而且你也是程序员的话,那么可以使用我的这段代码。通过测试,word的统计结果是18674,软件的统计结果是18349,相差不到2%,可以作为一个参考。

  代码如下:

1 # -*- coding: utf-8 -*-
2  
3 import os,sys
4 info = os.getcwd() #获取当前文件名称
5 fin = open(u'谷歌C++编程代码规范.txt')
6
7 info = fin.read()
8 alist = info.split(' ') # 将文章按照空格划分开
9
10 fout = open(u'count.txt', 'w')
11 fout.write('\n'.join(alist)) # 可以通过文本文件的行号同样看到效果
12 ##fout.write('%s' % alist)
13 fout.close()
14
15 allen = len(alist) # 总的单词数
16 nulen = alist.count('') # 空格的数量
17 print "words' number is",allen
18 print "null number is",nulen
19 print "poor words number is", allen-nulen # 实际的单词数目
20
21 fin.close()
posted @ 2011-03-09 13:39  布同  阅读(1882)  评论(0编辑  收藏  举报