20180918-1 词频统计

作业要求参见 https://edu.cnblogs.com/campus/nenu/2018fall/homework/2126

本次作业代码地址:https://coding.net/u/y45777704/p/WF/git/tree/origin/dist

词频统计

 

1.代码部分

2.1代码实现#调用函数(系统模块、正则表达式、采集模块等)

import sys
# print("Input argument is %s" %(sys.argv))
import re
import collections
import operator
# file = input('请输入文件位置:')
# for line in open(add):
#     print(line)
import glob

 

2.2词频统计部分

 def get_words(file):
        with open(file,encoding='gbk') as f:
            words_box = []
            for line in f:
                if re.match(r'[a-zA-Z0-9]*', line):
                    words_box.extend(line.strip().split())
        return collections.Counter(words_box)

 

 

 

2.3输出词频统计

    for file in file_list:
        #print(file)
        a = get_words(file)
        print("total    %d" % len(a))
        print()
        a10 = collections.Counter.most_common(a, 10)
        #print(a10)
        # l = sorted(a.items(), key=operator.itemgetter(0), reverse=True)
        for item in a10:
            print("{key}\t{value}".format(key=item[0], value=item[1]))
        print("")

 

3.功能实现

3.1从TXT文件中统计总字数,输出总字数并打印词语出现频率次数,降序输出。

 

 

 

3.2统计jane_Eyre的总字数和词频

 

 

3.3统计test文件夹中的Jane_Eyre和Wuthering_Heights的文本字数及词频

 

 

3.4尝试用command = input()输入指令实现功能,但没有成功。

4.PSP表格

 

PSP阶段 预计时间(min) 实际时间(min) 原因
第一功能 125 217 需求没有明确分析,没能输入单词,导致功能错误。
第二功能 62 73 没有找到功能函数,导致编码错误。
第三功能 146 172 没有输出正确的格式,一直在调整。
第四功能 35 69 没能实现功能
posted @ 2018-09-24 16:44  杨金铭  阅读(96)  评论(0编辑  收藏  举报