圣公方腊

第一次作业 词频统计

首先这是软件工程的第一次作业.

1)计划时间:

C#语法熟悉:1天准备时间

辨别单词:1.5 h

功能函数:0.5h

 

2)实际时间:C#语法熟悉:3天

辨别单词:4h

功能函数:4h

 

在最终测试的时候采用了6份测试数据:

第一次测试规模很小,仅仅是满足第一次要求时的基础功能。

第二次测试数据直接引用了自己的一个存储电子书、课件的文件夹,程序运行了将近20分钟才结束。输出结果中包含中文,不过由于没有分词功能。过长的词没有如实记录,会缺字或者以乱码的形式出现。

第三次测试数据中采用了一些非正常格式的文档进行测试,以及将部分doc\pdf文档后缀名修改为txt进行测试。当中的部分词会被录入到词频统计中。

 

在修改了作业需求后,在和同学的交流中大幅修改了代码。实现了基本功能,并且对于非要求格式的文档会不进行读取,大大节省了时间,提高了效率。
非法字符也不予以记录,节省了空间时间。

第四次采用一部英文教材的文本进行词频统计

第五次采用一本中文小说进行统计,除了少数的英文名词计入统计,前三次测试中出出现的乱码和中文词未被记录。

第六次采用混杂格式,包含大量txt、c、cpp、cs以及mp3,avi,htm等格式的的一个近1G的文件夹进行测试,运行时间不足5分钟。效率较第三次有很大提高。

 

 

 

这次作业中整个问题本身没有太大的算法难度,但是在实现上遇到了很多的问题。在实践中我凭借自己的努力和同学的帮助下学习了C#接口的知识,同时同学对我正则表达式上的指导也节省了我大量的时间和提高了代码效率。同时也学会了借鉴MSDN以解决问题。

 

不过希望以后能有更多的代码学习和修改的空间。

posted on 2012-09-25 18:02  圣公方腊  阅读(243)  评论(0编辑  收藏  举报