词频统计作业--第一次软工作业

      只是一些简单感想。

      之前没有学过C++和C#,老师上来就这么自主地布置了一个这样的作业确实有点出乎意料。

      之前团队作业要求采访学长,学长的印象是每周要花10h以上在软工,代码均1000行+,这回写第一次作业,让没有基础的我体会到了学长的话。这个作业花了大约15h的时间。其中调试占用了12h。查阅了很多资料,还是觉得一口吃成胖子不是一个现实明智的想法,希望以后能着边际。

使用VS2012自带的代码分析工具,前面的时间是把各个搜索到的子文件的内容写到一个大文件里面(浪费时间),接下来是对这个大文件进行词频统计,也是最耗CPU的地方。

至今有一个很奇葩的bug。调了近5h还是没调出来:

     在控制台下输入文件夹目录A,可以只在输入的目录A下面进行递归地词频统计,最后在目录A下面生成目标文件。
     只将输入目录换成命令行参数读取,就会在目录A的所有子目录a、b、c、d、e、f、g...下面都有目标文件,并只是各自
统计各自文件夹里的词频。没有达到要求。

 测试用例:流传的21M测试用例,和自己用代码增添的一个20M左右的txt文件(即1图),后来发现上面的bug,经过调试之后在控制台输入下解决了问题。使用更为复杂的流传的21M用例后,速度也有了明显的提升。

posted @ 2013-09-25 03:15  水沐渥  阅读(149)  评论(0编辑  收藏  举报