第一次软工大作业（词频分析）项目总结

接下来，我试图创立一个Word类，一个Phrase类，然后用泛型的方法实现哈希表。事实上在此之前我只在学习时写过一点点泛型，已经基本忘光了，又懒于认真学习，只是随便查查写写，因此写了非常久。最后终于写好后，我发现无法编译，查找资料后才发现在visual studio中泛型类的实现应该全部写在头文件中，对我来说这有违“美感”，因此最后放弃了。

再然后，我决定用两个不同的类型实现两个哈希表了。但是仍然是本着OOP的思想，我想写一个WordPool类，然后将哈希表的类型、各种操作封装进去，只暴露接口。不过这个似乎对我来说过于复杂，也不知为何，写了很久都没写好。

最后，我采取了最笨的方法，在全局变量中定义结构体、定义哈希表。这次终于成功了。

反思这个阶段，我发现我最大的错误在于错误地理解了一些原则，因此偏执地追求形式上而非实质上的良好设计。

首先，OOP原则，并不是让我们引入一些毫无意义的类，或者是将任何重复的功能都写成一个类。

例如我最后将两个哈希表用两个类实现，这样不仅满足了两个类的不同要求，而且在之后我发现对于词组的理解有误时，也可以直接修改词组的设计而没有必要重构。

更重要的在于，恰恰因为单词和词组操作非常相似，编码时很容易就将它们写混了。因为两者类型不同，所以写混时编译器会报错或者warning，因此省去了很多麻烦。

其次，不应该盲目地使用自己不熟悉的功能。也许使用泛型真的是一个好方法，而且以后总会学习，但在还有三天就是ddl而且自己根本没怎么写过泛型的时候，泛型一定不是好方法。与其将自己不熟悉的优秀功能写的稀烂，不如尽可能用自己熟悉的功能写好。

最后，不要盲目地重构。我一开始的重构方式只能用盲目来形容，就是看到两个功能有点相似就试图并到一起，有些差别就拆开。

事实上，要经过良好的设计之后，重构才是有意义的。

这个阶段之后的成果见第三次博客。

#### 2.3 调试、优化、移植

在这个阶段，基本功能已经完成了，因此我开始逐个模块的调试与整体优化，并进行移植工作。

这个阶段我做了许多小工作，不过也混在一起做了，没有很明确的进度，这确实不太好，在大型项目中也不能这样。一些工作如下：

（1) 单元测试

在这个阶段，我开始使用visual studio的单元测试。

单元测试，即对不同的模块分别测试其接口，十分方便。如图：

单元测试真的非常好用。单元测试不仅方便，而且能够迅速发现并定位错误，在这个阶段我还重构了好几次，幸亏有单元测试，否则许多重构过程中的细微错误我都发现不了。

(2) 字符与行数的统计

因为字符数、行数与助教给出的答案始终不一样，所以我花了很大的力气。

最后，我找到了一个似乎没什么用处的错误：我一开始是通过EOF字符判断是否到达文件末尾，然而某些文件中因为各种奇怪的原因可能会有这个字符，所以应该采用ifstream的eof()方法判断是否到达文件末尾。

然而，问题还没有消失。而且在我移植到linux下后，同样的代码、同样的文件，两个平台下结果居然不一样……最后我终于发现，只要是ascii码编码的纯文本文件都不会出问题，而unicode等其他编码方式编码的文件和非文本文件都会出问题。这已经超出了我的知识范围，我决定不予处理。

(3) 存储模块的重构

还是担心全局变量会被误操作，所以还是用一个类将其包裹了起来。不过在之前编写了那么多的前提下，再将全局变量实现改为类实现就简单多了。这进一步说明编码工作不能操之过急，应该一块块来，从小到大。

然而，发现一个类实例不能开辟那么大的空间，于是仍然将哈希表作为全局变量，但将其写在cpp文件里不对外暴露，而实现了一个访问器类。

(4) string和char数组

最开始，我使用的是string。后来因为听说很慢，所以没有经过性能测试就改成了char数组。

再后来，老师说单词最大长度为1024，因此采用定长字符数组轻松爆内存。然而如果使用char指针我害怕自己出错，而且不断地修改char指针估计也和string效率差不多，因此在存储模块改成了string，解析模块仍使用数组。最后的性能测试发现，string并没有成为性能瓶颈。

说明实验是检验真理的唯一标准……

### 3. psp表格

### 4. 性能测试与优化 #### 4.1 visual studio上进行性能测试与优化

我的哈希表具体实现为开辟一个指针数组，每加入一个数据项并new一个结点。运用visual studio的性能分析工具，我发现new新节点消耗了很多时间，成为性能瓶颈。考虑到动态内存分配回收会比静态区内存分配慢，所以我打算将哈希表改为一个结点数组，产生冲突时再new新节点。、

更改代码之后，通过visual studio显示new结点不再是性能瓶颈，我很高兴。然而奇怪的是，不管是在linux平台下还是windows平台下，更改后的代码运行时间没有显著降低。分析并与大佬讨论后，我认为是因为申请的节点空间一直存活到了最后，没有频繁的new delete、不容易产生内存碎片，加上系统分配内存的机制较好，所以与静态区分配内存效率上没有显著区别。

因此，为了节约空间，还是使用了之前的代码。

#### 4.2 linux上使用valgrind工具分析内存泄漏

valgrind是一个强大的分析工具，其功能包括内存分析、多线程分析、性能分析等，介绍见valgrind介绍、安装与使用。

因为我大量使用了动态内存分配，因此我很担心内存泄漏问题，于是一开始就是用了valgrind的内存泄漏分析工具。

结果显示，并没有发现结点的内存泄漏。这也很正常，因为申请的结点会一直存活到最后。

然而显示，产生了内存泄漏。查找遍历文件夹时，使用了opendir而没有使用closedir，因此产生了

valgrind分析结果十分冗长，在此不附上了。另附valgrind五种内存泄漏的解释。

本来还打算使用valgrind的性能分析工具，然而实在太慢了，于是使用了gprof。

#### 4.3 linux上使用gprof分析性能

gprof是GNU自带的性能分析工具，其使用方法简单，编译时加上-pg选项，之后直接运行便会生成gmon.out文件，用gprof工具对此文件进行解析即可。详见使用gprof对程序的性能分析。命令行代码如下：

g++ hw1.cpp -pg -no-pie -o test.exe
./test.exe test
gprof test.exe gmon.out > gprof.log

随后，查看gprof.log中的性能报告结果即可。我使用助教给的测试集，分析结果如下：

gprof给出了对各项数据的解释，较为重要的数据为%time表示时间占比，self time表示本函数占据时间。

可以看出，add_phrase函数占据了最多时间。联想visual studio的统计结果，推测是动态分配内存消耗的时间，这个在4.1 visual studio上进行性能测试与优化已经提及。修改代码后，gprof确实显示add_phrase不再消耗最多时间，结果如下：

注：两个测试集不一样，因此不应该比较绝对时间，应该比较时间占比
说明推测是正确的。

另外，哈希函数是一个性能的瓶颈。因此我又尝试了好几个哈希函数，但时间占用率都在14% ~ 16%之间，没有显著差别，不知如何优化。

对于单词的解析也消耗了较多时间，因此我在单词的解析模块中使用的是char数组而非string，但之后个人觉得已经没有优化空间了。

### 5. 最终结构

最终，我的代码分为六个模块，关系如图：

各个模块具体解释：

main：调用traverse_file模块获取给定文件夹下所有文件的绝对路径，通过count模块对各个文件进行统计。
traverse_file：实现遍历递归的功能，在windows下使用<io.h>，在linux下使用<dirent.h>。本质上为DFS，用栈保存历史路径即可。
count：获取文件名，打开给定文件、读取字符，将字符分别发送给count_word、count_char两个模块进行统计。加上这一个模块是因为我发现文件流读写太慢，因此两个统计应该同时进行。然而让两个模块共享文件流并不妥当，所以我选择在count模块中打开文件流，将字符分发给两个统计模块，从而降低耦合。
count_char：由count模块发送的字符进行字符、行数统计。
count_word：由count模块发送的字符解析为各个单词，自己统计单词总数，并将解析出的单词存入word_pool模块中。
word_pool：存储count_word模块发送的各个单词、词组，并能进行排序、找出词频最高的单词、词组。对于存储模块的具体实现，由于哈希表操作方便，比字典树更适合操作词组，而且同学们大多采用的是哈希表，因此我选择了采用哈希表。

### 6. 项目心得

编码之前一定要先设计。

而且一定要是良好的设计……

不要一次进行太多工作，允许项目慢慢演变。

很多问题只有在编码过程中才会慢慢发现，尤其是自己知识能力没有那么扎实的时候。所以要保持一定的灵活性，不要一开始就把一切都计划得过于精致，而应该允许项目结构慢慢调整。

另外，个人能力是有限的，应该从小处开始编码，慢慢做大，敏捷开发。

编码规则是为人服务的，不要盲目追求编码规则。

盲目地追求编码规则，有时候会将问题复杂化，而编码规则理应用来将问题简单化。

另外，编码规则只有被理解了之后才有用处，盲目地遵循编码规则往往是没有真正理解的表现。

多在网上查找资料，寻找他人帮助。

这次编码中，我通过网络学到了很多东西，如递归遍历文件夹的方式、valgrind，gprof的使用方法、一些bug的解决方法等。

同时，同学与助教也给了我许多帮助。

很多时候，不应该一个人陷在问题里，积极地求助更高效。

使用单元测试！

单元测试可以快速查找与定位错误，在较大的项目中必不可少。visual studio有自带的单元测试框架，还有nunit、xunit等许多良好的单元测试框架，要利用这些工具。

posted @ 2018-03-31 00:00 Jenna_Wu 阅读(448) 评论(4) 编辑收藏举报

刷新页面返回顶部

Jenna_Wu