第一次个人编程作业
一、 PSP表格
PSP2.1 | Personal Software Process Stages | 预估耗时(分钟) | 实际耗时(分钟) |
---|---|---|---|
Planning | 计划 | 60 | 60 |
· Estimate | · 估计这个任务需要多少时间 | 20 | 30 |
Development | 开发 | 600 | 960 |
· Analysis | · 需求分析 (包括学习新技术) | 120 | 360 |
· Design Spec | · 生成设计文档 | 10 | 10 |
· Design Review | · 设计复审 | 60 | 30 |
· Coding Standard | · 代码规范 (为目前的开发制定合适的规范) | 10 | 10 |
· Design | · 具体设计 | 30 | 50 |
· Coding | · 具体编码 | 300 | 540 |
· Code Review | · 代码复审 | 20 | 10 |
· Test | · 测试(自我测试,修改代码,提交修改) | 60 | 180 |
Reporting | 报告 | 60 | 80 |
· Test Repor | · 测试报告 | 10 | 15 |
· Size Measurement | · 计算工作量 | 10 | 10 |
· Postmortem & Process Improvement Plan | · 事后总结, 并提出过程改进计划 | 60 | 80 |
· 合计 | 1430 | 2425 |
二、计算模块接口
- (2.1)计算模块接口的设计与实现过程。设计包括代码如何组织,比如会有几个类,几个函数,他们之间关系如何,关键函数是否需要画出流程图?说明你的算法的关键(不必列出源代码),以及独到之处。
计算模块接口的设计:在听从老师的建议,仔细地阅读题目后,首先思考出来的一条思路是利用算法实现将敏感词的词库拓展,然后再利用算法在文本中匹配查找。我首先写好了将敏感词和文本txt导入并且转化为字符串。按照设计好的思路,准备接
下来写出按照题目的需求,将敏感词库拓展的算法。首先尝试了编写过滤敏感词常用的DFA算法却出现从头到尾大大小小的各种错误放弃后,我又转头写AC自动机算法,在即将写完之际我发现离DDL到来的时间已经所剩无几,只好返璞归真,利用正则表达式来编写拓展敏
感词的函数。Python自带的库功能很齐全,我利用DefaultDagParams和pypinyin两个库实现了同音字转换,以及匹配拼音,利用cnradical实现了拆分偏旁,利用zhconv实现了简繁体匹配。
完整的代码中有三个函数
get_words:读入敏感词txt文件并存入字符串列表中
get_org:读入orgtxt文件并按行存入字符串列表
form_re:拓展敏感词并生成所有re表达式
最后在主函数中实现了正则表达式循环匹配和输出到ans文件
- (2.2)计算模块接口部分的性能改进。记录在改进计算模块性能上所花费的时间,描述你改进的思路,并展示一张性能分析图(由VS 2019、JProfiler或者Jetbrains系列IDE自带的Profiler的性能分析工具自动生成),并展示你程序中消耗最大的函数。
其中消耗最大的函数是主函数main中对Python内置方法的调用,占比达到了97.1%,在拓展敏感词库时均调用的是Python自带的库中的方法以及使用了很多的循环。
改进思路:Python第三方库的功能较为完善,但是调用时均为调用内置方法,对于这次的需求比如只需要左右拆分汉字,如果自己编写拆字方法便可以提高性能。 - (2.3)计算模块部分单元测试展示。展示出项目部分单元测试代码,并说明测试的函数,构造测试数据的思路。并将单元测试得到的测试覆盖率截图,发表在博客中。
单元测试:
编译完后代码运行结果:
单元测试部分代码:
结果:
测试函数说明:
调用python自带的unitest库并在主函数中写入test函数进行测试
构造测试数据思路
从题目需求出发,分别构造了满足左右拆分,拼音,首字母等的样例
- (2.4)计算模块部分异常处理说明。在博客中详细介绍每种异常的设计目标。每种异常都要选择一个单元测试样例发布在博客中,并指明错误对应的场景。
时间紧迫,只写了读取不到文件的异常处理:
三 、心得
- (3.1)在完成本次作业过程的心得体会**
这次的作业对于我来说难度还是很大的,我感觉我的编程基础较为薄弱,所以在一开始尝试使用常用的DFA算法时频频出错,最后改成使用AC自动机也来不及完成,只能使用万能的python的库来完成这个作业,在开始做之前我想过会花很多时间来完成这个作业,但是完全没有想到会花这么长的时间,期间经历了很多次的绝望和失望,还好最后勉强得到了一个可以上交的结果,这次作业虽然非常的让人痛苦,其中在写对敏感词库的拓展时也不知掉了多少烦恼丝,但是我相信现在的痛苦能给我带来更多的收获,也同时让我学习到了对python中各种库多种多样的功能的使用,学到了python的强大!同时也学习了性能测试的方法,虽然由于时间关系对于性能改进的思路没有付诸实践,也进行了一些测试。最后,希望下次的作业自己能完成的更好。