第一次个人编程作业

https://github.com/Ihatelenz/031902444

一、PSP表格

(2.1)在开始实现程序之前，在附录提供PSP表格记录下你估计将在程序的各个模块的开发上耗费的时间。（3'）

(2.2)在你实现完程序之后，在附录提供的PSP表格记录下你在程序的各个模块的开发上实际花费的时间。（3'）

PSP2.1	Personal Software Process Stages	预估耗时（分钟）	实际耗时（分钟）
Planning	计划
· Estimate	· 估计这个任务需要多少时间	600	600
Development	开发
· Analysis	· 需求分析 (包括学习新技术)	240	300
· Design Spec	· 生成设计文档	10	10
· Design Review	· 设计复审	10	10
· Coding Standard	· 代码规范 (为目前的开发制定合适的规范)	5	5
· Design	· 具体设计	20	60
· Coding	· 具体编码	600	750
· Code Review	· 代码复审	60	240
· Test	· 测试（自我测试，修改代码，提交修改）	60	120
Reporting	报告	60	120
· Test Repor	· 测试报告	20	10
· Size Measurement	· 计算工作量	30	45
· Postmortem & Process Improvement Plan	· 事后总结, 并提出过程改进计划	10	20
	· 合计	1935	2500

二、计算模块接口

计算模块接口的设计与实现过程。设计包括代码如何组织，比如会有几个类，几个函数，他们之间关系如何，关键函数是否需要画出流程图？说明你的算法的关键（不必列出源代码），以及独到之处。（18'）

有word、text、ans三个类，
有shuru（），charu（），print（），find（）四个函数。
三个类分别保存测试词、待测试文档和输出的答案。
shuru（）处理words.txt和org.txt中的数据，并存入word和text类中，find（）查找文档中的敏感词并通过charu（）存入ans类中，最后通过print（）函数输出到ans.txt文档中。

关键函数find（）的原理比较简单，是暴力解法，考虑到自己的能力问题，只处理了带有插入字符的敏感词。~~流程图应该不需要画吧~~。
每次一行待测文字，一个敏感词进入find（）函数。一个中文编码三字节，一个英文字母编码一字节，所以分中文敏感词和英文敏感词检测。中文每三个字节检测一次，直到查找出所有的字或者记录到20个无关插入字符，或者待测文字检测完了。英文只有检测的数量不一致，是每一个字节检测一次。查找到了就运用charu（）记录下来，然后接着查找，直到待测文字都扫描完。
暴力解法，算法的独到之处大概没有。

计算模块接口部分的性能改进。记录在改进计算模块性能上所花费的时间，描述你改进的思路，并展示一张性能分析图（由VS 2019、JProfiler或者Jetbrains系列IDE自带的Profiler的性能分析工具自动生成），并展示你程序中消耗最大的函数。（12'）

性能分析图：

消耗最大的函数find（）：

void find(word& W, text& T)							//查找对应敏感词段
{
	int i = 0, j = 0;
	int front = 0, back = 0;
	int sum = 0, l = 0;
	int fei = 0;
	string a;
	string  b;
	if (W.flag == 1)								//中文匹配
	{
		front = 0;
		back = 0;
		for (; j < T.str.length(); j++)
		{
			a = W.name.substr(i, 3);				//一个中文编码三字节，每三字节取出配对
			b = T.str.substr(j, 3);
			if (a==b)
			{
				if (i == 0)
				{
					front = j;
				}
				i += 3;
				j += 2;
				if (i == W.name.length())			//一个完整敏感词匹配结束，录入答案
				{
					charu(front, j, W.no, T.no);
					i = 0;
				}
			}
		}
	}
	else											//英文匹配
	{
		front = 0;
		back = 0;
		transform(T.str.begin(), T.str.end(), T.str.begin(), ::tolower);			//待测行和待测敏感词不区分大小写，全部转换成小写
		transform(W.name.begin(), W.name.end(), W.name.begin(), ::tolower);
		for (; j < T.str.length(); j++)
		{
			if (W.name[i] == T.str[j])
			{
				if (i == 0)
				{
					front = j;
				}
				i++;
				if (i == W.name.length())			//一个完整敏感词匹配结束，录入答案
				{
					charu(front, j, W.no, T.no);
					i = 0;
					fei = 0;
				}
			}
			else
				fei++;
			if (fei > 20)							//插入无关字符超过20个，结束匹配
				break;
		}
	}
}

最大占比的函数是查找find（）函数，可以写一个tire树，改进查找的过程，加上拼音和汉字的匹配，就可以比较完整地写出敏感词查找的功能，并且减少损耗。

计算模块部分单元测试展示。展示出项目部分单元测试代码，并说明测试的函数，构造测试数据的思路。并将单元测试得到的测试覆盖率截图，发表在博客中。（12'）

在网上找了一些c++单元测试的帖子，遗憾的是并没有能透彻地学会，没有能实现单元测试来测试自己的函数。

计算模块部分异常处理说明。在博客中详细介绍每种异常的设计目标。每种异常都要选择一个单元测试样例发布在博客中，并指明错误对应的场景。（6'）

输入错误路径：

三、心得

第一次体会自己做出这么复杂功能的程序，但是还是没能完整地做完。看着自己写的bug都改完了，还是很开心的。但是希望在这次的经验后，下次作业能有更精彩的表现。

posted @ 2021-09-16 22:54 Ihatelenz 阅读(79) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Ihatelenz