第一次个人编程作业

github链接

一、PSP表格

(2.1)在开始实现程序之前,在附录提供PSP表格记录下你估计将在程序的各个模块的开发上耗费的时间。(3')

(2.2)在你实现完程序之后,在附录提供的PSP表格记录下你在程序的各个模块的开发上实际花费的时间。(3')

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划
· Estimate · 估计这个任务需要多少时间 30 30
Development 开发
· Analysis · 需求分析 (包括学习新技术) 90 150
· Design Spec · 生成设计文档 0 0
· Design Review · 设计复审 0 0
· Coding Standard · 代码规范 (为目前的开发制定合适的规范) 0 0
· Design · 具体设计 30 60
· Coding · 具体编码 180 240
· Code Review · 代码复审 10 30
· Test · 测试(自我测试,修改代码,提交修改) 20 30
Reporting 报告
· Test Repor · 测试报告 20 20
· Size Measurement · 计算工作量 5 5
· Postmortem & Process Improvement Plan · 事后总结, 并提出过程改进计划 5 5
· 合计 390 570

二、计算模块接口

(3.1)计算模块接口的设计与实现过程。设计包括代码如何组织,比如会有几个类,几个函数,他们之间关系如何,关键函数是否需要画出流程图?说明你的算法的关键(不必列出源代码),以及独到之处。(18')

敏感词类MGC://存储输入的敏感词信息,按词存储
包括:敏感词序号,敏感词本身的字符串,长度(utf-8码的长度,一个汉字占3个字节),敏感词类型(中文|英文),敏感词总数

行类HANG://存储需要检测的文本,按行存储
包括:行序号,行本身的字符串;长度(同上),行总数

答案类ANS://将得到的结果按行存储
包括:敏感词序号,行序号,对应行的字段定位(便于输出问题字段),答案总条数

检测函数search://对敏感词检测,是程序的核心算法,也是难度最高,占用资源最多的部分

void search(MGC &M,HANG &H)//输入对应的敏感词和行,不破坏行和词本身,检测到敏感字段即存入答案类
{
	int i = 0, j = 0, head;
	if (M.k == 1)//敏感词为汉字
	{
		//连续3个字节相同,则进行匹配;若敏感词长度为n字节,则需匹配n/3次才算完成
		for (; j < H.l; j++) if (H.s[j] == M.w[i]&& H.s[j+1] == M.w[i+1]&& H.s[j+2] == M.w[i+2])
		{
			if (i == 0) head = j;//第一次匹配时,对文章对应位置定位
			i += 3;
			j += 2;
			if (i == M.l)//匹配完成,记录信息,从当前位置继续查找该敏感词
			{
				i = 0;
				Ans[Ans_num].mgc_num = M.num;
				Ans[Ans_num].hang_num = H.num;
				Ans[Ans_num].h = head;
				Ans[Ans_num++].e = j;
			}
		}
	}
	else//敏感词为英文
	{
		//不区分大小写,相同则匹配;若敏感单词长度为m字节,则匹配m次
		for (; j < H.l; j++) if ((H.s[j] == M.w[i]) || (H.s[j] - M.w[i] == 32 && M.w[i] <= 'Z') || (M.w[i] - H.s[j] == 32 && M.w[i] >= 'a'))
		{
			if (i == 0) head = j;
			i++;
			if (i == M.l)//匹配完成,记录信息,从当前位置继续查找该敏感词
			{
				i = 0;
				Ans[Ans_num].mgc_num = M.num;
				Ans[Ans_num].hang_num = H.num;
				Ans[Ans_num].h = head;
				Ans[Ans_num++].e = j;
			}
		}
	}
}

输出函数ANS_print: //输出优先级:将答案类ANS输出到指定路径,行序号优先;同行时按敏感词序号优先;对于行号和词号一致的语句,看两者在对应行的出现顺序

思路:
分别读入敏感词文件f1、待检测文本f2,存储到对应的类中;
检测函数search:我的做法是将字符串的ASCII码与敏感词的ASCII码进行匹配(虽然能很快查找到正常情况下的敏感字段,但对同音字和拆边旁的情况存在很大的困难)能找到多少找多少,存入对应的类中
最后由对应的函数将结果输出

流程图:

(3.2)计算模块接口部分的性能改进。记录在改进计算模块性能上所花费的时间,描述你改进的思路,并展示一张性能分析图(由VS 2019、JProfiler或者Jetbrains系列IDE自带的Profiler的性能分析工具自动生成),并展示你程序中消耗最大的函数。(12')



以上是用范例测试后得到的结果,其中检测函数search占了40%以上的cpu时间,占比最大;另外输入数据的处理也要花费不少的cpu时间;

结果与预想差不多,毕竟整个程序的核心算法就是敏感词的检测函数search,并且按我的算法,search的时间复杂度与(敏感词数*文本行数)成正比,当样例的敏感词数增加时,search消耗的cpu占比或许再度增加;

虽然占比较高,但实质消耗的时间相对合理,也没有改进的思路,故没对其进行改进;

(3.3)计算模块部分单元测试展示。展示出项目部分单元测试代码,并说明测试的函数,构造测试数据的思路。并将单元测试得到的测试覆盖率截图,发表在博客中。(12')

测试1:(即作业给出的范例)

输入对应的3个地址:

我输出的答案:

示例给出的答案:

(我只找出了400个,主要是目前的进展对同音字和边旁还不能很好的解决)

测试2:分别给出(敏感词a,文章b, 答案c)


测试3:分别给出(敏感词a,文章b, 答案c)


(3.4)计算模块部分异常处理说明。在博客中详细介绍每种异常的设计目标。每种异常都要选择一个单元测试样例发布在博客中,并指明错误对应的场景。(6')

//读入敏感词文件f1,并放入敏感词类的数组(Mgc[])中
	cin >> dz;
	ifstream f1(dz);
	if (!f1) cout << "open error!" << endl;
        。。。。。

当读入文件出现问题时,输出

open error!

例如:

当输入正确的路径时,不会报错:

三、心得

(4.1)在完成本次作业过程的心得体会(3')

开发思路及遇到的困难:
1.用c++读写文件时遇到困难,学习了fstream等知识,掌握基本的读写文件流;

2.用DevC++和VS测试txt文件的读写功能时,发现中文的乱码现象;经学习和查阅资料,问题在于txt文件默认用utf-8编码,而Windows控制台默认用ANSI(GBK)编码,故控制台会出现中文的乱码,虽不影响该次作业生成的txt文件结果,但给开发、测试及维护过程造成了许多的不方便;

解决方法:将VS设置成utf-8编码,并且在main函数开始处加入语句:system("chcp 65001"),语句功能为将控制台修改为utf-8编码;使程序全程使用utf-8编码,便于编写和维护;

3.对程序进行测试,测试过程中遇到输入的路径打不开的现象,发现路径中包含了中文,改为英文后此问题便没再发生

总结:学了许多知识,但离完全攻下此题还有很大的差距,还要再努力呀

posted @ 2021-09-10 21:25  Miaohengming  阅读(545)  评论(0编辑  收藏  举报