论文查重

gitcode地址

这个作业的要求在哪里	第一次项目作业
这个作业的目标	实现论文查重，消除警告及改进
其他

看完论文查重作业的相关要求之后，最开始想到的便是对比两篇文章出现关键字的字频，因此我们需要先对文章进行分词处理，处理问之后再用相似度算法进行计算
1.查重论文的读取（包括被查文件以及数据库文件）
开始第一步，对文本进行读取及分词，网上有多个分词包及数据库，但实际应用下来发现错误还是不少的，无法运行，如jiebacpp是一个再Linux系统下运行的一个分词包，然而我使用的是windows，因此便放弃了这一分词包，选择hanlp，但hanlp同样存在问题，他是一个网页分词，无法支持我对原文本进行分词文件输出的想法。最后我选择的是一个正向最大匹配算法，这个算法其实网上是存在源码的，但实际理解起来也不难，就是从文本从头到尾依次截取5个字，再对比词典，如果词典中存在，就确定这5个字是一个词，如果不存在则去掉5个字中最末尾的一个，变4个字，在比较，以此类推，最后如果只剩1个字，那它便是一个词。
然后这里存在一个问题，便是词典，这里我因为尝试过jiebacpp，所以我直接用了它的词典。
这里是相应代码，汉字占两个字节，因此while循环里面的len应-2.
alt text
在这段核心代码之前，只需要读取文件，在代码之后，则进行写入输出文件就行了。
原文本分词结果

2.计算关键字的字频
计算词频用的主要是递归算法，通过对上面分词的读取进行统计写入。若遇到新词则输出该词以及记词频为1，所遇到已有的词，则对该词词频+1；从而得出一个词频文件。
关键代码
alt text
原文本词频统计

3.根据字频计算相似度
这一步还包含了一个合并去重的步骤，因为在使用向量法对比两个文本相似度的时候，需要将两个向量所指相同，因此在原文本中未出现但在抄袭文本中出现的词，需要在原文本词频中加入该词并且词频设为0；将两个文本合并去重后就是计算向量了，这里需要对两个文本的值暂存如vector中，并将文本进行映射转换，转换为向量后就可以利用余弦相似度算法进行计算了。
alt text
同样代码将文件改为抄袭文本词频打开即可
关键代码

4.输出相似度结果
alt text

PSP表格

PSP2.1	Personal Software Process Stages	预估耗时（分钟）	实际耗时（分钟）
Planning	计划	60	40
Estimate	估计这个任务需要多少时间	400	1340
Development	开发	100	600
Analysis	需求分析 (包括学习新技术)	40	300
Design Spec	生成设计文档	20	30
Design Review	设计复审	10	60
Coding Standard	代码规范 (为目前的开发制定合适的规范)	10	20
Design	具体设计	20	30
Coding	具体编码	30	120
Code Review	代码复审	10	20
Test	测试（自我测试，修改代码，提交修改）	20	20
Reporting	报告	20	30
Test Repor	测试报告	20	30
Size Measurement	计算工作量	20	20
Postmortem & Process Improvement Plan	事后总结, 并提出过程改进计划	20	20
	合计	400	1340

posted @ 2024-03-18 20:15 篮煜楷阅读(11) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

LanYukai

论文查重

公告