论文查重
仓库地址:https://github.com/bitpurleclude/3122004951Plagiarism-check.git
PSP2.1 | Personal Software Process Stages | 预估耗时(分钟) | 实际耗时(分钟) |
---|---|---|---|
Planning | 计划 | 60 | 30 |
Estimate | 估计这个任务需要多少时间 | 60 | 30 |
Development | 开发 | 60 | 5*60 |
Analysis | 需求分析 (包括学习新技术) | 120 | 180 |
Design Spec | 生成设计文档 | 30 | 30 |
Design Review | 设计复审 | 30 | 20 |
Coding Standard | 代码规范 (为目前的开发制定合适的规范) | 30 | 20 |
Design | 具体设计 | 30 | 30 |
Coding | 具体编码 | 30 | 4*60 |
Code Review | 代码复审 | 30 | 30 |
Test | 测试(自我测试,修改代码,提交修改) | 30 | 60 |
Reporting | 报告 | 30 | 60 |
Test Repor | 测试报告 | 30 | 60 |
Size Measurement | 计算工作量 | 30 | 20 |
Postmortem & Process Improvement Plan | 事后总结, 并提出过程改进计划 | 30 | 10 |
合计 | 11.5h |
模块接口设计
-检测字符串中相似的部分的函数
-从文件路径中获取数据作为字符串的函数
-项目操作入口即获得输入路径
模块接口性能改进
由于借鉴的是外国对于英文的鉴别方法,是以单词为单位的,而在中文使用中鉴别准确率极低,故需要改进函数,增加准确率,先是改用余弦计算相似度,准确率还是不太合理,再改用1-编辑距离/文章长度,获得了较为合理的数据,但是加大了性能消耗
单元测试
异常处理
防止文件不存在测试单元:
防止参数缺失