论文查重

仓库地址:https://github.com/bitpurleclude/3122004951Plagiarism-check.git

这个作业属于哪个课程 (https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/join?id=CfDJ8AOXHS93SCdEnLt5HW8VuxT_rAhbZKO3TfjMmbv1B0Re5Fp2d0_QACha2ZoYZ4fxF-ZKCCAhfJl7B8mvCfesLYE02X8T6kx_2R8w0SR-ykrgDVRKWkWQOEyI0LT4BHazpS2wjaFQselKyI83UoHD6q4)
这个作业要求在哪里 (https://edu.cnblogs.com/campus/gdgy/CSGrade22-34/homework/13229)
这个作业的目标 学会使用github进行版本管理和进行项目测试
PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 60 30
Estimate 估计这个任务需要多少时间 60 30
Development 开发 60 5*60
Analysis 需求分析 (包括学习新技术) 120 180
Design Spec 生成设计文档 30 30
Design Review 设计复审 30 20
Coding Standard 代码规范 (为目前的开发制定合适的规范) 30 20
Design 具体设计 30 30
Coding 具体编码 30 4*60
Code Review 代码复审 30 30
Test 测试(自我测试,修改代码,提交修改) 30 60
Reporting 报告 30 60
Test Repor 测试报告 30 60
Size Measurement 计算工作量 30 20
Postmortem & Process Improvement Plan 事后总结, 并提出过程改进计划 30 10
合计 11.5h

模块接口设计

-检测字符串中相似的部分的函数
-从文件路径中获取数据作为字符串的函数
-项目操作入口即获得输入路径

模块接口性能改进

由于借鉴的是外国对于英文的鉴别方法,是以单词为单位的,而在中文使用中鉴别准确率极低,故需要改进函数,增加准确率,先是改用余弦计算相似度,准确率还是不太合理,再改用1-编辑距离/文章长度,获得了较为合理的数据,但是加大了性能消耗

单元测试



异常处理


防止文件不存在测试单元:


防止参数缺失

posted @ 2024-09-13 20:52  紫云2287  阅读(5)  评论(0编辑  收藏  举报