bighead-littlebeanbun

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

github

这个作业属于哪个课程 计科22级12班
这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/CSGrade22-12/homework/13220
这个作业的目标 遍历论文查重并封装成可执行文件,学习PSP和commit规范,学习测试和评估代码

文件结构

流程图

实现逻辑
短文本分析:通过计算词频向量的余弦相似度来评估文本的相似度。
长文本分析:通过提取关键词并计算关键词集合的交集和并集的比例来评估文本的相似度。
Simhash:通过计算文本的 Simhash 值和它们之间的汉明距离来评估文本的相似度。

性能改进

其中加载模型和导入文件耗时较久

改进思路:并行或多线程加载文件

测试结果

覆盖率

覆盖率较高

异常处理说明
FileNotFoundError:文件未找到异常。
解决:打印一条有意义的错误消息,提示用户文件路径无效。
OSError:IO错误可能是文件权限错误或文件路径没找到

PSP表格

阶段 描述 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 5min 5min
· Estimate · 估计这个任务需要多少时间 5min 10min
Development 开发 5h 6h
· Analysis · 需求分析 (包括学习新技术) 2h 2.5h
· Design Spec · 生成设计文档 1h 1h
· Design Review · 设计复审 20min 10min
· Coding Standard · 代码规范 (为目前的开发制定合适的规范) 20min 30min
· Design · 具体设计 20min 10min
· Coding · 具体编码 30min 1h
· Code Review · 代码复审 30min 1h
· Test · 测试(自我测试,修改代码,提交修改) 1h 2h
Reporting 报告 50min 1h30min
· Test Report · 测试报告 30min 40min
· Size Measurement · 计算工作量 10min 10min
· Postmortem & Process Improvement Plan · 事后总结, 并提出过程改进计划 10min 10min
合计 11.5h 17h
posted on 2024-09-11 18:06  littlebeanbun  阅读(23)  评论(0)    收藏  举报