个人项目:论文查重

第一次编程作业

item | answer |
-|-|-
这个作业属于哪个课程 | https://edu.cnblogs.com/campus/gdgy/informationsecurity1812/homework/11155 |
这个作业要求在哪里 | https://edu.cnblogs.com/campus/gdgy/informationsecurity1812/homework/11155 |
这个作业的目标 | 学习使用PSP表格,学习commit规范 |

GitHub链接:https://github.com/jinjin99/3218005394

psp表格

PSP2.1 Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 30 40
· Estimate · 估计这个任务需要多少时间 40 40
Development 开发 500 600
· Analysis · 需求分析 (包括学习新技术) 200 300
· Design Spec · 生成设计文档 60 80
· Design Review · 设计复审 20 30
· Coding Standard · 代码规范 (为目前的开发制定合适的规范) 40 30
· Design · 具体设计 30 30
· Coding · 具体编码 200 220
· Code Review · 代码复审 30 20
· Test · 测试(自我测试,修改代码,提交修改) 60 90
Reporting 报告 60 80
· Test · 测试(自我测试,修改代码,提交修改) 60 90
Reporting 报告 60 60
· Test Repor · 测试报告 30 40
· Size Measurement · 计算工作量 15 20
· Postmortem & Process Improvement Plan · 事后总结, 并提出过程改进计划 20 20
· 合计 1335 1830

一、模块接口的设计和实现

实现逻辑

主要运用余弦相似性来比较两个句子的相似性。首先进行分词,统计词频,然后计算每个词在全文的分布是怎样的,从宏观上分析两篇文章的相似度。

1 文件读写类

2. 分词和计算

3.自定义异常类

二、测试结果


三、性能检测


四、总结

该算法遍历的时候只遍历第一个句子有的词,第二个句子有但是第一个句子有的词不会被加进分母中计算!!!

posted @ 2020-09-24 23:37  小金金哦  阅读(137)  评论(0编辑  收藏  举报