个人项目:论文查重

经典三问

| 项目 | 回答 |
---|:-😐:-:
| 这个作业属于哪个课程 | 软件工程 |
| 这个作业要求在哪里 | 作业要求 |
| 这个作业的目标 | 设计论文查重程序,在给出的文本中比对并输出相似度 |

Github地址:https://github.com/l-zh-12138/paperchack


PSP表格


# 计算模块接口的设计与实现过程



#性能分析:

算法思想

-算余弦相似性:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度

步骤:

第一步:分词,导入hanlp的jar包,可以直接引入,也可用Maven引入

第二步:列出所有词,存入它们出现的位置,注意只判断汉字

第三步:得到两个文本中所有词的位置向量

第四步:计算两个文本中“普通”的余弦值:

计算模块部分单元测试展示


测试结果为


计算模块部分异常处理说明

测试结果:

posted @ 2020-09-25 00:21  范克里夫  阅读(124)  评论(0编辑  收藏  举报