个人项目:论文查重
经典三问
| 项目 | 回答 |
---|:-😐:-:
| 这个作业属于哪个课程 | 软件工程 |
| 这个作业要求在哪里 | 作业要求 |
| 这个作业的目标 | 设计论文查重程序,在给出的文本中比对并输出相似度 |
Github地址:https://github.com/l-zh-12138/paperchack
PSP表格
# 计算模块接口的设计与实现过程
类
#性能分析:
算法思想
-算余弦相似性:如果这两句话的用词越相似,它们的内容就应该越相似。因此,可以从词频入手,计算它们的相似程度
步骤:
第一步:分词,导入hanlp的jar包,可以直接引入,也可用Maven引入
第二步:列出所有词,存入它们出现的位置,注意只判断汉字
第三步:得到两个文本中所有词的位置向量
第四步:计算两个文本中“普通”的余弦值: