Fork me on GitHub

个人项目

这个作业属于哪个课程 网络1234-软件工程
这个作业要求在哪里 作业要求
这个作业的目标 代码实现论文查重,性能分析

个人项目github链接

一、psp表格

PSP Personal Software Process Stages 预估耗时(分钟) 实际耗时(分钟)
Planning 计划 60 90
Estimate 估计这个任务需要多少时间 1200 1500
Development 开发 800 900
Analysis 需求分析 (包括学习新技术) 400 600
Design Spec 生成设计文档 30 35
Design Review 设计复审 10 10
Coding Standard 代码规范 (为目前的开发制定合适的规范) 20 30
Design 具体设计 150 170
Coding 具体编码 340 350
Code Review 代码复审 45 60
Test 测试(自我测试,修改代码,提交修改) 40 40
Reporting 报告 60 75
Test Repor 测试报告 60 50
Size Measurement 计算工作量 15 20
Postmortem & Process Improvement Plan 事后总结, 并提出过程改进计划 30 0
合计 3200 3930

二、设计与实现过程

依赖包

hankcs 汉语言包
apache 结合操作工具包
projectlombok 实体注解工具包

使用类

Main 进行IO操作
Participle 讲文本进行分词
StopWords 讲文本中的停用词去除
WordGroup 给予分词后的词组不同权重
CosineSimilarity 计算两个文本的相似度
AtomicFloat 原子类,辅助相似度计算操作

实现查重方法

参考:余弦相似度

流程图

三、性能测试

实时内存:

四、结果

SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder".
SLF4J: Defaulting to no-operation (NOP) logger implementation

缺少一个类,但是不影响程序运行

posted @ 2021-09-19 20:10  Sashiburi  阅读(64)  评论(0编辑  收藏  举报