第一次个人编程作业
第一次个人编程作业
这个作业属于哪个课程 | https://edu.cnblogs.com/campus/gdgy/CSGrade22-12 |
---|---|
这个作业要求在哪里 | https://edu.cnblogs.com/campus/gdgy/CSGrade22-12/homework/13220 |
这个作业的目标 | 制作一个论文查重的程序并上传到GitHub |
GitHub链接
https://github.com/jiangl0/jiangl0/blob/main/3222004466
PSP表格
PSP | 预估耗时(分钟) | 实际耗时(分钟) |
---|---|---|
计划 | 30 | 30 |
估计这个任务需要多少时间 | 930 | 1170 |
开发 | 840 | 1080 |
需求分析 | 120 | 120 |
生成设计文档 | 30 | 30 |
设计复审 | 30 | 30 |
代码规范 | 30 | 30 |
具体设计 | 180 | 210 |
具体编码 | 300 | 480 |
代码复审 | 30 | 60 |
测试 | 120 | 120 |
报告 | 90 | 90 |
测试报告 | 30 | 30 |
计算工作量 | 30 | 30 |
事后总结, 并提出过程改进计划 | 30 | 30 |
合计 | 960 | 1200 |
计算模块接口的设计与实现过程
流程图
算法关键
预处理:使用正则表达式和字符串操作去除文本中的标点符号和特殊字符,并将所有字符转换为小写,以减少无关特征的影响。
特征提取:使用TF-IDF算法将文本转换为向量,这有助于捕捉文本中单词的重要性。
相似度计算:使用余弦相似度来衡量两个文本向量的相似性,这是一个广泛使用的文本相似度度量方法。