个人项目

论文查重

|这个作业属于哪个课程 |<网络34-软件工程> |
| ---- | ---- | ---- |
|这个作业要求在哪里 |<作业要求> |
|这个作业的目标 |完成论文查重项目的实现后进行测试并按以上要求使用Github进行版本发布及源码和测试用例管理 |

0<Github地址>

1.PSP表格

PSP2.1	Personal Software Process Stages	预估耗时（分钟）	实际耗时（分钟）
Planning	计划
· Estimate	· 估计这个任务需要多少时间	405	340
Development	开发
· Analysis	· 需求分析 (包括学习新技术)	100	120
· Design Spec	· 生成设计文档	30	30
· Design Review	· 设计复审	10	10
· Coding Standard	· 代码规范 (为目前的开发制定合适的规范)	10	10
· Design	· 具体设计	40	40
· Coding	· 具体编码	80	40
· Code Review	· 代码复审	60	20
· Test	· 测试（自我测试，修改代码，提交修改）	20	15
Reporting	报告
· Test Repor	· 测试报告	30	30
· Size Measurement	· 计算工作量	10	10
· Postmortem & Process Improvement Plan	· 事后总结, 并提出过程改进计划	15	15
· 合计	405	340

2.查重算法

利用余弦距离实现
具体实现参考checking.c部分

余弦相似度
余弦相似度量：计算个体间的相似度。
相似度越小，距离越大。相似度越大，距离越小。
假设有3个物品，item1，item2和item3，用向量表示分别为：
item1[1,1,0,0,1]，
item2[0,0,1,2,1]，
item3[0,0,1,2,0]，
即五维空间中的3个点。用欧式距离公式计算item1、itme2之间的距离，以及item2和item3之间的距离，分别是：
item1-item2=

item2-item3=

用余弦函数计算item1和item2夹角间的余弦值为：

用余弦函数计算item2和item3夹角间的余弦值为：

由此可得出item1和item2相似度小，两个之间的距离大(距离为7)，item2和itme3相似度大，两者之间的距离小(距离为1)。

余弦相似度算法：一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量越相似，余弦值接近于0，夹角趋于90度，表明两个向量越不相似。

余弦相似度量：计算个体间的相似度。
相似度越小，距离越大。相似度越大，距离越小。

下面我们介绍使用余弦相似度计算两段文本的相似度。思路：1、分词；2、列出所有词；3、分词编码；4、词频向量化；5、套用余弦函数计量两个句子的相似度。

句子A：这只皮靴号码大了。那只号码合适。
句子B：这只皮靴号码不小，那只更合适。
1、分词：
使用结巴分词对上面两个句子分词后，分别得到两个列表：
listA=[‘这‘, ‘只‘, ‘皮靴‘, ‘号码‘, ‘大‘, ‘了‘, ‘那‘, ‘只‘, ‘号码‘, ‘合适‘]
listB=[‘这‘, ‘只‘, ‘皮靴‘, ‘号码‘, ‘不小‘, ‘那‘, ‘只‘, ‘更合‘, ‘合适‘]

2、列出所有词，将listA和listB放在一个set中，得到：
set={‘不小’, ‘了’, ‘合适’, ‘那’, ‘只’, ‘皮靴’, ‘更合’, ‘号码’, ‘这’, ‘大’}
将上述set转换为dict，key为set中的词，value为set中词出现的位置，即‘这’:1这样的形式。
dict1={‘不小’: 0, ‘了’: 1, ‘合适’: 2, ‘那’: 3, ‘只’: 4, ‘皮靴’: 5, ‘更合’: 6, ‘号码’: 7, ‘这’: 8, ‘大’: 9}，可以看出“不小”这个词在set中排第1，下标为0。

3、将listA和listB进行编码，将每个字转换为出现在set中的位置，转换后为：
listAcode=[8, 4, 5, 7, 9, 1, 3, 4, 7, 2]
listBcode=[8, 4, 5, 7, 0, 3, 4, 6, 2]
我们来分析listAcode，结合dict1，可以看到8对应的字是“这”，4对应的字是“只”，9对应的字是“大”，就是句子A和句子B转换为用数字来表示。

4、对listAcode和listBcode进行oneHot编码，就是计算每个分词出现的次数。oneHot编号后得到的结果如下：
listAcodeOneHot = [0, 1, 1, 1, 2, 1, 0, 2, 1, 1]

3.思路

将我们的文本处理，因为我们要比对两个文本的话，一定需要将文本的一切符号，包括换行符以及所有的标点符号,去掉。涉及到了数据库（词库）和mmseg算法，数据库这大类个人不容易实现，调用了github项目中的中文分词工具Friso，Friso带有自身的词库，vendors。使用时需要将词库的所在地址写入设置文件（friso.ini），并采用UTF-8编码（txt的中文是UTF-8编码），配置完成后才可进行下一步。