以KMP为核心的带去干扰、语句切割的细颗粒度文本查重算法
核心算法思想:
KMP算法
有如下两个字符串
String str1="1234561237802";//被检测字符串
String str1="121234161137102";//提供对比的字符串
利用KMP算法可找出最长公共子串为s="1234",则相似度float rate=(float)s.length/(float)str1.length=4/11=0.36363636
则我们可认为被检测字符串与对比字符串的相似度为36.36%
对于带语义的多行文本进行检测的时候,不能直接将两文本求公共子串,这样的相似度效率是非常低的,尤其是在网页富文本编辑框写出的文本中,带有网页标签。
需要进行
全文本除杂->语句分割->语句除杂
语义分析
将多行文本拆分成句子,对每句话进行查重
利用分号;句号。逗号,换行符\n等具有分隔句子意义的字符进行文本分割
第一步:全文本除杂
一.1去除 //这个网页中空格的转义字符串会对接下来以;进行语句分割造成严重干扰,提前除杂
第二步:网页层面语句分割和除杂
二.1以网页换行标签<br>进行语句分割成多个语句
二.2以正则表达式去除所有网页标签
private static String cleanHtmlTag(String src)
{
return src.replaceAll("<\\/?.+?\\/?>","");
}
第三步:语义层面语句分割和除杂
三.1以"[;!,。;:]"进行语句分割
三.2以"[^a-zA-Z0-9\\u4e00-\\u9fa5]"进行除杂,去除非数字字母汉字部分
第四步:使用KMP算法对被检测文本进行语句级别查重
被检测字符串语句数组a1[]
提供对比字符串语句数组a2[]
伪代码:
float DuplicationRate=0.0f;//整个文本的相似度
for(s1:a1)
{
float maxDuplicationRate=0.0f;//某一行文本的相似度
for(s2:a2)
{
float tempRate=detect(s1,s2);//detect方法检测这两个语句的相似度
if(tempRate>maxDuplicationRate)
maxDuplicationRate=tempRate;
if(maxDuplicationRate==1.0)
break;
}
DuplicationRate+=maxDuplicationRate;
}
DuplicationRate/=s1.length;
detect方法如下:
伪代码:
float detect(String s1,String s2)
{
1.kmp算法求出公共子串
2.相似度等于公共子串长度除以被检测字符串长度()
}获得被检测文本单个语句和对比文本中语句的公共子字符串,限制子字符串长度必须大于阈值5才计算相似度比率
本文来自博客园,作者:HumorChen99,转载请注明原文链接:https://www.cnblogs.com/HumorChen/p/18039769
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配,妙~啊~