jaccard相似系数(Jaccard similarity coefficient)
2020-02-04 20:28 默默不语 阅读(12056) 评论(0) 编辑 收藏 举报jaccard相似系数
jaccard相似系数(Jaccard similarity coefficient)主要应用场景为数据聚类、比较文本的相似度,用于文本的查重与去重,计算对象间的距离。
jaccard相似系数用于比较有限样本集之间的相似性和差异性J(A,B)为A与B交集的大小与A与B并集的大小的比值。
实例
s1={1,3,4,5,7,8,9},s2={1,2,3,5,6,8},s1∩s2=“{1,3,5,8},s1∪s2={1,2,3,4,5,6,7,8,9},s1和s2的相似度为4/9。
J(A,B)∈(0,1)。jaccard值越大说明相似度越高,jaccard值越小说明相似度越低。
公式
Jaccard 距离
与Jaccard 相似系数相关的指标叫做Jaccard 距离,用于描述集合之间的不相似度。它是jaccard相似系数的补集,被定义为1减去Jaccard相似系数。
Jaccard 距离越大,样本相似度越低。
公式定义如下:
jaccard相似系数 代码实现
public double distance(String s1, String s2) {
if (s1 == null || s2 == null) {
throw new NullPointerException("字符串为空");
}
if (s1.equals(s2)){
return 1;
}
Map<String, Integer> h1 = getHashKey(s1);
Map<String, Integer> h2 = getHashKey(s2);
if (s1 == null || s2 == null) {
throw new NullPointerException("字符串为空");
}
if (s1.equals(s2)){
return 1;
}
Map<String, Integer> h1 = getHashKey(s1);
Map<String, Integer> h2 = getHashKey(s2);
Set<String> union = new HashSet<String>();
union.addAll(h1.keySet());
union.addAll(h2.keySet());
int flag = 0;
for (String key : union) {
if (h1.containsKey(key) && h2.containsKey(key)){
flag++;
}
}
return 1.0*flag / union.size();
}
union.addAll(h1.keySet());
union.addAll(h2.keySet());
int flag = 0;
for (String key : union) {
if (h1.containsKey(key) && h2.containsKey(key)){
flag++;
}
}
return 1.0*flag / union.size();
}
运行结果:
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· 零经验选手,Compose 一天开发一款小游戏!
· 一起来玩mcp_server_sqlite,让AI帮你做增删改查!!
2018-02-04 个人冲刺03