会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
狂盗一枝梅
博客园
首页
新随笔
联系
订阅
管理
2021年11月30日
文章相似度算法调研
摘要: 文章相似度算法大体上分为两类,现实中文本相似性算法分为两类,一类是hash算法,一类是字符串直接匹配算法 字符串匹配算法在现实情况中由于效率太低一般没人使用,经过调研发现,在实际使用中,几乎所有人都会在simhash和minhash算法中使用其中一种算法计算文本相似度。 一、基本概念 1.TF TF
阅读全文
posted @ 2021-11-30 16:09 狂盗一枝梅
阅读(1144)
评论(0)
推荐(0)
编辑
公告