摘要: 文章相似度算法大体上分为两类,现实中文本相似性算法分为两类,一类是hash算法,一类是字符串直接匹配算法 字符串匹配算法在现实情况中由于效率太低一般没人使用,经过调研发现,在实际使用中,几乎所有人都会在simhash和minhash算法中使用其中一种算法计算文本相似度。 一、基本概念 1.TF TF 阅读全文
posted @ 2021-11-30 16:09 狂盗一枝梅 阅读(1151) 评论(0) 推荐(0) 编辑