2018年11月30日

simhash算法原理

摘要: 解释一下图片:这里feature可以指一篇文档分词后的某个词,即将文档中的某个词作为一个特征。weight是这个词的权重,这里可以是这个词在这个句子中出现的次数。 这里的hash算法就是传统的hash算法,通过调用一个hash函数实现的。 simhash是为了计算一篇文档之间的相似度存在的,通过si 阅读全文

posted @ 2018-11-30 20:23 *简单就好* 阅读(2099) 评论(0) 推荐(0) 编辑

导航