摘要: 背景 彻底搞懂simhash原理,及如何进行文本相似度的比较。 simhash原理 概括的说即是:将文本向量化后,进行向量间的距离计算,卡某个阈值来判定两个文本是否相似。 涉及关键点 文本向量化操作 切词,并赋权重值 bin(hash(切词)).zfill(64); 转成定长01向量 向量乘权重;遇 阅读全文
posted @ 2020-02-19 20:48 威威后花园 阅读(1065) 评论(0) 推荐(0) 编辑