摘要: 1.倒排索引 每一项包括一个属性值和具有该属性值得记录地址 不是由记录来确定属性值,而是由属性值确定记录。 某个单词出现的文档编号,列表,也可以存文档编号的差值 2.simHash算法 比较两篇文章相似度的算法 分词,hash,加权,合并,降维 每个特征向量(分词)赋值权值,重要程度 Hash(博客 阅读全文
posted @ 2018-12-02 18:55 王毅2016 阅读(116) 评论(0) 推荐(0) 编辑