2018 年 12月 2 日随笔档案 - 王毅2016

2018年12月2日

摘要： 1.倒排索引每一项包括一个属性值和具有该属性值得记录地址不是由记录来确定属性值，而是由属性值确定记录。某个单词出现的文档编号，列表，也可以存文档编号的差值 2.simHash算法比较两篇文章相似度的算法分词，hash，加权，合并，降维每个特征向量（分词）赋值权值，重要程度 Hash(博客阅读全文

posted @ 2018-12-02 18:55 王毅2016 阅读(116) 评论(0) 推荐(0) 编辑

Time Is Song

公告