会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Time Is Song
博客园
首页
新随笔
联系
订阅
管理
2018年12月2日
海量数据处理
摘要: 1.倒排索引 每一项包括一个属性值和具有该属性值得记录地址 不是由记录来确定属性值,而是由属性值确定记录。 某个单词出现的文档编号,列表,也可以存文档编号的差值 2.simHash算法 比较两篇文章相似度的算法 分词,hash,加权,合并,降维 每个特征向量(分词)赋值权值,重要程度 Hash(博客
阅读全文
posted @ 2018-12-02 18:55 王毅2016
阅读(116)
评论(0)
推荐(0)
编辑
公告