摘要: minHash好像不应该放这里,判断文档的相似性,分类也有问题,应该按照相似度算法划分到一起局部敏感哈希Locality Sensitive Hash一种常见的用于处理高维向量的索引办法。与其它基于Tree的数据结构,诸如KD-Tree、SR-Tree相比,它较好地克服了Curse of Dimension,能够将KNN的时间复杂度缩减到sub-linear。LSH多被用于文本、多媒体(图像、音频)的相似性判断。LSH是一种概率方法,采用过滤一验证的框架(Filter一and一Refine framework)。在过滤阶段,LSH利用哈希技术把非相似、不可能成为结果的数据对象过滤掉,过滤之后的 阅读全文
posted @ 2013-12-25 21:40 johnny_HITWH 阅读(562) 评论(0) 推荐(0) 编辑
摘要: power-low 标准正态分布 阅读全文
posted @ 2013-12-25 21:34 johnny_HITWH 阅读(123) 评论(0) 推荐(0) 编辑
摘要: 百度百科:http://baike.baidu.com/link?url=D0ahvv_A-NzyhxXHbcIY_DCq66cG7QtkYndzVz5_EomdlKQoykTKQmcA7FyeNgbe6YNhN9-DVTo7O_daKTSoTq这个博客有关于服务器负载方面的文章 阅读全文
posted @ 2013-12-25 21:24 johnny_HITWH 阅读(138) 评论(0) 推荐(0) 编辑