摘要: Locality Sensitive Hash是一种常见的用于处理高维向量的索引办法。与其它基于Tree的数据结构,诸如KD-Tree、SR-Tree相比,它较好地克服了Curse of Dimension,能够将KNN的时间复杂度缩减到sub-linear。LSH多被用于文本、多媒体(图像、音频) 阅读全文
posted @ 2016-08-20 17:47 夕月一弯 阅读(370) 评论(0) 推荐(0) 编辑
摘要: 出处:http://blog.csdn.net/v_JULY_v 第一部分:Top K 算法详解问题描述百度面试题: 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复 阅读全文
posted @ 2016-08-20 16:28 夕月一弯 阅读(762) 评论(0) 推荐(0) 编辑
摘要: 英文原文:《MapReduce Patterns, Algorithms, and Use Cases》 https://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/ 在这篇文章里总结了几种网上或者论文中常见的MapReduc 阅读全文
posted @ 2016-08-20 15:56 夕月一弯 阅读(3281) 评论(0) 推荐(0) 编辑
摘要: 前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名 :-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。 毕竟受文章和理论之限,本文将 阅读全文
posted @ 2016-08-20 15:37 夕月一弯 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小 阅读全文
posted @ 2016-08-20 15:35 夕月一弯 阅读(236) 评论(0) 推荐(0) 编辑