上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 18 下一页
摘要: 出处:http://blog.csdn.net/v_JULY_v 第一部分:Top K 算法详解问题描述百度面试题: 搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复 阅读全文
posted @ 2016-08-20 16:28 夕月一弯 阅读(762) 评论(0) 推荐(0) 编辑
摘要: 英文原文:《MapReduce Patterns, Algorithms, and Use Cases》 https://highlyscalable.wordpress.com/2012/02/01/mapreduce-patterns/ 在这篇文章里总结了几种网上或者论文中常见的MapReduc 阅读全文
posted @ 2016-08-20 15:56 夕月一弯 阅读(3281) 评论(0) 推荐(0) 编辑
摘要: 前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名 :-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。 毕竟受文章和理论之限,本文将 阅读全文
posted @ 2016-08-20 15:37 夕月一弯 阅读(230) 评论(0) 推荐(0) 编辑
摘要: 第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小 阅读全文
posted @ 2016-08-20 15:35 夕月一弯 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 在做分类时常常需要估算不同样本之间的相似性度量(Similarity Measurement),这时通常采用的方法就是计算样本间的“距离”(Distance)。采用什么样的方法计算距离是很讲究,甚至关系到分类的正确与否。 本文的目的就是对常用的相似性度量作一个总结。 本文目录: 1. 欧氏距离 2. 阅读全文
posted @ 2016-08-16 20:34 夕月一弯 阅读(17072) 评论(3) 推荐(0) 编辑
摘要: 这篇文章介绍了局部敏感哈希算法,局部敏感哈希是非监督的哈希算法。 算法的输入是实数域的特征向量,输出为一个binary vector。 利用哈希函数将数据点映射到不同的桶中是一种保形映射,使得数据点 i 和数据点 j 在原始空间的相似度 s 与映射后的在同一个桶的概率呈现正相关。之所以这么做,主要是 阅读全文
posted @ 2016-08-09 22:42 夕月一弯 阅读(2822) 评论(0) 推荐(0) 编辑
摘要: 时间序列(time series)是一系列有序的数据。通常是等时间间隔的采样数据。如果不是等间隔,则一般会标注每个数据点的时间刻度。 time series data mining 主要包括decompose(分析数据的各个成分,例如趋势,周期性),prediction(预测未来的值),classi 阅读全文
posted @ 2016-08-03 10:00 夕月一弯 阅读(8794) 评论(0) 推荐(0) 编辑
摘要: 这篇文章主要是一个闲文。如果您正在寻求一个理想的随机排列生成算法,直接阅读方法3,或是直接使用STL里提供的random_shuffle()方法另外请注意,这里所讨论的算法并不是新的。什么是随机排列? 一个随机排列是一组位于随机位置的对象。给定一个对象,1, 2, 3 ... n,随机排列看起来就是 阅读全文
posted @ 2016-08-03 09:38 夕月一弯 阅读(1998) 评论(0) 推荐(0) 编辑
摘要: 1.概述 跟SimHash一样,MinHash也是LSH的一种,可以用来快速估算两个集合的相似度。MinHash由Andrei Broder提出,最初用于在搜索引擎中检测重复网页。它也可以应用于大规模聚类问题。 2.Jaccard index 在介绍MinHash之前,我们先介绍下Jaccard i 阅读全文
posted @ 2016-08-03 09:37 夕月一弯 阅读(1474) 评论(0) 推荐(0) 编辑
摘要: 我们知道,通过对数组进行直接寻址(Direct Addressing),可以在 O(1) 时间内访问数组中的任意元素。所以,如果存储空间允许,可以提供一个数组,为每个可能的关键字保留一个位置,就可以应用直接寻址技术。 哈希表(Hash Table)是普通数组概念的推广。当实际存储的的关键字数比可能的 阅读全文
posted @ 2016-08-03 09:36 夕月一弯 阅读(10273) 评论(0) 推荐(1) 编辑
上一页 1 ··· 7 8 9 10 11 12 13 14 15 ··· 18 下一页