2011 年 9月 11 日随笔档案 - buptLizer

转载一篇好文章:《海量数据处理常用思路和方法》

摘要：最近有点忙，稍微空闲下来，发篇总结贴。大数据量的问题是很多面试笔试中经常出现的问题，比如baidu google 腾讯这样的一些涉及到海量数据的公司经常会问到。下面的方法是我对海量数据的处理方法进行了一个一般性的总结，当然这些方法可能并不能完全覆盖所有的问题，但是这样的一些方法也基本可以处理绝大多数遇到的问题。下面的一些问题基本直接来源于公司的面试笔试题目，方法不一定最优，如果你有更好的处理方法，欢迎与我讨论。 1.Bloom filter 适用范围：可以用来实现数据字典，进行数据的判重，或者集合求交集基本原理及要点：对于原理来说很简单，位数组+k个独立hash函数。将hash函数对阅读全文

posted @ 2011-09-11 21:31 buptLizer 阅读(242) 评论(0) 推荐(0) 编辑

优先队列使用

摘要：这个是转得网上的，由于不经常使用，偶尔用的时候还经常出错，所以记下来了,经常使用的已经用红色颜色标出来了：在优先队列中，优先级高的元素先出队列。标准库默认使用元素类型的<操作符来确定它们之间的优先级关系。优先队列的第一种用法，也是最常用的用法：priority_queue<int>qi;通过<操作符可知在整数中元素大的优先级高。故示例1中输出结果为：9 6 5 3 2第二种方法：在示例1中，如果我们要把元素从小到大输出怎么办呢？这时我们可以传入一个比较函数，使用functional.h函数对象作为比较函数。priority_queue<int,vector< 阅读全文

posted @ 2011-09-11 17:48 buptLizer 阅读(5594) 评论(1) 推荐(0) 编辑

差分约束系统

摘要：小结：差分约束就是用最短（最长路径）来解决满足一系列约束条件的问题的最优解，首先约束条件必须满足一定的限制，即每个约束条件系数只能为1，-1这样的不等式。差分约束系统的解题过程大致为：a 建立约束图增加一个原点，根据约束条件构造约束图。b 利用dijkstra或者bellman_ford求出最短（长）路径，如果有负边，只能用后者。如果题目要求出最小值，我们将所有的不等式转化成>=,构造出约束图，开始的时候每个dist[i]赋值为-INF,然后求最长路径，这个是原点距离固定的情况，比如题目poj1201，mina是最小坐标，minb是最大坐标,题目让求的是dist[maxb]-dist[m 阅读全文

posted @ 2011-09-11 17:18 buptLizer 阅读(211) 评论(0) 推荐(0) 编辑

buptLizer

转载一篇好文章:《海量数据处理常用思路和方法》

优先队列使用

差分约束系统

导航

公告