海量数据查找问题

一般解题思路: 
1、将数据导入到内存中 
2、将数据进行排序 (比如插入排序、快速排序) 
3、将排序好的数据存入文件
特殊:
1、导入数据库运算 
2、分段排序运算 
3、传说中bitmap,使用bit位运算 (最快,N/8),例如:比如读到一个数据为341245909这个数据,那就先在内存中找到341245909这个bit,并将bit值置为1遍历整个bit数组,将bit为1的数组下标存入文件

很多哥们在说到bitmap的时候表示不理解,小弟在这里就简单说一种可以使用的场景。
场景:有两个大文件,每个比如10G,文件里数据全部打乱了,但是两个文件中有大部分每行数据是对应相同的,只有少部分不相同。分配内存4G,怎么找出两个文件中所有不相同的行?
(1)第一步:对每个文件来说,先把每行的数据(string)映射成整形(int, long, long long)看你喜欢,但是原则是:尽量保证string和整数之间是一一对应的关系。Eg:hash是个不错的选择。
(2)第二步:对每个文件来说,可以用bitmap(10G/8)统计哪些数据有(1),哪些数据没有(0)。Eg:比如你现在有第4000条数据和第800条数据,bitmap就相当于是用一位来表示某个数据有或者没有,00000001,就说明有第一个数据,00000010就说明有第二个数据。然后第4000个数据的话,就用第500个字节的第八位就可以来表示;第800个数据的话,就用第100个字节得第八位来表示有没有。
(3)第三步:两个文件起来看,两个文件集体再统计一次,重复(1+1=2),不重复(1+0=1或0+1=1),两个都没有(0+0=0)
posted @ 2016-08-10 15:50  立超的专栏  阅读(1084)  评论(0编辑  收藏  举报