位示图算法实现大数据的存储
今天在看排序算法的时候,看到了用位示图法实现的,上面说可以大大减少内存的使用,尤其针对大数据的存储,数据量非常大的的时候,他的优点就比较明显了,因为他存储数据值依靠1个位来表示。具体是怎么回事呢,继续往下看。位图法,位图法,当然和位相关,下面我给出一组数组int[]{1, 3, 5,8},也许在普通的我们的编程中,我们肯定是存放在一个32位整形的数组中,1个32位整数,4个字节,4个数字总共16个字节,而如果用位图法,表示,可以用一个这么一个位字符串表示:
10101001
1出现的位置就是代表数字的值,第1,3,5,8个位置的值为1,就代表了这些数字的存在,这样一算只需要8位,也就是1个字节,比刚刚那个整整省了15个字节。可见这个算法的效率十分之高,但是又一个难题摆在面前了,如何存储和读取这样的形式中的数值无疑将是这个算法的最难点。
首先是数据的存入过程,将整形数字存入相应的位,并把相应的位置的数字标记为1,就代表完成任务了,第一步,我们当然得先声明一个用来存放数值的数组:
//声明了整形数组,最大的存放的数字的值可以到3 * 32
private static int[] bitmap = new int[3];
我在这里定义了3个单位的数组,每个数组值含32位,也就是说,是3个32位0排成一起,那最大表示的值就是96了。这个很好理解吧。为了容易懂,把操作改小了容易懂。接下来就是我们要传入值进行位设置操作了,主要分为以下步骤:
1.算出是在哪个一个数组下标的范围内,除以32去商
2.知道了哪个下标了,算出在此下标的偏移位置,再取余32操作
3.根据偏移量,折算出此时的二进制形式值,就是一直左移到那个位置上
4.最后进行或运算,把那个位置的值变为1,操作结束
附上代码:
/**
* 传入的数字,用来存储在位图中
* @param number
*/
public static void setBitmapNumber(int number){
int index = number / 32;
int pos = number % 32;
int flag = 1;
//如果刚好整除
if(pos == 0){
//算上个整数位的
pos = 32;
index--;
}
for(int j=0; j<pos-1; j++){
//左移pos个位置,用于后面的位运算
flag = flag << 1;
}
//找到此数组的位置,进行或运算,把此位置的0变为1
bitmap[index] = bitmap[index] | flag;
System.out.println(MessageFormat.format("第{0}下标,第{1}位,值为{2}", index, pos, bitmap[index]));
}
我在这里的测试例子的输出结果,输入的数字为:
int[] initArray = new int[]{15, 31, 75};
for (int i = 0; i < initArray.length; i++) {
setBitmapNumber(initArray[i]);
}
输出为:
第0下标,第15位,值为16,384
第0下标,第31位,值为1,073,758,208
第2下标,第11位,值为1,024
第0下标的意思是这个1的位置在bitmap[0]中,
75因为已经过了2给32,所以在bitmap[2]中,第11位置,十进制的值就为2的10次方,就是1024了。
0000000000000010000000000000001
0000000000000000000000000000000
0000000000100000000000000000000
上面就是此操作的存储结果。/**
* 整数表示成二进制位的形式
* @param number
*/
public static void setIntToBit(int number){
int flag = 1;
for(int j=0; j<31; j++){
if((number & flag) == 1){
//说明最右边一位为1
System.out.print(1);
}else{
System.out.print(0);
}
number = number >> 1;
}
System.out.print("\n");
}
我写了这个方法,转化了一下。就是不断右移,输出,循环操作。当然了,有存入必然有取出的过程,思路主要如下:
1.遍历biamap[]整形数组,从0下标到最后一个小标
2.在每个下标中,再执行32位的逐位扫描,判断有无设置1的存在
3.如果有1的存在,此时的偏移量+下标*32,就是之前下标的总位数,就是最终的值了
代码如下:
/**
* 获取位图中所存放的数字
*/
private static void getBitmapNumber(){
int temp = 0;
//在单个数字中的位偏移量
int offset = 1;
int flag = 1;
for(int i=0; i<bitmap.length; i++){
temp = bitmap[i];
for(int j=0; j<31; j++){
if((temp & flag) == 1){
//说明最右边一位为1
System.out.println(MessageFormat.format("第{0}下标,第{1}位,值为{2}", i, offset, 32 * i + offset));
}
temp = temp >> 1;
offset++;
}
//重置偏移量为1
offset = 1;
}
}
测试代码输出的结果:
第0下标,第15位,值为15
第0下标,第31位,值为31
第2下标,第11位,值为75
里面涉及了比较多的位运算,大家可以自己先运行一下,他到底是怎么算的。看起来操作都已经成功了嘛,但是,我在调试程序的时候发现了一个问题,每当我用32的整数倍的值去算的时候,就会失败,首先存入就会失败,没错,就是越界的问题,后来想了想总共32位,在java里没有无符号整形的说法,所以肯定有1位要作为符号位,所以只能表示到31的位置,32位就会出错,不信的话,可以把我的代码拷贝运行,看一下结果。我这个只是一个小小Demo类型的测试,当数据量非常大的时候,你可以用几个M的字节,去存放海量的数据,肯定比每个传统存储形式要高效很多,而且位运算的执行效率比普通的加减乘除也来的直接。再一次见证了算法的魅力了吧。最后贴出完整程序供大家学习:
package BitmapStore;
import java.text.MessageFormat;
/**
* 位示图法存储数据,面对大数据的时候可以减少内存的使用
* @author lyq
*
*/
public class Client {
//声明了整形数组,最大的存放的数字的值可以到3 * 32
private static int[] bitmap = new int[3];
public static void main(String[] agrs){
// int[] initArray = new int[]{2, 15, 33, 75, 178, 1000};
int[] initArray = new int[]{15, 31, 75};
for (int i = 0; i < initArray.length; i++) {
setBitmapNumber(initArray[i]);
}
for (int i = 0; i < initArray.length; i++) {
setIntToBit(bitmap[i]);
}
getBitmapNumber();
}
/**
* 传入的数字,用来存储在位图中
* @param number
*/
public static void setBitmapNumber(int number){
int index = number / 32;
int pos = number % 32;
int flag = 1;
//如果刚好整除
if(pos == 0){
//算上个整数位的
pos = 32;
index--;
}
for(int j=0; j<pos-1; j++){
//左移pos个位置,用于后面的位运算
flag = flag << 1;
}
//找到此数组的位置,进行或运算,把此位置的0变为1
bitmap[index] = bitmap[index] | flag;
System.out.println(MessageFormat.format("第{0}下标,第{1}位,值为{2}", index, pos, bitmap[index]));
}
/**
* 获取位图中所存放的数字
*/
private static void getBitmapNumber(){
int temp = 0;
//在单个数字中的位偏移量
int offset = 1;
int flag = 1;
for(int i=0; i<bitmap.length; i++){
temp = bitmap[i];
for(int j=0; j<31; j++){
if((temp & flag) == 1){
//说明最右边一位为1
System.out.println(MessageFormat.format("第{0}下标,第{1}位,值为{2}", i, offset, 32 * i + offset));
}
temp = temp >> 1;
offset++;
}
//重置偏移量为1
offset = 1;
}
}
/**
* 整数表示成二进制位的形式
* @param number
*/
public static void setIntToBit(int number){
int flag = 1;
for(int j=0; j<31; j++){
if((number & flag) == 1){
//说明最右边一位为1
System.out.print(1);
}else{
System.out.print(0);
}
number = number >> 1;
}
System.out.print("\n");
}
}