位图法

位图法是大数据处理中经常用到的技巧，觉得挺有趣，就来讲几句，希望能把位图的思想解释清楚。

个人理解，如有错误，欢迎各路大神指正！

位图法：计算机中表示数据的最小单位为Bit,存储0或者1。而c#中int的大小为4个字节，即32个bit。

如果用int类型表示一个数值，那么一个数值就需要用到32位的存储空间，如果使用0或者1来表示当前索引对应值是否存在，那么原本一个int所占用的空间，可以表示32个整数。

[0] [1] [1] [0] [0] [0] [0] [1] ，如果当一个元素的值为1时，我们就可以判断出其对应的索引值存在，这个例子中表示1，2，7存在。

可以简单的说，数据内存占用率降低到了1/32.

当我们要处理的数据量不仅巨大，并且数据值也极大的时候，用一般的整数值类型（int，int64,long）会造成大量的内存消耗。

这时候使用位图法，就能体现出其优势。

实现（c#）：

这里是用位图法实现的排序方法。

public static Array BitSort(int[] arr, int largestNumber) //传入数组，以及数组的最大值
        {
            BitArray bitAry = new BitArray(largestNumber+1);//根据数据的最大值，创建相应的点阵列

            foreach (var item in arr) 
            {
                bitAry[item] = true;//把数组元素值作为索引，将该索引对应的值置为1，表示该值存在
            }
            //一次遍历之后，要排序的数组包含的所有值，在点阵列中被置为1

            int[] result = new int[arr.Length];

            var j = 0;
            for (var i = 0; i < bitAry.Length; i++) 
            {
                if (bitAry[i] == true) //遍历点阵列，如果对应的值为1，则将其索引值放置到新集合内，一次遍历，就可以完成排序
                {
                    result[j] = i;
                    j++;
                }
            }


            return result;
        }

用位图法，也可以来快速判断，一个大数据集合中，是否包含了某个特定的值。

思路：创建位图来反应数据集，用特定值作为索引，判断值是否为1，若为1，则表示该值存在于数据集合中。

也可以用来去重，有兴趣的，可以自己实现以下。

劣势：

1. 需要知道数据集的范围，方可快速确定知道需要创建多大的位图。

2. 如果数据离散程度大，那么空间使用率低。如[1,2,3,4,5,900000,900001]

3. 可能较难理解。

posted @ 2018-05-21 23:30 狮子还是喵阅读(883) 评论(0) 编辑收藏举报

刷新页面返回顶部

狮子还是喵

位图法

公告