《编程珠玑》中“位图排序”引发的一系列实验

问题:

一个文件有8*106个正整数,每个数都小于107。文件中所有整数都是唯一的。要求对这些整数排序,按升序把排序的结构输出到磁盘上。

 

解决问题的方案有很多,下面我们介绍几种典型的方案。

 

1、高效的“位图排序”

特殊要求:最多有大约1M的内存空间可用!

如果在这个限制下,快速的对这些整数进行排序,一个优秀的解决方案是使用“位图排序”。

位图排序的思想就是在内存中申请一块连续的空间作为位图,初始时将位图的每一位都置为0。然后依次读取待排序的整数,将整数对应的位设置为1。最后按顺序扫描位图,如果某一位为1,输出到已排序文件。

比如待排序的数据S={3,0,4,1,7,2,5},最大为7,我们可以设置一个八位的位图B,将位图的每一位初始为0。对S中的每一个整数d,设置B[d]=1,即B=[1,1,1,1,1,1,0,1],最后扫描位图,对位图的每一位i,如果B[i]==1,则输出i到已排序文件,排序后的S={0,1,2,3,4,5,7}。

整个过程只需要遍历一遍待排序文件和位图,时间复杂度O(n),需要的辅助空间为(max(S)/8)字节。

程序代码:

bitmap_sort.c

#include <stdio.h>
#include "data_size.h"

#define SHIFT 5
#define MASK 0x1F

int a[1+MAX_DATA/32];

void set(int i)
{
    a[i>>SHIFT] |=1<<(i& MASK );
}

int test(int i)
{
    return a[i>>SHIFT] & (1<<(i& MASK ));
}

int main(int argc,char** argv)
{
    int i=0;
    FILE *fin=NULL,*fout=NULL;
    for(i=0;i<1+MAX_DATA/32;i++)
        a[i]=0;

    if((fin=fopen(argv[1],"r"))==NULL)
    {
        printf("error!\n");
        return 1;
    }
    while(fscanf(fin,"%d",&i)!=EOF)
        set(i);
    
    if((fout=fopen(argv[2],"w"))==NULL)
    {
        printf("error!\n");
        return 1;
    }
    for(i=0;i<MAX_DATA;i++)
        if(test(i))
            fprintf(fout,"%d\n",i);
    fclose(fin);
    fclose(fout);
    return 0;
}

data_size.h

#ifndef DATA_SIZE_H_
#define DATA_SIZE_H_

#define SIZE 8000000
#define MAX_DATA 10000000

#endif

生产待排序文件数据的程序见附录。

 

测试(用time命令统计运行时间):(2次)

编译之后的可执行程序:bitmapsort  待排序文件:data.txt  输出文件:data2.txt

 

注:linux的time统计程序的运行时间,其统计结果包含以下数据:
1)实际时间(real time): 从command命令行开始执行到运行终止的消逝时间;
2)用户CPU时间(user CPU time): 命令执行完成花费的用户CPU时间,即命令在用户态中执行时间总和;
3)系统CPU时间(system CPU time): 命令执行完成花费的系统CPU时间,即命令在核心态中执行时间总和

 

2、linux排序命令

$ time sort -n -o data3.txt data.txt

使用linux的sort命令进行排序。

-n  :使用“纯数字”进行排序(默认是以文字型态来排序的);

-o : 把排序结果输出到文件,而不是控制台

 

测试:(2次测试)

待排序文件:data.txt  输出文件:data3.txt

 

3、C标准库的qsort()函数

qsort包含在<stdlib.h>头文件中,此函数根据你给的比较条件进行快速排序,通过指针移动实现排序。排序之后的结果仍然放在原数组中。使用qsort函数必须自己写一个比较函数。

函数原型:

void qsort ( void * base, size_t num, size_t size, int ( * comparator ) ( const void *, const void * ) );

base :数组起始地址
num:数组元素个数
siz:每一个元素的大小
comparator:函数指针,指向比较函数

qsort.c

#include <stdio.h>
#include <stdlib.h>
#include "data_size.h"

int intcomp(const void *x, const void *y)
{
    return *(int *)x-*(int *)y;
}

int a[SIZE];

int main(int argc, char** argv)
{
    FILE *fin=NULL,*fout=NULL;
    if((fin=fopen(argv[1],"r"))==NULL)
    {
        printf("open file error!\n");
        return 1;
    } 
    int i=0;
    while(fscanf(fin,"%d",&a[i])!=EOF)
        i++;
    qsort(a,SIZE,sizeof(int),intcomp);

    if((fout=fopen(argv[2],"w"))==NULL)
    {
        printf("open file error!\n");
        return 1;
    }
    for(i=0;i<SIZE;i++)
        fprintf(fout,"%d\n",a[i]);
    return 0; 
}

测试:(2次)

编译之后的可执行程序:qsort  待排序文件:data.txt  输出文件:data4.txt

 

4、C++标准库中set容器来进行排序

因为待排序的整数都是唯一的,并且set容器内部会按照一定的顺序组织内部的数据。我们可以用set容器来进行排序。

set_sort.cpp

#include <iostream>
#include <fstream>
#include <set>
using namespace std;

int main(int argc,char **argv)
{
    int i=0,n=0;
    set<int> s;
    set<int>::iterator it;
    ifstream in(argv[1]);
    if(!in.is_open())
    {
        cout<<"error"<<endl;
        return 1;
    }
    while(!in.eof())
    {
        in>>n;
        s.insert(n);
    }

    ofstream out(argv[2]);
    if(!out.is_open())
    {
        cout<<"error"<<endl;
        return 1;
    }
    for(it=s.begin();it!=s.end();++it)
    {
        out<<*it<<endl;
    }

    in.close();
    out.close();
    return 0;
}

测试:

编译之后的可执行程序:set_sort  待排序文件:data.txt  输出文件:data5.txt

 

总结

上面四个程序的排序结果都正确,已用diff命令对比过。

从上面的运行时间,我们可以看出:

位图排序、C标准库qsort(排序)、系统命令排序、C++标准库set容器排序,它们的排序运行时间依次增高。

在特殊要求“最多有大约1M的内存空间可用!”的情况下,位图排序是一个非常优秀的排序方法,其运行速度快且占用内存小,但是前提是,待排序的数据都是整数,且不存在重复。

 

附录:

生产包含8*106个正整数 且 每个数都小于107的排序文件。

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include "data_size.h"

int a[MAX_DATA];

void swap(int i,int j)
{
    int temp=a[j];
    a[j]=a[i];
    a[i]=temp;
}

int main(int argc, char **argv)
{
    int i=0;
    printf("%x\n",RAND_MAX);
    printf("%ld\n",time(NULL));
    srand(time(NULL));

    for(i=0;i<MAX_DATA;i++)
    {
        a[i]=i;
    }

    for(i=0;i<SIZE;i++)
    {
        int j=rand()%MAX_DATA;
        swap(i,j);
    }

    FILE * fin=NULL;
    if((fin=fopen(argv[1],"w"))==NULL)
    {
        printf("error!\n");
        return 1;
    }

    for(i=0;i<SIZE;i++)
    {
        fprintf(fin,"%d\n",a[i]);
    }
    fclose(fin);
    
    printf("success!\n");
    return 0;
}

 

posted @ 2013-10-06 21:00  windlaughing  阅读(940)  评论(2编辑  收藏  举报