所有排序总结（内排序）（续）——线性时间排序

一、前言

这里稍微证明一下基于比较的排序算法的下界，采用决策树模型。下图是一个含三个元素的输入序列，采用插入排序算法的决策树。每一个结点里面包含（i,j）。左子树代表i<=j的情况，右子树代表i>j的情况。

各位，如果有跟我一样，半天看不懂的话，我就稍微解释一下。拿（1,2,3）这个序列的得出，稍作说明。在根节点处，1和2比较（输入位置为1的元素与输入位置为2的元素比较，不是1和2比较，下同）。 1<2，进入到左子树。 2和3比较， 2<3，还是到左子树得出排序后的序列（1,2,3）。

有一点要说明的是：任何一个正确的排序算法，都能产生全部n!个序列。这n!个序列对应决策树中的所有叶节点。

从这个模型明显可以得出结论：从根节点到任意一个叶节点之间最长路径的长度，也即决策树的高度（每一本书所说的高度概念不一致，这里取图中的高度为3），表示排序算法在最坏情况下的比较次数。

利用决策树模型对基于比较的排序算法时间下界的证明：

      考虑一个高为 h，  叶节点个数为l的  决策树。  输入序列为n。  显然  n!<=l。（说明:如果不考虑n个元素有相等的情况，n!应该等于l）.

      又，一个高度为h的完全二叉树的叶节点的数目为2h。   l <= 2h 

      即      n!<=l<=2h.

      取对数可得到   h>=lg(n!)。

      又， lg(n!) = Θ(nlgn);
      得到   h>=Ω(nlgn);

说明一下这个：lg(n!) = Θ(nlgn);

（注：好长时间没看这些，应该是从来没有认真看过==... 都没有搞清楚 Ο Θ Ω 这个几个符号的意思。翻了导论前面几章才算明白。这个的证明要用到斯特灵公式。我感觉已经超出我的能力范围之外了，不想花时间再去研究这玩意儿了。）

斯特林公式参看这里 http://zh.wikipedia.org/wiki/%E6%96%AF%E7%89%B9%E9%9D%88%E5%85%AC%E5%BC%8F）

简单说就是：

f(n) = Θ(g(n)) 当且仅当f(n) = Ω(nlgn)和f(n) = Ο(nlgn)。这里的“=”并不是等号的意思。 f(n) = Θ(g(n)) 是 f(n) 属于 Θ(g(n)) 的意思，Θ(g(n)) 是一个集合。

lg(n!) = Θ(nlgn); 就是说存在 c1和c2 所有的n>=n₀,有 0<=c1(nlgn) <= lg(n!) <= c2(nlgn) 。

二、三种线性时间排序

1、计数排序

计数排序就是根据元素的值统计元素的个数，然后直接把元素放到合适的位置，以达到Θ(n)的目的。思路也很简单，废话不多说，直接上代码

 1 #include <stdio.h>
 2 #include <stdlib.h>
 3 void countingSort(int *A,int n,int *B,int *C,int k)
 4 {
 5     //A为待排序的数组；
 6     //n为A数组的长度；
 7     //B为保存的结果；
 8     //C为临时存储区  长度为k
 9     //k为n个数据输入的范围； 0~~k-1
10     for(int i=0;i<k;i++)
11        C[i] = 0;
12     for(int j=0;j<n;j++)
13        C[A[j]] += 1;      //统计每个位置的个数
14     for(int i=1;i<k;i++)
15        C[i] += C[i-1];   //c[i]表示小于等于i的个数
16     for(int j = n-1;j>=0;j--)//放到合适的位置,因为是从0开始  要减1
17     {
18         B[C[A[j]]-1] = A[j]; //c[i]表示小于等于i的个数  B[]从0开始  c[i]-1 表示在B中的位置
19         C[A[j]] -= 1;
20     }
21 }
22 int main()
23 {
24     int n=11;//待排序的长度
25     int k=11;//数字范围 为 0~~k-1
26     int a[n] ;
27     int b[n] ;
28     int c[k] ;
29     for(int i=0;i<n;i++)
30        a[i] = rand()%k ;
31     for(int i=0;i<n;i++)
32        printf("%d ",a[i]);
33     printf("\n");
34     countingSort(a,n,b,c,k);
35     for(int i=0;i<n;i++)
36      printf("%d ",b[i]);
37     return 0;
38 }

写代码的时候，习惯从0开始了。导致第四个for循环的时候忘记减1了，纠结了好久。。。。显然可以看出上面的计数排序的Θ(n+k)。好吧，我一开始也不知道这个是怎么来的。一共四个循环，Θ(2n+2k)，去掉常数就是Θ(n+k)，n表示待排序数组，k表示要排序的的值的范围。这样，计数排序就很有局限了，k的值注定了这种排序的适用范围很小。

2、桶排序

也许看完上面的计数排序，你会发现既然C数组已经统计完了每个值的个数，那么直接扫描一遍C数组，依次序输出也就OK了。这个就算是桶排序了，这里的每个桶只能存储一个值，算作是特殊的桶排序吧。将上面的代码稍作改变就可以得到：

 1 void BucketSort(int *A,int n,int *B,int *C,int k)
 2 {
 3     //A为待排序的数组；
 4     //n为A数组的长度；
 5     //B为保存的结果；
 6     //C为临时存储区  长度为k
 7     //k为n个数据输入的范围； 0~~k-1
 8     for(int i=0;i<k;i++)
 9        C[i] = 0;
10     for(int j=0;j<n;j++)
11        C[A[j]] += 1; //统计每个位置的个数
12     int j=0;
13     for(int i=0;i<k;i++)
14     {
15         while(C[i]!=0)
16         {
17             B[j++] = i;
18             C[i]--;
19         }
20     }
21 }

一般桶排序的操作步骤就是：

1、确定要排序数组的取值范围，并划分成M个区间；

2、给这个M区间划分M个桶，并对每个桶内进行排序；

3、再依次序把这M个桶的元素串接起来。

这里上一幅导论里面的图，它讲100划分成10个区间，设计10个桶。然后将数组里面的元素放到相应的桶里面去。

附上我写的代码（实际是参考别人写的==！一个链表操作写了好长时间，还被别人鄙视了无数遍。。。。。。。。。）

#include <stdio.h>
#include <stdlib.h>
struct Node
{
    int value;
    Node *next;
};
void BucketSort(int *array,int n,int low,int high,int interval)
{//low和high分别代表  元素的最小值 和最大值
 //n为待排序数组长度，interval间隔
    int BucketNum = (high-low)/interval;//有多少个桶
    Node *BucketArray = new Node[BucketNum];
    Node *pre,*cur;
    int count=0;
    for(int i=0;i<10;i++)
    {
        BucketArray[i].value = 0;
        BucketArray[i].next = NULL;  //初始化。。。。
    }
    for(int i=0;i<n;i++)
    {
        Node *insert = new Node();
        insert->value = array[i];    //待插入的节点
        int num = array[i]/interval;
        if(BucketArray[num].next == NULL)
        {
            BucketArray[num].next = insert;   //每个桶的第一个节点保持空
        }
        else
        {
            pre = &BucketArray[num];
            cur = BucketArray[num].next;
            while(cur!=NULL && cur->value<=array[i])//找到合适的位置。
            {
                cur = cur->next;
                pre = pre->next;
            }
            insert->next = cur;
            pre->next = insert;

        }
    }
    for(int i=0;i<BucketNum;i++)
    {
        cur = BucketArray[i].next;
        if(cur == NULL)
            continue;
        while(cur!=NULL)
        {
            array[count++] = cur->value;
            cur = cur->next;
        }
    }
}
int main()
{
    int a[10];
    for(int i=0;i<10;i++)
    {
        a[i] = rand()%100;//随机数
    }
    BucketSort(a,10,0,100,10);
    for(int i=0;i<10;i++)
    {
        printf("%d ",a[i]);
    }
    return 0;
}

这段代码里面，设元素有N个，M个桶，平均每个桶里面有N/M个元素。在桶里面的，我没有采用其他的排序算法，简单的插入。因此桶里面为Θ(N/M)。总的时间复杂度为 Θ(N * N/M)=Θ(N²/M) ，可以看出来，当桶的数量越多。。。趋近于N时，时间复杂度就为Θ(N)了。

3、基数排序

基数排序是对多个关键字的排序。两种方式，一是从首要关键字到次要关键字，另外一种是从次要关键字到首要关键字。导论上面说的是第二种。如果是从首要关键字开始，就要对首要关键字相同的进行分堆，再根据次要关键字排序。增加开销，有点桶排序的味道了。

这里我以技术排序为基础，从次要关键字开始，写了这个基数排序：

 1 #include <stdio.h>
 2 #include <stdlib.h>
 3 #include <math.h>
 4 void countingSort(int *A,int n,int *C,int k,int d)
 5 {
 6     //A为待排序的数组；
 7     //n为A数组的长度；
 8     //B为保存的结果；
 9     //C为临时存储区  长度为k
10     //k为n个数据输入的范围； 0~~k-1
11     int B[n];
12     int key=0;
13     for(int i=0;i<k;i++)
14        C[i] = 0;
15     for(int j=0;j<n;j++)
16     {
17         key = (A[j]/(int)(pow(10,d)))%10;//分离位数用。。。。
18         C[key] += 1;      //统计每个位置的个数
19     }
20     for(int i=1;i<k;i++)
21        C[i] += C[i-1];   //c[i]表示小于等于i的个数
22     for(int j = n-1;j>=0;j--)//放到合适的位置,因为是从0开始  要减1
23     {
24         key = (A[j]/(int)(pow(10,d)))%10;
25         B[C[key]-1] = A[j]; //c[i]表示小于等于i的个数  B[]从0开始  c[i]-1 表示在B中的位置
26         C[key] -= 1;
27     }
28     for(int i=0;i<n;i++)
29     {
30         A[i]=B[i];
31     }
32 }
33 void radixSort(int A[],int n,int d)
34 {
35     int k=10;//数字范围 为 0~~k-1
36     int C[k] ;
37     for(int i=0;i<d;i++)
38     {
39         countingSort(A,n,C,k,i);
40     }
41 }
42 int main()
43 {
44     int A[10];
45     for(int i=0;i<10;i++)
46        A[i] = rand()%999;
47     for(int i=0;i<10;i++)
48        printf("%d ",A[i]);
49     printf("\n");
50     radixSort(A,10,3);
51     for(int i=0;i<10;i++)
52      printf("%d ",A[i]);
53     return 0;
54 }

有人跟我说，代码里面key对位数的获取，可以用位操作，我想了想，需要BCD码，没有想到特别好的解决方案，还是这样易懂。我总觉得硬性搞成位操作反而有点麻烦了，没有多大意义。没有让人眼睛一亮的解决方案。上面的代码时间复杂度为Θ(d(n+k));

三、总结

显然，线性时间排序有很大的局限，对数据值范围有要求。

另外，写这三个排序，原本以为半天多都可以搞定，结果弄了两三天。遭到了无数的鄙视。。最关键还是自己不够熟悉。。

关于排序，暂时就到这里吧。开学了，下学期专业课压死人。每学期好多门课，但是都感觉没一门学得扎实。

以后如果有新的认识，我会再继续写写的。我觉得还会有续的，就是不知道多久了。。。。

持续关注数据结构算法，一来，它很重要，二来，还是有点兴趣。

最后，推荐一篇文章挺有启发意义的。

http://mindhacks.cn/2008/06/13/why-is-quicksort-so-quick/

posted @ 2012-08-21 14:18 细胞核阅读(1370) 评论(1) 编辑收藏举报

刷新页面返回顶部

细胞核

奇怪的生物

所有排序总结（内排序）（续）——线性时间排序

公告