Fork me on GitHub

极客时间课程《数据结构与算法之美》笔记05 - 排序

排序

冒泡

原地排序:就是特指空间复杂度是 O (1) 的排序算法。以下三个都是原地排序。

稳定性:如果待排序的序列中存在值相等的元素,经过排序之后,相等元素之间原有的先后顺序不变。

5a257a87a8539e2affcb74375032bc70.png

// 冒泡排序,a 表示数组,n 表示数组大小
public void bubbleSort(int[] a, int n) {
  if (n <= 1) return;
 
 for (int i = 0; i < n; ++i) {
    // 提前退出冒泡循环的标志位
    boolean flag = false;
    for (int j = 0; j < n - i - 1; ++j) {
      if (a[j] > a[j+1]) { // 交换
        int tmp = a[j];
        a[j] = a[j+1];
        a[j+1] = tmp;
        flag = true;  // 表示有数据交换      
      }
    }
    if (!flag) break;  // 没有数据交换,提前退出
  }
}

冒泡特色:

  • 原地排序,空间复杂度O(1)。
  • 稳定的排序算法。
  • 最好情况,一次冒泡操作,时间复杂度O(n),最坏O(exp(n) 。

分析排序复杂度的两个指标:
有序度:是数组中具有有序关系的元素对的个数。

有序元素对:a[i] <= a[j], 如果 i < j。

对于一个倒序排列的数组,比如 6,5,4,3,2,1,有序度是 0;对于一个完全有序的数组,比如 1,2,3,4,5,6,有序度就是 n*(n-1)/2,也就是 15。我们把这种完全有序的数组的有序度叫作满有序度

逆序度:与有序度相反,逆序度 = 满有序度 - 有序度。

插排

将数组中的数据分为两个区间,已排序区间和未排序区间。
b60f61ec487358ac037bf2b6974d2de1.jpeg
需要将数据a插入到已排序区间时,需要拿a与已排序区间的元素比较找到合适的插入位置。

// 插入排序,a 表示数组,n 表示数组大小
public void insertionSort(int[] a, int n) {
  if (n <= 1) return;

  for (int i = 1; i < n; ++i) {
    int value = a[i];
    int j = i - 1;
    // 查找插入的位置
    for (; j >= 0; --j) {
      if (a[j] > value) {
        a[j+1] = a[j];  // 数据移动
      } else {
        break;
      }
    }
    a[j+1] = value; // 插入数据
  }
}

插排特点:

  • 原地排序
  • 稳定排序
  • 同冒泡,最好O(n),最坏O(exp(n)),平均O(exp(n))。

选择排序

和插排有点类似,也区分已排序区间和未排序区间。选择排序每次会从未排序区间中找到最小的元素,将其放到已排序区间的末尾。
32371475a0b08f0db9861d102474181d.jpeg

选择排序特点:

  • 原地排序
  • 不稳定排序
  • 同冒泡,最好,最坏,平均都是O(exp(n))。

插排比冒泡好的原因

从代码实现上来看,冒泡排序的数据交换要比插入排序的数据移动要复杂,冒泡排序需要 3 个赋值操作,而插入排序只需要 1 个。

冒泡排序中数据的交换操作:
if (a[j] > a[j+1]) { // 交换
   int tmp = a[j];
   a[j] = a[j+1];
   a[j+1] = tmp;
   flag = true;
}

插入排序中数据的移动操作:
if (a[j] > value) {
  a[j+1] = a[j];  // 数据移动
} else {
  break;
}


接下来是两种时间复杂度O (nlogn)的排序算法:归并排序快速排序。这两种适合大规模数据排序,均用到了分治思想。

分治是一种解决问题的处理思想,递归是一种编程技巧,这两者并不冲突。

归并排序

db7f892d3355ef74da9cd64aa926dc2b.jpeg

递推公式:
merge_sort(p…r) = merge(merge_sort(p…q), merge_sort(q+1…r))

终止条件:
p >= r 不用再继续分解
(实际上是分解成为单个元素然后有序合并)

伪代码:

// 归并排序算法, A 是数组,n 表示数组大小
merge_sort(A, n) {
  merge_sort_c(A, 0, n-1)
}

// 递归调用函数
merge_sort_c(A, p, r) {
  // 递归终止条件
  if p >= r  then return

  // 取 p 到 r 之间的中间位置 q
  q = (p+r) / 2
  // 分治递归
  merge_sort_c(A, p, q)
  merge_sort_c(A, q+1, r)
  // 将 A[p...q] 和 A[q+1...r] 合并为 A[p...r]
  merge(A[p...r], A[p...q], A[q+1...r])
}

其中merge()函数的伪代码:

merge(A[p...r], A[p...q], A[q+1...r]) {
  var i := p,j := q+1,k := 0 // 初始化变量 i, j, k
  var tmp := new array[0...r-p] // 申请一个大小跟 A[p...r] 一样的临时数组
  while i<=q AND j<=r do {
    if A[i] <= A[j] {
      tmp[k++] = A[i++] // i++ 等于 i:=i+1
    } else {
      tmp[k++] = A[j++]
    }
  }
  
  // 判断哪个子数组中有剩余的数据
  var start := i,end := q
  if j<=r then start := j, end:=r
  
  // 将剩余的数据拷贝到临时数组 tmp
  while start <= end do {
    tmp[k++] = A[start++]
  }
  
  // 将 tmp 中的数组拷贝回 A[p...r]
  for i:=0 to r-p do {
    A[p+i] = tmp[i]
  }
}

如果我们定义求解问题 a 的时间是 T (a),求解问题 b、c 的时间分别是 T (b) 和 T ( c),那我们就可得到递推关系式:
T(a) = T(b) + T(c) + K
K是讲子问题b、c的结果合并成为问题a的结果所消耗的时间。

归并排序特点:

  • 稳定的排序算法
  • 时间复杂度O (nlogn),最好最坏平均都是此复杂度。
  • 非原地排序,空间复杂度O (n)

快速排序

4d892c3a2e08a17f16097d07ea088a81.jpeg

分区:
6643bc3cef766f5b3e4526c332c60adc.jpeg

原地分区函数伪代码(空间复杂度O(1)):

partition(A, p, r) {
  pivot := A[r]
  i := p
  for j := p to r-1 do {
    if A[j] < pivot {
      swap A[i] with A[j]
      i := i+1
    }
  }
  swap A[i] with A[r]
  return i

快排特点:

  • 非稳定排序
  • 可以原地排序
  • 递归实现,时间复杂度,最好O(nlogn),最坏O(exp(n))

快排与归并的区别:
aa03ae570dace416127c9ccf9db8ac05.jpeg
归并处理过程是由下到上,先子问题,再合并。
快排处理过程是由上到下,先分区,再子问题。

O(n)时间复杂度内求无序数组中的第K大元素
借鉴快排的分治和分区思想。递归分区,然后比较pivot的下标p+1与K。


线性排序

接下来三种时间复杂度为O(n)的排序算法:桶排序、计数排序、基数排序。因为复杂度是线性的,所以叫做线性排序。主要原因是:不涉及元素间的比较操作
对排序数据要求比较高,比如给100万用户基于年龄排序。

桶排序

核心思想:将数据分到几个有序的桶里,每个桶里的数据再单独进行排序。桶内排完序之后,再把每个桶里的数据按照顺序依次取出,可得有序序列。
987564607b864255f81686829503abae.jpeg

数据有n个,均匀划分到m个桶内。每个桶k=n/m个元素,桶内快排O(k*logk)。桶排序的时间复杂度为
O (n*log (n/m))。当桶的个数m接近数据个数n时,log(n/m)就是一个非常小的常量,桶排序的时间复杂度接近O(n)。空间复杂度为O(1)。

桶排序比较适合用在外部排序中:数据比较大,无法全部加载到内存中。

计数排序

一个理解:计数排序可以作为桶排序的一种特殊情况
举例说明:8个考生,成绩在0到5分之间,放在数组A[8]中,分别是:2,5,3,0,2,3,0,3。
考生的成缋从0到5分,我们使用大小为6的数组C[6]表示桶,其中下标对应分数。不过, C[6]内存储的并不是考生,而是对应的考生个数。像我刚刚举的那个例子,我们只需要遍历一遍考生分数,就可以得到C[6]的值。
从图中可以看出,分数为3的考生有3个,小于3分的考生有4个,所以,成绩为3分的考生在排序之后的有序数组R[8]中,会保存下标4,5,6的位置。

361f4d781d2a2d144dcbbbb0b9e6db29.jpeg

思路如下:对C[6]数组顺序求和,C[k]存储小于等于分数k的考生个数。

dd6c62b12b0dc1b3a294af0fa1ce371f.jpeg

我们从后到前依次扫描数组A。比如,当扫描到3时,我们可以从数组C中取出下标为3的值7,也就是说,到目前为止,包括自己在内,分数小于等于3的考生有7个,也就是说3是数组R中的第7个元素(也就是数组R中下标为6的位置)。当3放入到数组R中后,小于等于3的元素就只剩下了6个 了,所以相应的C[3]要减1,变成6。

以此类推,当我们扫描到第2个分数为3的考生的时候,就会把它放入数组R中的第6个元素的位置(也就是下标为5的位置)。当我们扫描完整个数组A后,数组R内的数据就是按照分数从小到大有序排列的了。

1d730cb17249f8e92ef5cab53ae65784.jpeg

// 计数排序,a 是数组,n 是数组大小。假设数组中存储的都是非负整数。
public void countingSort(int[] a, int n) {
  if (n <= 1) return;

  // 查找数组中数据的范围
  int max = a[0];
  for (int i = 1; i < n; ++i) {
    if (max < a[i]) {
      max = a[i];
    }
  }

  int[] c = new int[max + 1]; // 申请一个计数数组 c,下标大小 [0,max]
  for (int i = 0; i <= max; ++i) {
    c[i] = 0;
  }

  // 计算每个元素的个数,放入 c 中
  for (int i = 0; i < n; ++i) {
    c[a[i]]++;
  }

  // 依次累加
  for (int i = 1; i <= max; ++i) {
    c[i] = c[i-1] + c[i];
  }

  // 临时数组 r,存储排序之后的结果
  int[] r = new int[n];
  // 计算排序的关键步骤,有点难理解
  for (int i = n - 1; i >= 0; --i) {
    int index = c[a[i]]-1;
    r[index] = a[i];
    c[a[i]]--;
  }

  // 将结果拷贝给 a 数组
  for (int i = 0; i < n; ++i) {
    a[i] = r[i];
  }
}

计数排序特点

  • 数据范围不大的场景
  • 只能给非负整数排序,其他类型要转化为非负整数
  • 只涉及扫描遍历操作,时间复杂度是O(n)

基数排序

十万个手机号排序,桶排序和计数排序不适用。
一个思路:假设比较a,b两个手机号码的大小,如果前面几位a比b大,则后面几位不用看了。
先排最后一位,然后倒数第二位排序。这样11次排序之后,手机号码有序。
字符串举例:

df0cdbb73bd19a2d69a52c54d8b9fc0c.jpeg

这是稳定排序算法思路。这样,排序的数据有k位,就需要k次桶排序或者计数排序,总的时间复杂度是O(k*n)。
所以基数排序的时间复杂度近似于O(n)

实际上有些时候数据不是等长的,比如单词排序,有长有短。可以把所有单词补齐到相同长度,位数不够的在后面补0,根据ASCII值,所有字母大于“0”,所以不会影响大小顺序。

总结:
基数排序对要排序的数据是有要求的,需要可以分割出独立的"位"来比较,而且位之间有递进的关系,如果a数据的高位比b数据大,那剰下的低位就不用比较了。除此之外,每一位的数据范围不能太大,要可以用线性排序算法来排序(基数排序需要借助桶排序或者计数排序来完成每一位的排序工作),否则,基数排序的时间复杂度就无法做到〇(n) 了。

解答开篇:如何给100万用户基于年龄排序。使用桶排序。

排序优化

常见几种排序算法的比较:
1f6ef7e0a5365d6e9d68f0ccc71755fd.jpeg

小规模数据可以选择时间复杂度为O(exp(n))的算法,如果对大规模数据排序,时间复杂度O(nlogn)更高效。所以,为了兼顾更多情况,一般都会选择O(nlogn)排序算法实现排序。

快速排序优化方式:

  • 三数取中法
    从区间的首、尾、中间,分别取一个数,然后找中间值作为分区点。
  • 随机法
    随机选择一个元素作为分区点。
  • 避免递归过深而堆栈过小
    限制递归深度,过线则停止递归。
    在堆上模拟实现一个函数调用栈,没有了系统栈大小的限制。

因为有系数和常数因素,小规模数据的排序,O(exp(n))的排序算法并不一定比O(nlogn)排序算法执行的时间长。所以会选择简单、不需要递归的插入排序算法。

posted on 2019-07-08 11:20  JackKing_defier  阅读(207)  评论(0编辑  收藏  举报