排序
排序算法的稳定性:一个稳定的排序算法,如果两个等值键R和S在排序前后次序不变,称其是稳定的
(3, 1) (3, 7) (4, 1) (5, 6) 维持次序,稳定
(3, 7) (3, 1) (4, 1) (5, 6) 次序被改变,不稳定
1.冒泡排序
两两相邻记录的关键字,如果反序就交换,直到没有反序的记录为止。
# 直觉的写法,但实际不能算冒泡 def bubble_sort(alist): for i in range(len(alist)-1): # 从第一个元素到倒数第二个元素 for j in range(i+1, len(alist)): # 如果a[i]比后面的元素更大,交换 if alist[i] > alist[j]: alist[i], alist[j] = alist[j], aslit[i]
因为实际上每次固定的a[i]会和后面的所有元素都比较一遍,并不是冒泡中的比较两两相邻的关键字。
两两是相邻元素;如果有n个元素那就要比较n-1轮,每一轮都减少一次比较;从下往上两两比较,就像泡泡往上冒一样。
# 升序 def bubble_sort(alist): n = len(alist) for i in range(n-1): # 当前轮从a[i]开始,两两相邻比较,最后一轮从a[n-2]开始。a[:i]已经有序 for j in range(n-1, i, -1): # 从下向上冒 if alist[j] < alist[j-1]: # 如果后一个元素比前一个小,就交换 alist[j], alist[j-1] = alist[j-1], alist[j]
做一点优化
def bubble_sort_pro(alist): n = len(alist) for i in range(n-1): count = 0 for j in range(n-1, i, -1): if alist[j] < alist[j-1]: alist[j], alist[j-1] = alist[j-1], alist[j] count += 1 if count == 0: # 如果某一轮没有进行任何交换,说明整个数组已经有序了 return
2.选择排序
通过n-i次关键字之间的比较,从n-i+1个记录中选出关键字最小的记录,并和第i个记录交换。1<=i<=n。
在未排序序列中找到最小(大)元素,放到已排序序列起始位置(一次交换);
然后,再从剩余未排序元素中继续寻找最小(大)元素,然后放到已排序序列的末尾(一次交换);
以此类推,直到所有元素均排序完毕
选择排序的优点在于数据移动的操作:如果某个元素位于正确的最终位置上,它就不会被移动。所以至多需要交换 n-1 次(因为第一次就直接认为第一个元素是最小(大))。操作的是无序的那部分。
def selection_sort(alist): n = len(alist) for i in range(n-1): # 要找 n-1 轮最值,第一个首先认为是个最小(大)值 min_index = i # 记录当前的最小(大)位置 for j in range(i+1, n): # 遍历剩下无序部分的元素,找出最小的,再交换 if alist[j] < alist[min_index]: min_index = j if min_index != i: alist[i], alist[min_index] = alist[min_index], alist[i]
3.直接插入排序
简单排序中性能最好的。将一个记录插入到一个已经排好序的有序表中。
通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入。所以过程中需反复把已经排序的元素向后挪。
操作的是有序的那部分。
def insert_sort(alist): n = len(alist) for i in range(1, n): for j in range(i, 0, -1): # 待插入元素为a[i],有序序列为a[:i] if alist[j] < alist[j-1]: alist[j], alist[j-1] = alist[j-1], alist[j] # a[i]从后往前比较,找到插入位置。就相当于一直交换。
优化
def insert_sort_pro(alist): n = len(alist) for i in range(1, n): j = i while j > 0: # 寻找插入位置,只要没到位置,一直交换,最终插入 if alist[j] < alist[j-1]: alist[j], alist[j-1] = alist[j-1], alist[j] j -= 1 else: # 如果找到要插入的位置了就不用往前再看了,避免了多余的循环 break
4.希尔排序
时间复杂度降到O(nlogn),对直接插入排序进行修改。
把记录按下标的一定增量(gap)分组,对每组使用直接插入排序算法排序;随着增量逐渐减少,每组包含的关键词越来越多,当增量减至1时,整个记录恰被分成一组,算法终止。
例如下图就是第一轮分了5组,第二轮分了2组
# 按gap进行插入排序 def shell_sort(alist): n = len(alist) gap = n // 2 while gap > 0: for i in range(gap, n): # 从 0+gap 开始往后找元素往有序序列中插入,一直找到最后 j = i while j >= gap and alist[j] < alist[j-gap]: # 每个子序列的j元素的前一个元素不再是j-1而是j-gap,因为要在a[j]属于的分组里做插入排序 alist[j-gap], alist[j] = alist[j], alist[j-gap] j -= gap gap //= 2 # 新步长
def shell_sort(alist): n = len(alist) gap = n // 2 while gap > 0: for i in range(gap, n): # 待插元素从a[gap]到最后 for j in range(i, 0, -gap): # a[i]找插入位置,每次不再向前挪1而挪gap即可 if alist[j] < alist[j-gap]: alist[j], alist[j-gap] = alist[j-gap], alist[j] gap //= 2
5.堆排序
利用前一趟比较的结果,对选择排序进行改进。堆是具有以下性质的完全二叉树:每个节点的值都大于等于(小于等于)其左右孩子节点的值。
大顶堆 & 小顶堆
1. 将待排序的序列构造成一个大顶堆(或小顶堆)
2. 整个序列的最大值就是堆顶的根节点,将它移走(与堆数组的末尾元素交换,此时末尾元素就是最大值)。
3. 将剩余的n-1个序列重新构造成一个堆,重复上述步骤,获得升序序列。
升序排序,使用大顶堆。
堆具有的性质,如果从堆的根节点开始从1往后编号,则节点的值满足:
,n/2向下取整。
树节点编号从1开始而数组下标从0开始。统一成从0开始计数,父节点 i 的左右孩子节点在2i+1、2i+2,子节点 i 的父节点在 floor((i-1)/2)
def heapify(arr, lst, i): """维护最大堆,以i为根节点的子树,最后一个节点lst""" largest = i left, right = 2*i+1, 2*i+2 # 找到 i、i的左子树、i的右子树中的最大值 if left <= lst and arr[i] < arr[left]: largest = left if right <= lst and arr[largest] < arr[right]: largest = right # 如果这三个节点中最大的不是i,则最大节点的值和i的值交换 if largest != i: arr[largest], arr[i] = arr[i], arr[largest] heapify(arr, lst, largest) # 继续对largest节点递归维护堆。如果i是最大的元素,则函数结束 def heap_sort(arr): n = len(arr) for i in range(int((n-1-1)/2), -1, -1): # 从最后一个节点n-1的父节点开始往顶上,第一个要维护的子树根节点为 floor(((n-1)-1)/2) heapify(arr, n-1, i) for i in range(n-1, 0, -1): arr[i], arr[0] = arr[0], arr[i] # 堆顶a[0] 和 当前堆的最后一个元素(如果认为每次都把排好的移除。实际就是arr[i])交换 heapify(arr, i-1, 0) # 交换后要从顶向下维护堆,堆最后一个节点为下标为i-1 a = [3,4,1,2,9,5,6,8] heap_sort(a) print(a)
优化,把heapify函数中的尾部递归用迭代实现,效率更高
def heapify(arr, lst, i): """维护最大堆,以i为根节点的子树,最后一个节点lst""" while True: largest = i left, right = 2*i+1, 2*i+2 # 找到 i、i的左子树、i的右子树中的最大值 if left <= lst and arr[i] < arr[left]: largest = left if right <= lst and arr[largest] < arr[right]: largest = right # 如果这三个节点中最大还是i,则函数结束 if largest == i: break arr[largest], arr[i] = arr[i], arr[largest] # 否则的把最大值换到当前根节点i上 i = largest # 继续下一轮,对当前的largest为根节点的子树进行维护
6.归并排序
分治思想,先递归分解数组,再合并数组。
将数组分解最小之后,把n个记录看成是n个有序的子序列,每个子序列长度为1。然后两两归并,得到ceil(n/2)个长度为2或者1的有序子序列,再两两归并...,如此重复直到得到长度为n的有序序列为止。
其中两两归并的基本思路是,比较两个数组的最前面的数,谁小就先取谁,取了后相应的指针就往后移一位。然后再比较,直至一个数组为空,最后把另一个数组的剩余部分复制过来即可。
def merge_sort(alist): if len(alist) <= 1: return alist # 二分分解 num = len(alist)//2 left = merge_sort(alist[:num]) right = merge_sort(alist[num:]) # 合并 return merge(left,right) def merge(left, right): '''合并操作,将两个有序数组left[]和right[]合并成一个大的有序数组''' #left与right的下标指针 l, r = 0, 0 result = [] while l<len(left) and r<len(right): if left[l] < right[r]: result.append(left[l]) l += 1 else: result.append(right[r]) r += 1 if l < len(left): result += left[l:] elif r < len(right): result += right[r:] return result
迭代实现,直接从下往上。
def merge_sort(alist): if alist is None or len(alist) <= 1: return alist # 每次要合并的两组数组为 a[low, low+i]、a[low+i, low+2*i] n = len(alist) tmp = [0]*n # 建立临时数组 i = 1 # 步长,也就是合并后数组元素的一半。第一次合并后数组长度为2,所以i初始化为1 while i < n: # 最后一次合并之前i不超过n。例如考虑n=5的情况,i=1,2,4,最后i=4合并长度为4,1的两组后结束,下一轮i=8,超过n了 # 开始一趟,两两合并所有分组数组,每一趟都从头开始 low = 0 while low < n: mid = low + i high = min(low + 2*i, n) # 如果第二组越界了,high等于n即可。数组a[n]会越界,但a[:n]不会,等价于a[:] if mid < high: # 只有存在第二组才需要merge。而第二组只要有元素,high一定大于等于mid+1 # merge merge(alist, low, mid, high, tmp) low += 2*i # 下两组的起始元素在上两组最后元素之后 i *= 2 # 每一趟合并全部结束后,下一趟步长翻倍 def merge(alist, low, mid, high, tmp): """这里merge要考虑分组数组长度为1的情况,还有high等于n的情况 所以还是用索引在长度上移动来遍历,比较不容易出错 """ l, r, k = 0, 0, 0 len_l, len_r = len(alist[low: mid]), len(alist[mid: high]) # 两个数组的长度 while l < len_l and r < len_r: # 只要有一个数组遍历完了,补上没有遍历完的即可 if alist[low + l] < alist[mid + r]: tmp[k] = alist[low + l] k += 1 l += 1 else: tmp[k] = alist[mid + r] k += 1 r += 1 if l < len_l: tmp[k: k + mid - (low + l)] = alist[low + l: mid] alist[low: high] = tmp[: k + mid - (low + l)] if r < len_r: tmp[k: k + high - (mid + r)] = alist[mid + r: high] alist[low: high] = tmp[: k + high - (mid + r)] alist = [54,26,93,17,77,31,44,55,20] merge_sort(alist) print(alist)
7.快速排序
通过一趟排序将要排序的数据分割成独立的两部分(选择一个比较基准),其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行。
步骤:
挑一个元素作为基准,重排元素,比基准大的放基准后面,比基准小的放基准前面;
递归的把两个子序列进行用上述方法分别排序
def quick_sort(alist): Qsort(alist, 0, len(alist)-1) def Qsort(arr, low, high): """待排序数组arr, 起始位置low, 末尾位置high """ if low < high: point = Partition(arr, low, high) # 根据基准点a[point]处理数组,小的放基准点左边大的放基准点右边 Qsort(arr, low, point-1) Qsort(arr, point+1, high) def Partition(arr, low, high): # 起始元素为要寻找位置的基准元素,先把基准点的值拿出来,序列中始终就有一个多余的空位 point_value = arr[low] # 基准点初始化为起始元素 # 两个游标,low自左向右,high自右向左 while low < high: while low < high and arr[high] >= point_value: # high游标自右向左找到比基准元素小的元素位置 high -= 1 arr[low], arr[high] = arr[high], arr[low] # 交换,把比基准点小的放前面 while low < high and arr[low] < point_value: # low游标自左向右找到比基准元素大的元素位置 low += 1 arr[high], arr[low] = arr[low], arr[high] # 交换,把比基准点大的放后面 alist[low] = point_value # 当low与high位置重合,这就是基准点在最终序列中的位置 return low
快速排序的优化
1. 优化基准点的选取,三数取中法,基准点选取三个数中间大小的那个,避免极端情况,提高性能。
def quick_sort(alist): Qsort(alist, 0, len(alist)-1) def Qsort(arr, low, high): """待排序数组arr, 起始位置low, 末尾位置high """ if low < high: point = Partition(arr, low, high) # 根据基准点a[point]处理数组,小的放基准点左边大的放基准点右边 Qsort(arr, low, point-1) Qsort(arr, point+1, high) def Partition(arr, low, high): # 令基准点介于a[low]和a[high]之间 mid = low + (high - low) // 2 if arr[mid] > arr[high]: arr[mid], arr[high] = arr[high], arr[mid] if arr[low] > arr[high]: arr[low], arr[high] = arr[high], arr[low] if arr[mid] > arr[low]: arr[low], arr[mid] = arr[mid], arr[low] point_value = arr[low] # 基准点 # 两个游标,low自左向右,high自右向左 while low < high: while low < high and arr[high] >= point_value: # high游标自右向左找到比基准元素小的元素位置 high -= 1 arr[low], arr[high] = arr[high], arr[low] # 交换,把比基准点小的放前面 while low < high and arr[low] < point_value: # low游标自左向右找到比基准元素大的元素位置 low += 1 arr[high], arr[low] = arr[low], arr[high] # 交换,把比基准点大的放后面 alist[low] = point_value # 当low与high位置重合,这就是基准点在最终序列中的位置 return low
2. 优化不必要的交换,直接改成赋值就行了,因为先把基准元素拿出来了,始终有一个位置是空余的。
def quick_sort(alist): Qsort(alist, 0, len(alist)-1) def Qsort(arr, low, high): """待排序数组arr, 起始位置low, 末尾位置high """ if low < high: point = Partition(arr, low, high) # 根据基准点a[point]处理数组,小的放基准点左边大的放基准点右边 Qsort(arr, low, point-1) Qsort(arr, point+1, high) def Partition(arr, low, high): # 令基准点介于a[low]和a[high]之间 mid = low + (high - low) // 2 if arr[mid] > arr[high]: arr[mid], arr[high] = arr[high], arr[mid] if arr[low] > arr[high]: arr[low], arr[high] = arr[high], arr[low] if arr[mid] > arr[low]: arr[low], arr[mid] = arr[mid], arr[low] point_value = arr[low] # 基准点 # 两个游标,low自左向右,high自右向左 while low < high: while low < high and arr[high] >= point_value: # high游标自右向左找到比基准元素小的元素位置 high -= 1 arr[low]= arr[high] # 赋值,把比基准点小的放前面 while low < high and arr[low] < point_value: # low游标自左向右找到比基准元素大的元素位置 low += 1 arr[high] = arr[low] # 交换,把比基准点大的放后面 alist[low] = point_value # 当low与high位置重合,这就是基准点在最终序列中的位置,填回去 return low
3. 优化小数组时的排序方案,数组长度小于7的时候用直接插入排序。
def InsertSort(alist, low, high): # 修改一下插入排序,只排序alist中low到high这一段 for i in range(low+1, high+1): for j in range(i, low, -1): if alist[j] < alist[j-1]: alist[j], alist[j-1] = alist[j-1], alist[j] def quick_sort(alist): Qsort(alist, 0, len(alist)-1) def Qsort(arr, low, high, MAX_LENGTH_INSERT_SORT=7): """待排序数组arr, 起始位置low, 末尾位置high """ if high - low > MAX_LENGTH_INSERT_SORT: point = Partition(arr, low, high) # 根据基准点a[point]处理数组,小的放基准点左边大的放基准点右边 Qsort(arr, low, point-1) Qsort(arr, point+1, high) else: # 数组小的话就直接插入 InsertSort(arr, low, high) def Partition(arr, low, high): # 令基准点介于a[low]和a[high]之间 mid = low + (high - low) // 2 if arr[mid] > arr[high]: arr[mid], arr[high] = arr[high], arr[mid] if arr[low] > arr[high]: arr[low], arr[high] = arr[high], arr[low] if arr[mid] > arr[low]: arr[low], arr[mid] = arr[mid], arr[low] point_value = arr[low] # 基准点 # 两个游标,low自左向右,high自右向左 while low < high: while low < high and arr[high] >= point_value: # high游标自右向左找到比基准元素小的元素位置 high -= 1 arr[low]= arr[high] # 赋值,把比基准点小的放前面 while low < high and arr[low] < point_value: # low游标自左向右找到比基准元素大的元素位置 low += 1 arr[high] = arr[low] # 交换,把比基准点大的放后面 alist[low] = point_value # 当low与high位置重合,这就是基准点在最终序列中的位置,填回去 return low
4. 优化递归操作,只要有可能,就把递归写成尾递归(函数中的递归形式出现在末尾),能够提高运行效率。尾递归可以比较容易的写成迭代。
def InsertSort(alist, low, high): # 修改一下插入排序,只排序alist中low到high这一段 for i in range(low+1, high+1): for j in range(i, low, -1): if alist[j] < alist[j-1]: alist[j], alist[j-1] = alist[j-1], alist[j] def quick_sort(alist): Qsort(alist, 0, len(alist)-1) def Qsort(arr, low, high, MAX_LENGTH_INSERT_SORT=7): """待排序数组arr, 起始位置low, 末尾位置high """ if high - low > MAX_LENGTH_INSERT_SORT: while low < high: point = Partition(arr, low, high) # 根据基准点a[point]处理数组,小的放基准点左边大的放基准点右边 Qsort(arr, low, point-1) # 现在 low 已经没用了,后半部分的递归是point+1到high,如果令low=point+1,则可以在用循环在下一轮实现point+1到high的递归 low = point + 1 # 把尾递归写成while循环 else: # 数组小的话就直接插入 InsertSort(arr, low, high) def Partition(arr, low, high): # 令基准点介于a[low]和a[high]之间 mid = low + (high - low) // 2 if arr[mid] > arr[high]: arr[mid], arr[high] = arr[high], arr[mid] if arr[low] > arr[high]: arr[low], arr[high] = arr[high], arr[low] if arr[mid] > arr[low]: arr[low], arr[mid] = arr[mid], arr[low] point_value = arr[low] # 基准点 # 两个游标,low自左向右,high自右向左 while low < high: while low < high and arr[high] >= point_value: # high游标自右向左找到比基准元素小的元素位置 high -= 1 arr[low]= arr[high] # 赋值,把比基准点小的放前面 while low < high and arr[low] < point_value: # low游标自左向右找到比基准元素大的元素位置 low += 1 arr[high] = arr[low] # 交换,把比基准点大的放后面 alist[low] = point_value # 当low与high位置重合,这就是基准点在最终序列中的位置,填回去 return low
进一步地,要充分发挥递归的优势,加一个判断,令长度大的那部分用循环代替尾递归
def InsertSort(alist, low, high): # 修改一下插入排序,只排序alist中low到high这一段 for i in range(low+1, high+1): for j in range(i, low, -1): if alist[j] < alist[j-1]: alist[j], alist[j-1] = alist[j-1], alist[j] def quick_sort(alist): Qsort(alist, 0, len(alist)-1) def Qsort(arr, low, high, MAX_LENGTH_INSERT_SORT=7): """待排序数组arr, 起始位置low, 末尾位置high """ if high - low > MAX_LENGTH_INSERT_SORT: while low < high: point = Partition(arr, low, high) # 根据基准点a[point]处理数组,小的放基准点左边大的放基准点右边 if point - low < high - point: # 后半数组长度大 Qsort(arr, low, point - 1) # 现在 low 已经没用了,后半部分的递归是point+1到high,如果令low=point+1,则可以在用循环在下一轮实现point+1到high的递归 low = point + 1 # 把尾递归写成while循环 else: Qsort(arr, point + 1, high) # 现在high已经没用了 high = point - 1 else: # 数组小的话就直接插入 InsertSort(arr, low, high) def Partition(arr, low, high): # 令基准点介于a[low]和a[high]之间 mid = low + (high - low) // 2 if arr[mid] > arr[high]: arr[mid], arr[high] = arr[high], arr[mid] if arr[low] > arr[high]: arr[low], arr[high] = arr[high], arr[low] if arr[mid] > arr[low]: arr[low], arr[mid] = arr[mid], arr[low] point_value = arr[low] # 基准点 # 两个游标,low自左向右,high自右向左 while low < high: while low < high and arr[high] >= point_value: # high游标自右向左找到比基准元素小的元素位置 high -= 1 arr[low]= arr[high] # 赋值,把比基准点小的放前面 while low < high and arr[low] < point_value: # low游标自左向右找到比基准元素大的元素位置 low += 1 arr[high] = arr[low] # 交换,把比基准点大的放后面 alist[low] = point_value # 当low与high位置重合,这就是基准点在最终序列中的位置,填回去 return low