Java:Top K问题的解法

import java.util.Arrays;
import java.util.PriorityQueue;
import java.util.Queue;

public class LeafNode {
	// 堆方法(优先队列)
	// 1.堆的性质是每次可以找出最大或最小的元素
	// 快排变形
	public static void main(String[] args) {
		int[] arr = new int[] { 1, 2, 34, 4, 5, 6 };
		//int[] nums = getLeastNumbers(arr, 3);
		int[] nums=getLeastNumbersTwo(arr,3);
		System.out.println(Arrays.toString(nums));
	}

	public static int[] getLeastNumbers(int[] arr, int k) {
		if (k == 0)
			return new int[0];
		// 使用一个最大堆(大顶堆)
		Queue<Integer> heap = new PriorityQueue<>(k, (i1, i2) -> Integer.compare(i2, i1));
		for (int e : arr) {
			// 当前数字小于堆顶元素才会入堆
			if (heap.isEmpty() || heap.size() < k || e < heap.peek())
				heap.offer(e);
			// 删除堆顶最大元素
			if (heap.size() > k)
				heap.poll();
		}
		// 将堆中的元素存入数组
		int[] res = new int[heap.size()];
		int j = 0;
		for (int e : heap)
			res[j++] = e;
		Arrays.sort(res);
		return res;
	}

	public static int[] getLeastNumbersTwo(int[] arr, int k) {
		if (k == 0)
			return new int[0];
		else if (arr.length <= k)
			return arr;

		// 原地不断划分数组
		partitionArray(arr, 0, arr.length - 1, k);
		
		// 数组的前 k 个数此时就是最小的 k 个数,将其存入结果
		int[] res = new int[k];
		for (int i = 0; i < k; i++) 
	        res[i] = arr[i];
	    
	    return res;
	}

	static void partitionArray(int[] arr, int lo, int hi, int k) {
		// 做一次 partition 操作
		int m = partition(arr, lo, hi);
		// 此时数组前 m 个数,就是最小的 m 个数
		if(k==m) return;// 正好找到最小的 k(m) 个数
		else if(k<m) partitionArray(arr, lo, m-1, k);  // 最小的 k 个数一定在前 m 个数中,递归划分
		else partitionArray(arr, m+1, hi, k); // 在右侧数组中寻找最小的 k-m 个数
	}

	static int partition(int[] a, int lo, int hi) {
		int i = lo;
		int j = hi + 1;
		int v = a[lo];
		while (true) {
			while (a[++i] < v) {
				if (i == hi)
					break;
			}
			while (a[--j] > v) {
				if (j == lo)
					break;
			}
			if (i >= j)
				break;
			swap(a, i, j);
		}
		swap(a, lo, j);
		return j;
	}

	static void swap(int[] a, int i, int j) {
		int temp = a[i];
		a[i] = a[j];
		a[j] = temp;
	}
}

  看起来分治法的快速选择算法的时间、空间复杂度都优于使用堆的方法,但是要注意到快速选择算法的几点局限性:

第一,算法需要修改原数组,如果原数组不能修改的话,还需要拷贝一份数组,空间复杂度就上去了。

第二,算法需要保存所有的数据。如果把数据看成输入流的话,使用堆的方法是来一个处理一个,不需要保存数据,只需要保存 k 个元素的最大堆。而快速选择的方法需要先保存下来所有的数据,再运行算法。当数据量非常大的时候,甚至内存都放不下的时候,就麻烦了。所以当数据量大的时候还是用基于堆的方法比较好。

posted @ 2020-05-24 13:39  石shi  阅读(581)  评论(0编辑  收藏  举报