面试题30:最小的k个数
题目:输入n个整数,找出其中最小的k个数。例如输入{4,5,1,6,2,7,3,8}这8个数字,则最小的4个数字是1,2,3,4。
分析
这道题目跟上一道:面试题29:数组中出现次数超过一半的数字 类似,都是通过Partition()的思路来解题。通过Partition()获得index,判断index==k,如果等于k,那么表明在index左边的k个数都小于index所指向的数,并且也小于index右边的数。那么就找出了本题所要求的最小的k个数。如果index>k,则第k小的数在[start,index-1]之间,如果index<k,则第k小的数在[index+1,end]之间。知道最后求得index==k,退出循环。然后输出[0,k)之间的数,就是最小的k个数。
代码实例
View Code
#include<iostream> #include<stdlib.h> using namespace std; int Partition(int arry[],int start,int end) { int pivotkey=arry[start]; while(start<end) { while(start<end&&arry[end]>=pivotkey) end--; arry[start]=arry[end]; while(start<end&&arry[start]<=pivotkey) start++; arry[end]=arry[start]; } arry[start]=pivotkey; return start; } int GetLeastNumbers(int arry[],int k,int len) { if(arry==NULL||k<=0||k>len||len<=0) { cout<<"输入错误"<<endl; return -1; } int start=0,end=len-1; int index=Partition(arry,start,end); while(k!=index) { if(index>k) index=Partition(arry,start,index-1); else index=Partition(arry,index+1,end); } return k; } void main() { int arry[]={2,2,2,1,3};//定义数组 int len=sizeof(arry)/sizeof(int);//求数组长度 int k=3; int index=GetLeastNumbers(arry,k,len); for(int i=0;i<index;i++) cout<<arry[i]<<" "; cout<<endl; system("pause"); }
海量数据处理下的处理方法
如果要处理的数据量非常大,那么对进行排序就不切实际,我们可以通过大根堆这样的数据结构来求最小的k个数。
创建一个大小为k的大根堆,遍历数据文件,如果大根堆不满,则往大根堆中插入数;如果大根堆满,则比较堆顶的数与读取到的数,如果读取到的数小于堆顶的数,那么删除堆顶的数,并插入刚扫描的数。采用这样的方法扫描全部数据。时间复杂度为O(nlog(k))