找出N个数中最小的k个数问题(复杂度O(N*logk))
这是一个经典的算法题,下面给出的算法都在给定的数组基础上进行,好处时不用分配新的空间,坏处是会破坏原有的数组,可以自己分配新的空间以避免对原有数组的破坏。
思路一
先直接排序,再取排序后数据的前k个数。
排序算法用最快的堆排序,复杂度也会达到O(N*logN).
void filterDown(int* disorder, int pos, int size){ int temppos=pos,temp=0; while(temppos<size/2){ if(2*temppos+2<size){ if(disorder[2*temppos+1]>disorder[2*temppos+2]){ if(disorder[temppos]<disorder[2*temppos+1]){ temp=disorder[temppos]; disorder[temppos]=disorder[2*temppos+1]; disorder[2*temppos+1]=temp; temppos=2*temppos+1; } else{ break; } } else{ if(disorder[temppos]<disorder[2*temppos+2]){ temp=disorder[temppos]; disorder[temppos]=disorder[2*temppos+2]; disorder[2*temppos+2]=temp; temppos=2*temppos+2; } else{ break; } } } else if(disorder[temppos]<disorder[2*temppos+1]){ temp=disorder[temppos]; disorder[temppos]=disorder[2*temppos+1]; disorder[2*temppos+1]=temp; temppos=2*temppos+1; } else{ break; } } } void heapSort(int* disorder, int size){ int bottomRowSize=2; while(bottomRowSize<size){ bottomRowSize*=2; } int temp=0,i=0; for(int j=size/2-1;j>=0;j--){ filterDown(disorder, j, size); } for(int j=size-1;j>0;j--){ temp=disorder[0]; disorder[0]=disorder[j]; disorder[j]=temp; filterDown(disorder,0,j); } } int _tmain(int argc, _TCHAR* argv[]) { const int size=200; const int maxnum = 10000; const int k=10; int* disorder=new int[size]; srand((unsigned) time(NULL)); for(int i=0;i<size;i++){ disorder[i]=rand()%maxnum; } heapSort(disorder,size); for(int i=0;i<k;i++){ cout<<disorder[i]<<endl; } return 0; }
当k接近于N时,可以用这种算法。
思路二
先排序前k个数,对于后面N-k个数,依次进行插入。
时间复杂度为O(k*n)
void insertSort(int* disorder, int size){ int temp=0,i=0; for(int j=1;j<size;j++){ temp=disorder[j]; for(i=j;i>0;i--){ if(temp<disorder[i-1]){ disorder[i] = disorder[i-1]; } else{ break; } } disorder[i]=temp; } } int _tmain(int argc, _TCHAR* argv[]) { const int size=200; const int maxnum = 10000; const int k=10; int* disorder=new int[size]; srand((unsigned) time(NULL)); int i=0,temp; for(;i<size;i++){ disorder[i]=rand()%maxnum; } insertSort(disorder,k); for(int j=k;j<size;j++){ temp=disorder[j]; for(i=k-1;i>=0;i--){ if(temp<disorder[i]){ disorder[i+1] = disorder[i]; } else{ break; } } disorder[i+1]=temp; } for(int i=0;i<k;i++){ cout<<disorder[i]<<endl; } return 0; }
当k很小时,可以用这种算法
思路三
对前k个数,建立最大堆,对于后面N-k个数,依次和最大堆的最大数比较,如果小于最大数,则替换最大数,并重新建立最大堆。
时间复杂度为O(N*logk)
void filterDown(int* disorder, int pos, int size){ int temppos=pos,temp=0; while(temppos<size/2){ if(2*temppos+2<size){ if(disorder[2*temppos+1]>disorder[2*temppos+2]){ if(disorder[temppos]<disorder[2*temppos+1]){ temp=disorder[temppos]; disorder[temppos]=disorder[2*temppos+1]; disorder[2*temppos+1]=temp; temppos=2*temppos+1; } else{ break; } } else{ if(disorder[temppos]<disorder[2*temppos+2]){ temp=disorder[temppos]; disorder[temppos]=disorder[2*temppos+2]; disorder[2*temppos+2]=temp; temppos=2*temppos+2; } else{ break; } } } else if(disorder[temppos]<disorder[2*temppos+1]){ temp=disorder[temppos]; disorder[temppos]=disorder[2*temppos+1]; disorder[2*temppos+1]=temp; temppos=2*temppos+1; } else{ break; } } } int _tmain(int argc, _TCHAR* argv[]) { const int size=200; const int maxnum = 10000; const int k=10; int* disorder=new int[size]; srand((unsigned) time(NULL)); int i=0,temp; for(;i<size;i++){ disorder[i]=rand()%maxnum; } for(int j=k/2-1;j>=0;j--){ filterDown(disorder, j, k); } for(int j=k;j<size;j++){ if(disorder[j]<disorder[0]){ disorder[0]=disorder[j]; filterDown(disorder,0,k); } } for(int j=k-1;j>0;j--){ temp=disorder[0]; disorder[0]=disorder[j]; disorder[j]=temp; filterDown(disorder,0,j); } for(int i=0;i<k;i++){ cout<<disorder[i]<<endl; } return 0; }
当k和N都很大时,这种算法比前两种算法要快很多。
作者:Jingle Guo
出处:http://www.cnblogs.com/studynote/
若标题中有“转载”字样,则本文版权归原作者所有。若无转载字样,本文版权归作者所有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利.