如何在很大数量级的数据中(比如1个亿)筛选出前10万个最小值?之六

快速选择

这是一种快速将数据分成两组的方法。类似快速排序算法。在ExcelHome网站讨论一亿取十万这个问题时,得到该网站知名网友“香川群子”的VB代码。核心如下:

Function QuickSort2(tr, l&, u&, k&) '递归算法的快速排序过程 不解释
    Dim i&, j&, r, t
    i = l: j = u: r = tr((l + u) \ 2)
    While i < j
        Do While i < u
            If tr(i) < r Then i = i + 1 Else Exit Do
        Loop
        Do While j > l
            If tr(j) > r Then j = j - 1 Else Exit Do
        Loop
        If i < j Then t = tr(i): tr(i) = tr(j): tr(j) = t: i = i + 1: j = j - 1 Else If i = j Then i = i + 1: j = j - 1
    Wend
    If k < j + 1 Then If j > l Then Call QuickSort2(tr, l, j, k)
    If k > i - 1 Then If i < u Then Call QuickSort2(tr, i, u, k)
    QuickSort2 = tr(k) '记录返回本次计算得到的第n个分界值
End Function

  我把它改成了C代码。如下:

void SortQuick(int data[], int Low, int High, int k)
{
  int low= Low,   high= High;
  for(int key= data[(Low+High)/2]; low< high; )
  {
    while(low< High && key> data[low]) low++;                   //在左边,找大值
    while(Low< high && key< data[high]) high--;                 //在右边,找小值
    if(low<= high) swap(data[low], data[high]), low++, high--;
  }
  if(low< High && k>= low) SortQuick(data, low,  High, k);
  if(Low< high && k<= high) SortQuick(data, Low, high, k);
}
void TopKSortQuick(int data[], int m, int n)                    //m是总数n选择数
{
  SortQuick(data, 0, m-1, n-1);
  sort(data, data+ n);                                          //排序方便比较
}

  看起来简洁些。调用这个函数的代码,和前面给出过的类似。还是说说一亿取十万的用时:5.320秒。速度也非常快。

 

posted @ 2015-04-20 22:39  汇铁  阅读(263)  评论(0编辑  收藏  举报