【编程之美】2.5 寻找最大的k个数

有若干个互不相等的无序的数,怎么选出其中最大的k个数。

 

我自己的方案:因为学过找第k大数的O(N)算法,所以第一反应就是找第K大的数。然后把所有大于等于第k大的数取出来。

写这个知道算法的代码都花了2个多小时,反思,太慢了。 注意边界条件,不要混混沌沌的。

/************我自己的解法*****************/
//选择数组a[N]中最大的第k个数
int Select(int * a, int N, int k)
{
    if(k > N || a == NULL)
    {
        cout << "error!!!";
    }
    if(N < 5)
    {
        qsort(a, N, sizeof(a[0]), cmp);
        return a[N - k];
    }
    int arrNum = N/5; //可以整除5的数字
    int surplus = N % 5; //除以5剩下的数字
    int * mid = new int [arrNum]; //存储每一组的中位数
    int * S1 = new int [N];
    int * S2 = new int [N];
    int posS1 = 0;
    int posS2 = 0;

    for(int i = 0; i < arrNum; i++)
    {
        qsort(a+i*5, 5, sizeof(a[0]), cmp);
        mid[i] = *(a + i * 5 + 3);
    }

    int midNum = Select(mid, arrNum, arrNum/2);

    for(int i = 0; i < arrNum; i++)
    {
        int * currentGroup = a + i * 5;
        if(currentGroup[2] < midNum)
        {
            memcpy(S1 + posS1, currentGroup, 3 * sizeof(a[0]));
            posS1 += 3;
            for(int j = 3; j < 5; j++)
            {
                if(currentGroup[j] <= midNum)
                    S1[posS1++] = currentGroup[j];
                else
                    S2[posS2++] = currentGroup[j];
            }
        }
        else 
        {
            memcpy(S2 + posS2, currentGroup + 2, 2 * sizeof(a[0]));
            posS2 += 3;
            for(int j = 0; j < 2; j++)
            {
                if(currentGroup[j] <= midNum)
                    S1[posS1++] = currentGroup[j];
                else
                    S2[posS2++] = currentGroup[j];
            }
        }

    }
    for(int i = arrNum * 5; i < N; i++)
    {
        if(a[i] <= midNum)
            S1[posS1++] = a[i];
        else
            S2[posS2++] = a[i];
    }

    if(k == posS2)
    {
        return midNum;
    }
    else if(k < posS2)
    {
        return Select(S2, posS2, k);
    }
    else
    {
        return Select(S1, posS1, k - posS2);
    }

}

int * GetBiggestK(int * a, int N, int k)
{
    int * biggestK = new int [k];
    int numK = Select(a, N, k);
    int pos = 0;
    for(int i = 0; i < N; i++)
    {
        if(a[i]>=numK)
        {
            biggestK[pos++] = a[i];
        }
    }

    return biggestK;

}

编程之美对这种算法的评价是:由于这个线性算法的常数项比较大,在实际应用中有时效果并不好。

---------------------------------------------------------------------------------------------------------------------------

书上的解法:

解法一: 先排序,再取出最大的k个数 复杂度 O(NlogN)

解法二:类似于快速排序,先在数据中选一个数做标准,把数据划分为两个部分,大于等于选中数字S1个 和 小于选中数字S2个 。如果S1大于k则在S1个数中继续找最大的k个,如果S1小于k,则把这S1个数加入答案,并在S2中继续找其他的数字。 平均复杂度为O(NlogK).

/*********答案中 解法二*****************/
int * GetBiggestKAns2(int * a, int N, int k)
{
    if(a == NULL || k > N)
    {
        cout << "error!!!"<< endl;
        return NULL;
    }
    int first = a[0];
    int head = 1;
    int tail = N - 1;
    int numAlready = 0;
    

    int postion = GetPosition(a, first, head, tail);
    swap(a[0], a[postion]);

    if(postion + 1 == k)
    {
        int * ans = new int [k];
        memcpy(ans, a, k * sizeof(a[0]));
        return ans;
    }
    else if(postion + 1 > k)
    {
        return GetBiggestKAns2(a, postion + 1, k);
    }
    else
    {
        int * ans = new int [k];
        memcpy(ans, a , (postion + 1) * sizeof(a[0]));
        int * ansPart = GetBiggestKAns2(a + postion + 1, N - postion - 1, k - postion - 1);
        memcpy(ans + postion + 1, ansPart, (k - postion - 1) * sizeof(a[0]));
        return ans;
    }
}

//交换时让大数在前,小数在后
int GetPosition(int * a, int first, int p, int r)
{
    int head = p;
    int tail = r;
    while(head < tail)
    {
        while(a[head] >= first)
            head++;
        while(a[tail] < first)
            tail--;
        if(head < tail)
        {
            swap(a[head], a[tail]);
            head++;
            tail--;
        }
    }
    return head - 1; //如果所有的数字都比first大 那么head会指向数组后的第一个数字 
                     //如果所有的数字都比first小 那么head会指向第一个数字 都是恰好head - 1 是应该交换的位置
}

 ----------------------------------------------------------------------------------------------------

解法三:用二分法找第k大的数 数据分布平均情况下,时间复杂度为O(NlogN)

伪代码如下:

while(Vmax - Vmin > delta)
{
   Vmid = Vmin + (Vmax - Vmin) * 0.5;
   if(f(arr, N, Vmid) >= K)
   {
        Vmin = Vmid;
   }
   else
   {
        Vmax = Vmid;
   }  
}    

f(arr, N, Vmid) 返回数组arr[0...N-1]中大于等于Vmid的数的个数。delta是比数组中数字的最小差值还要小的数。

最后[Vmid, Vmax]只剩下一个数,就是第k大的数。

 

另一个思路:若所有的数都是整数,可以比较他们的二进制位,从最高位开始,1的是较大的数 有A个,0的是较小的数有B个。若 A > K则在A中找最大的K个,反之 把A个数加入答案, 在B中找 最大的K - A个数。

----------------------------------------------------------------------------------------------------

解法四:用一个最小堆存储最大的那K个数,先把K个数加入最小堆,新来一个数就与最小堆的根节点对比,比根节点小丢弃,比根节点大则替换根节点,调整最小堆。这样遍历完后最小堆里的数字就是最大的K个数。 时间O(NlogK)

-----------------------------------------------------------------------------------------------------

解法五:若数字的范围是有限的整数,可以分配一个count[MAXN]的数组,count[0]记录0在数组中出现的次数...这样只要遍历一遍数组得到count再遍历一遍count就可以找到最大的K个数了。

posted @ 2014-10-21 17:08  匡子语  阅读(460)  评论(1编辑  收藏  举报