剑指offer 学习笔记 最小的k个数

面试题40:最小的k个数。输入n个数,找出其中最小的k个数。

最简单的方法就是排序数组,找出前k个数即可。这种思路时间复杂度为O(nlogn),太慢了。

法一:该方法时间复杂度为O(n)。此方法只有当我们可以修改输入数组时才能使用,基于快排的Partition函数,找到一轮排序后下标为k-1的数字,这个数组的前k项即为最小的k个数,但不一定是有序的:

#include <iostream>
using namespace std;

int Partition(int* nums, int length, int start, int end) {
    if (nums == nullptr || length <= 0 || end > length - 1 || start < 0) {
        return false;
    }

    int target = start + (rand() % (end - start + 1));    // 随机选择一个数字
    swap(nums[target], nums[end]);    // 将选中的数字与下标为end的数字交换

    int small = start - 1;
    int index = start;
    while (index < end) {
        if (nums[index] < nums[end]) {
            ++small;
            swap(nums[small], nums[index]);
        }
        ++index;
    }
    swap(nums[++small], nums[end]);
    return small;
}

void GetLeastNumbers(int* nums, int length, int k) {
    if (nums == nullptr || length <= 0 || k <= 0 || k > length - 1) {
        return;
    }

    int start = 0, end = length - 1, index = Partition(nums, length, start, end);
    while (index != k - 1) {
        if (index > k - 1) {
            end = index - 1;
            index = Partition(nums, length, start, end);
        } else {
            start = index + 1;
            index = Partition(nums, length, start, end);
        }
    }

    for (int i = 0; i < k; ++i) {
        cout << nums[i] << endl;
    }
}

int main() {
    int nums[] = { 5,7,9,8,4,6,3,2,1,0 };
    GetLeastNumbers(nums, sizeof(nums) / sizeof(*nums), 4);
}

法二:时间复杂度为O(nlogk),适合处理海量数据。可以创建一个大小为k的数据容器,接下来每次从输入的n个整数中读取一个数,如果容器中已有数字少于k个,则直接把该数放入容器中;如容器中已有k个数字,我们就只能替换已有的数字,找出这k个数字的最大值,然后拿这次待插入的整数和最大值进行比较,如果待插入的值比当前已有的最大值小,则用这个数替换最大值,否则抛弃待插入的数。

容器满了之后,我们要做三件事:
1.在k个整数中找到最大值。
2.可能删除最大值。
3.可能插入一个新的值。
如果我们用二叉树来实现该数据容器,那么我们能在O(logk)的时间内实现这三个操作,对于n个输入的数字而言,总的时间效率是O(nlogk)。

由于要找到k个整数中的最大数字,可以使用最大堆,这样我们可以在O(1)的时间内找到最大值,但需要O(logk)的时间完成删除和插入操作。

我们还可以使用红黑树实现容器,红黑树通过把结点分为红、黑两种颜色并根据一些规则保证树在一定程度上是平衡的,从而保证在红黑树中的查找、删除、插入操作都需要O(logk)的时间。STL中的set和multiset是基于红黑树实现的:

#include <iostream>
#include <set>
using namespace std;

typedef multiset<int> intSet;    // set中从小到大排列数据

void GetLeastNumbers(const vector<int>& data, int k, intSet& leastNumbers) {
    if (k < 1 || k > data.size()) {
        return;
    }

    leastNumbers.clear();

    vector<int>::const_iterator cb = data.cbegin(), ce = data.cend();
    for (; cb < ce; ++cb) {
        if (leastNumbers.size() < k) {
            leastNumbers.insert(*cb);
        } else {
            if (*cb < *(--leastNumbers.end())) {    // 如果当前输入值比数据容器中的最大值小,则将最大值替换为该当前值
                leastNumbers.erase(--leastNumbers.end());    // 删除最大值
                leastNumbers.insert(*cb);
            }
        }
    }
}

int main() {
    intSet leastNumbers;
    vector<int> data = { 0,5,8,9,3,7,4,5,6,1,3 };
    GetLeastNumbers(data, 3, leastNumbers);

    auto b = leastNumbers.begin(), e = leastNumbers.end();
    for (; b != e; ++b) {
        cout << *b << endl;
    }
}

两种解法比较:
在这里插入图片描述
第二个解法适合海量数据输入,当不能把全部数据都载入内存时,可以从硬盘中每次读取出一些数据,再判断这些数据是否需要放入容器leastNumbers中即可。适合n较大,k较小的问题。

posted @   epiphanyy  阅读(3)  评论(0编辑  收藏  举报  
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示