贪心算法背后的数学理论

2025-02-17 22:46 359 0

贪心算法看似完全出于直觉，可解决许多问题。但实际上，“贪心”二字在日常生活中却是贬义的。我们从小就被教育“贪心短视”，但为什么在某些算法中，贪心的“短视”反而能直达全局最优？哪些问题可以适用贪心，哪些不可以呢？

贪心算法

作为程序员，你一定遇到过这样的困惑：

最小生成树问题（Kruskal算法）用贪心轻松搞定，代码简洁，结果完美；
但到了集合覆盖问题，同样的贪心套路，结果却只能得到一个“近似最优解”，甚至可能被面试官追问：“为什么不用动态规划？”
01 背包不过只简单的物品价值挑选，为什么贪心却彻底失效？
某些函数可以用梯度下降直接求出最优值，某些函数却不可以。

核心矛盾：
贪心算法看似“简单无脑”，但它的有效性完全取决于问题的隐藏结构。

拟阵结构（如最小生成树，Dijkstra）：贪心的每一步选择不会破坏未来的可能性，最终结果必然全局最优。
子模性结构（如集合覆盖）：适用贪心的边际收益逐渐递减，只能保证近似最优。
无结构约束（如0-1背包问题）：贪心可能彻底失败，必须依赖动态规划。

拟阵（Matroid）与贪心算法

程序员视角：为什么有些贪心策略永远不会翻车？
假设你正在开发一个任务调度系统，需要从一堆任务中选出不冲突的任务组合，并让总收益最大。直觉告诉你“每次选收益最高的任务”似乎合理，但如何确保这种贪心选择不会漏掉更优的组合？

一个拟阵是一个数学系统，由两部分组成：

元素集合 \(E\)（比如所有任务）；
独立集集合 \(\mathcal{I}\)（比如所有不冲突的任务组合）。

它必须满足三条规则：

遗传性：如果某个组合是合法的（比如任务A+B不冲突），那么它的任何子集（比如只选任务A）也是合法的。
交换性：如果有两个合法组合A和B，且A比B包含更多任务，那么总能从A中拿一个任务丢给B，让B仍然合法。
非空性：至少存在一个合法组合（比如空集）。

最小生成树问题

为什么拟阵能保证贪心正确？

以Kruskal算法为例，我们发现最小生成树简直就是为拟阵定制的算法。

元素集合 \(E\)：图中的所有边。
独立集 \(\mathcal{I}\)：所有不形成环的边集合（森林）。
交换性：如果两个森林A和B满足 \(|A| > |B|\)，总能从A中找一条边加入B而不形成环。

所以，我们总能找到一个独立集之中元素最多的那一个（也就是最小生成树），任何非最小生成树的无环图总可以通过不断加边最终成为最小生成树。

所以按边权重升序排序，依次选择边，若加入后不形成环（保持独立性），则保留。交换性公理保证了我们短视的选择当前可用的最小边也没有关系。

在这个讨论中，拟阵（Matroid）与贪心算法的应用是非常有趣的，因为拟阵提供了一种保证贪心算法能够得到最优解的结构。除了最小生成树问题（例如Kruskal算法）外，我们还可以通过其他实例来进一步说明拟阵的应用，特别是贪心策略的正确性和它在特定情境下的优越性。

任务分配

假设你有如下任务集，任务的收益和执行时间如下：

任务	开始时间	结束时间	收益
A	1	3	10
B	2	5	15
C	4	6	20
D	5	8	30
E	7	9	25

目标是选择不冲突的任务集合，使得总收益最大。

任务A和B冲突，不能同时选择。
任务B和C冲突，不能同时选择。
任务C和D冲突，不能同时选择。

假设你选择任务B（收益15）后，接着选择任务D（收益30），由于任务B和任务D之间没有冲突，这个组合是合法的。此时，选择任务B和D就构成了一个合法的独立集，且这个选择是最优的。

任务选择问题有多种形式和情况，而这是一个有权重的选择问题，通常不总是可只用贪心解决，上例只是展示一个独立集。

其他例子：区间覆盖（给定一系列的区间，选择最少数量的区间来覆盖给定的点或线段）

反例：不满足交换性，贪心失效

假设任务A需要独占资源X，并且收益是100，任务B和任务C需要共享资源X，分别有80和90的收益。假设我们使用贪心策略，总是选择当前收益最高的任务。

任务A（收益100）需独占资源X；
任务B（收益80）和任务C（收益90）需共享资源X；
贪心算法会首先选择任务A（收益100），然后无法再选择任务B或任务C，因为资源X已经被任务A占用，总收益为100。
实际的最优解是选择任务B和任务C（总收益170），这两个任务可以共享资源X。

在这个场景下，任务调度问题的独立集不满足交换性。任务A、B、C的组合无法交换任务而保持合法性，因此贪心策略不能保证得到最优解。

子模函数（Submodularity）和收益递减的贪心

子模函数和另一类贪心问题有关。假设你在设计一个新闻推荐系统，需要从100篇候选文章中选10篇推送给用户，目标是覆盖最多的兴趣标签。直接贪心选覆盖标签最多的文章，结果可能如何？是最优解吗？

子模函数的定义：
函数 \(F(S)\) 是子模的，当且仅当对于任意集合 \(A \subseteq B\) 和元素 \(e \notin B\)，满足：

\[F(A \cup \{e\}) - F(A) \geq F(B \cup \{e\}) - F(B) \]

通俗来说，新增一个元素带来的收益，随着已有集合的扩大而减少。

贪心的近似保证：
怎样求解这个函数的最大值呢？如果目标函数是子模且非递减的（添加元素不减少收益），则数学知识可以证明，适用贪心算法（每一步短视的选边际收益最大的元素）可以保证至少达到 \((1-1/e) \approx 63\%\) 的最优解。

回到上文的新闻推荐问题，假设你正在设计一个新闻推荐系统，目标是从给定的 100 篇新闻文章中选择 10 篇推送给用户，目的是最大化这些文章所覆盖的兴趣标签数量。我们可以将此问题建模为一个优化问题：

候选集合：设有100篇候选新闻文章，每篇文章可以有一个或多个兴趣标签（例如，体育、科技、健康等）。
目标：选择10篇文章，使得这10篇文章的标签总和最大化，即尽可能覆盖更多的标签。

现在，我们可以看到一个重要的现象，叫做边际递减（或称为收益递减）。当你从剩余的候选文章中选择新的文章时，已经选定的文章所覆盖的标签会对新增的文章的标签覆盖产生影响。\(F(文章组合)=覆盖的标签种类数\) 就是一个子模函数。

举个例子，假设你已经选择了3篇文章，它们覆盖了5个不同的兴趣标签。接下来，选择一篇新文章时，它可能会覆盖一个或多个新的标签，也可能是已经被选中的标签。如果它覆盖的是已经被选中的标签，那么它的边际收益就小；如果它覆盖了新的标签，那么它的边际收益会较大。根据子模性质，随着集合的扩大（从\(A\)到\(B\)），新增元素\(e\)的边际收益会减小。这就是边际递减的核心特性。

根据子模函数的性质，如果我们使用贪心算法（每次短视的选择当前带来最大边际收益的文章），我们可以保证在最坏的情况下，我们的解决方案至少是最优解的 63%。

凸性（Convexity）与梯度下降与连续的贪心

程序员视角：为什么梯度下降和贪心算法是“远房亲戚”？

梯度下降是机器学习领域的求解利器，用来求解连续函数的最小值。假设你在训练一个线性回归模型，目标是最小化损失函数 \(L(w)\)。梯度下降每一步沿负梯度方向更新参数，这是否算一种“贪心”策略？

一个函数 \(L(w)\) 为凸，需要对任意 \(w_1, w_2\) 和 \(\theta \in [0,1]\)，满足：

\[L(\theta w_1 + (1-\theta) w_2) \leq \theta L(w_1) + (1-\theta) L(w_2) \]

我们实际上已经在高中和大学了解过凸函数，函数图像是一条“光滑的山谷”，没有局部坑洞。高等数学与凸优化的知识告诉我们，凸函数可以通过每一步选择当前最速下降方向（局部最优方向）求解最值。其因为没有局部最优陷阱，无论从何处开始最终会收敛到全局最优。

1. 线性回归中的最小二乘法

问题：假设你有一组训练数据 \((x_i, y_i)\)，目标是找到一组参数 \(w\)，使得预测值 \(\hat{y_i} = w \cdot x_i\) 最小化与实际值 \(y_i\) 之间的误差。这个问题常通过最小化损失函数来解决：

\[L(w) = \sum_{i=1}^{n} (y_i - w \cdot x_i)^2 \]

为什么凸？
这个损失函数是一个关于 \(w\) 的二次函数，它的图像是一个“光滑的山谷”——标准的凸函数。因为它是凸的，所以它没有局部最小点，梯度下降从任何初始点出发都会找到全局最小值。

如何优化？
使用梯度下降，算法每次沿着负梯度方向更新参数 \(w\)，这是一种贪心策略：每次选择当前的“最速下降”方向。然而，由于函数是凸的，梯度下降的贪心选择不会陷入局部最优，而是会收敛到全局最优。

结论：在这个例子中，凸函数保证了贪心策略（梯度下降）能够找到全局最优解。

2. 支持向量机 (SVM) 中的凸优化

问题：支持向量机用于分类任务，目标是找到一个最优的超平面，使得数据点分类的间隔最大化。SVM的目标是最小化以下凸损失函数：

\[L(w, b) = \frac{1}{2} \|w\|^2 \]

为什么凸？
这是一个二次函数，表示权重 \(w\) 的范数的平方，显然是凸的。这是因为范数的平方函数是凸的，而SVM的优化问题是一个典型的凸二次规划问题。

如何优化？
SVM的优化问题通过凸优化方法（如梯度下降、牛顿法等）求解。在此过程中，贪心的选择（如梯度下降的每步最速下降）能够始终朝向全局最优解收敛，因为该损失函数没有局部最优解。

结论：由于损失函数是凸的，贪心策略能够找到全局最优解，凸性保证了梯度下降方法的有效性。

3. 反例：非凸损失函数

问题：假设我们在进行深度学习模型的训练时，使用的损失函数是一个非凸函数，如神经网络中的交叉熵损失或其他复杂的非线性模型。在这种情况下，损失函数的形状可能包含多个局部最小值。

为什么非凸？
这些非凸函数通常有多个局部极小值和鞍点，因此在训练过程中，梯度下降可能会停留在某个局部最小值，而不能到达全局最小值。

如何优化？
尽管梯度下降仍然可以应用，但由于函数的非凸性，贪心的最速下降方法可能导致算法陷入局部最优。为了避免这种情况，通常使用一些技巧，如动量、学习率调整、随机初始化等来帮助算法逃脱局部最小值，或者使用更高级的优化算法（如Adam、SGD等）。

结论：在非凸问题中，梯度下降不再保证找到全局最优解，凸性不再适用，贪心策略可能失效。

总结

总的来说，贪心算法是一种强大的策略，广泛应用于各种优化问题中。

在具有特定结构特性的情境下，比如子模函数、拟阵和凸函数问题都和贪心相关。我们已经看到，在满足特定结构的情况下，贪心算法不仅能够高效地求解问题，还能提供理论保障，确保算法收敛到接近最优解。

然而，贪心算法并不是万能的，它在一些问题中可能会陷入局部最优，无法找到全局最优解。因此，理解问题的结构特性，选择合适的算法，是解决复杂优化问题的关键。通过对贪心算法的深入分析，我们可以更好地理解其优势与局限，并在实际应用中做出更明智的选择。

通过理解贪心算法的一些底层规则（如拟阵、子模性），你可以快速将问题归类：

独立选择问题（如任务调度、无冲突资源分配）：检查是否满足拟阵的交换性——若当前选择不影响未来的自由度，贪心可行。
覆盖或影响最大化问题（如广告投放、病毒传播）：检查是否存在边际收益递减（子模性）——贪心可提供近似解。
可分问题（如部分背包）：贪心直接最优；不可分问题（如0-1背包）：需动态规划。

例如：

当问题要求“从集合中选元素，且某些子集被禁止（如形成环路）”时，联想拟阵，直接尝试贪心。
当问题要求“最大化覆盖范围，但新增元素的收益越来越小”时，联想子模性，放心用贪心近似解。

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

分合之道：最小生成树的 Kruskal 与 Prim 算法

随机收缩算法求解全局最小割

贪心算法入门

基础算法 —— 贪心算法

探索贪心算法：解决优化问题的高效策略

DeepSeek “源神”启动！「GitHub 热点速览」
微软正式发布.NET 10 Preview 1：开启下一代开发框架新篇章
C# 集成 DeepSeek 模型实现 AI 私有化（本地部署与 API 调用教程）
DeepSeek R1 简明指南：架构、训练、本地部署及硬件要求
2 本地部署DeepSeek模型构建本地知识库+联网搜索详细步骤

2022-02-17 gcc各等级优化的性质

Ofnoname

万水千山只等闲