数值解 - 随笔分类 - 馒头and花卷

Convergence of Adam Under Relaxed Assumptions

摘要：目录概符号说明思路 Li H., Jadbabaie A. and Rakhlin A. Convergence of adam under relaxed assumptions. NeurIPS, 2023. 概本文探讨了 Adam 再较弱的假设下的收敛性. 作者的证明思路非常有趣, 虽然条件阅读全文

posted @ 2025-01-13 16:42 馒头and花卷阅读(6) 评论(0) 推荐(0) 编辑

ADAM : A METHOD FOR STOCHASTIC OPTIMIZATION

摘要：Kingma D P, Ba J. Adam: A Method for Stochastic Optimization[J]. arXiv: Learning, 2014. @article{kingma2014adam:, title=, author={Kingma, Diederik P a 阅读全文

posted @ 2020-06-04 21:59 馒头and花卷阅读(1328) 评论(0) 推荐(0) 编辑

Differential Evolution: A Survey of the State-of-the-Art

摘要：@ Das S, Suganthan P N. Differential Evolution: A Survey of the State-of-the-Art[J]. IEEE Transactions on Evolutionary Computation, 2011, 15(1): 4-31. 阅读全文

posted @ 2020-04-13 23:43 馒头and花卷阅读(542) 评论(0) 推荐(0) 编辑

Adaptive gradient descent without descent

摘要：[TOC] "Malitsky Y, Mishchenko K. Adaptive gradient descent without descent[J]. arXiv: Optimization and Control, 2019." 概本文提出了一种自适应步长的梯度下降方法(以及多个变种方法) 阅读全文

posted @ 2020-03-26 22:02 馒头and花卷阅读(419) 评论(0) 推荐(0) 编辑

Proximal Algorithms 7 Examples and Applications

摘要：[TOC] 本节介绍一些例子. LASSO 考虑如下问题:

min (1 / 2) ‖ A x b ‖_{2}^{2} + γ ‖ x ‖_{1},

$\min \quad (1/2)\|Ax b\|_2^2 + \gamma\|x\|_1,$ 其中

x \in R^{n}, A \in R^{m \times n}

$x \in \mathbb{R}^n, A \in \mathbb{R}^{m\times n }$ . proximal grad 阅读全文

posted @ 2019-06-20 10:01 馒头and花卷阅读(269) 评论(0) 推荐(0) 编辑

Proximal Algorithms 6 Evaluating Proximal Operators

摘要：[TOC] "Proximal Algorithms" 需要注意的一点是，本节所介绍的例子可以通过第二节的性质进行延展. 一般方法一般情况下proximal需要解决下面的问题: 其中

x \in R^{n}

$x \in \mathbb{R}^n$ ,

C = d o m f

$\mathcal{C} = \mathbf{dom} f$ . 我们可以阅读全文

posted @ 2019-06-18 10:24 馒头and花卷阅读(719) 评论(0) 推荐(0) 编辑

Proximal Algorithms 5 Parallel and Distributed Algorithms

摘要：[TOC] "Proximal Algorithms" 这一节，介绍并行算法的实现. 问题的结构令

[n] = {1, \dots, n}

$[n] = \{1, \ldots, n\}$ . 给定

c \subseteq [n]

$c \subseteq [n]$ , 让

x_{c} \in R^{| c |}

$x_c \in \mathbb{R}^{|c|}$ 表示向量

x \in R^{n}

$x\in \mathbb{R}^n$ 的一个阅读全文

posted @ 2019-06-11 09:55 馒头and花卷阅读(261) 评论(0) 推荐(0) 编辑

Proximal Algorithms 4 Algorithms

摘要：[TOC] "Proximal Algorithms" 这一节介绍了一些利用proximal的算法. Proximal minimization 这个相当的简单, 之前也提过，就是一个依赖不动点的迭代方法: 有些时候

λ

$\lambda$ 不是固定的: $$ x^{k+1} := \mathbf{prox 阅读全文

posted @ 2019-06-09 21:03 馒头and花卷阅读(634) 评论(0) 推荐(0) 编辑

Proximal Algorithms 3 Interpretation

摘要：[TOC] "Proximal Algorithms" 这一节，作者总结了一些关于proximal的一些直观解释 Moreau Yosida regularization 内部卷积(infimal convolution)： $$ (f \: \Box \: g)(v)=\inf_x (f(x)+g 阅读全文

posted @ 2019-06-08 22:50 馒头and花卷阅读(704) 评论(0) 推荐(0) 编辑

Proximal Algorithms 2 Properties

摘要：[TOC] 可分和如果

f

$f$ 可分为俩个变量:

f (x, y) = φ (x) + ψ (y)

$f(x, y)=\varphi(x) + \psi(y)$ , 于是: 如果

f

$f$ 是完全可分的，即

f (x) = \sum_{i = 1}^{n} f_{i} (x_{i})

$f(x) = \sum_{i=1}^n f_i (x_i)$ : $$ (\mathbf{prox}_f(v))_i = \mathbf{prox}_{f_ 阅读全文

posted @ 2019-06-08 12:08 馒头and花卷阅读(381) 评论(0) 推荐(0) 编辑

Proximal Algorithms 1 介绍

摘要：[TOC] "Proximal Algorithms" 定义令

f : R^{n} \to R \cup {+ \infty}

$f: \mathrm{R}^n \rightarrow \mathrm{R} \cup \{+ \infty \}$ 为闭的凸函数，即其上镜图: $$ \mathbf{epi} f = \{ (x, t) \in \mathrm{R}^ 阅读全文

posted @ 2019-06-03 18:38 馒头and花卷阅读(910) 评论(0) 推荐(1) 编辑

ADADELTA: AN ADAPTIVE LEARNING RATE METHOD

摘要：[TOC] "" 引这篇论文比较短，先看了这篇，本来应该先把ADAGRAD看了的。普通的基于梯度下降的方法，普遍依赖于步长，起始点的选择，所以，受ADAGRAD的启发，作者提出了一种ADADELTA的方法。 $$ \Delta x_t = \frac{\mathrm{RMS}[\Delta x]_ 阅读全文

posted @ 2019-05-24 10:50 馒头and花卷阅读(337) 评论(0) 推荐(0) 编辑

Least Angle Regression

摘要：[TOC] "Efron B, Hastie T, Johnstone I M, et al. Least angle regression[J]. Annals of Statistics, 2004, 32(2): 407 499." 引在回归分析中，我们常常需要选取部分特征，而不是全都要，所阅读全文

posted @ 2019-05-23 11:30 馒头and花卷阅读(836) 评论(1) 推荐(0) 编辑

Momentum and NAG

摘要：[TOC] Momentum Momentum的迭代公式为：

v_{t} = γ v_{t 1} + η \nabla_{θ} J (θ) θ = θ v_{t}

$v_t = \gamma v_{t 1} + \eta \nabla_\theta J(\theta) \\ \theta=\theta v_t$ 其中

J (\cdot)

$J(\cdot)$ 一般为损失函数。我们知道，一般的梯度下降，是没有$\ga 阅读全文

posted @ 2019-05-19 11:20 馒头and花卷阅读(434) 评论(0) 推荐(0) 编辑

线性方程组求解

摘要：[TOC] "《Convex Optimization》" 数值解这么走下去，却不好好弄弄关于线性方程组的求解，总感觉很别扭，既然《凸优化》也很详细地介绍了这一块东西，我就先跳过别的把这一块整一整吧。容易求解的线性方程组先讨论

A x = b

$Ax = b$ 很容易求解的情况，即

A

$A$ 为满秩的方阵，方程有唯一的解阅读全文

posted @ 2019-04-17 21:09 馒头and花卷阅读(1248) 评论(0) 推荐(0) 编辑

一些矩阵范数的subgradients

摘要：[TOC] "《Subgradients》" "Subderivate wiki" "Subgradient method wiki" "《Subgradient method》" "Subgradient Prof.S.Boyd,EE364b,StanfordUniversity" "《Chara 阅读全文

posted @ 2019-04-12 16:07 馒头and花卷阅读(2968) 评论(0) 推荐(0) 编辑

subgradients

摘要：[TOC] "《Subgradients》" "Subderivate wiki" "Subgradient method wiki" "《Subgradient method》" "Subgradient Prof.S.Boyd,EE364b,StanfordUniversity" "《Chara 阅读全文

posted @ 2019-04-11 15:49 馒头and花卷阅读(1037) 评论(0) 推荐(0) 编辑

等式约束优化（可行点）

摘要：[TOC] "《Convex Optimization》" 之前，讲的下降方法以及Newton方法都是在无约束条件的前提下的。这里讨论的是在等式约束（线性方程）的前提下讨论的。我们研究的是下面的凸优化问题： $$ \begin{array}{ll} minimize & f(x) \\ s.t. & 阅读全文

posted @ 2019-03-29 16:51 馒头and花卷阅读(1970) 评论(0) 推荐(0) 编辑

最速下降方法和Newton方法

摘要：[TOC] "《Convex Optimization》" 最速下降方法

f (x + v)

$f(x+v)$ 在

v = 0

$v=0$ 处的一阶泰勒展开为：

f (x + v) \approx \hat{f} (x + v) = f (x) + \nabla f (x)^{T} v

$f(x+v)\approx \hat{f}(x+v) = f(x) + \nabla f(x)^{T}v$

\nabla f (x)^{T} v

$\nabla f(x)^{T}v$ 是

f

$f$ 在

x

$x$ 处沿$ 阅读全文

posted @ 2019-03-18 18:58 馒头and花卷阅读(2943) 评论(0) 推荐(0) 编辑

下降方法与梯度下降

摘要：[TOC] "《Convex Optimization》" 在介绍下降方法之前，我们需要先看一些预备的知识。预备知识我们假设目标函数在下水平集

S

$S$ 上是强凸的，这是指存在

m 0

$m 0$ ，使得

\nabla^{2} f (x) ⪰ m I

$\nabla^2 f(x) \succeq mI$ 对于任意

x

$x$ 成立。注意，这个广义不等式，是阅读全文

posted @ 2019-03-16 12:00 馒头and花卷阅读(1595) 评论(0) 推荐(0) 编辑

馒头and花卷

随笔分类 - 数值解

公告

搜索

随笔分类

Python相关

概率论-论文

收藏

优化问题-论文