Optimization: Basic Algorithm Concepts

CanChen ggchen@mail.ustc.edu.cn


第一篇文章主要是讲了最优化的问题定义,这里主要说说最优化的基本概念。因为好多英文术语我不熟,所以这篇就用中文来更新。

 

下降方向

这里下降方向就是说在当前点,沿着这个方向走,只要步子足够小,那么就可以下降。
同时,一般用的比较广泛的是下降方向的子集D:即和梯度夹角大于90度的所有方向。我一开始看到这个问题,就想这个是真子集吗?后来看了看,因为这里有一阶导数,所以只要不考虑驻点和鞍点,两个集合确实是等价的。否则,一个反例是f(x,y)=-x2-y在(0,y0)处。

 

可行方向

F这里的就是,在当前点附近按照一个步子走,只要步子迈得不大,还是在可行域里。
在有约束问题中,在局部最优解处,F和D没有交叉。这件事情可以这么想,如果局部最优解不在边界,那么D一定是空集,因为肯定可以到处走,往下降;当局部最优解在边界的时候,F限制了不能往边界外走,所以仍然是空集。

 

迭代下降算法

按照KKT条件,确实理论上可以求解有约束的最优化问题,但是一般还是迭代来得快。

 

下降函数

下降函数.PNG-61.4kB
具体到DL里面,下降函数就是Loss func, 解集合就是模型最优的那些参数,算法映射就是梯度下降方法。前面的优化函数f是Loss func中一个重要组成部分。

 

算法收敛性

算法收敛性.PNG-107.1kB
这个定理就比较有意思了。
1是说我的loss func一定会收敛到一个值
2是说给定了解集合和迭代方式,我们要能找到一个loss func把参数点往解集合方向逼
3是说要想个办法让loss func一定能把参数点逼进解集合

 

posted @ 2020-05-05 11:23  Klaus-Chen  阅读(174)  评论(0编辑  收藏  举报