摘要: 对几个经典方法的整理和比较 手打一下公式 梯度下降法:面向任何函数,收敛速度一阶,有发散可能。梯度下降法考虑函数的一阶梯度(一阶泰勒展开),找到一个合理的迭代方向,但是不能确定步长。 只利用了当前点的切线(一阶梯度)的信息 $x = x_0 - \lambda\nabla{f(x)}$ 牛顿法:面向 阅读全文
posted @ 2019-01-08 11:08 zherlock 阅读(156) 评论(0) 推荐(0) 编辑