梯度下降高级优化算法中initial_theta与theta的理解（基于吴恩达机器学习）

首先，贴出梯度下降高级优化算法的实现代码（octave或者matlab，来源于吴恩达机器学习）

function [J, grad] = costFunction(theta, X, y)

options = optimset('GradObj', 'on', 'MaxIter', 400);
[theta, cost] = (@(t)(costFunction(t, X, y)), initial_theta,options);

其中initial_theta是整个参数的初始值（即最开始我们选择的的参数），而costFunction中的theta是每次迭代优化计算得到参数（从options来看迭代了400次），只是在第一次迭代时initial_theta传给costFunction的theta进行计算代价函数和偏导项，但之后的迭代中更新的theta在传给costFunction的theta，所以initial_theta和theta是有区别的。

另外，在costFunction中有操作是从输入的theta（此时是向量形式）运用reshape函数获得θ1、θ2和θ3（矩阵形式），参数从向量又提取为矩阵形式是因为在costFunction函数中，返回的结果是代价函数和各个参数的偏导项，因此在其计算过程中会需要用到前向传播，也肯定会使用到参数（而此时利用参数的向量化进行计算是一个更合理的选择，因此在该函数中我们会将参数向量转化为参数矩阵）。而最终我们能得到梯度矩阵（即各个参数的偏导项组成的矩阵），但是在返回结果中我们需要获得的是向量形式，因此我们又把梯度矩阵转换成了长向量（这是与参数向量一一对应的顺序，因为各个梯度就是代价函数J(θ)对各个参数有的偏导）

以上仅仅是个人的理解……

posted @ 2020-09-07 20:41 neverstopcoding 阅读(664) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

xwh_blog

！

梯度下降高级优化算法中initial_theta与theta的理解（基于吴恩达机器学习）

公告