第五周 第二部分
Theta1,2,3 和D1,2,3都是系数矩阵
thetaVec = [Theta1(:); Theta2(:);Theta3(:) ]; 里面:外面; 会把Theta1 ,Theta2,Theta3中的所有元素展开,形成一个向量thetaVec
reshape 会把向量在恢复到矩阵Theta1,2,3
梯度检验
0初始化是不可取的
没有打破对称
在计算伪随机数时,若使用的初值(种子)不变,那么伪随机数的数序也不变
随意初始化,打破对称
一般,隐藏单元的数目稍大于输入单元数目
梯度下降和其他的一些高级算法理论上都可以收敛与局部最小值,可能不是全局最小值
J(theta)是一个非凸函数,理论上能够停留在局部最小值的位置。