MachineLearning Exercise 4 ：Neural Networks Learning

nnCostFunction

消耗公式:

a1 = [ones(m,1) X];
z2 = a1*Theta1';
pre = sigmoid(a1*Theta1');
a2 = [ones(m,1) pre];
z3 = a2*Theta2';
a3 = sigmoid(z3);

y_vec = zeros(m,num_labels);
for i=1:m;
    y_vec(i,y(i)) = 1;
end

for i=1:m
    J = J + y_vec(i,:)*log(a3(i,:)')+(1-y_vec(i,:))*log(1-a3(i,:))';
end
J = (-1/m)*J;

% add regularized
J = J + (lambda/(2*m))*(sum(sum(Theta1(:,2:end).^2))+sum(sum(Theta2(:,2:end).^2)));

% back
Delta1 = zeros(size(Theta1));  
Delta2 = zeros(size(Theta2));  
for i=1:m,  
    delta3 = a3(i,:) - y_vec(i,:);  
    temp = (delta3*Theta2);
    delta2 = temp(:,2:end).*sigmoidGradient(z2(i,:));  

    Delta2 = Delta2 + delta3' * a2(i,:);  
      
    Delta1 = Delta1 + delta2' * a1(i,:);  
end;  
  
Theta2_grad = Delta2/m;  
Theta1_grad = Delta1/m;  
  
Theta2_grad(:,2:end) = Theta2_grad(:,2:end) + lambda * Theta2(:,2:end) / m;  
Theta1_grad(:,2:end) = Theta1_grad(:,2:end) + lambda * Theta1(:,2:end) / m;

为了方便使用fminunc()，这里讲Theta1和Theta2展开组合成一个vector（nn_params=[Theta1(:);Theta2(:)]），在需要使用时使用reshape重构。
初始化是，y是一个由0到9组成的向量，由于我们使用了sigmoid函数，需要将y转化成一个编码式的矩阵。
a1，a2，a3分别为各层激活值。
对矩阵使用一次sum只是分别将行相加求和得到一个向量，因此在求消耗值时应该使用两次sum。
没必要求delta1，因为第一层是我们的原始输入数据，不存在误差一说。