连接是手动设置的,weight和bias是调出来的,一个神经网络将参数设置好就是一个function
deep指的就是许多隐藏层
可以表示成矩阵方便运算
------------
手写数字举例:
输入256维向量,输出10维,每个代表输出为数字0,1……9的几率
计算损失就是计算y和y^的交叉熵损失
找一个θ*使total loss最小
怎样找最好参数θ*,梯度下降θ*。