深度学习UFLDL老教程笔记1 稀疏自编码器Ⅰ

稀疏自编码器的学习结构:

稀疏自编码器Ⅰ：

神经网络

反向传导算法

梯度检验与高级优化

稀疏自编码器Ⅱ：

自编码算法与稀疏性

可视化自编码器训练结果

Exercise: Sparse Autoencoder

稀疏自编码器Ⅰ这部分先简单讲述神经网络的部分，它和稀疏自编码器关系很大。

神经网络

基本概念：

Topics: connection weights, bias, activation function

神经元（运算单元）：连接关系，输入与权值

生物神经元：Synapse, axon, dendrite

激活函数（映射关系）: sigmoid, tanh, linear activation, rectified linear, softmax …

以及激活函数的导数: g(a)=a, g'(a)=1;

g(a) = sigm(a)=1/1+exp(-a), g'(a)=g(a)(1-g(a));

g(a) = tanh(a)=exp(a)-exp(-a)/exp(a)+exp(-a) =exp(2a)-1/exp(2a)+1, g'(a)=1-g(a)^2

Topics: capacity, decision boundary of neuron

single neuron can solve linearly separable problems，do binary classification

Can't solve non linearly separable problems...

神经网络模型

神经网络就是将许多个单一"神经元"联结在一起。

有输入层，隐藏层（可多层），输出层。

Topics: CAPACITY OF NEURAL NETWORK

Universal approximation theorem (Hornik, 1991):

‣ ''a single hidden layer neural network with a linear output unit can approximate any continuous function arbitrarily well, given enough hidden units''

只要隐含层单元个数足够多，就一个隐藏层的神经网络就能近似表示任何复杂连续函数。这个定理至关重要！

但是这不代表就能找到一个好的算法去找到合适的参数。

这就是神经网络之前研究萧条的原因之一，另一个曾经出现过的原因是一个神经元不能处理非线性可分的分类任务，如实现异或逻辑。

Topics: multilayer neural network

一层不够好，那就多层，甚至现如今火的深度网络。也是有生物理论背景的（visual cortex），也有些方法来训练网络，调整参数的。以后一边学一边总结。

forward propagation 前向传播

总结为前一层是后一层的输入，但注意中间层的激活函数和输出层的激活函数可能不同。也是forward propagation 前向传播的流程。

Topics: empirical risk minimization, regularization

最后，从机器学习中的监督学习角度来说，假设我们有训练样本集（Xi，Yi ），那么神经网络算法能够提供一种复杂且非线性的假设模型H(X) ，它具有参数W, b，可以以此参数来拟合我们的数据。

即Empirical risk minimization（期望风险/损失最小化）

‣ framework to design learning algorithms

最终学习问题转化为最优化问题。优化方法有许多。

这里介绍常用的一种方法：随机梯度下降法，stochastic gradient descent (SGD)，注意下图用的是stochastic随机（单个each），而ufldl老教程用的是batch批量梯度下降法来训练神经网络，当然还可以有min-batch（部分）。且ufldl实验中使用了L-BFGS optimization algorithm的函数包来进行优化。L-BFGS is a limited-memory quasi-Newton code for unconstrained optimization.