Autoencoders
Andrew Ng 组的Tutorial做的很浅显易懂啊,今天明白了Autoencoder。
其实,autoencoder做的就是降维,我觉得最让我眼睛一亮的地方是,用KL divergence(\ref{kl})做约束实现sparsity,相当于把$\rho$跟$\hat{\rho}$都看成是一种分布,统计的思想体现的很好,跟L1 norm有异曲同工之妙,而且,我感觉解析性应该比L1 norm更好!
\begin{equation}
\label{kl}
\mathbf{ KL}(\rho || \hat\rho_j) = \rho \log \frac{\rho}{\hat\rho_j} + (1-\rho) \log \frac{1-\rho}{1-\hat\rho_j}
\end{equation}