摘要:
Independence: The columns of A are independent when the nullspace N (A) contains only the zero vector. Example1: 1. If three vectors are not in the sa 阅读全文
摘要:
Special Solutions: Notice what is special about s 1 and S2. They have ones and zeros in the last two components. Those components are "free" and we ch 阅读全文
摘要:
Vector Space: R1, R2, R3,R4 , .... Each space Rn consists of a whole collection of vectors. R5 contains all column vectors with five components. This 阅读全文
摘要:
1. Linear Combination Two linear operations of vectors: Linear combination: 2.Geometric Explainations 2D case 3D case:for 3 vectors u,v,w,the importan 阅读全文
摘要:
曾经多次看到别人说起,在选择Optimizer的时候默认就选Adam。这样的建议其实比较尴尬,如果有一点科学精神的人,其实就会想问为什么,并搞懂这一切,这也是我开这个Optimizer系列的原因之一。前面介绍了Momentum,也介绍了RMSProp,其实Adam就是二者的结合,再加上偏差修正(Bi 阅读全文
摘要:
AdaGrad全称是Adaptive Gradient Algorithm,是标准Gradient Descent的又一个派生算法。标准Gradient Descent的更新公式为: 其中Learning Rate α对于Cost Function的各个feature都一样,但同一个α几乎不可能在各 阅读全文
摘要:
在Batch Gradient Descent及Mini-batch Gradient Descent, Stochastic Gradient Descent(SGD)算法中,每一步优化相对于之前的操作,都是独立的。每一次迭代开始,算法都要根据更新后的Cost Function来计算梯度,并用该梯 阅读全文
摘要:
全零初始化的问题: 在Linear Regression中,常用的参数初始化方式是全零,因为在做Gradient Descent的时候,各个参数会在输入的各个分量维度上各自更新。更新公式为: 而在Neural Network(Deep Learning)中,当我们将所有的parameters做全零初 阅读全文
摘要:
L2 Regularization是解决Variance(Overfitting)问题的方案之一,在Neural Network领域里通常还有Drop Out, L1 Regularization等。无论哪种方法,其Core Idea是让模型变得更简单,从而平衡对training set完美拟合、以 阅读全文
摘要:
1. Sigmoid Function: when z=0,g'(z)=0.25 2. tanh Function: when x=0,tanh'(x)=1 3. Relu 阅读全文