摘要:
卷积层relu激活,偏置项使用极小值初始化,防止Relu出现死亡节点; 阅读全文
摘要:
过拟合,采用dropout解决,本质是bagging方法,相当于集成学习,注意dropout训练时设置为0~1的小数,测试时设置为1,不需要关闭节点;
学习率难以设定,Adagrad等自适应学习率方法;
深层网络梯度弥散,Relu激活取代sigmoid激活,不过输出层仍然使用sigmoid激活;
对于ReLU激活函数,常用截断正态分布,避免0梯度和完全对称;
对于Softmax分类(也就是sigmoid激活),由于对0附近最敏感,所以采用全0初始权重 阅读全文
摘要:
1.xavier初始化权重方法
2.函数实参可以是class(),即实例化的类 阅读全文