摘要: 参考资料:https://zhuanlan.zhihu.com/p/33173246?utm_source=wechat_session&utm_medium=social&utm_oi=611573545537507328 一般使用bn的话,对于模型的初始化要求没那么高,但是最终的结果可能没那么好 阅读全文
posted @ 2019-10-17 22:38 wwwwb 阅读(597) 评论(0) 推荐(0) 编辑
摘要: 1.RBF径向基函数 本质上和RBF核函数的SVM很相似,使用径向基函数对数据重新构建,利用 Φ(||X- Xp||)来代替原始的数据向量表示,一共有P个中心,所以获得的新数据有P个维度,此时再对数据进行分类。输出等于W Φ(||X- Xp||),W为需要求解的权重。 数学上是可以对W求解求解的,但 阅读全文
posted @ 2019-10-17 22:03 wwwwb 阅读(6392) 评论(0) 推荐(0) 编辑
摘要: 1.Learning Deep Transformer Models for Machine Translation https://arxiv.org/pdf/1906.01787.pdf 主要说明为如何训练一个深层的transformer,问题在于深层的梯度消失问题,采用的方法是对前面所有层的输 阅读全文
posted @ 2019-10-17 18:45 wwwwb 阅读(225) 评论(0) 推荐(0) 编辑