2024年9月28日
摘要: 梯度的尺度保持不变: 利用阿达玛乘积,梯度的尺度不会因为层数的增加而减小或增大,因为每次乘积都是独立的元素乘法,不涉及整个矩阵的缩放。总的来说,阿达玛乘积不会像矩阵乘积那样导致梯度消失或梯度爆炸,因为它不涉及线性变换的累积效应,而是对梯度进行逐元素的操作。这使得LSTM等网络结构在处理长序列时更加稳 阅读全文
posted @ 2024-09-28 10:42 erdong911 阅读(98) 评论(0) 推荐(0) 编辑