“Technology has |

Uriel-w

园龄:5年粉丝:6关注:1

01 2022 档案

交叉熵与KL 散度(相对熵)
摘要:目前分类损失函数为何多用交叉熵,而不是 KL 散度。 首先损失函数的功能是通过样本来计算模型分布与目标分布间的差异,在分布差异计算中,KL 散度是最合适的。但在实际中,某一事件的标签是已知不变的(例如我们设置猫的 label 为 1,那么所有关于猫的样本都要标记为 1),即目标分布的熵为常数。而根据
247
0
0
Batch Normalization & layer normalization
摘要:BN回顾 #####首先Batch Normalization 中的Normalization被称为标准化,通过将数据进行平和缩放拉到一个特定的分布。BN就是在batch维度上进行数据的标准化。BN的引入是用来解决 internal covariate shift 问题,即训练迭代中网络激活的分布的
42
0
0
点击右上角即可分享
微信分享提示
深色
回顶
收起