摘要:
32位浮点型数的二进制存储 IEEE754 32位浮点数表示范围 详解二进制浮点数 阅读全文
摘要:
本文摘自:学习率和batchsize如何影响模型的性能? 初始的学习率一般有一个最优值,过大则导致模型不收敛,过小则导致模型收敛特别慢或者无法学习,下图展示了不同大小的学习率下模型收敛情况的可能性,图来自于cs231n。 阅读全文
摘要:
在用pytorch搭建和训练神经网络时,有时为了查看非叶子张量的梯度,比如网络权重张量的梯度,会用到retain_grad()函数。但是几次实验下来,发现用或不用retain_grad()函数,最终神经网络的准确率会有一点点差异。用retain_grad()函数的训练结果会差一些。目前还没有去探究这 阅读全文
摘要:
深度学习中的batch的大小对学习效果有何影响? 更大的batch size能更好的代表训练样本总体,所指示的梯度方向能更接近所有训练数据的极值方向。 阅读全文
摘要:
【Pytorch】对比clone、detach以及copy_等张量复制操作 阅读全文
摘要:
KL散度理解以及使用pytorch计算KL散度 计算例子: 阅读全文
摘要:
参考:相对熵(KL散度) 阅读全文
摘要:
在pytorch中计算KLDiv loss时,注意reduction='batchmean',不然loss不仅会在batch维度上取平均,还会在概率分布的维度上取平均。 参考:KL散度-相对熵 阅读全文