【pytorch】loss越训越大,没多久就nan
最近在调试group dro,老碰上nan的情况。列下几个可能导致的原因:
1. 学习率过大(这个一般很容易排除,我遇到的也不是这个问题)
2. 分式中分母出现了0 (写代码时不容易注意,但出现nan大概率可能是这个)
3. forward中有开方的运算,比如x^0.5 (这是我遇到的情况,非常不容易发现,多谢这个老哥的帖子 https://stackoverflow.com/questions/40050397/deep-learning-nan-loss-reasons)
4. 之前在调试vae的时候貌似说tanh容易nan,sigmoid和relu会好一些 (这个存疑,有点不记得了但是激活函数会影响)