【pytorch】loss越训越大,没多久就nan

最近在调试group dro,老碰上nan的情况。列下几个可能导致的原因:

1. 学习率过大(这个一般很容易排除,我遇到的也不是这个问题)

2. 分式中分母出现了0 (写代码时不容易注意,但出现nan大概率可能是这个)

3. forward中有开方的运算,比如x^0.5 (这是我遇到的情况,非常不容易发现,多谢这个老哥的帖子 https://stackoverflow.com/questions/40050397/deep-learning-nan-loss-reasons)

4. 之前在调试vae的时候貌似说tanh容易nan,sigmoid和relu会好一些 (这个存疑,有点不记得了但是激活函数会影响)

 

posted @ 2023-03-20 14:46  lxyhaha  阅读(121)  评论(0编辑  收藏  举报