请问如果已经对网络进行修改了,比如用了别的模块,在剪枝的时候该怎么修改代码呢
为啥第三点显著的节省了内存,conv中的权重求梯度不是还是需要输入x这个中间变量吗还是会存下来
请问pytorch是如何不保存中间变量,但不影响反向传播的,只留个gradfn吗,nograd函数是在不保留大部分中间变量的基础上,把一些算梯度的必须的中间变量给删掉吗。
加上也还是报错呀