3-22
今天的工作
1 首先证明在最后的block去掉avg_pool2d,是否会有用。
这个灵感来自于刚刚复现的paper,Deep Imbalanced Attribute Classification usingVisual Attention Aggregation,这样的结果就是参数会变得特别多,因为加大了全连接,验证一下这个小的改变能不能提高()
如果提高,那么原因是因为更多的参数,会学习更好,不能提高,因为过拟合,pool本来就是为了增加泛化能力
结果表示,应该是很过拟合了,即会低大概十个点
2 复现w,h,channel三个角度的attention,这个好处是考虑了各个层面的attention,这个应该会有效,但是具体怎么用?
1 实际跑的过程,没有提高。为什么?原因可能是
2 完全按照他的复现,那就是去掉avg_pool
3 修改w,h,channel三个角度attention,完全引入senet
channel层面加入全连接
4 初始化到底影响不影响结果?我再自己写的层里面初始化都是用torch.ones()
1首先有bug!modle.state_这个里面参数也是有torch.Tensor()的,也就是Variable的,所以,可以这么说,,但是其实是可以的,torch.ones自动加入variable,
2能不能这么做?这种初始化到底会不会影响。。。。这个犯了致命错误,先把试验改过来,然后专门阐述一下
state_dict['conv44w.weight']=torch.ones(35,2048,1,1)
state_dict['bn44w.running_var']=torch.ones(35)
state_dict['bn44w.bias']=torch.ones(35)
state_dict['bn44w.weight']=torch.ones(35)
state_dict['bn44w.running_mean']=torch.ones(35)
曾经的我是这么初始化的,,,,,