pytorch的函数中的group参数的作用

1.当设置group=1时：

conv = nn.Conv2d(in_channels=6, out_channels=6, kernel_size=1, groups=1)
conv.weight.data.size()

torch.Size([6, 6, 1, 1])

另一个例子：

conv = nn.Conv2d(in_channels=6, out_channels=3, kernel_size=1, groups=1)
conv.weight.data.size()

torch.Size([3, 6, 1, 1])

可见第一个值为out_channels的大小，第二个值为in_channels的大小，后面两个值为kernel_size

2.当设置为group=2时

conv = nn.Conv2d(in_channels=6, out_channels=6, kernel_size=1, groups=2)
conv.weight.data.size()

torch.Size([6, 3, 1, 1])

3.当设置group=3时

conv = nn.Conv2d(in_channels=6, out_channels=6, kernel_size=1, groups=3)
conv.weight.data.size()

torch.Size([6, 2, 1, 1])

4.当设置group=4时

conv = nn.Conv2d(in_channels=6, out_channels=6, kernel_size=1, groups=4)
conv.weight.data.size()

报错：

ValueError: in_channels must be divisible by groups

groups的值必须能整除in_channels

注意：

同样也要求groups的值必须能整除out_channels，举例：

conv = nn.Conv2d(in_channels=6, out_channels=3, kernel_size=1, groups=2)
conv.weight.data.size()

否则会报错：

ValueError: out_channels must be divisible by groups

5.当设置group=in_channels时

conv = nn.Conv2d(in_channels=6, out_channels=6, kernel_size=1, groups=6)
conv.weight.data.size()

torch.Size([6, 1, 1, 1])

所以当group=1时，该卷积层需要6*6*1*1=36个参数，即需要6个6*1*1的卷积核

计算时就是6*H_in*W_in的输入整个乘以一个6*1*1的卷积核，得到输出的一个channel的值,即1*H_out*W_out。这样经过6次与6个卷积核计算就能够得到6*H_out*W_out的结果了

如果将group=3时，卷积核大小为torch.Size([6, 2, 1, 1])，即6个2*1*1的卷积核，只需要需要6*2*1*1=12个参数

那么每组计算就只被in_channels/groups=2个channels的卷积核计算，其实就相当于是将6*H_in*W_in大小的输入按channels分成3分，每份大小为2*H_in*W_in，6个卷积核也会对应分成3份，即2*1*1，每份输入对应每份卷积核。所以将每份输入2*H_in*W_in看成一个输入，应用2个2*1*1的卷积核，就能够得到2*H_out*W_out。一份得到一个2*H_out*W_out的输出，那么3份就能够得到3个2*H_out*W_out的输出，在channels维concat起来得到最后的6*H_out*W_out输出

在实际实验中，同样的网络结构下，这种分组的卷积效果是好于未分组的卷积的效果的。

posted @ 2019-04-26 18:06 慢行厚积阅读(15249) 评论(2) 编辑收藏举报

刷新页面返回顶部

慢行厚积

pytorch的函数中的group参数的作用

公告