torchvision.transforms解读

https://blog.csdn.net/Hansry/article/details/84071316

一、概要

torchvision主要由三个子包组成，分别是：torchvision.datasets、torchvision.models、torchvision.transforms。这3个子包的具体介绍可以参考官网：torchvision官网
具体代码可以参考github：vision github。

二、torchvision.transforms

torchvision.transforms是pytorch中的图像预处理包，包含了很多种对图像数据进行变换的函数，这些都是在我们进行图像数据读入步骤中必不可少的。


data_transforms = transforms.Compose([
        transforms.RandomResizedCrop(224),
        transforms.RandomHorizontalFlip(),
        transforms.ToTensor(),
        transforms.Normalize([0.485, 0.456, 0.406], [0.229, 0.224, 0.225])
    ])

transforms.Compose(transforms) 方法是将多种变换组合在一起。上述对data_transforms进行了四种变换，前两个是对PILImage进行的，分别对其进行随机大小和随机宽高比的裁剪，之后resize到指定大小224，以及对原始图像进行随机的水平翻转；

第三个 transforms.ToTensor() 将PILImage转变为torch.FloatTensor的数据形式；

而最后一个Normalize则是对tensor进行的。

多种组合变换有一定的先后顺序，处理PILImage的变换方法（大多数方法）都需要放在ToTensor方法之前，而处理tensor的方法（比如Normalize方法）就要放在ToTensor方法之后。

transforms中的函数

1.对Tensor进行变换

torchvision.transforms.Normalize(mean, std)：用给定的均值和标准差分别对每个通道的数据进行正则化。具体来说，给定均值(M1,…,Mn)，给定标准差(S1,…,Sn)，其中n是通道数（一般是3），对每个通道进行如下操作：
output[channel] = (input[channel] - mean[channel]) / std[channel]

比如：原来的tensor是三个维度的，值在[0,1]之间，经过变换之后就到了[-1，1]
计算如下：(（0,1）-0.5）/0.5=(-1,1)

torchvision.transforms.ToTensor ：把一个取值范围是[0,255]的PIL.Image或者shape为(H,W,C)的numpy.ndarray，转换成形状为[C,H,W]，取值范围是[0,1.0]的torch.FloadTensor

torchvision.transforms.ToPILImage：将shape为(C,H,W)的Tensor或shape为(H,W,C)的numpy.ndarray转换成PIL.Image，值不变。

torchvision.transforms.CenterCrop(size)
将给定的PIL.Image进行中心切割，得到给定的size，size可以是tuple，(target_height, target_width)。size也可以是一个Integer，在这种情况下，切出来的图片的形状是正方形。

torchvision.transforms.RandomCrop(size, padding=0)
切割中心点的位置随机选取。size可以是tuple也可以是Integer。

torchvision.transforms.RandomHorizontalFlip
随机水平翻转给定的PIL.Image,概率为0.5。即：一半的概率翻转，一半的概率不翻转。

torchvision.transforms.RandomSizedCrop(size, interpolation=2)
先将给定的PIL.Image随机切，然后再resize成给定的size大小。

torchvision.transforms.Pad(padding, fill=0)
将给定的PIL.Image的所有边用给定的pad value填充。 padding：要填充多少像素 fill：用什么值填充

例子：


from torchvision import transforms
from PIL import Image
padding_img = transforms.Pad(padding=10, fill=0)
img = Image.open('test.jpg')
 
print(type(img))
print(img.size)
 
padded_img=padding(img)
print(type(padded_img))
print(padded_img.size)

输出：

<class 'PIL.PngImagePlugin.PngImageFile'>
(10, 10)
<class 'PIL.Image.Image'>
(30, 30) #由于上下左右都要填充10个像素，所以填充后的size是(30,30)

参考

csdn博客
 简书torchvision.transforms用法介绍，
感谢作者。

发表于 2020-11-23 16:43 dychen0408 阅读(882) 评论(0) 收藏举报

刷新页面返回顶部

torchvision.transforms解读

一、概要

二、torchvision.transforms

transforms中的函数

1.对Tensor进行变换

参考

公告

导航