Transforms的使用

Transform的作用

把图片经过Transforms的一些函数之后就会对图片进行一些变化。比如,resize就是改变其大小,totensor就是把图片PIL或者numpy类型转化为Tensor类型。

Transforms的结构及和 用法

totensor的使用

Transforms下的toTensor是一个对象,我们需要先实例化一个对象之后再通过这个实例化的对象进行调用。

from torchvision import transforms

tensor_class = transforms.ToTensor()
img_tensor = tensor_class(img_PIL)

为什么使用transforms转化为Tensor类型

因为tensor类型包装了我们神经网络中所需要的一些参数,而PIL或者numpy类型是没有的。
image

ToTensor实例代码


from PIL import Image
from torchvision.transforms import transforms
from torch.utils.tensorboard import SummaryWriter

img_PIL = Image.open("Dataset/hymenoptera_data/train/ants/0013035.jpg")
# print(img_PIL)
tensor_class = transforms.ToTensor()
img_tensor = tensor_class(img_PIL)

writer = SummaryWriter('logs')

writer.add_image('tensor-test',img_tensor,1,)
# print(img_tensor)
writer.close()

效果如下
image

常用的Transforms

Transforms的使用主要就是使用其中的一些常见 的类比如ToTensor(),Resize(),使用这些类的时候主要是注意其输入和输出,作用。最主要的是输入和输出。下图是transforms中的类,可以使用pycharm中的structure功能查看一个py文件中的函数和类。AIT+7快捷键
image

compose类

image
他的作用就是将transforms中的几个类结合使用。比如

transforms.Compose([transforms.CenterCrop(10),transforms.ToTensor()])
意思就是先进行CenterCrop再进行Totensor操作,要注意前一个类的输出符合后一个类的输入。
举例:
trans_Compose = transforms.Compose([transforms.Resize(216),transforms.ToTensor()])
img_PIL_to_resize_to_tensor = trans_Compose(img_PIL)
print(type(img_PIL_to_resize_to_tensor))

效果输出:
image

Normalize类

transforms.Normalize 是一个在深度学习库 PyTorch 中广泛使用的图像预处理函数,属于 torchvision.transforms 模块。该函数主要用于对输入数据(尤其是图像数据)进行标准化处理,以便提升模型训练的效率和效果。标准化处理的具体操作是对数据的每个通道(对于RGB图像即红、绿、蓝三个通道)执行如下操作:

output[channel] = (input[channel] - mean[channel]) / std[channel]

。通过这种方式,数据会被调整到均值为0、标准差为1的分布,这样的处理有助于消除不同通道间尺度不一致的问题,并使得模型学习过程更加稳定。

在实际应用中,transforms.Normalize 需要两个参数:mean 和 std,它们分别是每个通道的均值和标准差的列表。例如,对于典型的ImageNet数据集,常用的参数值为 mean=[0.485, 0.456, 0.406] 和 std=[0.229, 0.224, 0.225]。

需要注意的是,在应用 transforms.Normalize 之前,数据往往需要被转换成 PyTorch 的 Tensor 格式且其值通常位于[0, 1]或[-1, 1]区间内,这通常通过 transforms.ToTensor() 或其他预处理步骤完成。

from PIL import Image
from torchvision.transforms import transforms
from torch.utils.tensorboard import SummaryWriter

img_PIL = Image.open("Dataset/hymenoptera_data/train/ants/0013035.jpg")
# print(img_PIL)

#Totensor
tensor_class = transforms.ToTensor()
img_tensor = tensor_class(img_PIL)

#Nor
print(img_tensor[0][0][0])
trans_Nor = transforms.Normalize([1,2,0.5],[1,0.5,0.5])
img_Normal = trans_Nor(img_tensor)
print(img_Normal[0][0][0])

#
writer = SummaryWriter('logs')

writer.add_image('Totensor',img_tensor,1,)
writer.add_image('Normal',img_Normal,2)
# print(img_tensor)
writer.close()

效果如下:
image

Resize

改变图片大小,输入要么是(H,W)或者是一个整数,如果是(H,W)那么照片就是固定这个比例,如果是整数,那么就按照最小边来处理。通常适用于预处理那些尺寸不一的图像,使其适配模型所需的固定输入尺寸,同时保持图像内容的自然外观。

from PIL import Image
from torchvision.transforms import transforms
from torch.utils.tensorboard import SummaryWriter

img_PIL = Image.open("Dataset/hymenoptera_data/train/ants/0013035.jpg")
# print(img_PIL)

#Totensor
tensor_class = transforms.ToTensor()
img_tensor = tensor_class(img_PIL)

#Nor
print(img_tensor[0][0][0])
trans_Nor = transforms.Normalize([1,2,0.5],[1,0.5,0.5])
img_Normal = trans_Nor(img_tensor)
print(img_Normal[0][0][0])

#Resize

trans_Resize = transforms.Resize((100,300))
img_resize = trans_Resize(img_tensor)
# print(img_resize.shape)

#
writer = SummaryWriter('logs')

writer.add_image('Totensor',img_tensor,1,)
writer.add_image('Normal',img_Normal,2)
writer.add_image('resize',img_resize,3)
# print(img_tensor)
writer.close()

效果如下:
image

对于其他类的使用,多看官方文档,不会就翻译或者问chatgpt

posted @ 2024-06-21 22:27  云岛夜川川  阅读(2)  评论(0编辑  收藏  举报