02Tensorflow IO操作
一.tensorflow队列
1.tf.FIFOQueue
先进先出队列,按顺序出队列
注意:
当数据量很大时,入队操作从硬盘中读取数据,放入内存中,主线程需要等待入队操作完成,才能进行训练。会话里可以运行多个线程,实现异步读取。
2.tf.RandomShuffleQueue
随机出队列
3.队列管理器
4.线程协调器
二.文件读取
1.步骤
1) 放入文件队列(路径+文件名构成文件列表)
2) 文件阅读器tfrecords按单个样本读取
l csv文件读取一行
l 二进制文件按照输入的bytes数来读取样本
l 图片文件按一张一张来读取
3) 解码器 不同文件类型的解码器不一样
4) 批处理
2.文件队列构造API
tf.train.string_input_producer(string_tensor,,shuffle=True)
将输出字符串(例如文件名)输入到管道队列
- string_tensor 含有文件名的1阶张量
- num_epochs:过几遍数据,默认无限过数据
- return:具有输出字符串的队列
3.文件阅读器API
根据文件格式,选择对应的文件阅读器
class tf.TextLineReader
- 阅读文本文件逗号分隔值(CSV)格式,默认按行读取
- return:读取器实例
tf.FixedLengthRecordReader(record_bytes)
- 要读取每个记录是固定数量字节的二进制文件
- record_bytes:整型,指定每次读取的字节数
- return:读取器实例
tf.TFRecordReader
- 读取TfRecords文件
有一个共同的读取方法:
- read(file_queue):从队列中指定数量内容
返回一个Tensors元组(key文件名字,value默认的内容(行,字节))
4.文件内容解码器
tf.decode_csv(records,record_defaults=None,field_delim = None,name = None)
将CSV转换为张量,与tf.TextLineReader搭配使用
- records:tensor型字符串,每个字符串是csv中的记录行
- field_delim:默认分割符”,”
- record_defaults:参数决定了所得张量的类型,并设置一个值在输入字符串中缺少使用默认值,如
tf.decode_raw(bytes,out_type,little_endian = None,name = None)
将字节转换为一个数字向量表示,字节为一字符串类型的张量,与函数tf.FixedLengthRecordReader搭配使用,二进制读取为uint8格式
5.开启线程操作
tf.train.start_queue_runners(sess=None,coord=None)
收集所有图中的队列线程,并启动线程
- sess:所在的会话中
- coord:线程协调器
- return:返回所有线程队列
6.同时读取多个样本:管道读端批处理
tf.train.batch(tensors,batch_size,num_threads = 1,capacity = 32,name=None)
- 读取指定大小(个数)的张量
- tensors:可以是包含张量的列表
- batch_size:从队列中读取的批处理大小
- num_threads:进入队列的线程数
- capacity:整数,队列中元素的最大数量
- return:tensors
tf.train.shuffle_batch(tensors,batch_size,capacity,min_after_dequeue,
num_threads=1,)
- 乱序读取指定大小(个数)的张量
- min_after_dequeue:留下队列里的张量个数,能够保持随机打乱
三.图像读取
1.图像三要素
长度、宽度、通道数
2.图像基本操作
2.1目的:
1、增加图片数据的统一性
2、所有图片转换成指定大小
3、缩小图片数据量,防止增加开销
2.2操作:
缩小图片大小
2.3 缩小图片API
tf.image.resize_images(images, size)
- images:4-D形状[batch, height, width, channels]或3-D形状的张量[height, width, channels]的图片数据
- size:1-D int32张量:new_height, new_width,图像的新尺寸
- 返回4-D格式或者3-D格式图片
- tf.WholeFileReader
- 将文件的全部内容作为值输出的读取器
- return:读取器实例
- read(file_queue):输出将是一个文件名(key)和该文件的内容
3.图像读取API
3.1图像读取器
- tf.WholeFileReader
- 将文件的全部内容作为值输出的读取器
- return:读取器实例
- read(file_queue):输出将是一个文件名(key)和该文件的内容(值)
3.2图像解码器
- tf.image.decode_jpeg(contents)
- 将JPEG编码的图像解码为uint8张量
- return:uint8张量,3-D形状[height, width, channels]
- tf.image.decode_png(contents)
- 将PNG编码的图像解码为uint8或uint16张量
- return:张量类型,3-D形状[height, width, channels]
4.批处理流程
1)构建图片文件队列
2)构造图片阅读器
3)读取图片数据
4)处理图片数据
5.TFRecords分析、存取
TFRecords是Tensorflow设计的一种内置文件格式,是一种二进制文件,它能更好的利用内存,更方便复制和移动;为了将二进制数据和标签(训练的类别标签)数据存储在同一个文件中。
5.1 文件分析
- 文件格式:*.tfrecords
- 写入文件内容:Example协议块
5.2 TFRecords存储
1、建立TFRecord存储器
- tf.python_io.TFRecordWriter(path)
写入tfrecords文件
- path: TFRecords文件的路径
- return:写文件
- method
- write(record):向文件中写入一个字符串记录
- close():关闭文件写入器
- 注:字符串为一个序列化的Example,Example.SerializeToString()
2、构造每个样本的Example协议块
1)tf.train.Example(features=None)
- 写入tfrecords文件
- features:tf.train.Features类型的特征实例
- return:example格式协议块
2)tf.train.Features(feature=None)
- 构建每个样本的信息键值对
- feature:字典数据,key为要保存的名字,
value为tf.train.Feature实例
- return:Features类型
3)tf.train.Feature(**options)
- **options:例如
bytes_list=tf.train. BytesList(value=[Bytes])
int64_list=tf.train. Int64List(value=[Value])
4) tf.train. Int64List(value=[Value])
tf.train. BytesList(value=[Bytes])
tf.train. FloatList(value=[value])
5.3 TFRecords读取
同文件阅读器流程,中间需要解析过程
解析TFRecords的example协议内存块
- tf.parse_single_example(serialized,features=None,name=None)
- 解析一个单一的Example原型
- serialized:标量字符串Tensor,一个序列化的Example
- features:dict字典数据,键为读取的名字,值为FixedLenFeature
- return:一个键值对组成的字典,键为读取的名字
- tf.FixedLenFeature(shape,dtype)
- shape:输入数据的形状,一般不指定,为空列表
- dtype:输入数据类型,与存储进文件的类型要一致
类型只能是float32,int64,string
5.4 存储读取流程
1)存入
- 构造存储器
- 构造每一个样本的Example
- 写入序列化的Example
2)读取
- 构造TFRecords阅读器
- 解析Example
- 转换格式,bytes解码
6.实例
1 import tensorflow as tf 2 import os 3 4 5 # 模拟一下同步先处理数据,然后才能取数据训练 6 # tensorflow当中,运行操作有依赖性 7 8 # # 1、首先定义队列 9 # Q = tf.FIFOQueue(3, tf.float32) 10 # 11 # # 放入一些数据 12 # enq_many = Q.enqueue_many([[0.1, 0.2, 0.3], ]) 13 # 14 # # 2、定义一些处理数据的螺距,取数据的过程 取数据,+1, 入队列 15 # 16 # out_q = Q.dequeue() 17 # 18 # data = out_q + 1 19 # 20 # en_q = Q.enqueue(data) 21 # 22 # with tf.Session() as sess: 23 # # 初始化队列 24 # sess.run(enq_many) 25 # 26 # # 处理数据 27 # for i in range(100): 28 # sess.run(en_q) 29 # 30 # # 训练数据 31 # for i in range(Q.size().eval()): 32 # print(sess.run(Q.dequeue())) 33 34 35 # 模拟异步子线程 存入样本, 主线程 读取样本 36 37 # # 1、定义一个队列,1000 38 # Q = tf.FIFOQueue(1000, tf.float32) 39 # 40 # # 2、定义要做的事情 循环 值,+1, 放入队列当中 41 # var = tf.Variable(0.0) 42 # 43 # # 实现一个自增 tf.assign_add 44 # data = tf.assign_add(var, tf.constant(1.0)) 45 # 46 # en_q = Q.enqueue(data) 47 # 48 # # 3、定义队列管理器op, 指定多少个子线程,子线程该干什么事情 49 # qr = tf.train.QueueRunner(Q, enqueue_ops=[en_q] * 2) 50 # 51 # # 初始化变量的OP 52 # init_op = tf.global_variables_initializer() 53 # 54 # with tf.Session() as sess: 55 # # 初始化变量 56 # sess.run(init_op) 57 # 58 # # 开启线程管理器 59 # coord = tf.train.Coordinator() 60 # 61 # # 真正开启子线程 62 # threads = qr.create_threads(sess, coord=coord, start=True) 63 # 64 # # 主线程,不断读取数据训练 65 # for i in range(300): 66 # print(sess.run(Q.dequeue())) 67 # 68 # # 回收你 69 # coord.request_stop() 70 # 71 # coord.join(threads) 72 73 74 # 批处理大小,跟队列,数据的数量没有影响,只决定 这批次取多少数据 75 76 77 def csvread(filelist): 78 """ 79 读取CSV文件 80 :param filelist: 文件路径+名字的列表 81 :return: 读取的内容 82 """ 83 # 1、构造文件的队列 84 file_queue = tf.train.string_input_producer(filelist) 85 86 # 2、构造csv阅读器读取队列数据(按一行) 87 reader = tf.TextLineReader() 88 89 key, value = reader.read(file_queue) 90 91 # 3、对每行内容解码 92 # record_defaults:指定每一个样本的每一列的类型,指定默认值[["None"], [4.0]] 93 records = [["None"], ["None"]] 94 95 example, label = tf.decode_csv(value, record_defaults=records) 96 97 # 4、想要读取多个数据,就需要批处理 98 example_batch, label_batch = tf.train.batch([example, label], batch_size=9, num_threads=1, capacity=9) 99 100 print(example_batch, label_batch) 101 return example_batch, label_batch 102 103 104 def picread(filelist): 105 """ 106 读取狗图片并转换成张量 107 :param filelist: 文件路径+ 名字的列表 108 :return: 每张图片的张量 109 """ 110 # 1、构造文件队列 111 file_queue = tf.train.string_input_producer(filelist) 112 113 # 2、构造阅读器去读取图片内容(默认读取一张图片) 114 reader = tf.WholeFileReader() 115 116 key, value = reader.read(file_queue) 117 118 print(value) 119 120 # 3、对读取的图片数据进行解码 121 image = tf.image.decode_jpeg(value) 122 123 print(image) 124 125 # 5、处理图片的大小(统一大小) 126 image_resize = tf.image.resize_images(image, [200, 200]) 127 128 print(image_resize) 129 130 # 注意:一定要把样本的形状固定 [200, 200, 3],在批处理的时候要求所有数据形状必须定义 131 image_resize.set_shape([200, 200, 3]) 132 133 print(image_resize) 134 135 # 6、进行批处理 136 image_batch = tf.train.batch([image_resize], batch_size=20, num_threads=1, capacity=20) 137 138 print(image_batch) 139 140 return image_batch 141 142 143 # 定义cifar的数据等命令行参数 144 FLAGS = tf.app.flags.FLAGS 145 146 tf.app.flags.DEFINE_string("cifar_dir", "./data/cifar10/cifar-10-batches-bin/", "文件的目录") 147 tf.app.flags.DEFINE_string("cifar_tfrecords", "./tmp/cifar.tfrecords", "存进tfrecords的文件") 148 149 150 class CifarRead(object): 151 """完成读取二进制文件, 写进tfrecords,读取tfrecords 152 """ 153 def __init__(self, filelist): 154 # 文件列表 155 self.file_list = filelist 156 157 # 定义读取的图片的一些属性 158 self.height = 32 159 self.width = 32 160 self.channel = 3 161 # 二进制文件每张图片的字节 162 self.label_bytes = 1 163 self.image_bytes = self.height * self.width * self.channel 164 self.bytes = self.label_bytes + self.image_bytes 165 166 def read_and_decode(self): 167 168 # 1、构造文件队列 169 file_queue = tf.train.string_input_producer(self.file_list) 170 171 # 2、构造二进制文件读取器,读取内容, 每个样本的字节数 172 reader = tf.FixedLengthRecordReader(self.bytes) 173 174 key, value = reader.read(file_queue) 175 176 # 3、解码内容, 二进制文件内容的解码 177 label_image = tf.decode_raw(value, tf.uint8) 178 179 print(label_image) 180 181 # 4、分割出图片和标签数据,切除特征值和目标值 182 label = tf.cast(tf.slice(label_image, [0], [self.label_bytes]), tf.int32) 183 184 image = tf.slice(label_image, [self.label_bytes], [self.image_bytes]) 185 186 # 5、可以对图片的特征数据进行形状的改变 [3072] --> [32, 32, 3] 187 image_reshape = tf.reshape(image, [self.height, self.width, self.channel]) 188 189 print(label, image_reshape) 190 # 6、批处理数据 191 image_batch, label_batch = tf.train.batch([image_reshape, label], batch_size=10, num_threads=1, capacity=10) 192 193 print(image_batch, label_batch) 194 return image_batch, label_batch 195 196 def write_ro_tfrecords(self, image_batch, label_batch): 197 """ 198 将图片的特征值和目标值存进tfrecords 199 :param image_batch: 10张图片的特征值 200 :param label_batch: 10张图片的目标值 201 :return: None 202 """ 203 # 1、建立TFRecord存储器 204 writer = tf.python_io.TFRecordWriter(FLAGS.cifar_tfrecords) 205 206 # 2、循环将所有样本写入文件,每张图片样本都要构造example协议 207 for i in range(10): 208 # 取出第i个图片数据的特征值和目标值 209 image = image_batch[i].eval().tostring() 210 211 label = int(label_batch[i].eval()[0]) 212 213 # 构造一个样本的example 214 example = tf.train.Example(features=tf.train.Features(feature={ 215 "image": tf.train.Feature(bytes_list=tf.train.BytesList(value=[image])), 216 "label": tf.train.Feature(int64_list=tf.train.Int64List(value=[label])), 217 })) 218 219 # 写入单独的样本 220 writer.write(example.SerializeToString()) 221 222 # 关闭 223 writer.close() 224 return None 225 226 def read_from_tfrecords(self): 227 228 # 1、构造文件队列 229 file_queue = tf.train.string_input_producer([FLAGS.cifar_tfrecords]) 230 231 # 2、构造文件阅读器,读取内容example,value=一个样本的序列化example 232 reader = tf.TFRecordReader() 233 234 key, value = reader.read(file_queue) 235 236 # 3、解析example 237 features = tf.parse_single_example(value, features={ 238 "image": tf.FixedLenFeature([], tf.string), 239 "label": tf.FixedLenFeature([], tf.int64), 240 }) 241 242 # 4、解码内容, 如果读取的内容格式是string需要解码, 如果是int64,float32不需要解码 243 image = tf.decode_raw(features["image"], tf.uint8) 244 245 # 固定图片的形状,方便与批处理 246 image_reshape = tf.reshape(image, [self.height, self.width, self.channel]) 247 248 label = tf.cast(features["label"], tf.int32) 249 250 print(image_reshape, label) 251 252 # 进行批处理 253 image_batch, label_batch = tf.train.batch([image_reshape, label], batch_size=10, num_threads=1, capacity=10) 254 255 return image_batch, label_batch 256 257 258 if __name__ == "__main__": 259 # 1、找到文件,放入列表 路径+名字 ->列表当中 260 file_name = os.listdir(FLAGS.cifar_dir) 261 262 filelist = [os.path.join(FLAGS.cifar_dir, file) for file in file_name if file[-3:] == "bin"] 263 264 # print(file_name) 265 cf = CifarRead(filelist) 266 267 # image_batch, label_batch = cf.read_and_decode() 268 269 image_batch, label_batch = cf.read_from_tfrecords() 270 271 # 开启会话运行结果 272 with tf.Session() as sess: 273 # 定义一个线程协调器 274 coord = tf.train.Coordinator() 275 276 # 开启读文件的线程 277 threads = tf.train.start_queue_runners(sess, coord=coord) 278 279 # 存进tfrecords文件 280 # print("开始存储") 281 # 282 # cf.write_ro_tfrecords(image_batch, label_batch) 283 # 284 # print("结束存储") 285 286 # 打印读取的内容 287 print(sess.run([image_batch, label_batch])) 288 289 # 回收子线程 290 coord.request_stop() 291 292 coord.join(threads)