02Tensorflow IO操作

一.tensorflow队列

1.tf.FIFOQueue

先进先出队列,按顺序出队列

 

 

 

注意:

 

 

 

当数据量很大时,入队操作从硬盘中读取数据,放入内存中,主线程需要等待入队操作完成,才能进行训练。会话里可以运行多个线程,实现异步读取。

2.tf.RandomShuffleQueue

随机出队列

3.队列管理器

 

4.线程协调器

 

二.文件读取

1.步骤

1)       放入文件队列(路径+文件名构成文件列表)

2)       文件阅读器tfrecords按单个样本读取

l  csv文件读取一行

l  二进制文件按照输入的bytes数来读取样本

l  图片文件按一张一张来读取

3) 解码器   不同文件类型的解码器不一样

4) 批处理

2.文件队列构造API

tf.train.string_input_producer(string_tensor,,shuffle=True)

将输出字符串(例如文件名)输入到管道队列

  • string_tensor     含有文件名的1阶张量
  • num_epochs:过几遍数据,默认无限过数据
  • return:具有输出字符串的队列

3.文件阅读器API

根据文件格式,选择对应的文件阅读器

class tf.TextLineReader

  • 阅读文本文件逗号分隔值(CSV)格式,默认按行读取
  • return:读取器实例

tf.FixedLengthRecordReader(record_bytes)

  • 要读取每个记录是固定数量字节的二进制文件
  • record_bytes:整型,指定每次读取的字节数
  • return:读取器实例

tf.TFRecordReader

  • 读取TfRecords文件

 

有一个共同的读取方法:

  • read(file_queue):从队列中指定数量内容

返回一个Tensors元组(key文件名字,value默认的内容(行,字节))

4.文件内容解码器

tf.decode_csv(records,record_defaults=None,field_delim = None,name = None)

将CSV转换为张量,与tf.TextLineReader搭配使用

  • records:tensor型字符串,每个字符串是csv中的记录行
  • field_delim:默认分割符”,”
  • record_defaults:参数决定了所得张量的类型,并设置一个值在输入字符串中缺少使用默认值,如

tf.decode_raw(bytes,out_type,little_endian = None,name = None)

       将字节转换为一个数字向量表示,字节为一字符串类型的张量,与函数tf.FixedLengthRecordReader搭配使用,二进制读取为uint8格式

5.开启线程操作

tf.train.start_queue_runners(sess=None,coord=None)

       收集所有图中的队列线程,并启动线程

  • sess:所在的会话中
  • coord:线程协调器
  • return:返回所有线程队列

6.同时读取多个样本:管道读端批处理

tf.train.batch(tensors,batch_size,num_threads = 1,capacity = 32,name=None)

  • 读取指定大小(个数)的张量
  • tensors:可以是包含张量的列表
  • batch_size:从队列中读取的批处理大小
  • num_threads:进入队列的线程数
  • capacity:整数,队列中元素的最大数量
  • return:tensors

tf.train.shuffle_batch(tensors,batch_size,capacity,min_after_dequeue,
    num_threads=1,) 

  • 乱序读取指定大小(个数)的张量
  • min_after_dequeue:留下队列里的张量个数,能够保持随机打乱

三.图像读取

1.图像三要素

长度、宽度、通道数

2.图像基本操作

2.1目的:

1、增加图片数据的统一性

2、所有图片转换成指定大小

3、缩小图片数据量,防止增加开销

2.2操作:

缩小图片大小

2.3 缩小图片API

tf.image.resize_images(images, size)    

  • images:4-D形状[batch, height, width, channels]或3-D形状的张量[height, width, channels]的图片数据
  • size:1-D int32张量:new_height, new_width,图像的新尺寸
  • 返回4-D格式或者3-D格式图片
  • tf.WholeFileReader
    • 将文件的全部内容作为值输出的读取器
    • return:读取器实例
    • read(file_queue):输出将是一个文件名(key)和该文件的内容

3.图像读取API

3.1图像读取器

  • tf.WholeFileReader
    • 将文件的全部内容作为值输出的读取器
    • return:读取器实例
    • read(file_queue):输出将是一个文件名(key)和该文件的内容(值)

3.2图像解码器

  • tf.image.decode_jpeg(contents)
    • 将JPEG编码的图像解码为uint8张量
    • return:uint8张量,3-D形状[height, width, channels]
    • tf.image.decode_png(contents)
      • 将PNG编码的图像解码为uint8或uint16张量
      • return:张量类型,3-D形状[height, width, channels]

4.批处理流程

1)构建图片文件队列

2)构造图片阅读器

3)读取图片数据

4)处理图片数据

5.TFRecords分析、存取

TFRecords是Tensorflow设计的一种内置文件格式,是一种二进制文件,它能更好的利用内存,更方便复制和移动;为了将二进制数据和标签(训练的类别标签)数据存储在同一个文件中。

5.1 文件分析

  • 文件格式:*.tfrecords
  • 写入文件内容:Example协议块

5.2 TFRecords存储

1、建立TFRecord存储器

  • tf.python_io.TFRecordWriter(path)

写入tfrecords文件

  • path: TFRecords文件的路径
  • return:写文件
  • method
  • write(record):向文件中写入一个字符串记录
  • close():关闭文件写入器
  • 注:字符串为一个序列化的Example,Example.SerializeToString()

2、构造每个样本的Example协议块

1)tf.train.Example(features=None)

  • 写入tfrecords文件
  • features:tf.train.Features类型的特征实例
  • return:example格式协议块

2)tf.train.Features(feature=None)

  • 构建每个样本的信息键值对
  • feature:字典数据,key为要保存的名字,

value为tf.train.Feature实例

  • return:Features类型

3)tf.train.Feature(**options)

  • **options:例如

bytes_list=tf.train. BytesList(value=[Bytes])

int64_list=tf.train. Int64List(value=[Value])

4) tf.train. Int64List(value=[Value])

tf.train. BytesList(value=[Bytes])

tf.train. FloatList(value=[value])

5.3 TFRecords读取

同文件阅读器流程,中间需要解析过程

解析TFRecords的example协议内存块

  • tf.parse_single_example(serialized,features=None,name=None)
    • 解析一个单一的Example原型
    • serialized:标量字符串Tensor,一个序列化的Example
    • features:dict字典数据,键为读取的名字,值为FixedLenFeature
    • return:一个键值对组成的字典,键为读取的名字
    • tf.FixedLenFeature(shape,dtype)
      • shape:输入数据的形状,一般不指定,为空列表
      • dtype:输入数据类型,与存储进文件的类型要一致

类型只能是float32,int64,string

5.4 存储读取流程

1)存入

  • 构造存储器
  • 构造每一个样本的Example
  • 写入序列化的Example

2)读取

  • 构造TFRecords阅读器
  • 解析Example
  • 转换格式,bytes解码

6.实例

  1 import tensorflow as tf
  2 import os
  3 
  4 
  5 # 模拟一下同步先处理数据,然后才能取数据训练
  6 # tensorflow当中,运行操作有依赖性
  7 
  8 # # 1、首先定义队列
  9 # Q = tf.FIFOQueue(3, tf.float32)
 10 #
 11 # # 放入一些数据
 12 # enq_many = Q.enqueue_many([[0.1, 0.2, 0.3], ])
 13 #
 14 # # 2、定义一些处理数据的螺距,取数据的过程      取数据,+1, 入队列
 15 #
 16 # out_q = Q.dequeue()
 17 #
 18 # data = out_q + 1
 19 #
 20 # en_q = Q.enqueue(data)
 21 #
 22 # with tf.Session() as sess:
 23 #     # 初始化队列
 24 #     sess.run(enq_many)
 25 #
 26 #     # 处理数据
 27 #     for i in range(100):
 28 #         sess.run(en_q)
 29 #
 30 #     # 训练数据
 31 #     for i in range(Q.size().eval()):
 32 #         print(sess.run(Q.dequeue()))
 33 
 34 
 35 # 模拟异步子线程 存入样本, 主线程 读取样本
 36 
 37 # # 1、定义一个队列,1000
 38 # Q = tf.FIFOQueue(1000, tf.float32)
 39 #
 40 # # 2、定义要做的事情 循环 值,+1, 放入队列当中
 41 # var = tf.Variable(0.0)
 42 #
 43 # # 实现一个自增  tf.assign_add
 44 # data = tf.assign_add(var, tf.constant(1.0))
 45 #
 46 # en_q = Q.enqueue(data)
 47 #
 48 # # 3、定义队列管理器op, 指定多少个子线程,子线程该干什么事情
 49 # qr = tf.train.QueueRunner(Q, enqueue_ops=[en_q] * 2)
 50 #
 51 # # 初始化变量的OP
 52 # init_op = tf.global_variables_initializer()
 53 #
 54 # with tf.Session() as sess:
 55 #     # 初始化变量
 56 #     sess.run(init_op)
 57 #
 58 #     # 开启线程管理器
 59 #     coord = tf.train.Coordinator()
 60 #
 61 #     # 真正开启子线程
 62 #     threads = qr.create_threads(sess, coord=coord, start=True)
 63 #
 64 #     # 主线程,不断读取数据训练
 65 #     for i in range(300):
 66 #         print(sess.run(Q.dequeue()))
 67 #
 68 #     # 回收你
 69 #     coord.request_stop()
 70 #
 71 #     coord.join(threads)
 72 
 73 
 74 # 批处理大小,跟队列,数据的数量没有影响,只决定 这批次取多少数据
 75 
 76 
 77 def csvread(filelist):
 78     """
 79     读取CSV文件
 80     :param filelist: 文件路径+名字的列表
 81     :return: 读取的内容
 82     """
 83     # 1、构造文件的队列
 84     file_queue = tf.train.string_input_producer(filelist)
 85 
 86     # 2、构造csv阅读器读取队列数据(按一行)
 87     reader = tf.TextLineReader()
 88 
 89     key, value = reader.read(file_queue)
 90 
 91     # 3、对每行内容解码
 92     # record_defaults:指定每一个样本的每一列的类型,指定默认值[["None"], [4.0]]
 93     records = [["None"], ["None"]]
 94 
 95     example, label = tf.decode_csv(value, record_defaults=records)
 96 
 97     # 4、想要读取多个数据,就需要批处理
 98     example_batch, label_batch = tf.train.batch([example, label], batch_size=9, num_threads=1, capacity=9)
 99 
100     print(example_batch, label_batch)
101     return example_batch, label_batch
102 
103 
104 def picread(filelist):
105     """
106     读取狗图片并转换成张量
107     :param filelist: 文件路径+ 名字的列表
108     :return: 每张图片的张量
109     """
110     # 1、构造文件队列
111     file_queue = tf.train.string_input_producer(filelist)
112 
113     # 2、构造阅读器去读取图片内容(默认读取一张图片)
114     reader = tf.WholeFileReader()
115 
116     key, value = reader.read(file_queue)
117 
118     print(value)
119 
120     # 3、对读取的图片数据进行解码
121     image = tf.image.decode_jpeg(value)
122 
123     print(image)
124 
125     # 5、处理图片的大小(统一大小)
126     image_resize = tf.image.resize_images(image, [200, 200])
127 
128     print(image_resize)
129 
130     # 注意:一定要把样本的形状固定 [200, 200, 3],在批处理的时候要求所有数据形状必须定义
131     image_resize.set_shape([200, 200, 3])
132 
133     print(image_resize)
134 
135     # 6、进行批处理
136     image_batch = tf.train.batch([image_resize], batch_size=20, num_threads=1, capacity=20)
137 
138     print(image_batch)
139 
140     return image_batch
141 
142 
143 # 定义cifar的数据等命令行参数
144 FLAGS = tf.app.flags.FLAGS
145 
146 tf.app.flags.DEFINE_string("cifar_dir", "./data/cifar10/cifar-10-batches-bin/", "文件的目录")
147 tf.app.flags.DEFINE_string("cifar_tfrecords", "./tmp/cifar.tfrecords", "存进tfrecords的文件")
148 
149 
150 class CifarRead(object):
151     """完成读取二进制文件, 写进tfrecords,读取tfrecords
152     """
153     def __init__(self, filelist):
154         # 文件列表
155         self.file_list = filelist
156 
157         # 定义读取的图片的一些属性
158         self.height = 32
159         self.width = 32
160         self.channel = 3
161         # 二进制文件每张图片的字节
162         self.label_bytes = 1
163         self.image_bytes = self.height * self.width * self.channel
164         self.bytes = self.label_bytes + self.image_bytes
165 
166     def read_and_decode(self):
167 
168         # 1、构造文件队列
169         file_queue = tf.train.string_input_producer(self.file_list)
170 
171         # 2、构造二进制文件读取器,读取内容, 每个样本的字节数
172         reader = tf.FixedLengthRecordReader(self.bytes)
173 
174         key, value = reader.read(file_queue)
175 
176         # 3、解码内容, 二进制文件内容的解码
177         label_image = tf.decode_raw(value, tf.uint8)
178 
179         print(label_image)
180 
181         # 4、分割出图片和标签数据,切除特征值和目标值
182         label = tf.cast(tf.slice(label_image, [0], [self.label_bytes]), tf.int32)
183 
184         image = tf.slice(label_image, [self.label_bytes], [self.image_bytes])
185 
186         # 5、可以对图片的特征数据进行形状的改变 [3072] --> [32, 32, 3]
187         image_reshape = tf.reshape(image, [self.height, self.width, self.channel])
188 
189         print(label, image_reshape)
190         # 6、批处理数据
191         image_batch, label_batch = tf.train.batch([image_reshape, label], batch_size=10, num_threads=1, capacity=10)
192 
193         print(image_batch, label_batch)
194         return image_batch, label_batch
195 
196     def write_ro_tfrecords(self, image_batch, label_batch):
197         """
198         将图片的特征值和目标值存进tfrecords
199         :param image_batch: 10张图片的特征值
200         :param label_batch: 10张图片的目标值
201         :return: None
202         """
203         # 1、建立TFRecord存储器
204         writer = tf.python_io.TFRecordWriter(FLAGS.cifar_tfrecords)
205 
206         # 2、循环将所有样本写入文件,每张图片样本都要构造example协议
207         for i in range(10):
208             # 取出第i个图片数据的特征值和目标值
209             image = image_batch[i].eval().tostring()
210 
211             label = int(label_batch[i].eval()[0])
212 
213             # 构造一个样本的example
214             example =  tf.train.Example(features=tf.train.Features(feature={
215                 "image": tf.train.Feature(bytes_list=tf.train.BytesList(value=[image])),
216                 "label": tf.train.Feature(int64_list=tf.train.Int64List(value=[label])),
217             }))
218 
219             # 写入单独的样本
220             writer.write(example.SerializeToString())
221 
222         # 关闭
223         writer.close()
224         return None
225 
226     def read_from_tfrecords(self):
227 
228         # 1、构造文件队列
229         file_queue = tf.train.string_input_producer([FLAGS.cifar_tfrecords])
230 
231         # 2、构造文件阅读器,读取内容example,value=一个样本的序列化example
232         reader = tf.TFRecordReader()
233 
234         key, value = reader.read(file_queue)
235 
236         # 3、解析example
237         features = tf.parse_single_example(value, features={
238             "image": tf.FixedLenFeature([], tf.string),
239             "label": tf.FixedLenFeature([], tf.int64),
240         })
241 
242         # 4、解码内容, 如果读取的内容格式是string需要解码, 如果是int64,float32不需要解码
243         image = tf.decode_raw(features["image"], tf.uint8)
244 
245         # 固定图片的形状,方便与批处理
246         image_reshape = tf.reshape(image, [self.height, self.width, self.channel])
247 
248         label = tf.cast(features["label"], tf.int32)
249 
250         print(image_reshape, label)
251 
252         # 进行批处理
253         image_batch, label_batch = tf.train.batch([image_reshape, label], batch_size=10, num_threads=1, capacity=10)
254 
255         return image_batch, label_batch
256 
257 
258 if __name__ == "__main__":
259     # 1、找到文件,放入列表   路径+名字  ->列表当中
260     file_name = os.listdir(FLAGS.cifar_dir)
261 
262     filelist = [os.path.join(FLAGS.cifar_dir, file) for file in file_name if file[-3:] == "bin"]
263 
264     # print(file_name)
265     cf = CifarRead(filelist)
266 
267     # image_batch, label_batch = cf.read_and_decode()
268 
269     image_batch, label_batch = cf.read_from_tfrecords()
270 
271     # 开启会话运行结果
272     with tf.Session() as sess:
273         # 定义一个线程协调器
274         coord = tf.train.Coordinator()
275 
276         # 开启读文件的线程
277         threads = tf.train.start_queue_runners(sess, coord=coord)
278 
279         # 存进tfrecords文件
280         # print("开始存储")
281         #
282         # cf.write_ro_tfrecords(image_batch, label_batch)
283         #
284         # print("结束存储")
285 
286         # 打印读取的内容
287         print(sess.run([image_batch, label_batch]))
288 
289         # 回收子线程
290         coord.request_stop()
291 
292         coord.join(threads)

 



 

posted @ 2020-03-16 16:47  菜白小系瓦  阅读(369)  评论(0编辑  收藏  举报