机器学习 Tensorflow 线程队列与IO操作
tf.FIFOQueue 先进先出队列,按顺序出队列
tf.RandomShuffleQueue 随机出队列
FIFOQueue(capacity, dtypes, name='fifo_queue')创建一个以先进先出的顺序对元素进行排队的队列
dequeue(name=None) 出列
enqueue(vals, name=None): 入列
enqueue_many(vals, name=None):vals列表或者元组返回一个进队列操作
size(name=None), 返回一个tensor类型的对象, 包含的value是整数
import tensorflow as tf import os os.environ['TF_CPP_MIN_LOG_LEVEL'] = '2' def fifoqueue(): # 创建队列指定队列的元素 queue = tf.FIFOQueue(3, tf.float32) # 向队列中添加元素 en_many = queue.enqueue_many([[0.1, 0.2, 0.3], ]) # 定义一个出列的操作 deq_op = queue.dequeue() # 对于出列的对象 +1 # 实现了运算符的重载, 如果是加号 可以将 1转换为tensor类型 并且调用 add incre_op = deq_op + 1 # 让 +1的对象在重新入列 enq_op = queue.enqueue(incre_op) # 必须在会话中运行op对象 # 以下的操作都是在主线程中完成的都是同步操作 with tf.Session() as sess: # 运行添加元素的op (0.1, 0.2, 0.3) sess.run(en_many) # # 完成值的处理操作 for i in range(3): sess.run(enq_op) # # 将队列的数据取出, 将数据交给模型开始训练 for i in range(queue.size().eval()): ret = sess.run(deq_op) print(ret) if __name__ == '__main__': fifoqueue()
tf.train.QueueRunner(queue, enqueue_ops=None)创建一个QueueRunner
queue:A Queue
create_threads(sess, coord=None,start=False)创建线程来运行给定会话的入队操作
- 通过队列管理器来实现变量加1,入队,主线程出队列的操作,观察效果
- 这时候有一个问题就是,入队自顾自的去执行,在需要的出队操作完成之后,程序没法结束。需要一个实现线程间的同步,终止其他线程。
- 线程协调员,实现一个简单的机制来协调一组线程的终止
should_stop() 检查是否要求停止(一般不用)
join(threads=None, stop_grace_period_secs=120)等待线程终止
import tensorflow as tf def async_opration(): """ 通过队列管理器和线程协调器实现变量+1的 :return: None """ # 定义一个队列 容量1000, 类型tf.float32 queue = tf.FIFOQueue(1000, tf.float32) # 完成一个自增的操作 并且入列的操作 var = tf.Variable(0.0) # assign_add操作 和 enq_op 不是同步执行, assign_add操作有可能执行很多次才会执行enq_op操作 incre_op = tf.assign_add(var, tf.constant(1.0)) # 入列 enq_op = queue.enqueue(incre_op) # 出列 deq_op = queue.dequeue() # 定义队列管理器 qr = tf.train.QueueRunner(queue=queue, enqueue_ops=[enq_op] * 2) init_op = tf.global_variables_initializer() # 通过with上下文创建的会话会自动关闭, 主线程已经执行完毕了 # 子线程会自动停止吗? 子线程并不会退出 而是一种挂起的状态 with tf.Session() as sess: # sess = tf.Session() sess.run(init_op) # 创建线程协调器 coord = tf.train.Coordinator() # 通过队列管理器来创建需要执行的入列的线程 # start为True 表示创建的线程 需要立即开启, enqueue的操作已经开始执行, 并且是两个线程在执行 threads = qr.create_threads(sess=sess, coord=coord, start=True) # 入列的操作在另外一个线程执行 for i in range(1000): # 主线程deq 出列 ret = sess.run(deq_op) print(ret) # 主线程的任务执行结束 # 应该请求结束子线程 coord.request_stop() # coord.should_stop() # 加上线程同步 coord.join(threads=threads) return None if __name__ == '__main__': async_opration()
string_tensor 含有文件名的1阶张量
class tf.TextLineReader
- 读取TfRecords文件
tf.decode_csv(records,record_defaults=None,field_delim = None,name = None)
record_defaults:指定分割后每个属性的类型,比如分割后会有三列,第二个参数就应该是[[1],[],['string']],不指定类型(设为空[])也可以。如果分割后的属性比较多,比如有100个,可以用[[ ] * 100]来表示
tf.decode_raw(bytes,out_type,little_endian = None,name = None)
- 将字节转换为一个数字向量表示,字节为一字符串类型的张量,与函数tf.FixedLengthRecordReader搭配使用,将字符串表示的二进制读取为uint8格式
tf.train.start_queue_runners(sess=None,coord=None) 收集所有图中的队列线程,并启动线程
tf.train.batch(tensors,batch_size,num_threads = 1,capacity = 32,name=None)读取指定大小(个数)的张量
tf.train.shuffle_batch(tensors,batch_size,capacity,min_after_dequeue, num_threads=1,)
import tensorflow as tf import os def csv_reader(): # 获取./data/csvdata/ 路径所有的文件 file_names = os.listdir('./csvdata/') file_names = [os.path.join('./csvdata/', file_name) for file_name in file_names] # file_names = ["./data/csvdata/" + file_name for file_name in file_names] print(file_names) # 通过文件名创建文件队列 file_queue file_queue = tf.train.string_input_producer(file_names) # 创建文件读取器 reader 按行读取 reader = tf.TextLineReader() # 通过reader对象调用read reader.read(file_queue) # 返回的结果 是 key value value 指的是某一个文件的一行 key, value = reader.read(file_queue) print(key, value) # 对value 进行decode操作 col1, col2 = tf.decode_csv(value, record_defaults=[['null'], ['null']],field_delim=',') # 建立管道读的批处理 col1_batch, col2_batch = tf.train.batch(tensors=[col1, col2], batch_size=100, num_threads=2, capacity=10) with tf.Session() as sess: coord = tf.train.Coordinator() threads = tf.train.start_queue_runners(sess=sess, coord=coord) ret = sess.run([col1_batch, col2_batch]) print(ret) # 主线程的任务执行完毕之后, 应该请求关闭子线程 coord.request_stop() coord.join(threads) if __name__ == '__main__': csv_reader()
"C:\Program Files\Python36\python.exe" D:/数据分析/机器学习/day5/3-代码/day5_test.py
['./csvdata/A.csv', './csvdata/B.csv', './csvdata/C.csv']
Tensor("ReaderReadV2:0", shape=(), dtype=string) Tensor("ReaderReadV2:1", shape=(), dtype=string)
[array([b'Sea1', b'Sea2', b'Sea3', b'Alpha1', b'Alpha2', b'Alpha3', b'Bee1', b'Bee2', b'Bee3', ...], dtype=object), array([b'C1', b'C2', b'C3', b'A1', b'A2', b'A3', b'B1', b'B2', b'B3', ...], dtype=object)]
Process finished with exit code 0
- 三要素:长度、宽度、通道数
- 1、缩小图片大小
tf.image.resize_images(images, size)缩小图片
images:4-D形状[batch, height, width, channels]或3-D形状的张量[height, width, channels]的图片数据
size:1-D int32张量:new_height, new_width,图像的新尺寸返回4-D格式或者3-D格式图片
tf.WholeFileReader 将文件的全部内容作为值输出的读取器
return:uint8张量,3-D形状[height, width, channels]
return:张量类型,3-D形状[height, width, channels]
import tensorflow as tf import os def pic_reader(): file_names = os.listdir('./dog/') file_names = [os.path.join('./dog/', file_name) for file_name in file_names] # 创建文件队列 file_queue = tf.train.string_input_producer(file_names) # 创建读取器 reader = tf.WholeFileReader() # key是文件名, value图片的数组数据 key, value = reader.read(file_queue) # 通过解码的方式获取value的信息 image = tf.image.decode_jpeg(value) # 在进行图片的批处理之前 需要讲图片的形状修改为一样的 [200, 200,?] --> [height, width,?] resize_image = tf.image.resize_images(image, size=[200,200]) # 设置图片的管道, [200, 200,?] --> [200, 200, None]图片的形状还没有固定,可以通过set_shape resize_image.set_shape([200, 200, 3]) print(resize_image) # 要去进行批处理的时候还需要知道图片的通道数 image_batch = tf.train.batch(tensors=[resize_image],batch_size=100, num_threads=2,capacity=100) print(image_batch) with tf.Session() as sess: coord = tf.train.Coordinator() threads = tf.train.start_queue_runners(sess, coord=coord) ret = sess.run(image_batch) print(ret) coord.request_stop() coord.join(threads) if __name__ == '__main__': pic_reader()
"C:\Program Files\Python36\python.exe" D:/数据分析/机器学习/day5/3-代码/day5_test.py
Tensor("Squeeze:0", shape=(200, 200, 3), dtype=float32)
Tensor("batch:0", shape=(100, 200, 200, 3), dtype=float32) [[[[ 33. 47. 86. ]
   [ 36.725  50.725  88.235 ]
   [ 40.45   54.45   91.45  ]
   ...
   [ 6.2350006  3.2350006  0.       ]]
  ...
  [[ 0.  0.  5. ]
   [ 21.605  20.115  22.135 ]
   [ 50.07   44.64   42.7   ]
   ... [ 32.649994  14.649994  12.649994 ]
   [ 31.430038  13.430038  11.430038 ]
   [ 28.  10.   8. ]]]
 ... [ 83.435     59.434998  31.434998 ]
   [ 84.869995  60.869995  34.869995 ]
   [ 87.435     67.435     34.434998 ]]]
 ... [141.86383  115.993805 111.43316 ]
   [143.90657  117.74654  114.776596]
   [134.34804  110.76802  105.05803 ]]
 ...
 ]] [157.77997  161.77997  162.77997 ]
   [162.81996  166.81996  167.81996 ]
   [163.29999  167.29999  168.29999 ]]
 ... [[226.78546  226.60553  226.56055 ]
   [237.53633  237.3564   236.36595 ]
   [233.38574  233.20581  231.16083 ]
   ...
   [228.96277  227.44778  217.29794 ]
   [227.82532  218.81534  187.77542 ]
   [208.52728  203.52728  174.52728 ]]]
 ... [130.97493   99.54994   81.67492 ]
   [137.79996  105.84996   90.599945]
   [138.45     106.45      91.45    ]]
 ...
 ]]]]
Process finished with exit code 0
import tensorflow as tf import os class Cifar(object): """ 读取二进制文件的演示, 将二进制文件得到的数据存储到TFRecords 并且读取TFRecords数据 """ def __init__(self): self.height = 32 self.width = 32 self.channels = 3 # 彩色的图片 self.label_bytes = 1 self.image_bytes = self.height * self.width * self.channels # 每次需要读取的字节大小 self.bytes = self.label_bytes + self.image_bytes def read_and_decode(self, file_names): """ 读取并且解码二进制的图片 :return: 将批处理的图片和标签返回 """ # 构建文件队列 通过文件名的列表 file_queue = tf.train.string_input_producer(file_names) # 创建文件读取器 并且指定每次读取的字节大小 为 self.bytes reader = tf.FixedLengthRecordReader(self.bytes) # 读取二进制文件数据的 uint8 一个字节 3073 = 1 + 3072 key, value = reader.read(file_queue) # 完成对于二进制数据的解码操作 label_image = tf.decode_raw(value, tf.uint8) # 在decode image 之前需要讲读取的3073个字节分割成 1 和 3072 # 通过切片的方式获取3073个字符串中的第一个 是一个字符串类型 # 截取的起始位置和长度需要通过一个一阶的张量来表示 # 将self.bytes 切分为 self.label_bytes 和 self.image_bytes label = tf.cast(tf.slice(label_image, [0], [self.label_bytes]),tf.int32) image = tf.cast(tf.slice(label_image, [self.label_bytes], [self.image_bytes]), tf.int32) # 图片的字节为3072, 需要将这个3072个字节的形状重新设置 [32 * 32 * 3] ---> 就是图片的张量 reshape_image = tf.reshape(image, shape=[32, 32, 3]) # 由于读取的图片的形状都是一样的 就不需要做resize处理 就可以直接进行批处理的操作 image_batch, label_batch = tf.train.batch([reshape_image, label], batch_size=100, num_threads=2, capacity=100) return image_batch, label_batch def save_to_tfrecords(self): """ 将读取的图片数据存储为tfrecord格式的文件 :return: """ return None def read_from_tfrecords(self): """ 从tfrecords格式的文件读取对应的数据 :return: """ return None def call_cifar(): # 获取某一个路径下的文件名 file_names = os.listdir('./cifar-10-batches-bin/') file_names = [os.path.join('./cifar-10-batches-bin/', file_name) for file_name in file_names if file_name[-3:] == 'bin'] # 创建对象 调用对象方法 cifar = Cifar() batch_image, batch_label = cifar.read_and_decode(file_names) print("===========") print(batch_image, batch_label) # # 运行已经设定好的图 with tf.Session() as sess: # 开启子线程执行 coord = tf.train.Coordinator() # 线程协调器 threads = tf.train.start_queue_runners(sess, coord=coord) ret = sess.run([batch_image, batch_label]) print(ret) coord.request_stop() coord.join(threads) if __name__ == '__main__': call_cifar()
path: TFRecords文件的路径
tf.train.Example(features=None) 写入tfrecords文件
bytes_list=tf.train. BytesList(value=[Bytes])
int64_list=tf.train. Int64List(value=[Value])
tf.train. Int64List(value=[Value])
tf.train. BytesList(value=[Bytes])
tf.train. FloatList(value=[value])
tf.parse_single_example(serialized,features=None,name=None) 解析一个单一的Example原型
CIFAR-10 批处理结果存入tfrecords流程
""" 读取二进制文件转换成张量,写进TFRecords,同时读取TFRcords """ import tensorflow as tf # 命令行参数 FLAGS = tf.app.flags.FLAGS # 获取值 tf.app.flags.DEFINE_string("tfrecord_dir", "cifar10.tfrecords", "写入图片数据文件的文件名") # 读取二进制转换文件 class CifarRead(object): """ 读取二进制文件转换成张量,写进TFRecords,同时读取TFRcords """ def __init__(self, file_list): """ 初始化图片参数 :param file_list:图片的路径名称列表 """ # 文件列表 self.file_list = file_list # 图片大小,二进制文件字节数 self.height = 32 self.width = 32 self.channel = 3 self.label_bytes = 1 self.image_bytes = self.height * self.width * self.channel self.bytes = self.label_bytes + self.image_bytes def read_and_decode(self): """ 解析二进制文件到张量 :return: 批处理的image,label张量 """ # 1.构造文件队列 file_queue = tf.train.string_input_producer(self.file_list) # 2.阅读器读取内容 reader = tf.FixedLengthRecordReader(self.bytes) key, value = reader.read(file_queue) # key为文件名,value为元组 print(value) # 3.进行解码,处理格式 label_image = tf.decode_raw(value, tf.uint8) print(label_image) # 处理格式,image,label # 进行切片处理,标签值 # tf.cast()函数是转换数据格式,此处是将label二进制数据转换成int32格式 label = tf.cast(tf.slice(label_image, [0], [self.label_bytes]), tf.int32) # 处理图片数据 image = tf.slice(label_image, [self.label_bytes], [self.image_bytes]) print(image) # 处理图片的形状,提供给批处理 # 因为image的形状已经固定,此处形状用动态形状来改变 image_tensor = tf.reshape(image, [self.height, self.width, self.channel]) print(image_tensor) # 批处理图片数据 image_batch, label_batch = tf.train.batch([image_tensor, label], batch_size=10, num_threads=1, capacity=10) return image_batch, label_batch def write_to_tfrecords(self, image_batch, label_batch): """ 将文件写入到TFRecords文件中 :param image_batch: :param label_batch: :return: """ # 建立TFRecords文件存储器 writer = tf.python_io.TFRecordWriter('cifar10.tfrecords') # 传进去命令行参数 # 循环取出每个样本的值,构造example协议块 for i in range(10): # 取出图片的值, #写进去的是值,而不是tensor类型, # 写入example需要bytes文件格式,将tensor转化为bytes用tostring()来转化 image = image_batch[i].eval().tostring() # 取出标签值,写入example中需要使用int形式,所以需要强制转换int label = int(label_batch[i].eval()[0]) # 构造每个样本的example协议块 example = tf.train.Example(features=tf.train.Features(feature={ "image": tf.train.Feature(bytes_list=tf.train.BytesList(value=[image])), "label": tf.train.Feature(int64_list=tf.train.Int64List(value=[label])) })) # 写进去序列化后的值 writer.write(example.SerializeToString()) # 此处其实是将其压缩成一个二进制数据 writer.close() return None def read_from_tfrecords(self): """ 从TFRecords文件当中读取图片数据(解析example) :param self: :return: image_batch,label_batch """ # 1.构造文件队列 file_queue = tf.train.string_input_producer(['cifar10.tfrecords']) # 参数为文件名列表 # 2.构造阅读器 reader = tf.TFRecordReader() key, value = reader.read(file_queue) # 3.解析协议块,返回的值是字典 feature = tf.parse_single_example(value, features={ "image": tf.FixedLenFeature([], tf.string), "label": tf.FixedLenFeature([], tf.int64) }) # feature["image"],feature["label"] # 处理标签数据 ,cast()只能在int和float之间进行转换 label = tf.cast(feature["label"], tf.int32) # 将数据类型int64 转换为int32 # 处理图片数据,由于是一个string,要进行解码, #将字节转换为数字向量表示,字节为一字符串类型的张量 # 如果之前用了tostring(),那么必须要用decode_raw()转换为最初的int类型 # decode_raw()可以将数据从string,bytes转换为int,float类型的 image = tf.decode_raw(feature["image"], tf.uint8) # 转换图片的形状,此处需要用动态形状进行转换 image_tensor = tf.reshape(image, [self.height, self.width, self.channel]) # 4.批处理 image_batch, label_batch = tf.train.batch([image_tensor, label], batch_size=10, num_threads=1, capacity=10) return image_batch, label_batch if __name__ == '__main__': # 找到文件路径,名字,构造路径+文件名的列表,"A.csv"... # os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表 import os file_names = os.listdir('./cifar-10-batches-bin/') file_list = [os.path.join('./cifar-10-batches-bin/', file_name) for file_name in file_names if file_name[-3:] == 'bin'] # 初始化参数 cr = CifarRead(file_list) # 读取二进制文件 # image_batch, label_batch = cr.read_and_decode() # 从已经存储的TFRecords文件中解析出原始数据 image_batch, label_batch = cr.read_from_tfrecords() with tf.Session() as sess: # 线程协调器 coord = tf.train.Coordinator() # 开启线程 threads = tf.train.start_queue_runners(sess, coord=coord) print(sess.run([image_batch, label_batch])) print("存进TFRecords文件") cr.write_to_tfrecords(image_batch,label_batch) print("存进文件完毕") # 回收线程 coord.request_stop() coord.join(threads)
"C:\Program Files\Python36\python.exe" D:/数据分析/机器学习/day5/3-代码/tet.py [array([[[[115, 118, 121],
         [122, 124, 126],
         [129, 133, 136],
         ...,
         [156, 155, 155],
         [153, 147, 144],
         [143, 140, 139]],
        ...
        [[255, 248, 223],
         [161, 116, 102],
         [100, 101, 102],
         ...,
         [222, 222, 222],
         [222, 222, 222],
         [224, 234, 246]]]], dtype=uint8), array([0, 7, 4, 2, 5, 3, 0, 4, 1, 3])]
存进TFRecords文件