物体检测项目
1、项目介绍
1.1 项目架构设计
实现基于tensorflow的物体检测。项目框架主要分为三部分:数据采集层、深度模型层、用户层。其中,数据采集层用于对数据进行标记以及转换成TFRecords格式数据文件。深度模型层的功能是读取数据采集层输出的TFRecords数据进行数据的预处理以及对深度模型的训练,其中深度模型可以使用不同的框架(例如SSD、YOLO等),通过模型工厂进行选择,本项目中使用SSD物体检测框架。训练得到的模型通过tensorflow serving进行部署,提供给后台。用户层通过前端和后台业务交互得到想要的结果。项目结构如下:
图1 物体检测项目框架
使用TensorflowServing进行模型部署有以下几个好处:
1、可以进行模型的热更新:只要上传模型文件到服务器上即可,TensorFlow会自动识别模型并使用,不需要重启serving 服务。
2、导出模型和使用模型进行解耦合
图2 TensorflowServing模型部署逻辑
整个项目开发流程主要分为两大部分:
1.模型的训练与测试
训练
数据集处理(将数据转换成TFRecords格式文件)
数据读取
preprocess(数据预处理)
网络构建预测结果
损失计算并训练
模型保存
测试
测试数据
preprocess(数据预处理)
模型加载
postprocess(预测结果后期处理)
预测结果显示(matplotlib)
2、模型部署与小程序
模型导出
TensorFlow Serving部署模型
Serving客户端+Flask Web
小程序前端
1.2 项目代码训练架构设计
图2 项目代码训练架构设计
其中:
1.数据集工厂(data factory)
为了使项目能够读取不同的数据集
2.预处理工厂(preprocess factory)
为了处理不同模型要求的处理需求
3.模型工厂(model factory)
为了项目训练数据能够使用不同的模型
1.3 训练代码架构设计意义
1.网络模型和网络模型之间不交叉,模型和数据之间解耦合,数据集与预处理逻辑之间解耦合;
2.训练代码可以调用不同的模型与不同的数据集训练不同的模型结果。
2. 数据模块接口
获取到的图片数据集,保存在IMAGE/commodity/JPEGImages文件下。使用图片标记工具(本项目使用labelimg)将图片进行标记,输出XML格式文件,保存在 IMAGE/commodity/Annotatons文件下。这样的数据集类似PASCAL VOC数据集,数据集的图片和标记文件分布在不同的文件中,并且图片和标签没有一一对应,后续项目中不方便处理,也不方便项目的解耦合。tensorflow提供了TFRecord个数来统一存储数据,TFRecord格式是一种将图像数据和标签数据存放在一起的二进制文件,在tensorflow中能够快速处理。因此项目中需要将数据集转换成TFRecords文件。TFRecord文件中的数据是通过tf.train.Example Protocol Buffer格式存储的。每个我想ample对应一张图片,其中包括图片的各种信息。特点是:
1)体积小,消息大小只需要xml文件的1/10~1/3;
2)解析速度快:解析速度比xml块20~100倍。
其中,tf.train.Example的定义见本博客的《TFRecord数据处理》一节。
2.1 数据转换成TFRecord格式文件
2.1.1 转换步骤:
1)设定每个tfrecord文件中保存多的样本个数
2)读取每张图片内容以及xml文件
3)将每次去读内容写入tfrecord文件
2.1.2 数据转换成TFRecord文件
代码结构如图所示:
图3 图片转换成tfrecord文件
其中,datasets文件夹下的utils存放读取数据的公用组件;dataset_config.py存放数据读取的配置;dataset_to_tfrecords.py为主要的数据转换逻辑。dataset_to_tfrecord.py文件执行dataset_to_tfrecords.py中的run()函数完成数据转换。具体代码如下:
2.1.2.1 配置文件dataset_config.py如下:
""" 数据集转换配置文件 """ # 指定原始图片的XML和图片的文件夹名字 DIRECTORY_ANNOTATIONS = "Annotations/" DIRECTORY_IMAGES = "JPEGImages/" # 指定每个TFRecord文件存储example的数量 SAMPLER_PER_FILES = 200 # 定义字典,保存数据集的类别 # 字典的key是类别,字典的value是一个元组 # 元组的元素不能修改,元组中是类别代表的数字和类别 VOC_LABELS = { 'none': (0, 'Background'), 'clothes': (1, 'clothes'), 'pants': (2, 'pants'), 'shoes': (3, 'shoes'), 'watch': (4, 'watch'), 'phone': (5, 'phone'), 'audio': (6, 'audio'), 'computer': (7, 'computer'), 'books': (8, 'books') }
2.1.2.2 utils文件下的dataset_utils.py文件中,编写定义tf Example需要的feature转换公式,代码如下:
import tensorflow as tf # 生成整数型的属性 def int64_feature(value): if not isinstance(value, list): value = [value] return tf.train.Feature(int64_list=tf.train.Int64List(value=value)) # 生成浮点型的属性 def float_feature(value): if not isinstance(value, list): value = [value] return tf.train.Feature(float_list=tf.train.FloatList(value=value)) # 生成字符串类型的属性 def bytes_feature(value): if not isinstance(value, list): value = [value] return tf.train.Feature(bytes_list=tf.train.BytesList(value=value))
2.1.2.3 dataset_to_tfrecords.py文件下主要编写编写转换逻辑,代码如下:
import tensorflow as tf import os import xml.etree.ElementTree as ET from datasets.dataset_config import DIRECTORY_ANNOTATIONS, DIRECTORY_IMAGES, SAMPLER_PER_FILES, VOC_LABELS from datasets.utils.dataset_utils import int64_feature, float_feature, bytes_feature # 获取输出的TFRecord文件名字,格式如下:commodity_2018_train_xxx.tfrecord # xxx代表序号,从000开始 def _get_output_filename(outputdir, dataset_name, fdx): """ 获取输出的TFRecord文件的名字 :param outputdir: 输出路径 :param dataset_name: 数据集名字 :param fdx: 文件id :return: """ return "%s/%s_%03d.tfrecord" % (outputdir, dataset_name, fdx) def _process_image(dataset_dir, image_name): """ 处理一张图片的数据:获取图片数据以及xml文件中的内容。根据需要获取 :param dataset_dir: 数据集路径 :param img_name: 图片名字 :return: """ # 图片路径 + 图片名字 filename = dataset_dir + DIRECTORY_IMAGES + image_name + '.jpg' # 读取图片数据 image_data = tf.gfile.FastGFile(filename, 'rb').read() # 读取xml数据,使用ET工具 # 构造xml文件名字 filename_xml = dataset_dir + DIRECTORY_ANNOTATIONS + image_name + '.xml' # 将文件内容转换成树状结构tree tree = ET.parse(filename_xml) # 获取root节点 root = tree.getroot() # 获取root节点下面的子节点 # 1、获取size信息 size = root.find('size') # 把height、width、depth存放在一个shape里面 shape = [int(size.find('height').text), int(size.find('width').text), int(size.find('depth').text)] # 用于存储object对应的label的编号 labels = [] labels_text = [] difficults = [] truncated = [] bboxes = [] # 2、获取 object信息 for obj in root.findall('object'): # 解析每一个object,包含name、difficult、truncated、bndbox[xmin, ymin, xmax, ymax] # 取出label和与之对应的数字 label = obj.find('name').text labels.append(int(VOC_LABELS[label][0])) labels_text.append(label.encode('ascii')) # 取出difficult if obj.find('difficult'): difficults.append(int(obj.find('difficult').text)) else: # 不存在,默认difficult为0 difficults.append(0) # 取出truncated if obj.find('truncated'): truncated.append(int(obj.find('truncated').text)) else: # 不存在,默认truncated为0 truncated.append(0) # 取出bndbox bbox = obj.find('bndbox') bboxes.append([float(bbox.find('ymin').text)/shape[0], float(bbox.find('xmin').text) / shape[1], float(bbox.find('ymax').text) / shape[0], float(bbox.find('xmax').text) / shape[1]]) return image_data, shape, labels, labels_text, difficults, truncated, bboxes def _convert_to_example(image_data, shape, labels, labels_text, difficults, truncated, bboxes): """ 将图片数据转换成example protocol buffer格式 :param image_data: :param shape: :param labels: :param difficults: :param truncated: :param bboxes: :return: """ # bboxes存储格式如下:[[a0, b0, c0, d0], [a1, b1, c1, d1]]转换成 # ymin[a0, a1], xmin[b0, b1], ymax[c0, c1], xmax[d0, d1] ymin = [] xmin = [] ymax = [] xmax = [] for b in bboxes: ymin.append(b[0]) xmin.append(b[1]) ymax.append(b[2]) xmax.append(b[3]) # 将所有信息封装成example image_format = b'JPEG' example = tf.train.Example(features=tf.train.Features(feature={ 'image/height': int64_feature(shape[0]), 'image/width': int64_feature(shape[1]), 'image/channels': int64_feature(shape[2]), 'image/shape': int64_feature(shape), 'image/object/bbox/ymin': float_feature(ymin), 'image/object/bbox/xmin': float_feature(xmin), 'image/object/bbox/ymax': float_feature(ymax), 'image/object/bbox/xmax': float_feature(xmax), 'image/object/bbox/label': int64_feature(labels), 'image/object/bbox/difficult': int64_feature(difficults), 'image/object/bbox/truncated': int64_feature(truncated), 'image/object/bbox/label_text': bytes_feature(labels_text), 'image/format': bytes_feature(image_format), 'image/encoded': bytes_feature(image_data)})) return example def _add_to_tfrecord(dataset_dir, image_name, tfrecord_writer): """ 添加一个图片文件和xml内容写入文件中 :param dataset_dir: 数据集目录 :param img_name: 图片名 :param tfrecord_writer: 文件写入实例 :return: """ # 1、读取每张图片内容及其对应的xml文件的内容 image_data, shape, labels, labels_text, difficults, truncated, bboxes = _process_image(dataset_dir, image_name) # 2、将每张图片的数据封装成一个example example = _convert_to_example(image_data, shape, labels, labels_text, difficults, truncated, bboxes) # 3、使用tfrecord_writer将example序列化结果写入TFRecord文件 tfrecord_writer.write(example.SerializeToString()) return None def run(dataset_dir, output_dir, dataset_name="data"): """ 运行转换代码逻辑:存入tfrecord文件,每个文件固定N个样本 :param dataset_dir: 数据集目录 :param output_dir: TFRecord存储目录 :param dataset_name: 数据集名字,指定名字以及train_or_test :return: """ # 1、判断数据集目录是否存在,不存在则创建一个目录 if not tf.gfile.Exists(dataset_dir): tf.gfile.MakeDirs(dataset_dir) # 2、读取某个文件夹下的所有文件名字列表 path = os.path.join(dataset_dir, DIRECTORY_ANNOTATIONS) # 读取所有文件,返回所有文件名字列表。但是会打乱顺序,需要使用sorted函数进行排序 filenames = sorted(os.listdir(path)) # 3、循环遍历列表,每N张图片和XML信息存储到一个tfrecord文件中 i = 0 fdx = 0 while i < len(filenames): # 1、创建TFRecord文件 tf_filename = _get_output_filename(output_dir, dataset_name, fdx) # 每N个文件存储一次 # 新建tfrecord的存储器 with tf.python_io.TFRecordWriter(tf_filename) as tfrecord_writer: j = 0 while i < len(filenames) and j < SAMPLER_PER_FILES: print("转换图片进度%d/%d" % (i+1, len(filenames))) # 取出图片以及xml的名字 single_filename = filenames[i] image_name = single_filename[:-4] # 读取图片和xml内容,存入图片,每次构造一个图片文件存储指定文件 _add_to_tfrecord(dataset_dir, image_name, tfrecord_writer) i += 1 j += 1 # 每N个数据,文件id增加计数 fdx += 1 print("数据集 %s 转换成功" % dataset_name)
2.1.2.4 dataset_to_tfrecords.py文件代码
from datasets import dataset_to_tfrecords if __name__ == '__main__': dataset_to_tfrecords.run('./IMAGE/commodity/', './IMAGE/tfrecords/commodity_tfrecords/', 'commodity_2018_train')
为了实现数据格式的转换,需要在图3的IMAGE文件夹下分别放置如下目录:
commodity/Annotations/
commodity/JPEGImages/
tfrecords/commodity_tfrecords/
其中,commodity/Annotations/路径下存放标记过的xml格式文件;commodity/JPEGImages/路径下存放于xml格式对应的图片数据;tfrecords/commodity_tfrecords/路径用于存放转换好的tfrecord格式数据。
2.2 TFRecord格式文件读取
TFRecord文件读取有两种方法:
1)使用tensorflow进行实现
2)使用tensorflow.slim库进行实现
本项目使用tensorflow.slim进行实现,具体步骤如下:
1、定义解码器decoder
decoder = tf.slim.tfexample_decoder.TFExampleDecoder()
其中,定义解码器时,需要制定两个参数:keys_to_features,和items_to_handlers两个字典参数。key_to_features这个字典需要和TFrecord文件中定义的字典项匹配。items_to_handlers中的关键字可以是任意值,但是它的handler的初始化参数必须要来自于keys_to_features中的关键字。
2、定义dataset
dataset= tf.slim.dataset.Dataset()
其中,定义dataset时需要将datasetsource、reader、decoder、num_samples等参数
3、定义provider
provider = slim.dataset_data_provider.DatasetDataProvider
其中,需要的参数为:dataset, num_readers, reader_kwargs, shuffle, num_epochs,common_queue_capacity,common_queue_min, record_key=',seed, scope等。
4、调用provider的get方法
获取items_to_handlers中定义的关键字
5、利用分好的batch建立一个prefetch_queue
6、prefetch_queue中有一个dequeue的op,每执行一次dequeue则返回一个batch的数据。
具体代码如下(这里先只介绍到通过provider的get函数获取数据,后面步骤5和步骤6的队列处理先不介绍,在实际项目代码中会使用到):
import os import tensorflow as tf slim = tf.contrib.slim def get_dataset(dataset_dir): """ 获取commodity2018数据集 :param dataset_dir: 数据集目录 :return: Dataset """ # 1.准备 tf.slim.dataset.Dataset()的参数 # 1.1第一个参数:dataset file_pattern = os.path.join(dataset_dir, "commodity_2018_train_*.tfrecord") # 1.2第二个参数:reader reader = tf.TFRecordReader # 1.3第三个参数:decoder # 创建decoder需要两个参数:keys_to_features和items_to_handlers # 1.3.1 定义keys_to_features,反序列化的格式 keys_to_features = { 'image/encoded': tf.FixedLenFeature((), tf.string, default_value=''), 'image/format': tf.FixedLenFeature((), tf.string, default_value='jpeg'), 'image/height': tf.FixedLenFeature([1], tf.int64), 'image/width': tf.FixedLenFeature([1], tf.int64), 'image/channels': tf.FixedLenFeature([1], tf.int64), 'image/shape': tf.FixedLenFeature([3], tf.int64), 'image/object/bbox/xmin': tf.VarLenFeature(dtype=tf.float32), 'image/object/bbox/ymin': tf.VarLenFeature(dtype=tf.float32), 'image/object/bbox/xmax': tf.VarLenFeature(dtype=tf.float32), 'image/object/bbox/ymax': tf.VarLenFeature(dtype=tf.float32), 'image/object/bbox/label': tf.VarLenFeature(dtype=tf.int64), 'image/object/bbox/difficult': tf.VarLenFeature(dtype=tf.int64), 'image/object/bbox/truncated': tf.VarLenFeature(dtype=tf.int64), } # 1.3.2 items_to_handlers,反序列化成高级的格式 items_to_handlers = { 'image': slim.tfexample_decoder.Image('image/encoded', 'image/format'), 'shape': slim.tfexample_decoder.Tensor('image/shape'), 'object/bbox': slim.tfexample_decoder.BoundingBox( ['ymin', 'xmin', 'ymax', 'xmax'], 'image/object/bbox/'), 'object/label': slim.tfexample_decoder.Tensor('image/object/bbox/label'), 'object/difficult': slim.tfexample_decoder.Tensor('image/object/bbox/difficult'), 'object/truncated': slim.tfexample_decoder.Tensor('image/object/bbox/truncated'), } # 1.3.3构造decoder decoder = slim.tfexample_decoder.TFExampleDecoder(keys_to_features, items_to_handlers) # 2.tf.slim.dataset.Dataset()并返回 return slim.dataset.Dataset(data_sources=file_pattern, reader=reader, decoder=decoder, num_samples=88, items_to_descriptions={ 'image': 'A color image of varying height and width.', 'shape': 'Shape of the image', 'object/bbox': 'A list of bounding boxes, one per each object.', 'object/label': 'A list of labels, one per each object.' }, # 数据集返回的格式描述字典 num_classes=8)
from datasets.dataset_init import commodity_2018 import tensorflow as tf slim = tf.contrib.slim if __name__ == '__main__': # 获取dataset dataset = commodity_2018.get_dataset("./IMAGE/tfrecords/commodity_tfrecords/") # 通过provider取出数据 provider = slim.dataset_data_provider.DatasetDataProvider(dataset=dataset, num_readers=3) # 通过get方法获取指定名称的数据(名称在准备规范数据dataset时高级格式的名称,即items_to_handlers中定义的名称) [image, shape, bbox, label, difficult, truncated] = provider.get( ['image', 'shape', 'object/bbox', 'object/label', 'object/difficult', 'object/truncated']) print(image, shape, bbox, label, difficult, truncated)
最后得到如下输出结果:
图4 输出tfrecord文件
2.3 数据模块接口——数据工厂的实现
功能需求:
1)原始数据集(图片+XML)转换成TFRecords文件格式
2)读取TFRecords数据
数据模块设计的目录如下:
图5 数据模块接口
其中:
dataset_factory:数据模块工厂,找到不同的数据集读取逻辑;
dataset_init:保存不同数据集的TFRecords格式读取功能;
utils:数据模块的共用组件
dataset_config‘:数据模块的一些数据集配置文件
dataset_to_tfrecords:原始数据集格式转换逻辑
2.3.1 格式转换
上一节以及介绍了将数据集转换成TFRecord格式文件,这里就不再赘述。
2.3.2 读取TFRecord文件数据
2.3.2.1 读取代码框架设计
数据模块需要实现对不同数据集类型进行读取操作,因此可以定义一个基类,同时不同数据集继承这个基类。类的设计如下:
图6 数据读取基类设计
2.3.2.2 数据读取代码
1.在dataset_utils.py中新建一个基类,该文件下的代码如下:
import tensorflow as tf # 定义数据集TFRecord文件读取基类 class TFRecordsReaderBase(object): """ 数据集读取基类 """ def __init__(self, param): # param是给不同数据集使用的属性配置 self.param = param def get_dataset(self, train_or_test, dataset_dir): """ 获取数据 :param train_or_test: 训练还是测试 :param dataset_dir: 数据集目录 :return: """ return None
2. 因为在读取TFRecord数据时,不同的数据集,都会有自己特有的参数(比如:文件名、样本数、类别数等)。因此在dataset_config.py文件中定义不同数据集的参数,作为继承类的参数。这里使用命名字典:
""" 数据集读取 """ from collections import namedtuple # 创建命名字典,用于存放读取数据类中的param参数 DataSetParams = namedtuple("DataSetParamters", ['FILE_PATTERN', 'NUM_CLASSES', 'SPLITS_TO_SIZES', 'ITEMS_TO_DESCRIPTIONS' ]) # 定义commodity_2018属性配置 Cmd2018 = DataSetParams( FILE_PATTERN='commodity_2018_%s_*.tfrecord', NUM_CLASSES=8, SPLITS_TO_SIZES={ 'train': 88, 'test': 0 }, ITEMS_TO_DESCRIPTIONS={ 'image': '图片数据', 'shape': '图片形状', 'object/bbox': '若干物体对象的bbox框组成的列表', 'object/label': '若干物体对应的label编号' } )
3. 继承基类来定义派生类用于处理不同数据集
继承的基类存放在dataset/dataset_init/目录下。对于不同数据集,定义不同的文件继承基类,本项目值处理commodity数据集,因此仅创建commodity_2018.py继承基类,代码如下:
import os import tensorflow as tf from datasets.utils import dataset_utils slim = tf.contrib.slim class CommodityTFRecords(dataset_utils.TFRecordsReaderBase): """ 商品数据集读取类 """ def __init__(self, param): self.param = param def get_dataset(self, train_or_test, dataset_dir): """ 获取commodity2018数据集 :param train_or_test: train or test :param dataset_dir: 数据集目录 :return: """ # 参数检查,异常抛出 if train_or_test not in ['train', 'test']: raise ValueError("训练/测试的名字 %s 错误" % train_or_test) if not tf.gfile.Exists(dataset_dir): raise ValueError("数据集目录 %s 不存在" % dataset_dir) # 1.准备 tf.slim.dataset.Dataset()的参数 # 1.1第一个参数:dataset file_pattern = os.path.join(dataset_dir, self.param.FILE_PATTERN % train_or_test) # 1.2第二个参数:reader reader = tf.TFRecordReader # 1.3第三个参数:decoder # 创建decoder需要两个参数:keys_to_features和items_to_handlers # 1.3.1 定义keys_to_features,反序列化的格式 keys_to_features = { 'image/encoded': tf.FixedLenFeature((), tf.string, default_value=''), 'image/format': tf.FixedLenFeature((), tf.string, default_value='jpeg'), 'image/height': tf.FixedLenFeature([1], tf.int64), 'image/width': tf.FixedLenFeature([1], tf.int64), 'image/channels': tf.FixedLenFeature([1], tf.int64), 'image/shape': tf.FixedLenFeature([3], tf.int64), 'image/object/bbox/xmin': tf.VarLenFeature(dtype=tf.float32), 'image/object/bbox/ymin': tf.VarLenFeature(dtype=tf.float32), 'image/object/bbox/xmax': tf.VarLenFeature(dtype=tf.float32), 'image/object/bbox/ymax': tf.VarLenFeature(dtype=tf.float32), 'image/object/bbox/label': tf.VarLenFeature(dtype=tf.int64), 'image/object/bbox/difficult': tf.VarLenFeature(dtype=tf.int64), 'image/object/bbox/truncated': tf.VarLenFeature(dtype=tf.int64), } # 1.3.2 items_to_handlers,反序列化成高级的格式 items_to_handlers = { 'image': slim.tfexample_decoder.Image('image/encoded', 'image/format'), 'shape': slim.tfexample_decoder.Tensor('image/shape'), 'object/bbox': slim.tfexample_decoder.BoundingBox( ['ymin', 'xmin', 'ymax', 'xmax'], 'image/object/bbox/'), 'object/label': slim.tfexample_decoder.Tensor('image/object/bbox/label'), 'object/difficult': slim.tfexample_decoder.Tensor('image/object/bbox/difficult'), 'object/truncated': slim.tfexample_decoder.Tensor('image/object/bbox/truncated'), } # 1.3.3构造decoder decoder = slim.tfexample_decoder.TFExampleDecoder(keys_to_features, items_to_handlers) # 2.tf.slim.dataset.Dataset()并返回 return slim.dataset.Dataset(data_sources=file_pattern, reader=reader, decoder=decoder, num_samples=self.param.SPLITS_TO_SIZES[train_or_test], items_to_descriptions=self.param.ITEMS_TO_DESCRIPTIONS, # 数据集返回的格式描述字典 num_classes=self.param.NUM_CLASSES)
2.3.3 定义数据工厂
在datasets根目录下创建dataset_factory.py文件,定义数据工厂获取数据,代码如下:
from datasets.dataset_init import commodity_2018 from datasets.dataset_config import Cmd2018 # 定义dataset种类的字典,目前只是有commodity数据集,后续可以添加 datasets_maps = { 'commodity_2018': commodity_2018.CommodityTFRecords } # 定义参数种类的字典,不同数据集,param参数不一样,目前只是有commodity的参数,后续可以添加 param_map = { 'commodity_2018': Cmd2018 } def get_dataset(dataset_name, train_or_test, dataset_dir): """ 获取指定数据名称的数据文件 :param dataset_name: 数据集名称(数据当中要存在 :param train_or_test: train or test数据集 :param dataset_dir: 数据集目录 :return: Dataset 数据规范 """ if dataset_name not in datasets_maps: raise ValueError("数据集名称 %s 不存在" % dataset_name) param = param_map[dataset_name] return datasets_maps[dataset_name](param).get_dataset(train_or_test, dataset_dir)
最终对外只提供dataset_factory.py文件用于读取TFRecord文件。
3. 模型接口
本项目使用SSD模型。
项目文件结构如下:
图7 网络模型接口文件格式
其中的公共组件的源码都是已知的,本项目使用的ssd网络模型实现文件ssd_vgg_300.py相关代码都是现有代码。对于SSD模型以及其代码实现,将在另外章节介绍。
3.1 网络工厂nets_factory实现
类似数据工厂,我们定义模型工厂nets_factory.py文件,代码如下:
from nets.nets_model import ssd_vgg_300 nets_maps = { 'ssd_vgg_300': ssd_vgg_300.SSDNet } def get_network(network_name): """ 获取不同网络模型 :param network_name: 网络模型名称 :return: 网络 """ if network_name not in nets_maps: raise ValueError("网络名称 %s 不存在" % network_name) return nets_maps[network_name]
4.预处理模块
目的:
1)在图像的深度学习中,对输入数据进行数据增强(Data Augmentation),为了丰富图像的训练集,更好地提取图像特征,泛化模型(防止过拟合)。
通过一系列图像的操作(比如:剪切、翻转、偏移、缩放等图像变换),增加数据集的大小,防止过拟合。
2)还有一个根本目的就是把图片变成符合大小要求的格式:
RCNN网络对于输入图片没有要求,但是网络当中卷积之前需要的大小为227×227;
YOLO算法:输入图片大小为448×448;
SSD算法:输入图片大小为300×300;
4.1 预处理模块代码实现
首先,预处理模块的结构如图所示:
图8 预处理模块结构
其中,需要创建一个preprocessing目录,该目录下的文件用于数据预处理。该目录下的processing目录中的ssd_vgg_preprocessing.py是对于SSD模型的预处理的。如果后续需要增加网络模型,需要在这个文件夹下增加预处理的文件。utils中是预处理需要用到的公共组件。这些相关代码都是公开的代码,这里不做介绍。有了上面的基础文件,下面就来完成数据预处理工厂代码的编写,在preprocessing_factory.py文件中实现:
from preprocessing.processing import ssd_vgg_preprocessing # 目前只有sdd_vgg_300,后续可以增加 preprocessing_maps = { 'ssd_vgg_300': ssd_vgg_preprocessing } def get_preprocessing(name, is_trainning=True): """ 预处理工厂获取不同的数据增强方法 :param name: 预处理名称 :param is_trainning: 是否是训练 :return: 返回预处理的函数,后续再调用函数 """ if name not in preprocessing_maps: raise ValueError("数据预处理名称 %s 不存在" % name) # 定义一个预处理函数,用于函数返回,后续再调用该预处理函数 def preprocessing_fn(image, labels, bboxes, out_shape, data_format, **kwargs): return preprocessing_maps[name].preprocess_image(image, labels, bboxes, out_shape, data_format=data_format, is_training=is_trainning, **kwargs) return preprocessing_fn
5.训练不同模块接口参数
对于2、3、4章节,只是分别单独介绍了数据模块接口、模型接口以及数据预处理接口。现在需要统一每一个模块接口提供给训练的参数,整理成文档。这样以后就直接查看文档即可调用相关模块。总结如图9所示:
图9 训练不同模型参数
6. 多GPU训练
终于到了模型训练这一步了。这里介绍多GPU训练。
对于深度学习来说,大量的计算量导致CPU会显得十分乏力耗时。所以需要GPU来进行提供帮助计算,那么他们的主要任务就是计算得出结果,与CPU之间会进行分工,CPU会做一些基本工作,变量存储,更新参数,输入数据变量等等。如图10所示。在TensorFlow当中会通过标号来区别不同的GPU和CPU,如 ,''/device:CPU:0", "/device:CPU:1","/device:GPU:0","/device:GPU:1","/device:GPU:2",那么这些标号都是程序自动给的编号,指的具体哪块计算设备。
图10 CPU与GPU之间的分工合作
6.1 训练步骤
- 步骤
- 数据读取
- preprocess(数据预处理)
- 网络构建预测结果
- 损失计算
- 添加变量到TensorBoard
- 模型训练、保存
- 部署需求:训练整个模型需要在多GPU、多计算机的环境下进行
那么接下来首先我们要讲模型训练的设备逻辑原理弄清楚,如图11所示:
图11 模型训练的设备逻辑原理
训练主要是在设备(GPU/CPU)上训练,但是如果我们利用目前简单的TensorFlow提供的API去进行指定设备训练会比较繁琐。所以在这里需要介绍一个TensorFlow提供的最新的专门用于多GPU,多计算机的设备部署模块——model_deploy。
6.2 model_deploy介绍
model_deploy位于TensorFlow slim模块的deployment目录下,可以使得用多个 GPU / CPU在同一台机器或多台机器上执行同步或异步训练变得更简单。可以从如下官方地址下载:
https://github.com/tensorflow/models/blob/master/research/slim/deployment/model_deploy.py
首先我们要介绍:
replica:使用多机训练时,一台机器对应一个replica(复本);
clone:由于tensorflow里多GPU训练一般都是每个GPU上都有完整的模型,各自进行前向传播计算,得到的梯度交给CPU平均后统一反向计算,每个GPU上的模型叫做一个clone;
parameter server:多机训练时,计算梯度平均值并执行反向传播操作的参数,功能类似于单机多GPU的CPU;
worker server:一般指单机多卡中的GPU,用于训练。
6.2.1 DeploymentConfig
1. DeploymentConfig为文件中的一个类,主要用于给变量配置选择的设备。
- class DeploymentConfig(object):
- 配置参数
- num_clones=1:每一个计算设备上的模型克隆数(每台计算机的GPU/CPU总数)
- clone_on_cpu=False:如果为True,将只在CPU上训练
- replica_id=0:指定某个计算机去部署,默认第0台计算机(TensorFlow会给个默认编号)
- num_replicas=1:多少台可用计算机
- num_ps_tasks=0:用于参数服务器的计算机数量,0为不适用计算机作为参数服务器
- worker_job_name='worker':工作服务器名称
- ps_job_name='ps':参数服务器名称
- config.variables_device()
- 作为tf.device(func)的参数,返回默认创建变量的设备
- 一般用于指定全局步数变量的设备,默认运行计算机的"/device:CPU:0"
- config.inputs_device()
- 作为tf.device(func)的参数,返回用于构建数据输入变量所在的设备。
- 默认运行计算机的"/device:CPU:0"
- config.optimizer_device()
- 作为tf.device(func)的参数,返回学习率、优化器所在的设备。
- 默认运行计算机的"/device:CPU:0"
- config.clone_scope(self, clone_index):
- 返回指定编号的设备命名空间
- 按照这样编号,clone_0,clone_1...
6.2.2 model_deploy定义的相关函数,主要用于为每一个clone创建一个复制的模型(在GPU)
- model_deploy.create_clones(config, model_fn, args=None, kwargs=None):
- 作用:每个clone创建一个复制的模型,给GPU进行clone模型
- config:一个DeploymentConfig的配置对象
- model_fn:用于回调的函数model_fn,
- args=None, kwargs=None:回调函数model_fn的参数
- 返回元组组成的列表,列表个数大小为指定的num_clones数量
- Clone(outputs, scope, device)
- outputs:网络模型的每一层节点
- scope: 第i个GPU设备的命名空间,config.clone_scope(i)
- clone_device:第i个GPU设备
- Clone(outputs, scope, device)
- model_deploy.optimize_clones(clones, optimizer,regularization_losses=None, **kwargs)
- 作用:计算所有给定的clones的总损失以及每个需要优化的变量的总梯度
- clones: 元组列表,每个元素Clone(outputs, scope, device)
- optimizer:选择的优化器
- **kwargs:可选参数,优化器优化的变量
- 返回:
- total_loss:总损失
- grads_and_vars:每个需要优化变量的总梯度组成的列表
源码介绍使用:
# Set up DeploymentConfig config = model_deploy.DeploymentConfig(num_clones=2, clone_on_cpu=True) # Create the global step on the device storing the variables. with tf.device(config.variables_device()): global_step = slim.create_global_step() # Define the inputs with tf.device(config.inputs_device()): images, labels = LoadData(...) inputs_queue = slim.data.prefetch_queue((images, labels)) # Define the optimizer. with tf.device(config.optimizer_device()): optimizer = tf.train.MomentumOptimizer(FLAGS.learning_rate, FLAGS.momentum) # Define the model including the loss. def model_fn(inputs_queue): images, labels = inputs_queue.dequeue() predictions = CreateNetwork(images) slim.losses.log_loss(predictions, labels) model_dp = model_deploy.deploy(config, model_fn, [inputs_queue], optimizer=optimizer) # Run training. slim.learning.train(model_dp.train_op, my_log_dir, summary_op=model_dp.summary_op)
6.3 训练逻辑
1)DeploymentConfig
需要在训练之前配置所有的设备信息
定义全局步数
2)获取图片队列
在config.inputs_device()指定
3)数据输入、网络计算结果、定义损失并复制模型到clones,添加变量到tensorboard
model_deploy.create_clones
4)定义学习率、优化器
config.optimizer_device()指定
5)计算所有GPU/CPU设备的平均损失和每个变量的梯度总和、定义训练OP、summaries OP
model_deploy.optimize_clones
6)配置训练的config,进行训练
slim.learning.train
代码框架如下:
图中,pre_trained文件下存放的是预训练好的ssd_vgg_300网络的预训练模型,fine_tuning是训练存放模型的路径。
根目录下的utils是公共组件,最后训练的文件是train_ssd_network.py。
训练代码如下:
""" 训练初始化参数 PRE_TRAINED_PATH=./ckpt/pre_trained/ssd_vgg_300.ckpt TRAIN_MODEL_PDIR=./ckpt/fine_tuning/ DATASET_DIR=./IMAGE/tfrecords/commodity_tfrecords/ 每批次训练样本数:32或者更小 惩罚项:0.005 学习率:0.001 优化器选择:adam 模型名称:ssd_vgg_300 """ import tensorflow as tf from datasets import dataset_factory from preprocessing import preprocessing_factory from nets import nets_factory from utils import train_tools from deployment import model_deploy slim = tf.contrib.slim DATA_FORMAT = 'NHWC' # 命令行参数 # 设备相关的命令行参数 tf.app.flags.DEFINE_integer('num_clones', 1, "可用GPU数量") tf.app.flags.DEFINE_boolean('clone_on_cpu', False, "是否只在CPU上运行") tf.app.flags.DEFINE_integer('replica_id', 0, "复本id") # 数据集相关命令行参数 tf.app.flags.DEFINE_string('dataset_dir', ' ', "训练数据集目录") tf.app.flags.DEFINE_string('dataset_name', 'commodity_2018', "数据集名称") tf.app.flags.DEFINE_string('train_or_test', 'train', "训练还是测试") # 网络相关命令行参数 tf.app.flags.DEFINE_string('network_name', 'ssd_vgg_300', "网络名称") tf.app.flags.DEFINE_integer('batch_size', 32, "每批次获取样本换数量") tf.app.flags.DEFINE_float('weight_decay', 0.0001, "网络误差惩罚项") # 训练相关参数 tf.app.flags.DEFINE_string( 'optimizer', 'rmsprop', '优化器种类 可选"adadelta", "adagrad", "adam","ftrl", "momentum", "sgd" or "rmsprop".') tf.app.flags.DEFINE_string( 'learning_rate_decay_type', 'exponential', '学习率种类 "fixed", "exponential", "polynomial".') tf.app.flags.DEFINE_float('learning_rate', 0.01, '模型初始学习率') tf.app.flags.DEFINE_float('end_learning_rate', 0.0001, '模型终止学习率') tf.app.flags.DEFINE_integer('max_number_of_steps', None, '训练的最大步数') tf.app.flags.DEFINE_string('train_model_dir', ' ', '训练输出的模型目录') tf.app.flags.DEFINE_string('pre_trained_model', None, '预训练模型目录') FLAGS = tf.app.flags.FLAGS def main(_): if not FLAGS.dataset_dir: raise ValueError("必须指定一个TFRecord的数据集目录") # 设置打印级别 tf.logging.set_verbosity(tf.logging.DEBUG) # 在默认图中进行训练 with tf.Graph().as_default(): # 1.DeploymentConfig配置 deploy_config = model_deploy.DeploymentConfig(num_clones=FLAGS.num_clones, clone_on_cpu=FLAGS.clone_on_cpu, replica_id=0, num_replicas=1, num_ps_tasks=0) # 在variables_device定义全局步长(网络训练一般都这么配置) with tf.device(deploy_config.variables_device()): global_step = tf.train.create_global_step() # 2.获取图片数据,做一些预处理 # image, shape, bbox, label # 不是直接进行训练,而是需要进行正负样本标记(输出的anchor和GT进行IOU计算选择) # 2.1步骤如下: # (1)通过数据工厂获取DataSet规范,不是真正的数据,需要通过后续操作去获取数 dataset = dataset_factory.get_dataset(dataset_name=FLAGS.dataset_name, train_or_test=FLAGS.train_or_test, dataset_dir=FLAGS.dataset_dir) # (2)通过网络计算获取的anchors结果 # 通过网络工厂获取网络 ssd_class = nets_factory.get_network(FLAGS.network_name) # 获取默认网络参数 ssd_params = ssd_class.default_params._replace(num_classes=9) # 初始化网络init函数 ssd_net = ssd_class(ssd_params) # 获取shape ssd_shape = ssd_net.params.img_shape # 获取anchors, SSD网络中6层的所有计算出来的默认候选框default boxes ssd_anchors = ssd_net.anchors(ssd_shape) # (3)获取预处理函数 image_preprocessing_fn = preprocessing_factory.get_preprocessing(name=FLAGS.network_name, is_training=True) # 打印网络相关参数 train_tools.print_configuration(ssd_params, dataset.data_sources) # 2.2 # (1)通过slim.dataset_data_provider.DatasetDataProvider获取图像数据 # (2)进行数据预处理 # (3)对获取出来的GT标签和bbox进行编码 # (4)获取的单个样本数据,要进行批处理以及返回队列 with tf.device(deploy_config.inputs_device()): with tf.name_scope(FLAGS.network_name + "_data_provider"): provider = slim.dataset_data_provider.DatasetDataProvider( dataset, num_readers=4, common_queue_capacity=20 * FLAGS.batch_size, common_queue_min=10 * FLAGS.batch_size, shuffle=True) # get获取数据(真正获取参数) [image, shape, glabels, gbboxes] = provider.get(['image', 'shape', 'object/label', 'object/bbox']) # 数据预处理 [?, ?, 3]-->[300, 300, 3] image, glabels, gbboxes = image_preprocessing_fn(image, glabels, gbboxes, ssd_shape, DATA_FORMAT) # 原始anchor boxes进行正负样本标记 # gclasses: 目标类别 # glocalizations: 目标类别的真实位置 # gscores: 目标结果(概率值) gclasses, glocalizations, gscores = ssd_net.bboxes_encode(glabels, gbboxes, ssd_anchors) # 批处理、队列处理 # tensor_list:tensor组成的类别 [tensor, tensor, tensor, ...] # r是1个tensor组成的列表 r = tf.train.batch(tensors=train_tools.reshape_list([image, gclasses, glocalizations, gscores]), batch_size=FLAGS.batch_size, num_threads=4, capacity=5 * FLAGS.batch_size) batch_queue = slim.prefetch_queue.prefetch_queue(r, capacity=deploy_config.num_clones) # 3.数据输入、网络计算结果、定义损失并复制模型到clones,添加变量到tensorboard summaries = set(tf.get_collection(tf.GraphKeys.SUMMARIES)) # batch_shape:获取的默认队列大小,即上面r的大小 batch_shape = [1] + 3 * [len(ssd_anchors)] update_ops, first_clone_scope, clones = train_tools.deploy_loss_summary(deploy_config, batch_queue, ssd_net, summaries, batch_shape, FLAGS) # 4.定义学习率、优化器 # 初始学习率:0.001 # 终止学习率:0.0001 # 优化器选择:adam with tf.device(deploy_config.optimizer_device()): # 定义学习率和优化器 learning_rate = train_tools.configure_learning_rate(FLAGS, dataset.num_samples, global_step) # 定义优化器 optimizer = train_tools.configure_optimizer(FLAGS, learning_rate) # 观察学习的变化情况添加到summaries中 summaries.add(tf.summary.scalar('learning_rate', learning_rate)) # 5.计算所有GPU/CPU设备的平均损失和每个变量的梯度总和、定义训练OP、summaries OP train_op, summaries_op = train_tools.get_trainop(optimizer, summaries, clones, global_step, first_clone_scope, update_ops) # 6.配置训练的config,进行训练 # 6.1 配置config和saver gpu_options = tf.GPUOptions(per_process_gpu_memory_fraction=0.8) config = tf.ConfigProto(log_device_placement=False, # 若果打印会有许多变量的设备信息出现 gpu_options=gpu_options) saver = tf.train.Saver(max_to_keep=5, # 默认保留最近几个模型文件 keep_checkpoint_every_n_hours=1.0, write_version=2, pad_step_number=False) # 6.2 训练 slim.learning.train( train_op, # 训练优化器tensor logdir=FLAGS.train_model_dir, # 模型存储目录 master='', is_chief=True, init_fn=train_tools.get_init_fn(FLAGS), # 初始化参数的逻辑,预训练模型的读取和微调模型判断 summary_op=summaries_op, # 摘要 number_of_steps=FLAGS.max_number_of_steps, # 最大步数 log_every_n_steps=10, # 打印频率 save_summaries_secs=60, # 保存摘要频率 saver=saver, # 保存模型参数 save_interval_secs=600, # 保存模型间隔 session_config=config, # 会话参数配置 sync_optimizer=None) if __name__ == '__main__': tf.app.run()
训练模型:
训练的过程使用技嘉RTX2070Super显卡。
切换到ObjectDetection目录,执行如下命令(参数可以自己设定):
PRE_TRAINED_PATH=./ckpt/pre_trained/ssd_300_vgg.ckpt TRAIN_MODEL_DIR=./ckpt/fine_tuning/ DATASET_DIR=./IMAGE/tfrecords/commodity_tfrecords/ python train_ssd_network.py --train_model_dir=${TRAIN_MODEL_DIR} --dataset_dir=${DATASET_DIR} --dataset_name="commodity_2018" --train_or_test=train --model_name=ssd_vgg_300 --pre_trained_path=${PRE_TRAINED_PATH} --weight_decay=0.0005 --optimizer=adam --learning_rate=0.001 --batch_size=16
此时可以学习。
同时在ckpt/fine_tuning文件夹下,执行如下命令,可以使用tensorboard查看已经添加到tensorboard中的相关参数。
tensorboard --logdir=./
训练过程如下图所示:
7.测试过程
7.1测试流程
1)测试数据准备
2)preprocessing数据预处理--测试过程的数据预处理就是需要图片的resize
3)模型加载
4)postprocess(预测结果后期处理)--训练过程中是不需要后期处理的
通过scores筛选bbox
使用NMS筛选box
注意bbox边界与原始图片的bbox,按需修改bbox
5)预测结果显示(使用matplotlib)
7.1 测试框架:
其中,test文件夹用于测试使用,visualization.py文件里面是显示结果的代码,test_image.py文件中文最终存放的测试代码。
7.2 测试代码
7.2.1显示图片代码
visualization.py中的显示结果的代码如下:
import cv2 import random import matplotlib.pyplot as plt import matplotlib.image as mpimg import matplotlib.cm as mpcm VOC_LABELS = { '0': 'Background', '1': 'clothes', '2': 'pants', '3': 'shoes', '4': 'watch', '5': 'phone', '6': 'audio', '7': 'computer', '8': 'books' } # =========================================================================== # # Matplotlib 显示图 # =========================================================================== # def plt_bboxes(img, classes, scores, bboxes, figsize=(10,10), linewidth=1.5): """显示bounding boxes. """ fig = plt.figure(figsize=figsize) plt.imshow(img) height = img.shape[0] width = img.shape[1] colors = dict() for i in range(classes.shape[0]): cls_id = int(classes[i]) if cls_id >= 0: score = scores[i] if cls_id not in colors: colors[cls_id] = (random.random(), random.random(), random.random()) ymin = int(bboxes[i, 0] * height) xmin = int(bboxes[i, 1] * width) ymax = int(bboxes[i, 2] * height) xmax = int(bboxes[i, 3] * width) rect = plt.Rectangle((xmin, ymin), xmax - xmin, ymax - ymin, fill=False, edgecolor=colors[cls_id], linewidth=linewidth) plt.gca().add_patch(rect) class_name = str(cls_id) plt.gca().text(xmin, ymin - 2, '{:s} | {:.3f}'.format(VOC_LABELS[class_name], score), bbox=dict(facecolor=colors[cls_id], alpha=0.5), fontsize=12, color='white') plt.show()
7.2.1测试过程代码
测试过程test_image.py代码如下:
import numpy as np import tensorflow as tf from PIL import Image import sys sys.path.append('../') import matplotlib.pyplot as plt import matplotlib.image as mping import visualization from utils.basic_tools import np_methods slim = tf.contrib.slim from nets import nets_factory from preprocessing import preprocessing_factory # 1.定义输入图片数据的占位符 image_input = tf.placeholder(tf.uint8, shape=[None, None, 3]) # 定义输出形状,元组表示 net_shape = (300, 300) data_format = 'NHWC' # 2.数据输入预处理工厂,进行预处理 preprocessing_fn = preprocessing_factory.get_preprocessing('ssd_vgg_300', is_training=False) image_Pre, _, _, bbox_img = preprocessing_fn(image_input, None, None, net_shape, data_format) # image_Pre是三维形状--->(300, 300, 3) # 卷积神经网络要求都是四维的数据计算 # 维度的扩充--->(1, 300, 300, 3) image_4d = tf.expand_dims(image_Pre, 0) # 3.定义SSD模型,并输出预测结果 # 网络工厂获取 ssd_class = nets_factory.get_network('ssd_vgg_300') ssd_params = ssd_class.default_params._replace(num_classes=9) reuse = True if 'ssd_net' in locals() else False # 初始化网络 ssd_net = ssd_class(ssd_params) ssd_anchors = ssd_net.anchors(net_shape) # 通过网络的方法获取结果 # 使用slim指定公有参数 with slim.arg_scope(ssd_net.arg_scope(data_format=data_format)): predictions, localizations, _, _ = ssd_net.net(image_4d, is_training=False, reuse=reuse) config = tf.ConfigProto(log_device_placement=False) sess = tf.InteractiveSession(config=config) sess.run(tf.global_variables_initializer()) ckpt_filepath = '../ckpt/fine_tuning/model.ckpt-103480' saver = tf.train.Saver() saver.restore(sess, ckpt_filepath) # 会话运行图片,输出结束 # 读取一张图片 img = Image.open('../IMAGE/commodity/JPEGImages/000080.jpg').convert('RGB') img = np.array(img) i, p, l, box_img = sess.run([image_4d, predictions, localizations, bbox_img], feed_dict={image_input:img}) # 进行结果筛选 classes, scores, bboxes = np_methods.ssd_bboxes_select( p, l, ssd_anchors, select_threshold=0.5, img_shape=(300, 300), num_classes=9, decode=True ) # bbox边框不能超过原图片,默认原图的相对于bbox大小比例 [0, 0, 1, 1] bboxes = np_methods.bboxes_clip(box_img, bboxes) # 根据 scores 从大到小排序,并改变classes rbboxes的顺序 classes, scores, bboxes = np_methods.bboxes_sort(classes, scores, bboxes, top_k=400) # 使用nms算法筛选bbox classes, scores, bboxes = np_methods.bboxes_nms(classes, scores, bboxes, nms_threshold=.45) # 根据原始图片的bbox,修改所有bbox的范围[.0, .0, .1, .1] bboxes = np_methods.bboxes_resize(box_img, bboxes) visualization.plt_bboxes(img, classes, scores, bboxes)
测试中使用训练得到的ckpt/fine_tuning/model.ckpt-103480文件中的参数进行。测试结果如下图所示: