lesson6-图像分割-小象c

显著性检测：1）显著性物体检测-最能引起视觉注意的物体区域2)注视点预测：人类视觉注意机制

视觉注意机制的两种机制：1)自底而上基于数据驱动的注意机制，如颜色、边缘 2）自上而下基于任务驱动的目标的注意机制，如认知因素钟的只是、预期、兴趣

物体分割：Gragh Cuts分割~最小割最大流算法优化
GrabCut分割：前景/背景的颜色分割 ~ 高斯混合模型，Kneans获得（高斯混合包括Kmeans和EM算法）、
美图秀秀用到
需要给初始标记
语义分割:
目标：从像素水平上，理解、识别图片的内容；根据语义信息分割
输入图片，输出同尺寸的分割标记(像素水平），每个像素会被识别为一个类别category ；
不需要标记，自己生成的

算法研究：
2015前：手工特征+图模型(马尔科夫/条件随机场CRF)
之后：深度神经网模型
传统cnn的问题：后半段网络无空间信息；输入图片尺寸固定
全卷机网络FCN：所有层都是卷积层（Googlenet等还是有全局的卷积层，因为需要把二维的空间信息变为一维的概率信息节点）；解决降采样后的低分辨率问题~稀疏输出
语义分割是像素级别、更为精确的，比rcnn系列网络改进的要更深入和充分，且输出就是要原图尺寸的，所以可以使用完全意义上的全卷机网络

语义分割要求2-D输出尺寸，逐个像素的 ~ 一般都为FCN系列
检测网络 ~ rcnn系列
分类网络 ~ cnn系列

FCN：全卷机网络 2015年
卷积化：所有全连接层转换为卷积层；适应任何尺寸输入，输出低分辨率分割图片~因为几个像素会变为一个像素，所以分辨率降低
  VGG\AlexNet之所以要固定图片尺寸，是因为最后一层卷积层，但是全改为卷积层后就不需要控制输入尺寸
但是
  卷积化后的核尺寸：gc6-8~1*1，4096 -1*1，4096-1*1，N个类别 ~前两个1*1卷积是特征变换的作用，最后一个是特征推断的作用
  分辨率下降32倍~五层卷积层，2的5次方
-->
反卷积：将低分辨率图片进行上采样，输出同分辨率/同尺寸的分割图片 ~反卷积上采样32倍 ~会有信息损失
  卷积：3*3,步长2 反卷积：3*3，步长1/2 ；反卷积核是卷积核的转至，学习率为0~因为反卷积的前向和后巷传播分别对应卷积操作的后巷和前向传播，优化上做颠倒就行，故学习率为0
  也叫转至卷积

FCN-卷积/转至卷积的参数关系：

s=1时：

核尺寸： k k

步长：　s　s

padding：p k-p-1

输入：i　　o

输出：o　 i + (k-1)-2p

s>1 and a=i+2p-k整除s时：

k　　k

s　　1（因为1/s小数步长，是通过补零输入实现的）

p　　k-p-1，不整除时在上方和右方再补0~p’=amods --- 不对称补0

i　　i‘=i+（s-1）（i-1）

o　　s（i'-1)+a+k-2p,a=0 当不整除s时，a！=0

DeepLab网络

DeepLab-DCNN：

--》

因为反卷积不能完全恢复信息，所以Deeplab提出了更好的方案

~因为vgg前面五个卷积层都有pooling，所以在第五个卷积层的地方加上了反卷积上采样，导致信息丢失

基本结构：优化后的DCNN（分辨率下降)+双线性插值上采样+传统的CRF图模型

新的上采样卷积方案：带孔hole结构的膨胀卷积Atrous dilated convolution

多尺度图片表达：atrous空间金字塔池化

边界分割的优化:使用全连接条件随机场CRF进行迭代优化

孔算法

--》

解决原始fcn网络的输出低分率问题

无上采样，恢复感受野，可以finetue，保证了网络最终的高分辨率输出（仅8倍降采样）

参数数量不变、计算量不变

卷积核结构：尺寸不变3*3，步长不变1，但是元素间距变大（1-》2)

采用层：conv5即第五卷机组~孔尺寸2 conv6~孔尺寸4 (第四池化层步长2变为1，导致第五卷积层感受野变小，所以孔尺寸为1，即中间补0 ；普通池化，卷积核3，步长为2，padding=1--》输出4个节点-》密集池化，步长为1，padding=1，输出7个，其中四个对应的就是普通池化的输出--》孔算法，padding=2，卷积核间隔补0 ，不是输入神经元补0 ！）

膨胀卷积atrous/dilated convolution

--》

孔算法的正式名称

与降低池化曾步长配对使用，取代上采样反卷积

孔尺寸-rate，越大，感受也越大，插rate-1个0

孔算法带来的增加的输出其实对应的就是stride从2变为1后，对应的特征图多出的神经元的位置，也就是孔的位置

atrous金字塔池化：

不同感受也也就是不同rate捕捉不同尺寸上的特征

在conv6层引入4个并行膨胀卷积，kernel=3，rate=6，12，18，24

4个膨胀卷积后各自增加两个1*1卷积：是为了做在像素级别上的特征推断

fc6-》fc7-》fc8 深度 4096-》2014-》类别数量 ~ 三个分支

融合：三个分支概率融合

全连接CRF：

通过迭代精化分割结果

输入：第一次输入 dcnn输入结果，后面输入crf迭代结果

  跳层结构skip layer：精化分割图片
  可以拟合出双线性插值，双。。可以作为全卷机的特例
  分为偶数/奇数输入输出
但是
  直接使用32倍反卷积得到的分割结果粗糙

-->
skip layers：
  使用前两个卷积层的输出做融合~跳层：pool4和pool3后会增加一个1*1卷积层做预测，生成预测图，再融合，再做上采样;
  较浅网络更加精确，较深网络的结果鲁棒，所以现在可以棒两个深浅信息都用起来
  最后的反卷积层分两类1）固定为双线性插值，不学习2）初始化为双线性插值，需要学习

基础cnn网络：Alexnet、vgg。。

反池化操作：记录池化时选的是哪一个位置~开关变量，这样反池化时可以恢复

使用Alexnet构建FCN:
1、使用alexnet作为初始网络，保留参数；舍弃最后一个全连接层
2、替换两个同深度的卷积层（4096，1，1）；追加一个预测卷积层（21，1，1）；追加一个步长为32的双线性插值反卷积层
3、conv7进行2倍上采样；提取pool4输出，追加预测卷积层；相加融合；追加步长为1的双线性插值反卷积层
4、对上次融合结果2倍上采样；提取pool3输出，追加预测卷积层；相加融合；追加步长为8的双线性插值反卷积层
训练：
初始化：卷积层~前5个卷积层使用初始cnn网络的参数；剩余第六第七卷积层初始化为0
反卷积层~最后一层反卷积固定为双线性插值，不做学习；其他的需融合的需要学习
FCN网络缺点：
边缘检测性比较差，故第一个卷积层大量补0，之后做剪裁

代码：

https://blog.csdn.net/weixin_38437404/article/details/78089035?locationNum=10&fps=1

https://blog.csdn.net/dawei_01/article/details/79569466

TypeError: Can't convert 'bytes' object to str implicitly
解决方法：使用字节码的decode()方法。

示例：
str = 'I am string'
byte = b' I am bytes'
s = str + byte
print(s)

　　这时会报错：TypeError: Can't convert 'bytes' object to str implicitly

解决方法：
s = str + byte.decode()

evaluate：批量评估 reference：单个评估
utils：辅助类

@layer~装饰器：
Python装饰器的用法，具体教程看这个链接：http://wiki.jikexueyuan.com/project/explore-python/Functional/decorator.html
装饰器的作用是：封装成可以组装的基本网络层（卷积、膨胀卷积、池化等），方便组装复杂网络
装饰器用于装饰(包裹、封装)原有函数的输出，返回的是包装后的函数layer_decorated
需要装饰的函数，在其函数名上方追加装饰器@layer
对函数做封装，不改变函数本身的实现，但在其上再封装别的调用功能，如调用conv函数时，先调用装饰器，即def layer函数，并且传入要包装的函数，在layer decorated中解析要包装的函数的参数。

network.py:
return self-返回类对象,才能执行类相关操作
setup(self, is_training)网络构建函数，需要子类做实现
model.py：
DeepLab-ResNet-101网络定义，基于ResNet-101.
必须要继承network中的layer，否则其中的setup函数会报异常

(self.feed('data')
.conv(7, 7, 64, 2, 2, biased=False, relu=False, name='conv1')
.batch_normalization(is_training=is_training_bn, activation_fn=tf.nn.relu, name='bn_conv1')
.max_pool(3, 3, 2, 2, name='pool1')
# 残差直连的通道升维，因为此处特征的2D尺寸有降维
.conv(1, 1, 256, 1, 1, biased=False, relu=False, name='res2a_branch1')
.batch_normalization(is_training=is_training_bn, activation_fn=None, name='bn2a_branch1'))
返回值self之后追加各层，因为maxpool的步长为2，所以2d尺寸有降维，即长宽都减小了一半。所以在残差直连时需要通道升维，即从64升到256

# 第四卷积组，第22残差单元
# atrous膨胀卷积，Rate = 2
.atrous_conv(3, 3, 256, 2, padding='SAME', biased=False, relu=False, name='res4b21_branch2b')
第四卷机组共有23个残差单元，其中3*3的卷积使用膨胀卷积

Conv4第四卷机组用的rate=2
conv5第五卷机组用的rate=4

# 第六卷积组，atrous空间金字塔池化（4个并行膨胀卷积）

BATCH_SIZE = 4 --现存不够时，减少batchsize，最少为1
batchsize小是因为输出时密集输出，高分辨率的

# 获取不同类型的网络权重参数名
不同分组 -如可训练的、全连接的、w的--因为学习率时不同的

# 定义优化器
    opt_conv = tf.train.MomentumOptimizer(learning_rate, args.momentum)
    opt_fc_w = tf.train.MomentumOptimizer(learning_rate * 10.0, args.momentum)
    opt_fc_b = tf.train.MomentumOptimizer(learning_rate * 20.0, args.momentum)

# 加载已有的checkpoint文件
    if args.restore_from is not None:
        loader = tf.train.Saver(var_list=restore_var)
手动、断电停止后，也可继续训练
        load(loader, sess, args.restore_from)

Python装饰器的用法，具体教程看这个链接：
http://wiki.jikexueyuan.com/project/explore-python/Functional/decorator.html
装饰器的作用是：封装成可以组装的基本网络层（卷积、膨胀卷积、池化等），方便组装复杂网络

--》

可以看到，类 Bold 有两个方法：

__init__()：它接收一个函数作为参数，也就是被装饰的函数
__call__()：让类对象可调用，就像函数调用一样，在调用被装饰函数时被调用

还可以让类装饰器带参数：

class Tag(object):
    def __init__(self, tag):
        self.tag = tag

    def __call__(self, func):
        def wrapped(*args, **kwargs):
            return "<{tag}>{res}</{tag}>".format(
                res=func(*args, **kwargs), tag=self.tag
            )
        return wrapped

@Tag('b')
def hello(name):
    return 'hello %s' % name

需要注意的是，如果类装饰器有参数，则 __init__ 接收参数，而 __call__ 接收 func。

posted on 2018-04-16 18:28 rosyYY 阅读(475) 评论(0) 编辑收藏举报

刷新页面返回顶部

导航

lesson6-图像分割-小象c