【学习笔记】Capsure Networks for HSI
【定义】
高光谱影像:高光谱影像是收集及处理整个跨电磁波谱的信息,一般是遥感等技术探测出具有大量肉眼不可见信息的图片
胶囊网络:
传统的CNNs对高光谱图像(HSI)分类问题有很好的效果,但是传统的CNNs对于找到空间-光谱间特征的联系领域上面存在障碍。(光谱-空间特征的联系是解决远景HSI 高等级复杂度的关键)
之前的解决办法是使用大量的信息数据调试参数。
我们建立一个基于 光谱-空间 胶囊网络的 新CNN结构来降低寻找参数的复杂度
我们定义一个CNN模型将胶囊单元(capsule unit)改变为空间-光谱单元(s-s),专用于分类远处的HSI数据
-
空间-光谱胶囊:能够通过考虑物理位置,空间特征的联系,他们可能的传输,找寻s-s特征
选用了5组数据和其他方法进行比较
关键字
胶囊网络 CNN 高光谱图像
简介
主要目的:对遥感光谱信息的整理,比如电子微观科学等
主要解决问题所在
-
数据的高复杂度
-
训练数据量的限制
导致的问题
-
传感器所具有的信息过多,并且存在不可避免的扰动,限制了行为
-
训练集的标记的可利用性被限制,(没太读明白)
使用三维向量作为计算方法
卷积神经网络能够筛选出低级的特征,然后进一步得到更高级的特征
但即使这样,不同位置之间的关系的获得还是受限,
拥有共用层和空间大小逐渐减小,中间的数据表明在下层和上层特征之间存在联系
共用操作基于低层例子特征空间的大小,不可避免的丢失重要的位置信息
无法适应微小改变,无法得到两个物体之间的关系
前面的一些改进方法:
-
使用深度网络,虽然能够改善,但是需要大量正确匹配的数据
残差网络和Dense网络都尝试各自解决这个问题
-
残差网络:使用processing block 作为基础模块使他能够从已知的上层获得特征
-
Dense网络:定义一个在前面特征的映射 的结构
-
Caps网络:将数据之间的关系编码成表示可能性的向量
自此,我们想到一种新的基于CapsNets的CNN,实现高速HSI分类的同时显著的降低降低建立网络的时间复杂度
我们的模型能够,每个胶囊估计在HSIdata当中特定的S-s特征联系的可能性
除此之外,通过观察s-s之间的特征所经历的转化(通过respect彼此对应的地方)提供一系列对应的参数
最终这个网络能够在高阶抽象等级上,特征化HSI的输入数据,最终令我们能够降低回旋(反向传播?)的层数和继承模型的复杂度,令GPU能够更快的执行操作
文章各模块简述:
-
Ⅱ CNN的优点和局限
-
三 描述我们模型的方法
-
四 和其他方法的比较
-
五 一些注意事项和提示给未来的研究方向
CNN在高光谱图像分类中的优点和限制
1.编码网络:为得到神经元网络的输入
分为三层,前两层是为 了得到最基础的低级特征,第三层通过讨论低层次和高层次向量之间的联系,将第二层的输出作为输入进行处理,从而获得所想要的抽象特征之间的联系。
2.解码网路:对编码器输出的向量进行重构,得到最终的分类结果图
第一层:
将大小为 的高光谱图像作为输入,输入进卷积神经网络
设定个大小为 的 感受野(卷积核),每个卷积核对一个通道的高光谱图像进行卷积操作,所以有 ,卷积结束后,最终得到低级特征结果: ,即张大小的卷积图像
第二层:
将上一层的卷积结果作为输入输入网络,设置个大小为 感受野(卷积核)对输入的每个通道进行处理,以为是对每个通道进行处理,所以有
为第个胶囊将个对一定区域的卷积结果,得到一个维的向量 ,每一个参数代表一系列有关的目标图形和相关属性。
第二层提取在高光谱数据中出现的低级特征(可以理解为各个分类在图像中展现的集合图形),将他们合并为张大小为大小的特征图像,其中每个位置都是通过维的向量获得的 (在图像 中检测物体和提取向量参数)
这个向量并不仅表示这种特征,同时他还可以表示这种特征的变体(比如这个特征做旋转或者放大)。这些向量的长度代表了这个向量所代表的特征出现在这张图中的概率,因此我们需要对其进行压缩,压缩公式如下:
(这个方程有些类似于ReLU函数的作用)
最终输出经过压缩的向量
第三层 :由 个将个输出胶囊处理形成的新胶囊构成,表示原图中最终所需要的分类数。对于每一个种类,我们应该已经获得了对应的,将会把前面代表可能性的输出向量(的输出)编码然后归纳为那一个分类的 。
在和之间有一层特殊处理的方法,被称为,将两层连接在一起。这个方法的目的是设计一种相对于传统池化更好的学习方法,不只是找到胶囊之间的信息,同时也通过增强分布在不同层之间的胶囊在高层次中的相似度或者冲突,规避和删除弱的联系,从而捕捉到部分和整体之间的关系。
以下是对这种方法的详细说明:
在将输出的个胶囊作为输入,获取每一个的预测向量,通过在 和之间做线性变换,将前一层的输出转化成为拥有个维度的个向量
公式如下 ,表示n个胶囊的激活量
我们可以将向量看作对第三层结果的预测。在最后,通过利用表示低级特征和高级抽象特征之间联系的求取预测向量的权值和,得到正确的低级特征和高级特征之间的关系,计算公式如下:
这个操作也正是为了达到上面所提到的“增强分布在不同层之间的胶囊在高层次中的相似度或者冲突,规避和删除弱的联系,从而捕捉到部分和整体之间的关系”,通过数字权值和来表示这样的关系,所以需要
同时对向量也进行同上一层相同的操作,将长度压缩在0~1之间,
下面是的求取过程:通过 求取,公式表示如下:
是前面可能性的记录,在胶囊间的层次关系胶囊m将触发胶囊n,,一个初始为0然后逐渐以如下方式反复增强的度量量
和表示的是反向传播的次数,表示的是 和之间的讨论程度,当讨论时,我们能够显而易见的观察到,。在模型巡礼那过程中,我们就能够得到,编辑部分和整体之间关系的变换矩阵和表示低级特征和高级特征之间联系的。
再次强调,的目的是获得和所需分类数量相等向量个数,对于每个输入集合,每个类别都会最终都会获得一个向量,其长度表示这个种类存在的可能性。
所以他和结果的代价函数可以表示为下面的形式:
其中,表示的是此类型是否存在在这组数据当中,如果存在等于1,否则等于0
前一个是为了存在的情况设定,后一个是为了不存在的情况设定,参数和是作为界限,保证损失函数不会过大或者崩坏。是一个减轻对应向量的类型没有出现的影响的常规参数。
这些表达能够通过增加新的损失函数而被延申和扩大,以达到改善最终的识别结果的目的。
$L_{recon}=\lVert X-X^`\rVert$, 表示的是原始的输入图像,$X^`$表示的是重建之后的图像(重建过程由第二部分的解码器完成)
B.解码网络
解码网络由几个全连接层构成,将的输出向量作为输入,重构了输入的图像。最终,选用的损失函数如下:
,其中是为了平衡损失测量的常规参数,有,将适当的权重分配给重建损失。
Table Ⅰ总结了模型实验的输出结果,展现了网络在HSI数据集上的良好结果。
实验结果
实验一:和之前的方法进行比较
分别对五组实验数据进行分类测试,将结果和其他方法进行对比(SVM,RF,MLP,2-D CNN,3-D CNN)
15% 的标记数据作为训练集,将11*11的像素作为输入,输入2-D CNN ,3-D CNN,和拟议方法
每一个标记,在五个单位时(多项式时间内),都拥有一致的平均值和标准差
拟议方法的结果是最好的,3-D CNN是第二好的方法
同时,我们能够得到有用的空间和光谱之间的信息
总体精度(OA)和平均精度(AA)胜过3-D CNN
在小数据上的到显著成果
未分类的像素比其他的方法少,提供了更加一致的结果
实验二:和使用了最新方法的方法进行比较
SSRN,DFCNN,
利用IP,KSC,UP三组数据集,输入55,77,
达到最新方法水平,和最新方法不分伯仲
时间多出了4~~5倍
结论
”the proposed approach exhibits competitive advantages with respect to state-of-the-art classification methods“