PIE-Basic 非监督分类
- 功能概述
1.1 遥感图像分类的概念
遥感技术能够实现宏观、迅速的大范围信息提取,被各个行业广泛应用。遥感图像分类是图像信息提取的一种方法,是遥感数字图像处理的重要环节之一。
遥感图像分类:根据感兴趣目标在遥感图像上的特征差异,判断并识别其类别属性和空间分布特征等信息的过程。
重点关注:
- 选择哪些有效特征进行分类
- 选择什么方法进行分类
- 分类方法的参数如何设置
示例 :区分幼儿园小朋友的性别
变量(遥感的不同光谱波段) | ||||||
观测样本(遥感像元) | 身高 | 体重 | 服装样式 | 鞋子颜色 | 头发长短 | 其他特征(如行为) |
波段1 | 波段2 | 波段3 | 波段4 | 波段5 | 其他特征(如空间纹理) | |
张三 | ||||||
李四 | ||||||
王五 | ||||||
…… |
分类的本质就是从观测样本的属性中选取对判断目标具有差异的特征,并利用这些特征建立判断标准,从而将观测样本划分为不同的类别。
1.2 遥感图像分类的原理
地物在遥感影像上的每个属性均可被当作一个变量,参与分类的这些属性(也称特征向量)构成一个n维的特征空间。
理想情况下,同类地物应具有相同或者相似的特征描述,因此他们的像元在n维特征空间中聚集在一起;而不同地物应具有不同的特征描述,因此不同地物的像元在n维的特征空间中呈现分离的状态。
- 一个像元可以看成由n个特征组成的n维空间的一个点
- 同类地物的像元形成n维空间的一个点群,差异明显的不同地物会构成n维空间的若干个点群。
- 计算机分类就是要分析特征空间这些点群的特点,如点群的位置、分类中心,从而确定点群的界限,最终完成分类任务。
二维特征空间分类
三维特征空间分类
1.3 遥感图像分类的方法
基于光谱特征的遥感影像分类方法主要包括:
- 非监督分类
- 监督分类
遥感图像分类过程:
(1)分类的目的及研究区背景了解
(2)数据获取
(3)数据预处理
(4)分类类别确定和解译标志确立
(5)训练样本选取和评价
(6)特征提取和选择
(7)分类方法的选择
(8)图像分类
(9)分类后处理
(10)精度评价
1.4 分类方法比较
监督分类和非监督分类的根本区别点在于是否利用训练样本来获取先验的类别知识。
1.5 遥感图像分类概念
示例 :区分女演员的民族
有一群你一个都不认识的女演员,她们各自穿着自己民族的服装,请将她们民族识别出来。
思路1:先将女演员按照她们服装特征的相似程度进行归类(此时你不知道该服装类别是哪个民族),然后再去查找各民族服饰的特征介绍,由此判断各类别是什么民族。(这种先聚类再判断类别的方法属于非监督分类)
思路2:先根据画册找出各民族对应的服装的特征,然后根据女演员穿着的服装特征将各个女演员归类到各民族中。(这种先学习先验知识再分类的方法属于监督分类)
总结:监督分类和非监督分类,都需要给出特征,监督分类需要给出样本,让系统根据样本学习并总结规律,然后对未知领域进行预测归类。非监督分类是没有样本,系统随机选择一些种子点,根据特征进行聚类和优化,最后来确定各类的语义。
1.5 非监督分类应用
- 非监督分类方法不需要对被研究的地区有事先的了解,仅需一定的知识来解释分出的类别,人为误差的机会减少,操作也相对简单。因非监督分类整体计算量相对较小,对计算机配置要求较低,在时间和成本上较为节省,且分类成果具有一定的精度,可应用于分类精细化程度不高的快速分类的场景中,如基于中低分辨率的遥感影像森林、农作物的大范围提取等。
- 非监督分类想要得到相对可靠的结果,需对结果进行大量分析和处理,但分类出的结果依然普遍会存在"同物异谱"或者"异物同谱"现象,地物类别的细分难度较大。在项目实际操作中进行精细化分类时,不会选择非监督分类作为唯一分类手段,通常会结合监督分类等其他分类方法混合使用,来使分类成果达到预期的目的。
2.基本概念
非监督分类:
在没有先验类别(训练场地)作为样本的条件下,主要根据像元间相似度的大小进行归类合并(相似度大的像元归为一类)的方法。它是以聚类分析作为理论基础,所以非监督分类又称为聚类分析。
补充说明:非监督分类的前提是假定遥感影像上同类物体在同样条件下具有相同的光谱特征。非监督分类不必对影像地物获取先验知识,紧依靠影像上不同地物光谱信息(或纹理信息)进行统计地物特征的差别来达到分类的目的,最后通过目视判读或者实地调查对分类结果进行属性确认。
聚类分析:
非监督分类采用的主要方法是聚类分析。
把一组像素按照相似性归成若干类别,其目的是使得属于同一类别的像素之间距离尽可能的小,而不同类别的像素之间距离尽可能的的大,在遥感图像分类中主要实现算法包括:
- K-Means分类算法
- ISODATA分类算法
- 神经网络分类算法
K-Means分类:
K-Means算法的基本思想是以空间中k个点为中心进行聚类,对最靠近中心的对象进行归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果。
示例:K-Means分类演示
ISODATA分类:
- ISODATA算法(迭代自组织数据分析算法)是在k-均值算法的基础上,增加对聚类结果的"合并"和"分裂"两个操作,并可设定算法运行控制参数的一种聚类算法。
- 与k-均值算法相比,ISODATA算法不仅可以通过调整样本所属类别完成样本的聚类分析,而且可以自动地对类别进行"合并"和"分裂",从而得到类数比较合理的聚类结果, 而k-均值算法的类别数是设置后不能变化的。
初始参数设置:
- K : 期望得到的聚类数;
- Nc: 初始的设定的聚类数;
- θN: 每一个类别中最少的像元数,若少于此数则去掉该类别;
- θs: 一个类别中,样本特征中最大标准差。若大于这个值,则可能分裂;
- θc: 两个类别中心间的最小中心距离,若小于此数,把两个类别需进行合并;
- L: 在一次合并操作中,可以合并的类别的最多对数;
- I: 最大迭代运算的次数。
ISODATA分类主体部分描述:
ISODATA算法 |
第一步:从遥感影像上随机选取Nc个初始聚类中心。 |
第二步:用最小距离法计算每个样本到聚类中心 Sj 的最小距离,并将其分到距离最小的聚类中心所在的类别中。 |
第三步:判断每个类别中像元数目是否小于θN,如果 Sj 中的像元数目 Sj < θN,则删除该类别,此时Nc=Nc-1。被删除类别中的像元重新分配到剩下距离最小的类别中。 |
第四步:针对每个类别,重新计算它的聚类中心。 |
第五步:若 Nc ≤ K/2,即聚类中心的数目小于或等于预期值的一半,说明当前类别数太少,前往进行分裂操作。 |
第六步:若迭代运算的次数是偶数次,或Nc≥2K,说明当前类别数太多,前往进行合并操作。 |
第七步:如果达到最大迭代次数(I)则终止,否则回到第二步继续执行 |
BP神经网络分类:
神经网络是源于对生物大脑机理的仿生学研究。 BP算法通过样本和标签值对神经元网络进行训练, 采用反向传播算法来逐层调整各神经元的权重及截距,使得最终的输出和标签值接近。
误差反向传播法原理示意图
自组织特征映射网络是由输入层和输出层组成。
自组织特征映射网络
示例:把属性相似的16种动物进行归类
自组织特征映射网络的输出平面有10x10个神经元,用16个动物模式轮番输入进行训练,最后输出平面成果如下图所示,属性相似的动物在输出平面上的位置相邻。
3.操作演示
使用数据:
高分六号数据,非监督分类.img
操作流程:
3.1 K-Means分类:
打开PIE-Basic软件,在"图像处理"标签下的"图像分类"组,单击【非监督分类】按钮下的下拉箭头,选择【K-Means分类】,打开【K-Means分类】对话框:
- 波段选择:可以选择所有波段,也可以选择部分波段,通常都是选择所有波段进行处理;
- 参数设置:
- 预期数类:期望得到的类别数。分类前对遥感影像进行分析,检查影像整体上需要分出的类别数,设置的类别数与最终分类结果一致,是该算法最重要的参数;
- 最大迭代次数:最大的运行迭代次数(为达到较好的运行效果,一般设置6次以),理论上迭代次数越多,分类结果越精确;
- 终止阈值:当迭代计算的新聚类中心与原聚类中心距离等于或小于阈值,则终止迭代计算,阈值范围在0-1之间。当距离接近设置的阈值时,说明新聚类中心已经趋于稳定,聚类集合中样本数量和位置不会发生较大的改变。
注:K-Means分类参数设置最重要的是预期数类数,该参数对分类结果的正确性起到决定性影响。
3.2 ISODATA分类:
打开PIE-Basic软件,在"图像处理"标签下的"图像分类"组,单击【非监督分类】按钮下的下拉箭头,选择【ISODATA分类】,打开"ISODATA分类"参数设置对话框:
- 【波段选择】栏可以选择所有波段,也可以选择部分波段,通常都是选择所有波段进行处理;
- 参数设置:
- 预期类数:分类前对遥感影像进行分析,检查影像整体上需要分出的目标类别数,预期类数通常是目标类别数量的2-3倍,若后期分类效果不好,可再次调整此参数;
- 初始类数:通常填写比预期类数略大一些的数值;
- 最小像元数:设置形成一类别所需的最少像元数,可设置的较大一些。此处参数可用来减少出现细碎斑点的分类成果;
- 最大迭代次数:理论上迭代次数越多(通常设置均应在6次以上),分类结果越精确;
- 最大标准差:该参数是设置分裂的阈值,如果某一类别的标准差比该阈值大,该类将被拆分成两类。根据影像灰度值设置此参数,若同一类别中存在多种地物需分离,为放大类别之间的差异,该参数值应往小的方向设置;
- 最小中心距离:两类别中心点的距离小于输入的最小值,则类别将被合并。为避免同一类别被分成多个图层,该参数设置应往小的方向设置;
- 最大合并对数:一次迭代运算中可以合并的聚类中心的最多对数。
注:因ISODATA算法参数较多,在算法运算时参数之间也存在一定关联性,所以为得到较好的分类结果,需要反复多次调整参数,直到得到最优的效果。
3.3 BP神经网络分类:
打开PIE-Basic软件,在"图像处理"标签下的"图像分类"组,单击【非监督分类】按钮下的下拉箭头,选择【神经网络聚类】,打开"神经网络聚类"参数设置对话框:
- 波段选择:选择需要分类的波段,可以选择所有波段,也可以选择部分波段;
- 参数设置:
- 分类类别:选择分类规则,有交互传播网络,自组织特征映射网络;
- 分类数:设置分类个数,至少2个;
- 窗口大小:选择分类窗口大小,即1*1、3*3、5*5;
- 迭代次数:迭代运算的最大次数,理论上迭代次数越大,分类结果越准确;
- 收敛速率:设置分类收敛的速率,即连续2次误差的比值的极限。
所有参数设置完毕后,点击【确定】按钮即可进行神经网络分类,并输出分类结果。
3.4 实操流程:
第一步:影像分析
从遥感影像上大体判断主要目标地物的类别数量,一般非监督分类设置预期类数比目标分类数量多2-3倍,这样有助于提高分类精度。
本次演示数据目标类别为:植被,水体,其他地类。本案例预期类别数量设置为8。
第二步:分类器选择
PIE-Basic软件非监督分类的算法包括 K-Means分类、ISODATA分类、神经网络聚类分类。 ISODATA算法是在 K-Means算法的基础上改进,增加了分裂和合并的操作,对遥感影像的适应程度比K-Means算法要高。所以本次演示使用ISODATA分类算法进行操作。
第三步:影像分类
打开PIE-Basic软件,在图层列表中添加栅格数据YLDOM.img。选择菜单栏中"图像处理"标签下的"图像分类"组,单击【非监督分类】按钮下的下拉箭头,选择【ISODATA分类】,打开【ISODATA分类】对话框:
- 在【输入文件】栏中把影像数据手动添加进来;
- 【波段选择】栏中选中所有波段;
- 参数设置:
- 预期类数:对遥感影像分析后,目标类别为3种,预期类数通常是目标类别数量的2-3倍,所以预期类数先填写8.若后期分类效果不好,可再次调整此参数;
- 初始类数:通常填写比预期类数略大一些的数值,此处填写为10;
- 最小像元数:设置形成一类别所需的最少像元数,可按默认设置为5;
- 最大迭代次数:理论上迭代次数越多,分类结果越精确,通常设置为10;
- 最大标准差:该参数是设置分裂的阈值,如果某一类别的标准差比该阈值大,该类将被拆分成两类。为区分相似灰度值之间的差异,该参数值设置不宜过大,设置为5;
- 最小中心距离:两类别中心点的距离小于输入的最小值,则类别将被合并。为避免类别之间过于混淆,该参数设置不宜过大。设置为3;
- 最大合并对数:一次迭代运算中可以合并的聚类中心的最多对数,设置为2。
- 【输出文件】设置输出文件保存路径和文件名。
所有参数设置完毕后,点击【确定】按钮即可进行ISODATA分类,并输出分类结果。当分类结果达不到预期目标时,可反复调整初始类数、最大标准差、最小中心距离等参数,这些参数之间的相互作用对分类结果精度起到决定性作用。
原始影像
初步分类成果
第四步:类别整理
通过人工目视解译的方式,把每一个生成的类别填写上名称及颜色。
1)给每个类别重新赋予地类"颜色"
采取人机交互的方式,查看每个类别在遥感影像上对应的地类,同一类别赋予同一种色彩。
分类后的成果自动加载到图层列表中,双击要赋予的类别图层,弹出颜色设置对话框,在【基本颜色】中选择类别对应的色彩,单击【确定】,完成色彩设置。
初步分类成果
类别重新赋予颜色成果
2)赋予类别名称
鼠标右键点击分类成果,选择【属性】,弹出图层属性对话框,选择【栅格渲染】栏下的【色彩映射表】进行类别名称的修改。选择要修改的图层,在【标注】列内双击鼠标左键,图层名称高亮显示,开始进行图层名称的修改。
第五步:分类后处理
分类后处理主要进行两个操作,分别为分类合并和主次要分析,分类后处理其他功能可参考监督分类中的介绍。
1)分类合并:分类成果中一种类别的图层进行合并。
选择"图像处理"标签下的"图像分类"组,单击【分类后处理】按钮下的下拉箭头,选择【分类合并】。在类别关系对应栏中设置输入类别与输出类别的对应关系,把输入类别中的地类合并到输出类别中。
分类合并后,数据已经合并在三个图层中,其他图层已没有数据。
分类后合并成果
2)主次要分析:采用类似卷积滤波的方法将较大类别中的虚假像元归到该类中,首先定义一个变换核大小,然后用变换核中占主要地位(像元最多)类别数代替中心像元的类别数。
在分类成果中每种类别都存在大量斑点,需要使用【主要】的分析方法将这些细碎斑点"就近" 合并。
- 参数设置:
- 核大小:设置卷积核的大小。设置的数值越大,分类图像越平滑,去除的细碎栅格类别越多,但也存在损失的细节越多的情况。按默认5*5设置。
- 中心像元比重:即中心像元类别被计算的次数。按默认进行设置即可。