随笔分类 - 特征选择
介绍特征选择有关内容
谈一谈特征选择(二)
摘要:顺承 "上节" ,本节,我们来介绍三类特征选择。 作为数据维数约简的重要手段之一,特征选择会从最初的特征集合中按照一定的规则删除冗余以及不重要的特征,从而获得一个最优特征集合的过程。 原始样本有个特征,那么如果使用枚举法寻找最优特征子集的话,其复杂度为,因为由个特征构成子集数$
阅读全文
谈一谈特征选择(一)
摘要:前言:本系列博客将介绍特征选择一系列相关的内容。 本节我们先简介特征工程中的三个组成部分。 特征工程 特征工程一般由特征构建,特征提取,特征选择三个部分组成。 特征工程的思维导图如下: "来源" 先约定一些符号: 设是一
阅读全文
聊一聊粗糙集(六)
摘要:本节我们将继续介绍粗糙集有关的概念。 上节我们介绍了知识粒度的矩阵表示形式,本节将介绍基于知识粒度属性约简定义和算法。 基于粗糙特征选择算法亦称为属性约简,其旨在保持数据集分类能力不变的前提下,通过约简冗余属性,最后得到问题的决策或分类规则。 相关定义 设决策信息系统$S=(U,A=C \bigcu
阅读全文
聊一聊粗糙集(五)
摘要:本节我们将继续介绍粗糙集有关的概念。 上节我们介绍了知识粒度的度量,本节将介绍知识粒度的矩阵表示形式。 我们先简单介绍矩阵的相关概念。 矩阵 先看矩阵的和,差。 矩阵的和: 若,是两个$m \time
阅读全文
聊一聊粗糙集(四)
摘要:本节我们将继续介绍粗糙集有关的概念。 本节将介绍经典粗糙集中粒度的度量相关概念。 我们依旧使用这个决策信息系统为例。 | | | | | | | | | : : | : : | : : | : : | : : | : : | : : | | 1
阅读全文
聊一聊粗糙集(三)
摘要:本节我们继续更新粗糙集相关的内容。 本文与 "之前" 的博客一脉相承。 上近似和下近似 以之前病人病历为例,这里我们使用体温这个属性。 | 病人 | 体温 | | : : | : : | ||正常| ||高| ||很高| ||正常| |$e_{
阅读全文
聊一聊粗糙集(二)
摘要:之前,我们简要地介绍了粗糙集,我将继续更新粗糙集相关的概念 等价类与等价关系 首先,我们先入为主地了解下等价类的定义吧,以下定义来自维基百科。 在数学上,假设在一个集合上定义一个等价关系(用来表示),则中的某个元素的等价类就是中等价于的所有元素所形成的子集:
阅读全文
聊一聊粗糙集(一)
摘要:本系列博客将介绍经典粗糙集的相关概念和一个属性约简算法,作为系列博客的开篇之作,先不介绍具体概念,简单认识认识粗糙集。 粗糙集理论简介 粗糙集是波兰理工大学Z.pawlak教授提出用来研究不完整数据,不精确知识的表达、学习,归纳等的一套理论。 它是一种新的处理模糊和不确定性问题的数学工具,已被广泛应
阅读全文
特征与特征距离度量
摘要:在本节,我们将介绍什么是特征,特征的分类以及常见的特征距离度量和它们的简单实现。 什么是特征 在机器学习和模式识别中,特征是被观测对象的可测量性能或特性。在模式识别,分类和回归中,信息特征的选择,判别和独立特征的选择是有效算法的关键步骤。特征通常是数值型的,但语法模式识别可以使用结构特征(如字符串和
阅读全文