《数据挖掘:概念与技术》—学习笔记
2-1数据对象与属性类型
数据集由数据对象组成。一个数据对象代表一个实体。例如,在销售数据库中,对象可以是顾客、商品或销售•,在医疗数据库中,对象可以是患者;在大学的数据库中,对象可以是学生、教授和课程。通常,数据对象用属性描述。数据对象又称样本、实例、数据点或对象。如果数据对象存放在数据库中,则它们是数据元组。
属性:属性(attribute)是一个数据字段,表示数据对象的一个特征。在文献中,属性、维(dimension)、特征(feature)和变量(variable)可以互换地使用。
标称属性:标称属性(nominalattribute)的值是一些符号或事物的名称。每个值代表某种类别、编码或状态,因此标称属性又被看做是分类的(categorical)。
二元属性:二元属性(binaryattribute)是一种标称属性,只有两个类别或状态0或1,其中0通常表示该属性不出现,而1表示出现。二元属性又称布尔属性,如果两种状态对应于True和False的话。
序数属性:序数属性(ordinalattribute),其可能的值之间具有有意义的序或秩评定(ranking),但是相继值之间的差是未知的。
数值属性:数值属性(numericattnbute)是定量的,即它是可度量的量,用整数或实数值表示。数值属性可以是区间标度的或比率标度的。
区间标度属性:区间标度(mterval-scaled)属性用相等的单位尺度度量。区问属性的值有序,可以为正、0或负。因此,除了值的秩评定之外,这种属性允许我们比较和定量评估值之间的差。
比率标度属性:比率标度(mtio-scaled)属性是具有固有零点的数值属性。也就是说,如果度量是比率标度的,则我们可以说一个值是另一个的倍数(或比率)。此外,这些值是有序的,因此我们可以计算值之间的差,也能计算均值、中位数和众数。
离散属性与连续属性:离散属性具有有限或无限可数个值,可以用或不用整数表示。如果属性不是离散的,则它是连续的。
平均值:
方差:
标准差:
中位数:
中列数:数据集的最大和最小值的平均值。
众数:数据集的众数(mode)是集合中出现最频繁的值。具有一个、两个、三个众数的数据集合分别称为单峰的(unimodal)、双峰的(bimodal)和三峰(trimodal)。一般地,具有两个或更多众数的数据集是多峰的(multimodal)。在另一种极端情况下,如果每个数据值仅出现一次,则它没有众数。
极差(range):最大值(max)与最小值(min)之差。
分位数(quantile):取自数据分布的每隔一定间隔上的点,把数据划分成基本上大小相等的连贯集合。(我们说“基本上”,因为可能不存在把数据划分成恰好大小相等的诸子集的Z的数据值。为简单起见,我们将称它们相等。)
五数概括(five-number-summary):中位数(Q2)、四分位数Q1和Q3、最小和最大观测值组成,按次序Minimum,Q1,Median,Q3,Maximum写出。
盒图(boxplot):五数概括的一种直观表示。
•盒的端点一般在四分位数上,使得盒的长度是四分位数极IQR。
•中位数用盒内的线标记。
•盒外的两条线(称做胡须)延伸到最小(Minimum)和最大(Maximiw/I)观测值。
分位数-分位数图(quantile-quantileplot):
直方图(histogram)或频率直方图(frequencyhistogram):
散点图:
基于像素的可视化技术(pixel-orientedtechnique):
几何投影可视化技术:
基于图符的可视化技术(icon-based):
层次可视化技术:
相似和相异性都称邻近性(proximity)。
数据矩阵(datamatrix)或称对象-属性结构:这种数据结构用关系表的形式或(n个对象xp个属性)矩阵存放个数据对象:每行对应于一个对象。在记号中,我们可能使用f作为遍取p个属性的下标。
异性矩阵(dissimilaritymatrix)或称对象-对象结构:存放n个对象两两之间的邻近度(proximity),通常用一个矩阵表示:
其中d(i,j)是对象i和对象j之间的相异性或“差别”的度量。
相似性度量可以表示成相异性度量的函数。例如,对于标称数据
sim(i,j)=1-d(i,j)
标称属性的邻近性度量:d(i,j)=(p-m)/p,其中,m是匹配的数目(即i和j取值相同状态的属性数),而p是刻画对象的属性总数。
二元属性的邻近性度量:
对称的二元相异性。如果对象i和y都用对称的二元属性刻画,则i和y的相异性为d(i,j)=(r+s)/(q+r+s+t),其中g是对象i和y都取1的属性数,r是在对象i中取1、在对象y中取〇的属性数,s是在对象i中取0、在对象/j中取i1的属性数,而t是对象i和j都取0的属性数。属性的总数是p,其中p=g+r+s+t。
非对称的二元相异性。d(i,j)=(r+s)/(q+r+s)。
欧几里得距离:
曼哈顿距离:
欧几里得距离和曼哈顿距离都满足如下数学性质:
非负性:d(i,j)≥0,距离是一个非负的数值。
同一性:d(i,i)=0,对象到自身的距离为0。
对称性:d(i,j)=d(j,i),距离是一个对称函数。
三角不等式:d(i,j)≤d(i,k)+d(k,j),从对象i到对象j的直接距离不会大于途经任何其他对象k的距离。
闵可夫斯基距离(Minkowskidistance):
上确界距离:
序数属性的邻近性度量:
混合类型属性的相异性:
余弦相似性:
2.5小结
•数据集由数据对象组成。数据对象代表实体。数据对象用属性描述。属性可以是标称的、二元的、序数的或数值的。
•标称(或分类)属性的值是符号或事物的名字,其中每个值代表某种类别、编码或状态。
•二元属性是仅有两个可能状态(如1和0,或真与假)的标称属性。如果两个状态同等重要,则该属性是对称的,否则它是非对称的。
•序数属性是其可能的值之间具有有意义的序或排位,但相继值之间的量值未知的属性。
•数值属性是定量的(即它是可测量的量),用整数或实数值表示。数值属性的类型可以是区间标度的或比率标度的。区间标度属性的值用固定、相等的单位测量。比率标度属性是具有固有0点的数值属性。度量称为比率标度的,因为我们可以说它们的值比测量单位大多少倍。
•基本统计描述为数据预处理提供了分析基础。数据概括的基本统计度量包括度量数据中心趋势的均值、加权平均、中位数和众数,以及度量数据散布的极差、分位数、四分位数、四分位数极差、方差和标准差。图形表示(例如,盒图、分位数图、分位数-分位数图、直方图和散点图)有助于数据的可视化考察,因而对数据预处理和挖掘是有用的。
*数据可视化技术可以是基于像素的、基于几何学的、基于图标的或层次的。这些方法用于多维关系数据。已经提出了可用于复杂数据(如文本和社会网络)可视化的技术。
*对象相似性和相异性度量用于诸如聚类、离群点分析、最近邻分类等数据挖掘应用中。这种邻近性度量可以对本章介绍的每种属性类型或这些属性类型的组合进行计算。例子包括用于非对称二元属性的Jocmrd系数,用于数值属性的欧几里得距离、曼哈顿距离、闵可夫斯基距离和上确界距离。
对于涉及稀疏数值数据向量(如词频向量)的应用,余弦度量和系数通常用于相似性评估。
第3章数据预处理
数据质量涉及许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。
数据质量的三个要素:准确性、完整性和一致性。
数据预处理的主要步骤:数据清理、数据集成、数据归约和数据变换。
数据清理(datacleaning):通过填写缺失的值,光滑噪声数据,识别或删除离群点,并解决不一致性来“清理”数据。
数据集成(datamtegration):集成多个数据库、数据立方体或文件。用于在分析中使用来自多个数据源的数据。
数据归约(datareduction):得到数据集的简化表示,它小得多,但能够产生同样的(或几乎同样的)分析结果。数据归约策略包括维归约和数值归约。
噪声(noise):被测量的变量的随机误差或方差。
分箱(binning):分箱方法通过考察数据的“近邻”(即周围的值)来光滑有序数据值。
回归(regression):用一个函数拟合数据来光滑数据。
离群点分析(outlieranalysis):
偏差检测(discrepancydetection):数据清理过程的第一步
元数据:关于数据的数据
字段过载(fieldoverloading):
唯一性规则:给定属性的每个值都必须不同于该属性的其他值。
连续性规则:属性的最低和最高值之间没有缺失的值,并且所有的值还必须是唯一的(例如,检验数)。
空值规则:空白、问号、特殊符号或指示空值条件的其他串的使用(例如,一个给定属性的值何处不能用),以及如何处理这样的值。
数据清洗工具(datascrubbingtool):使用简单的领域知识(如邮政地址知识和拼写检查),检查并纠正数据中的错误。在清理多个数据源的数据时,这些工具依赖于分析和模糊匹配技术。
数据审计工具(dataauditingtool):通过分析数据发现规则和联系,并检测违反这些条件的数据来发现偏差。
数据迁移工具(datamigrationtool):允许说明简单的变换,如将串“gender”用“sex”替换。
ETL(Extraction/Transformation/Loading,提取/变换/装入)工具允许用户通过图形用户界面(GUI)说明变换。
实体识别问题:
冗余和相关分析:
标称数据的x2相关检验:
数值数据的相关系数:
数值数据的协方差:
维归约(dimensionalityreduction):减少所考虑的随机变量或属性的个数。
数量归约(numerosityreduction):用替代的、较小的数据表示形式替换原数据。
数据压缩(datacompression):使用变换,以便得到原数据的归约或“压缩”表示。若压缩后的数据能够重构原数据,而不损失信息,则该数据归约称为无损的。若只能近似重构原数据,则该数据归约称为有损的。
离散小波变换(DWT):是一种线性信号处理技术,用于数据向量X时,将它变换成不同的数值小波系数向量X'。两个向量具有相同的长度。当这种技术用于数据归约时,每个元组看做一个n维数据向量,即X=(x1,x2,…,xn),描述个数据库属性在元组上的n个测量值e。
主成分分析(principalcomponentsanalysis,PCA):搜索k个最能代表数据的n维正交向量,其中k≤n.(又称Karhunen-Loeve或K-L方法)
PCA能够更好地处理稀疏数据,而小波变换更适合高维数据。
回归和对数线性模型:参数化数据归约
线性回归:对数据建模,使之拟合到一条直线。
多元回归:(简单)线性回归的扩展,允许用两个或多个自变量的线性函数对因变量y建模。
对数线性模型(log-linearmodel):近似离散的多维概率分布。给定n维(例如,用n属性描述)元组的集合,我们可以把每个元组看做n维空间的点。对于离散属性集,可以使用对数线性模型,基于维组合的一个较小子集,估计多维空间中每个点的概率。
直方图(histogram):将数据分布划分为不相交的子集或桶。如果每个桶只代表单个属性值/频率对,则该桶称为单值桶。通常,桶表示给定属性的一个连续区间。
聚类技术:把数据元组看做对象。它将对象划分为群或簇,使得在一个簇中的对象相互“相似”,而与其他簇中的对象“相异”。
抽样:可以作为一种数据归约技术使用,因为它允许用数据的小得多的随机样本(子集)表示大型数据集。
s个样本的无放回简单随机抽样(SRSWOR):从D的/N个元组中抽取s个样本(s<N),其中D中任意元组被抽取的概率均为1/N,即所有元组的抽取是等可能的。
s个样本的有放回简单随机抽样(SRSWR):该方法类似于SRSWOR,不同之处在于当一个元组从D中抽取后,记录它,然后放回原处。也就是说,一个元组被抽取后,它又被放回以便它可以被再次抽取。
簇抽样:如果D中的元组被分组,放入M个互不相交的“簇”,则可以得到s个簇的简单随机抽样(SRS),其中s<M。
分层抽样:如果D被划分成互不相交的部分,称做“层”,则通过对每一层的SRS就可以得到D的分层抽样。
数据变换与数据离散化:
数据变换策略:
光滑(smoothing):去掉数据中的噪声。这类技术包括分箱、回归和聚类。
属性构造(或特征构造):可以由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。
聚集:对数据进行汇总或聚集。例如,可以聚集日销售数据,计算月和年销售量。通常,这一步用来为多个抽象层的数据分析构造数据立方体。
规范化:把属性数据按比例缩放,使之落人一个特定的小区间,如-1.0〜1.0或0.0~1.0。
离散化:数值属性(例如,年龄)的原始值用区间标签(例如,0〜10,11〜20等)或概念标签(例如,youth、adult,senior等)替换。
离散过程使用类信息,则称它为监督的离散化(superviseddiscretization);否则是非监督的(unsupervised)。如果离散化过程首先找出一个或几个点(称做分裂点或割点)来划分整个属性区间,然后在结果区间上递归地重复这一过程,则称它为自顶向下离散化或分裂。自底向上离散化或合并正好相反,它们首先将所有的连续值看做可能的分裂点,通过合并邻域的值形成区间,然后在结果区间递归地应用这一过程。
由标称数据产生概念分层:属性,如street,可以泛化到较高的概念层,如city或country。许多标称属性的概念分层都蕴含在数据库的模式中,可以在模式定义级自动定义。
最小-最大规范化:
z分数规范化(或零均值规范化):
绝对偏差值:
小数定标规范化:通过移动属性4的值的小数点位置进行规范化。
通过分箱离散化:
通过直方图分析离散化:
通过聚类、决策树和相关分析离散化:
标称数据的概念分层产生:
由用户或专家在模式级显式地说明属性的部分序:
通过显式数据分组说明分层结构的:
说明属性集但不说明它们的偏序:
只说明部分属性集:
3.6小结
•数据质量用准确性、完整性、一致性、时效性、可信性和可解释性定义。质量基于数据的应用目的评估。
•数据清理例程试图填补缺失的值,光滑噪声同时识别离群点,并纠正数据的不一致性。数据清理通常是一个两步的迭代过程,包括偏差检测和数据变换。
•数据集成将来自多个数据源的数据整合成一致的数据存储。语义异种性的解决、元数据、相关分析、元组重复检测和数据冲突检测都有助于数据的顺利集成。
•数据归约得到数据的归约表示,而使得信息内容的损失最小化。
数据归约方法包括维归约、数量归约和数据压缩。
维归约减少所考虑的随机变量或维的个数,方法包括小波变换、主成分分析、属性子集选择和属性创建。
数量归约方法使用参数或非参数模型,得到原数据的较小表示。参数模型只存放模型参数,而非实际数据。例如回归和对数线性模型。非参数方法包括直方图、聚类、抽样和
数据立方体聚集。数据压缩方法使用变换,得到原数据的归约或“压缩”表示。如果原数据可以由压缩后的数据重构,而不损失任何信息,则数据压缩是无损的;否则,它是有损的。
•数据变换例程将数据变换成适于挖掘的形式。例如,在规范化中,属性数据可以缩放,使得它们可以落在较小的区间,如0.0到1.0。其他例子包括数据离散化和概念分层产生。
•数据离散化通过把值映射到区间或概念标号变换数值数据。这种方法可以用来自动地产生数据的概念分层,而概念分层允许在多个粒度层进行挖掘。离散化技术包括分箱、直方图分析、聚类分析、决策树分析和相关分析。对于标称数据,概念分层可以基于模式定义以及每个属性的不同值个数产生。
•尽管已经开发了许多数据预处理的方法,由于不一致或脏数据的数量巨大,以及问题本身的复杂性,数据预处理仍然是一个活跃的研究领域。
第4章数据仓库与联机分析处
数据仓库:一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程。
面向主题(subject-oriented):数据仓库围绕一些重要主题,如顾客、供应商、产品和销售组织。数据仓库关注决策者的数据建模与分析,而不是单位的日常操作和事务处理。因此,数据仓库通常排除对于决策无用的数据,提供特定主题的简明视图。
集成(integrated):通常,构造数据仓库是将多个异构数据源,如关系数据库、一般文件和联机亭劣:处理记录集成在一起。使用数据清理和数据集成技术,确保命名约定、编码结一、属性度量等的一致性。
时变(time–variant):数据存储从历史的角度(例如,过去5~10年)提供信息。数据仓库中的关键结构都隐式或显式地包含时间元素。
非易失(nonvolatile):数据仓库总是物理地分离存放数据,这些数据源于操作环境下的应用数据。由于这种分离,数据仓库不需要事务处理、恢复和并发控制机制。通常,它只需要两种数据访问操作:数据的初始化装入和数据访问。
建立数据仓库(datawarehousing):构建和使用数据仓库的过程。数据仓库的构建需要数据集成、数据清理和数据统一。
传统的集成异构数据库方法:在多个异构数据库上,建立一个包装程序和一个集成程序(或中介程序)。
联机事务处理(OnlineTransactionProcessing,OLTP)系统:主要任务是执行联机事务和查询处理。
联机分析处理(OnLineAnalyticalProcessing,OLAP)系统:可以用不同的格式组织和提供数据,以便满足不同用户的形形色色的需求。
OLTPH系统与OLAP系统比较:
数据仓库采用三层体系结构:
底层是仓库数据库服务器,它几乎总是一个关系数据库系。
中间层是OLAP服务器,其典型的实现使用(i)关系OLAP(ROLAP)模型(即扩充的关系DBMS,它将多维数据上的操作映射为标准的关系操作),或者使用(ii)多维OLAP(MOLAP)模型(即专门的服务器,它直接实现多维数据和操作)。
顶层是前端客户层,它包括查询和报告工具、分析工具和/或数据挖掘工具(例如,趋势分析、预测等)。
数据仓库模型:从结构的角度看,有三种数据仓库模型:企业仓库、数据集市和虚拟仓库。它提供企业范围内的数据集成,通常来自一个或多个操作数据库系统或外部信息提供者,并且是多功能的。通常,它包含细节数据和汇总数据,其规模由数兆兆字节,到数百兆兆字节,数千兆兆字节,甚至更多。企业数据仓库可以在传统的大型机、超级计算机服务器或并行结构平台上实现。它需要广泛的商务建模,可能需要多年设计和建设。
企业仓库(enterprisewarehouse):企业仓库搜集了关于主题的所有信息,跨越整个企业。其范围限于选定的主题。例如,销售数据集市可能限定其主题为顾客、商品和销售。包括在数据集市中的数据通常是汇总的。
虚拟仓库(virtualwarehouse):虚拟仓库是操作数据库上视图的集合。为了有效地处理查询,只有一些可能的汇总视图被物化。虚拟仓库易于建立,但需要操作数据库服务器还有余力。
“数据仓库开发的自顶向下和自底向上方法的优缺点是什么?”
自顶向下开发企业仓库是一种系统的解决方案,并能最大限度地减少集成问题。然而,它费用高,开发周期长,并且缺乏灵活性,因为整个组织就共同数据模型达成一致是比较困难的。设计、开发、配置独立的数据集市的自底向上的方法提供了灵活性、低花费,并能快速回报投资。然而,将分散的数据集市集成,形成一个一致的企业数据仓库时,可能导致问题。
数据提取:通常,由多个异构的外部数据源收集数据。
数据清理:检测数据中的错误,可能时订正它们。
数据变换:将数据由遗产或宿主格式转换成数据仓库格式。
装入:排序、汇总、合并、计算视图、检查完整性,并建立索引和划分。
刷新:传播由数据源到数据仓库的更新。
元数据:关于数据的数据。在数据仓库中,元数据是定义仓库对象的数据。
元数据库应当包括以下内容:
•数据仓库结构的描述,包括仓库模式、视图、维、分层结构、导出数据的定义,以及数据集市的位置和内容。
•操作元数据,包括数据血统(迁移数据的历史和它所使用的变换序列)、数据流通(主动的、档案的或净化的)和管理信息(仓库使用的统计量、错误报告和审计跟踪)。
•用于汇总的算法,包括度量和维定义算法,数据所处的粒度、划分、主题领域、聚集、汇总、预定义的查询和报告。
•由操作环境到数据仓库的映射,包括源数据库和它们的内容,信关描述,数据划分,数据提取、清理、转换规则和默认值,数据刷新和净化规则,以及安全性(用户授权和存取控制)。
•关于系统性能的数据,除刷新、更新和复制周期的定时和调度的规则外,还包括改善数据存取和检索性能的索引和概要。
•商务元数据,包括商务术语和定义,数据拥有者信息和收费策略。
数据立方体(datacube):允许以多维对数据建模和观察。
可以把4-D立方体看成3_D立方体的序列。
基本方体(basecuboid):存放最低层汇总的方体。
顶点方体(apexcuboid):存放最高层的汇总。
最流行的数据仓库的数据模型是多维数据模型。这种模型可以是星形模式、雪花模式或事实星座模式。
星形模式(starschema):数据仓库包括(1)一个大的中心表(事实表),它包含大批数据并且不含冗余;(2)—组小的附属表(维表),每维一个。这种模式图很像星光四射,维表显示在围绕中心表的射线上。是最常见的模型范型。
雪花模式(snowflakeschema):星形模式的变种,其中某些维表被规范化,因而把数据进一步分解到附加的表中。结果模式图形成类似于雪花的形状。
事实星座(factconstellation):复杂的应用可能需要多个事实表共享维表。这种模式可以看做星形模式的汇集,因此称做星系模式(galaxyschema)或事实星座。
第8章分类:基本概念
分类和数值预测是预测问题的两种主要类型。
分类(classfication):根据数据及特征将对象归为不同的类别。
分类器(classify):将对象进行分类的模型。
数值预测:
(回归分析(regressionanalysis)是数值预测最常用的统计学方法)
预测器(predictor):进行数值预测的模型。
数据分类过程:学习阶段:构建分类模型。
分类阶段:使用模型预测给定数据的类标号。
训练集:在建立模型(即构造分类器)阶段,用来找出数据规律,给出分类标准,从而建立模型的数据集。由数据库元组和与它们相关联的类标号组成,每个元组都属于一个预先定义的类。
训练元组:构成训练数据集的元组。也称为样本、实例、数据点或对象。
监督学习(supervisediearning):每个训练元组都有确定的类标号,称为监督学习。
无监督学习(unsupervisedlearning)(或聚类):每个训练元组的类标号是未知的,并且要学习的类的个数或集合也可能事先不知道。
过拟合(overfit):在建立模型时,训练集可能包含某些特定的异常,这些异常不在一般数据集中出现。导致模型的准确性降低。
检验集(testset):由独立于训练元组的检验元组及其相关联的类标号组成。用于验证模型的准确性。
检验集上的准确率(accuracy):分类器正确分类的检验元组所占的百分比。
决策树(decisiontree):一种类似于流程图的树结构,其中,每个内部结点(非树叶结点)表示在一个属性上的测试,每个分枝代表该测试的一个输出,而每个树叶结点(或终端结点)存放一个类标号。
属性选择度量:
信息增益:
(243页例8.1)
(倾向于选择具有大量值的属性。)
分裂信息(splitinformation):(用于将信息增益规范化)
增益率:
(245页例8.2)
基尼指数:用于度量数据分区或训练元组集D的不纯度
树剪枝:在决策树创建时,由于数据中的噪声和离群点,许多分枝反映的是训练数据中的异常。剪枝方法通过使用统计度量剪掉最不可靠的分枝,处理这种过分拟合数据问题。
剪枝后的树更小、更简单,因此更容易理解。通常,它们在正确地对独立的检验集分类时比未剪枝的树更快、更好。
先剪枝(prepmning):通过提前停止树的构建(例如,通过决定在给定的结点不再分裂或划分训练元组的子集)而对树“剪枝”。
后剪枝(postpmning):它由“完全生长”的树剪去子树。通过删除结点的分枝并用树叶替换它而剪掉给定结点上的子树。
代价复杂度剪枝算法:从树的底部开始。对于每个内部结点N,计算N的子树的代价复杂度和该子树剪枝后N的子树(即用一个树叶结点替换)的代价复杂度。比较这两个值。如果剪去结点N的子树导致较小的代价复杂度,则剪掉该子树;否则,保留该子树。
悲观剪枝:
决策树归纳的可视化挖掘:
基于感知的分类(Perception-basedClassification,PBC):把多维数据对象映射到一个被划分成d个扇形的圆,其中每个扇形代表一个属性。每个数据对象的一个属性值被映射到一个着色的像素,表示该对象的类标号。对每个对象的每个属性-值对都进行这种映射。对每个属性排序,以便确定扇形内安排的次序。
贝叶斯定理:
朴素贝叶斯分类法:
拉普拉斯校准:假定训练数据库D很大,对每个计数加1,造成的估计概率的变化可以忽略不计。用于避免概率值为零。
规模序(sireordering)方案:把最高优先权赋予具有“最苛刻”要求的被触发的规则,其中苛刻性用规则前件的规模度量。也就是说,激活具有最多属性测试的被触发的规则。
规则序(ruleordering)方案:预先确定规则的优先次序。这种序可以是基于类的或基于规则的。
使用顺序覆盖算法的规则归纳:直接从训练数据提取IF-THEN规则(即不必产生决策树)。
正元组:感兴趣的主要类的元组。
负元组:正元组以外元组。
真正例/真阳性(TruePositive,TP):指被分类器正确分类的正元组。令;TP为真正例的个数。
真负例/真阴性(TrueNegative,TN):指被分类器正确分类的负元组。令TN为真负例的个数。
正例/假阳性(FalsePositive,FP):被错误地标记为正元组的负元组(例如,类buys_computer=no的元组,被分类器预测为buys_computer=yes)。令FP为假正例的个数。
假负例/假阴性(FalseNegative,FA):被错误地标记为负元组的正元组(例如,类buys_computer=yes的元组,被分类器预测为buys_computer=no)。令FN为假负例的个数。
混清矩阵(confusionmatrix):是一个至少为mxm的表,m为给定类个数(其中m>2)。
准确率(accuracy):被该分类器正确分类的元组所占的百分比。即:
再代入误差(resub-stituticmerror):使用训练集(而不是检验集)来估计模型得到的错误率。
灵敏性(sensitivity):正确识别的正元组的百分比,又称真正例(识别)率。
特效性(specificity):正确识别的负元组的百分比,又称真负例率。
精度(precision):标记为正类的元组实际为正类所占的百分比,可以看做精确性的度量。
召回率(recall):正元组标记为正的百分比,是完全性的度量。
除了基于准确率的度量外,还可以据其他方面比较分类器:
速度:这涉及产生和使用分类器的计算开销。
鲁棒性:这是假定数据有噪声或有缺失值时分类器做出正确预测的能力。通常,鲁棒性用噪声和缺失值渐增的一系列合成数据集评估。
可伸缩性:这涉及给定大量数据,有效地构造分类器的能力。通常,可伸缩性用规模渐增的一系列数据集评估。
可解释性:这涉及分类器或预测器提供的理解和洞察水平。可解释性是主观的,因而很难评估。决策树和分类规则•可能容易解释,但随着它们变得更复杂,它们的可解释性也随之消失。
保持(holdout)方法:给定数据随机地划分成两个独立的集合:训练集和检验集。通常,2/3的数据分配到训练集,其余1/3分配到检验集。使用训练集导出模型,其准确率用检验集估计。
随机二次抽样(randomsubsampling):保持方法的一种变形,它将保持方法重复A次。总准确率估计取每次迭代准确率的平均值。
k-折交叉验证(A-foldcross-validation):初始数据随机地划分成k个互不相交的子集或“折”D1,D2,…,Dk每个折的大小大致相等。训练和检验进行k次。在第i次迭代,分区Di用做检验集,其余的分区一起用做训练模型。
留一(leave-one-out):k-折交叉验证的特殊情况,其中k设置为初始元组数。也就是说,每次只给检验集“留出”一个样本。
分层交叉验证(stratifiedcross-validation):折被分层,使得每个折中样本的类分布与在初始数掮中的大致相同。
自助法(bootstrap):从给定训练元组中有放回的均匀抽样。也就是说,每当选中一个元组,它等可能地被再次选中并被再次添加到训练集中。
632自助法:假设给定的数据集包含d个元组。该数据集有放回地抽样d次,产生d个样本的自助样本集或训练集。原数据元组中的某些元组很可能在该样本集中出现多次。没有进入该训练集的数据元组最终形成检验集。假设进行这样的抽样多次。其结果是,在平均情况下,63.2%原数据元组将出现在自助样本中,而其余38.8%的元组将形成检验集。
组合分类器(ensemble):由多个分类器组合而成的复合模型。个体分类器投票,组合分类器基于投票返回类标号预测。组合分类器往往比它的成员分类器更准确。
第九章 贝叶斯信念网络
贝叶斯信念网络 (Bayesian belief network ) :