数据挖掘概念与技术 - chapter 1 - 引论
数据挖掘:把大型的数据集转换成知识。
流感趋势:搜索项作为流感活动的指示器。(如Google)
数据挖掘与知识发现:分类、聚类、离群点分析、关联与相关性、比较汇总、判别分析、模式发现、趋势与偏差分析等。
数据挖掘顺序:
(1)数据清理 消除噪声、删除不一致的数据
(2)数据集成 多种数据源可以组合在一起
(3)数据选择 从数据库中提取与分析任务相关的数据
(4)数据变换 通过汇总或者聚集操作,把数据变换与统一成合适的挖掘形式
(5)数据挖掘 基本步骤,使用智能的方式提取数据模式
(6)模式评估 根据某种兴趣度度量,识别代表只是的真正有趣的模式
(7)知识表现 使用可视化与知识表现技术,向用户提供挖掘的知识
可挖掘的数据:可以是任何类型的数据。
通过进一步搜索趋势数据模式,比如数据挖掘系统通过分析顾客数据,根据顾客收入、年龄与以前的信用信息预测新顾客的信用风险。
通过观察偏差:发现事物的变化。
数据仓库:从多数据源收集的信息存储库,存放在一致的模式,并驻留在单个站点上。
数据通常存放是汇总的(汇总到高维度)
事务数据:代表一个事务,顾客的购物、一个航班订票、用户的网页点击等,一个事务包含唯一的事务标识号,以及一个事务组成的项。
事务数据可以通过挖掘频繁项目集进行购物篮分析。
数据挖掘功能:用于指定数据挖掘任务的发现模式,这些任务可以分为描述性与预测性
数据特征化:一般通过查询来收集对应于用户指定类的数据
数据特征化展示:饼图、条图、曲线、多维数据立方体、交叉在内的多维表
数据区分:将目标类对象的一般特性与一个或者多规格对比类对象的一般特性进行比较
从多个维度对比 如某一类客户频繁购买相较于不频繁购买的用户可能有不一样的表现。
频繁模式:在数据中频繁出现的模式。
频繁项集:频繁地在事务数据集中一起出现的商品集合,如小卖部中被许多顾客频繁购买的牛奶与面包,频繁出现的子序列,如顾客先购买便携机,然后购买数码相机,最后购买内存卡 这样的模式,子序列可能会涉及不同结构形式的内存卡这样的模式。当一个子结构频繁出现,称之为频繁结构模式。
关联分析:哪些商品被一块购买?
例子 buys(X,'computer') -> buys(X,'software')[support =1%,confidence=50%]
X是变量代表顾客,50%的置信度意味着确信性意味,如果有一个顾客购买计算机,则其购买软件的可能性是50%,1%的支持度意味(所分析的所有事物的1%显示计算机与软件一起被购买)
一个关联如果不能满足最小支持度阈值与最小置信度阈值,可能会被丢弃。
分类:用于找出描述与区分数据类型或者概念的模型,以便能够使用模型预测累标号未知的对象类标号。导出模型是基于对训练数据集分析,用于预测类标号未知的对象的类标号。
决策树:一种类似流程图的树结构,每个节点代表在一个属性值上的测试,每个分支代表测试的一个结果,树叶代表类或者分布
神经网络:类似神经元的处理单元,单元之间加权链接
其他方法:朴素贝叶斯分类,支持向量机与k最近邻分类
(预测类别的离散标号)
回归建立连续值函数模型,用于预测缺失的或者难以获得的数值型数据值,非离散类标号。
回归分析:一种最常使用的数值预测统计学方法,回归包含基于可用数据的分布趋势识别。
相关性分析:需要在分类与回归之前进行,它师徒识别与分类和回归过程中相关的属性,将选取这些属性用于分类与回归的过程,其他属性不相关,可以不考虑。
聚类:不存在标记类的数据,通过聚类产生数据群组类标号(通过最大化类内相似性、最小化类间相似性的原则进行聚类或者分组。
离群点分析:噪音数据,部分数据对象与数据一般行为或者模型不一致 但是在某一些应用中可能会比正常出现的事件更令人感兴趣
应用:通过检测一个给定账号与正常你的付费相比,付款额数特别大等 可以视为欺诈信用卡应用
一个模式有趣的:(1)易于被人应用(2)在确信度上,对于新的或者检验数据是有效的(3)潜在有用(4)新颖
对于某些模式兴趣度的客观度量 X到Y的关联规则 是规则的支持度 可以取概率P(X∪Y);置信度:P(Y|X)
准确率:一个规则正确分类的数据所占百分比
机器学习:
监督学习 分类同义词
无监督学习聚类的同义词
半监督学习 用标记的实例 使用标记与未标记的实例 标记的实例用于学习类模型 未标记的用于改进类边界
主动学习 用户在学习过程中主动扮演标记
数据挖掘应用
商务智能 Web搜索引擎
数据挖掘的主要问题
挖掘方法:挖掘各种新的知识类型、多维空间的知识、提升网络环境下的发现能力、处理不确定性、噪声或者不完全数据、模式评估与约束指导的挖掘
用户交互:交互挖掘、结合背景知识、特定数据挖掘与查询语言、数据挖掘结果表示与可视化
有效性与可伸缩性:需要考虑使用的算法是有效、可伸缩的;并行分布式数据密集挖掘算法的使用
数据类型的多样性:处理复杂类型数据
数据挖掘与社会:个人隐私保护
挖掘少量数据与挖掘海量数据主要面临以下挑战:
-
数据规模:挖掘海量数据需要处理大量的数据,而这些数据可能分布在不同的数据源中,因此需要有效地存储和管理这些数据。
-
数据质量:海量数据中可能存在噪声、缺失值和异常值等问题,这些问题会对挖掘结果产生影响,因此需要进行数据清洗和预处理。
-
计算效率:挖掘海量数据需要进行大量的计算和分析,而传统的算法和工具可能无法满足实时性和效率的要求,因此需要开发高效的算法和并行计算技术。
-
模型复杂度:海量数据中可能存在大量的特征和变量,这会导致模型的复杂度增加,同时也增加了模型训练和优化的难度。
-
隐私和安全:海量数据中可能包含敏感信息,如个人隐私和商业机密,因此在挖掘过程中需要保护数据的隐私和安全。
-
可解释性:挖掘海量数据得到的模型和结果可能非常复杂,难以解释和理解,因此需要开发可解释性强的挖掘方法和工具。
欺诈检测是离群点检测的一个重要应用领域。以下是一些常用的检测离群点的方法:
-
统计学方法:统计学方法是最常用的离群点检测方法之一。它基于数据的统计特性来判断某个数据点是否为离群点。常见的统计学方法包括Z-score、箱线图和概率分布模型等。
-
聚类方法:聚类方法可以将数据点分为不同的群组,然后通过比较某个数据点与其所属群组的相似性来判断其是否为离群点。常见的聚类方法包括K-means、DBSCAN和LOF等。
-
基于距离的方法:基于距离的方法通过计算数据点之间的距离来判断某个数据点是否为离群点。常见的基于距离的方法包括KNN和LOF等。
-
基于密度的方法:基于密度的方法通过计算数据点周围的密度来判断某个数据点是否为离群点。常见的基于密度的方法包括DBSCAN和LOF等。
-
异常值检测方法:异常值检测方法通过建立一个模型来描述正常数据的分布,然后通过比较某个数据点与模型的偏差来判断其是否为离群点。常见的异常值检测方法包括孤立森林和单类支持向量机