数据挖掘 学习笔记(一)

数据仓库技术包括 数据清理、数据集成、联机分析处理(OLAP)
数据分类、聚类和数据随时间变化的特征

数据挖掘:
1数据清理(消除噪声和不一致的数据)
2数据集成(多中数据源可以组合在一起)
3数据选择(从数据库中提取与分析任务相关的数据)
4数据变换(数据变换或统一成适合挖掘的形式;如通过汇总或聚集操作)
5数据挖掘(基本步骤,使用智能方法提取数据模式)
6模式评估(根据某种有趣度量,识别提供知识真正有趣的模式)
7知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)

数据挖掘的广义观点:数据挖掘是从存放在数据库、数据仓库或其他信息中的大量数据挖掘有趣的知识的过程。

基于这种观点,典型的数据挖掘系统具有以下主要成分:
1 数据库、数据仓库、或其他信息库:这是一个或一组数据库、数据仓库、展开的表、或其他类型的信息库。可以在数据上进行
在数据上进行数据清理和集成。
2 数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据。
3 知识库:这是领域知识,用于指导搜索,或评估结果模式的兴趣度。这种知识可能包括概念分层,用于将属性或属性值组织成不同的抽象层。用户确信
方面的知识也可以包含在内。可以使用这种知识,根据非期望性评估模式的兴趣度。领域知识的其它例子有兴趣度限制或阀值和元数据(例如:描述来自多个异种数据源的数据)。
4.数据挖掘引擎:这是数据挖掘系统基本的部分,由一组功能模块组成,用于特征、关联、分类、聚类分析、演变和偏差分析。
5.模式评估模块:通常,该部分使用兴趣度度量,并与挖掘模块交互,以便将搜索聚焦在有兴趣的模式上。他可能使用兴趣度阀值过滤发现的模式。
6图形用户界面

 

数据仓库:是一个从多个数据源收集信息存储,存放在一个一致的模式下,并通常驻留在单个站点。数据仓库通过数据清理、数据交换、数据集成、数据装入和定期数据刷新构造。
为了便于决策,数据仓库中的数据围绕诸如顾客、商品、供应商和活动等主题组织
数据仓库不是存放销售事物的细节,而是汇总到较高层次的汇总。
通常,数据仓库通过多维度数据库结构建模。其中,每个维对应于模式中一个或一组属性,每个单元存放聚集度量,如count或sales_amount.数据仓库的实际物理结构可以是关系数据存储或
多维数据方。它提供数据的多维视图,并允许快速访问预计算的和汇总的数据。
数据集市 是数据仓库的一个部门子集。它聚焦在选定的主题上,是部门范围的。

数据挖掘任务可以分为两类:描述和预测
数据挖掘系统要能够挖掘多种类型的模式,以适应不同的用户需求或不同的应用。此外,数据挖掘系统应当能够发现各种粒度(即,不同的抽象层)的模式。
数据挖掘系统应当允许用户给出提示,知道或聚焦有趣的模式的搜索。由于有些模式并非对数据中的所有数据都成立,通常每个被发现的模式带一个确定性
和可信度度量。

特征和区分:
1、数据特征化,一般地汇总所研究类(通常称为目标类)的数据 或(2)数据分区,将目标类与一个或多个比较类(通常称为对比类)进行比较,或(3)数据特征化和比较。
数据特征是目标类数据的一般特征或特征的汇总。
例如通过数据方的OLAP上卷操作可以用来执行用户控制的、沿着指定维的数据汇总。该过程将在数据仓库时进一步详细介绍。面向属性的归纳技术可以用来进行数据的泛化和特征化。
数据特征的输出可以用多种形式提供,包括饼图、条图、曲线、多维数据方和包括交叉表在内的多维表。
2、关联分析:发现关联规则,这些规则展示属性-值频繁地在给定数据集中一起出现的条件。关联分析广泛用于购物篮或事物数据分析。
3、分类和预测
分类是这样的过程,它找描述和识别数据类或概念的模型(或函数),以便能够使用模型预测类标号未知的对象。导出模型是基于对训练数据集(即,基类标号已知的数据对象)的分析。
标号未知的对象。导出模型是基于对训练数据集(其类标号已知的数据对象)的分析。
4、聚类分析
何为聚类分析,与分类和预测不同,聚类分析数据对象,而不考虑已知的类标号。一般的,训练数据中不提供类标号。因为不知道从何开始。聚类可以产生这种标号。对象根据最大化类内的
相识度、最小化类间的相识的原则进行聚集或分组。对象的聚类这样形成,使得在一个聚类中的对象具有很高的相似性,而与其他聚类中的对象很不相识。所形成的每个聚类可以看做一个对象类,
由于它可以到处规则。聚类也便于分类编制,将观察组织成类分层结构,类似的事件组织在一起。

5、局外者分析
数据库中可能包含一些数据对象,他们与数据的一般行为或模型不一致。这些数据对象是局外者。大部分数据挖掘方法将局外者视为噪声例外而丢弃,然而,在一些应用中(如欺骗检查)
罕见的事件可能比正规出现的那些更有趣。局外者数据分析称为局外者挖掘。
6、演变分析:
数据演变分析描述行为随时间变化的对象的规律或趋势,并对其建模。尽管这可能包括时间相关数据的特征、区分、关联、分类或聚类,这类分析的不同特点包括时间列数据分析、序列或周期模式匹配
和基于类似性的数据分析。

posted on 2014-02-23 16:14  刀锋诚心  阅读(465)  评论(0编辑  收藏  举报