数据挖掘 可以挖掘什么类型的数据?
作为一种通用技术,数据挖掘可以用于任何类型的数据,只要数据对目标应用是有意义的。
对于挖掘的应用,数据的最基本形式是数据库数据、数据仓库数据和事务数据。数据挖掘也可以用于其他类型的数据(例如,数据流、有序/序列数据、图或网络数据、空间数据、文本数据、多媒体数据和万维网)。
数据库数据
数据库系统,也称数据库管理系统(DBMS ),由一组内部相关的数据(称做数据库)和一组管理和存取数据的软件程序组成。软件程序提供如下机制:定义数据库结构和数据存储,说明和管理并发、共享或分布式数据访问,面对系统瘫痪或未授权的访间,确保存储的信息的一致性和安全性。
关系数据库是表的汇集,每个表都被赋予一个唯一的名字。每个表都包含一组属性(列或字段),并且通常存放大量元组(记录或行)。关系表中的每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述。通常为关系数据库构建语义数据模型,如实体-联系(ER)数据模型。ER数据模型将数据库表示成一组实体和它们之间的联系。
当数据挖掘用于关系数据库时,你可以进一步搜索趋势或数据模式。例如,数据挖掘系统可以分析顾客数据,根据顾客的收人、年龄和以前的信用信息预测新顾客的信用风险。数据挖掘系统也可以检测偏差:例如,与以前的年份相比,哪些商品的销售出人预料。可以进一步考察这种偏差:例如,数据挖掘可能发现这些商品的包装的变化,或价格的大幅度提高。数据仓库
数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。数据仓库通过数据清理、数据变换、数据集成、数据装人和定期数据刷新来构造。
为便于决策,数据仓库中的数据围绕主题(如顾客、商品、供应商和活动)组织。数据存储从历史的角度(如过去的6一12个月)提供信息,并且通常是汇总的。例如,数据仓库不是存放每个销售事务的细节,而是存放每个商店、每类商品的销售事务的汇总,或汇总到较高层次,即每个销售地区、每类商品的销售事务的汇总。
通常,数据仓库用称做数据立方体(data cube)的多维数据结构建模。其中,每个维对应于模式中的一个或一组属性,而每个单元存放某种聚集度量值。数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据。事务数据
一般地说,事务数据库的每个记录代表一个事务,如顾客的一次购物、一个航班订票,或一个用户的网页点击。通常,一个事务包含一个唯一的事务标识号(trans_ID ),以及一个组成事务的项(如,交易中购买的商品)的列表。事务数据库可能有一些与之相关联的附加表,包含关于事务的其他信息,如商品描述、关于销售人员或部门等的信电。
其他类型的数据
除关系数据库数据、数据仓库数据和事务数据外,还有许多其他类型的数据,它们具有各种各样的形式和结构,具有很不相同的语义。这样的数据类型在许多应用中都可以看到,如时间相关或序列数据(例如历史记录、股票交易数据、时间序列和生物学序列数据)、数据流(例如视频监控和传感器数据,它们连续播送)、空间数据(如地图)、工程设计数据(如建筑数据、系统部件或集成电路)、超文本和多媒体数据(包括文本、图像、视频和音频数据)、图和网状数据(如社会和信息网络)和万维网(由Internet提供的巨型、广泛分布的信息存储库)。这些应用带来了新的挑战,例如,如何处理具有空间结构的数据(如序列、树、图和网络)和特殊语义(如次序、图像、音频和视频的内容、连接性),以及如何挖掘具有丰富结构和语义的模式。
本文来源:《数据挖掘 概念与技术》