山月

失败

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

过去的二十年,我们已经看到信息或以电子格式存储的数据在量上有了戏剧性的增长。数据的累积已经在以爆炸性的速率发生。人们已经评估出世界上信息的数量每二十个月翻一番,并且数据库的数量与大小正在以更快的速度增长。诸如“销售点”或远程传感设备等的电子数据采集设备的增长更加剧了可用数据的爆炸。数据挖掘是一种从这些大型数据库抽提预测信息的方法。数据挖掘未来将变成业界的主要工具,将是在市场上保持商业竞争位的重要因素。数据挖掘与在线分析处理(OLAP)以及决策支持系统(DSS)紧密相关,但又有所不同。
数据挖掘是一种潜在的功能强大的新技术,它能帮助企业在他们的数据仓库中找到最重要的信息。数据挖掘工具能预测未来趋势和行为,使得商务活动具有前瞻性,并作出具有知识驱动的决策。数据挖掘所提供的自动的预期分析已经远远超出由典型的决策支持系统工具对过去事件所做的回顾性分析的范围。数据挖掘工具可以回答传统上需费很多时间解决的商务问题。它能搜遍数据库去查找隐藏的模式,找出那些专家也会错过的预测信息,因为它并不在人们期待的位置上。
在商务和新闻界,数据挖掘很热门。正像闪过我们文化的众多电波一样,现实和浪漫的分离必须引起我们的注意。数据挖掘只是一个有用的工具,一种结合发现和分析的新的方法。数据挖掘不是一个新近才发现的将在软件中具体化的数学分支,当数据库疯狂地加大时,人们不自觉地就需要揭示包含在那些存贮其自身的成千上万的数据记录间的商务洞察信息,并且这些信息是非常重要的。它是一个对那些竞争性的商务将变得日益不可缺少的领域。

数据挖掘(Data Mine)简称 DM,其本质就是发现数据实质与数据间的关系的探索过程,找出潜在于数据中的现实事务的规律和趋势,进而把感觉转化为事实。数据挖掘大致可分为三类:关系发现、模式发现、趋势行为发现。数据挖掘技术主要应用于决策支持系统(DSS)。


数据挖掘从技术上讲有如下几种:
神经网络(Neural Networks)、联系发现、分类(连续维?)、分簇(离散维?)、连续发现(基于时间的?)。另外的分法还会有:决策树(Decision Tree)、分类和衰退树(Classification And Regression Tree)、遗传算法(Genetic Algorithm)、规则归纳(Rules Induction)、最近邻居算法(Nearest Neighbor)。正方自动交互发现(Chi Square Automation Interactive Detection, CHAID)。
决策支持系统(DSS)的演变史也是数据挖掘技术的演变史,请看 Wheelhouse 公司的开发部高级主管 Kurt Thearling 博士的 DM 白皮书,该站点也包含一个不错的 DM 的资源列表。
基本历史脉络:数据收集(1960s)、数据访问(1980s)、数据仓库(1990s)、数据挖掘(2000s Today)。

 

数据挖掘技术的三大支柱
数据库技术。SQL 统治数据库查询语言标准三十多年这一事实本身就与现在 IT 发展的节拍不符,难道我们“只会查询”吗?所以就有很多专家纷纷转向数据仓库与数据挖掘技术,从数据查询转向数据挖掘、从数据演绎转向数据归纳。传统的数据库系统的体系结构也过于瘦少,只有不协调的两层,这样的结构就造成了只有程序员能编程,老板只能求助于这些“专家”。
人工智能技术。人工智能技术的三大难题:“知识获取、知识表示、缺乏常识”直接制约了它在现实技术市场上的作为。而在与数据仓库技术的结合上,它可以发挥重要作用,这使得它转向数据挖掘技术。
概率与数理统计。数理统计技术是应用数学中最重要、最活跃的学科。但在与数据库技术的结合上作为有限,这从 SQL 中那可怜的几条汇总函数便可看出。随着数据挖掘对查询、归纳对演绎需求的进化,概率与数理统计将获得新的生命力。
数据挖掘所能发现的知识有如下几种:广义型知识、特征型知识、差异型知识、关联型知识、预测型知识、偏离型知识。所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。
编摘自《数据挖掘研究现状》—— 李德毅

 

数据挖掘的应用领域
很多公司已成功地部署了数据挖掘应用系统。随着这一技术的早期采用者已经逐步趋于信息密集型工业时,例如财务服务和直邮市场公司,这一技术已经对任何想利用一个大的数据仓库去较好地管理他们的客户关系的公司均是适用的。数据挖掘成功的两个关键因素是:一个大且完整的数据仓库,和一个可挖掘的定义、理解都明确的商务流程,如客户展望、保持,商业活动管理,等等。

一些成功的应用领域包括:

一家制药公司可以分析他最近的销售行动及其结果以改进高位值医师的目标市场,并决定哪些市场活动将在后续的几个月有最大的效果。数据需要包括竞争对手的市场活动,信息和当地医疗系统的信息一样。结果可以通过广域网分发到各销售队伍,它可以使地区代表从决策过程中关键属性的视点来检视这些建议。随着这一过程的进行,数据仓库的动态分析允许来自整个组织的最好的实践应用于特定的销售环境。
一个信用卡公司可利用他的巨大的客户交易数据仓库来确定客户对新的信用卡中最感兴趣的产品。使用一个小型的测试邮件,就可以确定一个客户对新产品的亲和力属性。最近的项目已经表明,采用超常规的方法对指定目标的邮寄活动,可以节省20倍的费用。
一家拥有很大的直销队伍的多样化的运输公司,可使用数据挖掘以确定其服务的最好模式。 用数据挖掘来分析他自己的客户体验,该公司可建立唯一的分段以确定高位值的预期。对诸如由 Dun & Bradstreet 提供的那些一般商务数据使用这些分段可以产生一张按地区排列的优先列表。
一个大的消费者货物包裹公司可以利用数据挖掘来改进对零售商的销售流程。来自消费者组织、运输商以及竞争对手活动的数据,可以用于理解打上印记和仓储转移的原因。通过这些分析,制造商可选择能最好地运抵目标客户地区的运输商推荐策略。
每一个这样的例子有一个共同的清晰的基础,他们利用在数据仓库里隐藏的关于客户笃信的知识,来减少费用并改善客户关系的价值。这些组织现在可以集中精力于最重要的客户和有前景的商务,并设计可以最好实现这些目标的市场策略。

数据挖掘有关术语(Glossary)
人工神经网络(Artificial Neural Networks)
一种非线性预测模型,通过训练和在结构上模仿生物神经网络来学习。
分类和衰退树(CART Classification and Regression Trees)
一种用于数据集分类决策树技术。它提供一套也可用于一个新的未分类的数据集的规则,以预测哪些记录将有一个给定的结果。通过创建一个两路分化对一个数据集进行分段。较 CHAID 技术,它需要较少的数据准备。
正方自动交互发现(CHAID Chi Square Automatic Interaction Detection)
一种用于数据集分类决策树技术。它提供一套也可用于一个新的未分类的数据集的规则,以预测哪些记录将有一个给定的结果。通过创建一个“多路分化”对一个数据集进行分段。较 CART 技术,它需要较多的数据准备。
分类(classification)
一种把数据集分为互斥组的处理,每组中的成员之间尽可能“接近”,而不同的组之间尽可能“远离”,其中距离的测量与你正在试图预测的指定变量有关。例如:一个典型的分类问题是把一个有关公司的数据库按其信用值分组为“好与坏”,使他们尽可能与实际信用度相符。
簇化/聚类(clustering)
一种把数据集分为互斥组的处理,每组中的成员之间尽可能“接近”,而不同的组之间尽可能“远离”,其中距离的测量与所有可用的变量有关。
数据清洗(data cleansing)
一个确保数据集中所有数值是一致的和被正确记录的处理过程。
数据挖掘(data mining)
从一个大数据库中隐藏的预测信息的抽提过程。
数据导航/浏览(data navigation)
在一个多维数据库的不同的维度、切片、分层的细节等信息的观察过程。参见在线分析处理 OLAP。
数据可视化(data visualization)
对多维数据的各种复杂关系的可视化解释过程。
数据仓库(data warehouse)
一种储存和交付大量数据的数据库系统。
决策树(decision tree)
代表一系列决策的树状结构。这些决策为数据集的分类生成规则。参见 CART 和 CHAID.
维度(dimension)
在一个平面的或关系数据库中,记录中的每一个字段代表一维。在多维数据库中,一维是一相似实体的集合;例如,在一个多维的销售数据库中会包括产品、时间和城市维。
探测性数据分析(exploratory data analysis)
使用图形化和描述性的统计技术去“学习”一个数据集的结构。
遗传算法(genetic algorithms)
一种使用类似在一个基于自然进化概念的设计中的遗传组合、变异和自然选择等处理方法的优化技术。
线性模型(linear model)
一种分析模型,它假定考虑的各变化因素是线性的关系。
非线性模型(non-linear model)
一种分析模型,它不假定正在考虑的各变化因素是线性的关系。
线性衰退(linear regression)
一种用于在目标变量和其预测因子间找出最合适的线性关系的技术。
对数衰退(logistic regression)
A linear regression that predicts the proportions of a categorical target variable, such as type of customer, in a population.
最近邻居(nearest neighbor)
A technique that classifies each record in a dataset based on a combination of the classes of the k record(s) most similar to it in a historical dataset (where k 3 1). Sometimes called a k-nearest neighbor technique.
多维数据库(multidimensional database)
一种设计用于在线分析处理的数据库系统。其结构为多维的超立方体,其中每轴一维。
在线分析处理(OLAP On-line analytical processing)
可参考面向数组的数据库应用系统,它允许用户观察、穿插导航、操作和分析多维数据库。
数据警戒(outlier)
指一个数据项,其值超出一个样本上的其他大部分项的相应值的边界时,称其为警戒项。这时会预示着数据反常,需要仔细核实;他可能携带着重要信息。
预测模型(predictive model)
一个用于在数据集上预测指定变量的值的结构和处理流程。
预期数据分析(prospective data analysis)
基于历史的数据分析,它包括预测未来趋势、行为或事件。
回顾数据分析(retrospective data analysis)
对已经发生的事情做数据分析,它提供趋势、行为或事件的洞察。
规则归纳(rule induction)
对基于统计意义上的数据,抽提有用的“IF-THEN”规则。
时间序列分析(time series analysis)
按一定时间片对某个度量所做的序列分析。时间通常是数据的主要维度。

posted on 2010-12-23 10:49  山|月  阅读(764)  评论(0编辑  收藏  举报