摘要: 数据仓库是一个面向主题的、集成的、随时间变化的、持久的数据集合,用于支持管理层的决策过程。在数据仓库产生的同时,联机在线分析(onLine Analytical Processing,OLAP)出现了,他是一种具有对数据进行汇集、合并和聚集以及从不同角度观察信息的分析技术。 阅读全文
posted @ 2013-07-29 14:29 diablo大王 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 从大量的、不完全的、有噪音的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程,定义为“数据挖掘”。数据挖掘主要基于:数理统计、人工智能、机器学习、人工神经网络等技术。数据挖掘的最高境界:从数据中获取知识,辅助科学决策。数据挖掘的功能主要包括:关联分析、聚类分析、分类、回归、时间序列分析和偏差甄别。1、关联分析:尿布与啤酒、KFC的套餐、癌症与生活习惯,主要算法有Apriori算法。 Apriori算法:首先从事件中集中寻找所有频繁出现的事件子集,然后在这些子集中发现可信度较高的规则。2、聚 类:就是将数据对象划分成若干个类,在同一类中的对象具有较高的. 阅读全文
posted @ 2013-07-29 11:08 diablo大王 阅读(234) 评论(0) 推荐(0) 编辑