****** 二十七 ******、软设笔记【数据库】-数据仓库与数据挖掘
数据仓库与数据挖掘
一、数据仓库
*是一个用以更好的支持企业(或组织)决策分析处理的、面向主题的、集成的、不可更新的(相对稳定的)、随时间不断变化的数据集合。
*本质上和数据库一样,是长期储存在计算机内的、有组织的、可共享的数据集合。
二、数据仓库的基本特征
*数据仓库的数据是面向主题的;
*数据仓库的数据是集成的;
*数据仓库的数据是不可更新的;
*数据仓库的数据的随时间不断变化的
数据仓库反应历史变化的属性主要表现在:
(1)数据仓库中的数据时间期限要远远长于传统操作型数据系统中的数据时间期限。
(2)传统操作型数据系统中的数据含有“当颜值”的数据,这些数据在访问时候最有效的,当然数据的当前值也能被更新,但是数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。
(3)传统操作型数据系统中可能包含也可能不包含时间元素,如年、月、日、时、分、秒等,而数据仓库中一定会包含时间元素。
三、数据仓库的体系结构
*数据仓库的后台工具:包括数据抽取、清洗、转换、装载和维护工具
*数据仓库服务器:相当于数据库系统中的DBMS,负责管理数据仓库中数据的存储管理和数据存取,并给OLAP服务器和前台工具提供存取接口(如SQL查询接口)
*OLAP服务器:透明地为前台工具和用户提供多维数据视图;
OLAP服务器则必须考虑物理上这些分析数据的存储问题
*前台工具:包括查询报表工具、多维分析工具、数据挖掘工具和分析结果可视化工具等
四、数据挖掘的概念
*概念:数据挖掘是从大量数据中发现并提取隐藏在内的、人们事先不知道的但可能有用的信息和知识的一种新技术
*目的:帮助决策者寻找数据间潜在的关联,发现经营者被忽略的要素
*数据挖掘技术涉及数据库技术、人工智能技术、机器学习、统计分析等多种技术
五、数据挖掘和传统分析方法的区别
本质区别:数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识。
数据挖掘所得到的信息应具有事先未知、有效和可实用3个特征
六、数据挖掘的数据源
*从数据仓库中来
优点:许多数据不一致的问题都较好地解决了,在数据挖掘时大大减少了清理数据的工作量
缺点:建立数据仓库是一项巨大的工程,耗时耗力
*从数据库中来
如果只是为了数据挖掘,可以把一个或者几个OLTP数据库导入到一个只读的数据库中,然后在上面进行数据挖掘
七、数据挖掘的功能
*趋势和演变分析
*关联分析
*聚类
*概念描述
*偏差检测
八、数据挖掘的流程
(1)问题定义
在开始数据挖掘之前最先的也是最重要的要求就是熟悉背景知识,弄清用户的需求
(2)建立数据挖掘库
要进行数据挖掘必须收集要挖掘的数据资源。一般建议把要挖掘的数据都收集到一个数据库中
(3)分析数据
分析数据就是通常所进行的对数据深入调查的过程。从数据集中找出规律和趋势,发现因素之间的相关性。
(4)调整数据
通过上述步骤的操作,对数据的状态和趋势有了进一步的了解,这时要尽可能的对问题解决的要求能进一步明确化、进一步量化。
(5)模型化
在问题进一步明确,数据结构和内容进一步调整的基础上,就可以建立形成知识的模型
(6)平均和解释
一、数据仓库
*是一个用以更好的支持企业(或组织)决策分析处理的、面向主题的、集成的、不可更新的(相对稳定的)、随时间不断变化的数据集合。
*本质上和数据库一样,是长期储存在计算机内的、有组织的、可共享的数据集合。
二、数据仓库的基本特征
*数据仓库的数据是面向主题的;
*数据仓库的数据是集成的;
*数据仓库的数据是不可更新的;
*数据仓库的数据的随时间不断变化的
数据仓库反应历史变化的属性主要表现在:
(1)数据仓库中的数据时间期限要远远长于传统操作型数据系统中的数据时间期限。
(2)传统操作型数据系统中的数据含有“当颜值”的数据,这些数据在访问时候最有效的,当然数据的当前值也能被更新,但是数据仓库中的数据仅仅是一系列某一时刻生成的复杂的快照。
(3)传统操作型数据系统中可能包含也可能不包含时间元素,如年、月、日、时、分、秒等,而数据仓库中一定会包含时间元素。
三、数据仓库的体系结构
*数据仓库的后台工具:包括数据抽取、清洗、转换、装载和维护工具
*数据仓库服务器:相当于数据库系统中的DBMS,负责管理数据仓库中数据的存储管理和数据存取,并给OLAP服务器和前台工具提供存取接口(如SQL查询接口)
*OLAP服务器:透明地为前台工具和用户提供多维数据视图;
OLAP服务器则必须考虑物理上这些分析数据的存储问题
*前台工具:包括查询报表工具、多维分析工具、数据挖掘工具和分析结果可视化工具等
四、数据挖掘的概念
*概念:数据挖掘是从大量数据中发现并提取隐藏在内的、人们事先不知道的但可能有用的信息和知识的一种新技术
*目的:帮助决策者寻找数据间潜在的关联,发现经营者被忽略的要素
*数据挖掘技术涉及数据库技术、人工智能技术、机器学习、统计分析等多种技术
五、数据挖掘和传统分析方法的区别
本质区别:数据挖掘是在没有明确假设的前提下去挖掘信息,发现知识。
数据挖掘所得到的信息应具有事先未知、有效和可实用3个特征
六、数据挖掘的数据源
*从数据仓库中来
优点:许多数据不一致的问题都较好地解决了,在数据挖掘时大大减少了清理数据的工作量
缺点:建立数据仓库是一项巨大的工程,耗时耗力
*从数据库中来
如果只是为了数据挖掘,可以把一个或者几个OLTP数据库导入到一个只读的数据库中,然后在上面进行数据挖掘
七、数据挖掘的功能
*趋势和演变分析
*关联分析
*聚类
*概念描述
*偏差检测
八、数据挖掘的流程
(1)问题定义
在开始数据挖掘之前最先的也是最重要的要求就是熟悉背景知识,弄清用户的需求
(2)建立数据挖掘库
要进行数据挖掘必须收集要挖掘的数据资源。一般建议把要挖掘的数据都收集到一个数据库中
(3)分析数据
分析数据就是通常所进行的对数据深入调查的过程。从数据集中找出规律和趋势,发现因素之间的相关性。
(4)调整数据
通过上述步骤的操作,对数据的状态和趋势有了进一步的了解,这时要尽可能的对问题解决的要求能进一步明确化、进一步量化。
(5)模型化
在问题进一步明确,数据结构和内容进一步调整的基础上,就可以建立形成知识的模型
(6)平均和解释