低关联性数据分析-OLAP
OLAP工具是从过去数据中得知结果,无法像数据挖掘一样告诉你结果发生的原因。
OLAP产生背景
OLAP:On line Analysis Processing 联机分析处理
OLTP:On line Transaction Processing 联机事务处理
联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的,他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响,OLAP作为一类产品同联机事务处理 (OLTP) 明显区分开来。简单理解就是:OLTP在先,OLAP在后。OLTP用于业务,随着时间积累,业务数据暴增,于是OLAP应运而生。OLAP用于分析。
OLAP理论
OLAP是一般数据仓库采用的分析,可以针对制式化以及关联性较低的数据加以分析。
OLAP最重要的特征就是多维观察多维分析,它展现在用户面前的是一幅幅多维视图。
OLAP三大核心与应用理念:https://wenku.baidu.com/view/de6fc7d628ea81c758f578eb.html
维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维(时间维、地理维等)。
维的层次:人们观察数据的某个维还可以存在细节程度不同的各个描述方面(时间维:月份、季度、年)。
维的成员:维的一个取值,是数据项在某维中位置的描述(“某年某月某日”是在时间维上位置的描述)。
度量:多维数组的取值。(2000年1月,上海,笔记本电脑,1000)。
OLAP的基本多维分析操作有钻取、切片和切块、旋转等。
钻取:是改变维的层次,变换分析的粒度。它包括向下钻取(Drill-down)和向上钻取(Drill-up)/上卷(Roll-up)。向上钻取是在某一维上将低层次的细节数据概括到高层次的汇总数据,或者减少维数;而向下钻取则相反,它从汇总数据深入到细节数据进行观察或增加新维。
切片(Slice)和切块(Dice):是在一部分维上选定值后,关心度量数据在剩余维上的分布。如果剩余的维只有两个,则是切片;如果有三个或以上,则是切块。
旋转(Pivot):是变换维的方向,即在表格中重新安排维的放置,例如行列互换。
OLAP四大软件工具派系
1.传统OLAP——传统OLAP中,尤其是Mondrian和SSAS还是有不少用户群的(前者是开源软件),现在选用Cognos、MSTR等的反而越来越少。
2.可视化OLAP——各种基于内存计算的软件如Tableau和Qlikview等,是以可视化为主的。
3.大数据OLAP——这个OLAP派系最有意思的是Apache Kylin,它是一个开源的分布式分析引擎,提供Hadoop之上的SQL查询接口及多维分析(OLAP)能力以支持超大规模数据。大数据OLAP能使用SQL进行查询和支持Hadoop。
4.办公OLAP——微软Excel虽是自有的封闭技术,但它的友好性和兼容性足够强大。在Excel里面可以维护和处理数据,这是其它3类OLAP都无法提供的。
关于Tableau与Finereport
Tableau最大的优势和特点应该是它的数据可视化,多维操作非常容易。它虽然支持OLAP产品,但它在OLAP方面的能力稍微欠缺。用Tableau处理实时数据响应很慢,而且预览数据不太方便。
Finereport也能实现多维分析,但Finereport没有OLAP的概念,做多维分析不那么灵活。每一个层次的维度,在Finereport中都需要做一遍数据处理或者单独再做一张报表。
Tableau是数据分析工具,优势在于灵活的在前端进行数据分析操作,无需编写程式码,适用于数据分析师使用。其劣势在于只能进行数据分析,无法满足企业其他诸如复杂报表统计、列印、数据採集等需求。而Finereport则定位于企业级数据採集与处理软件,支援各领域各类企业的全体部门个性化报表需求,同时具备强悍的列印与填报等功能,但针对数据分析的功能稍微弱一些。此外Finereport面向的用户对象,偏向于具有一定技术基础的IT人员。