摘要:接上一篇数据仓库知识点梳理(3)对数据立方体和MDX的介绍,本文将在本地Windows环境上搭建基于数据立方体的数据分析平台。并对一个示例立方体进行多维度分析。 环境配置 软件下载和安装 本文使用Pentaho的社区版本BI Server作为数据多维分析的工具,下载地址为https://source
阅读全文
摘要:

本文介绍了OLAP数据立方体的基本定义和要素,以及数据分析时对立方体的基本操作类型和在商业软件中对立方体进行操作的MDX语言。
阅读全文
摘要:本文从业务分析的归因/相关性分析的方式,引入了维度建模,两者具有相同分析路径。然后介绍了维度建模的基础——事实表和维度表,它们关联之后的产物即星型模型。
阅读全文
摘要:近几年随着「大数据」、「数据驱动」、「数据中台」等概念在互联网界的热炒,懂数据的获取、处理到算法推荐、模型预测等人才也得到热捧。观感上,这些技能领域是随着大数据时代而来的。而实际上,早在上世纪80年到90年代初数据仓库和数据决策支持系统概念已经提出,本质上都是将多源头的数据集中起来,采用统计学的方法
阅读全文
摘要:k means算法在人群聚类场景中,是一个非常实用的工具。(该算法的原理可以参考 "K Means算法的Python实现" ) 常见调用方式 该算法常规的调用方式如下: 异常现象 常规情况下,以上处理后,会根据dataframe上的索引列顺序的 (0~8的数值)。 但是,我们在执行代码过程中,出现了
阅读全文
摘要:最近在重新学习统计学的一些基础知识,整理笔记的时候需要输入一些数学公式。从学校毕业之后,就没有在文档中插入过公式了。按照以前的经验,我把输入公式的方式分成两类。 所见即所得的方式,常见的就是微软word中的公式编辑器。 所想即所得的方式,按照LaTeX语法描述公式,使用工具将语句解析公式。 第一种方
阅读全文
摘要:在Windows上安装 从官方网站下载需要的二进制包 比如我下载的是flink-1.2.0-bin-hadoop2-scala_2.10.tgz,解压后进入bin目录 可以执行bat文件,也可以使用cygwin执行sh文件 然后可以在浏览器中输入http://localhost:8081打开管理页面
阅读全文
摘要:NA表示的是缺失数据,missing dataNaN表示无意义的数据,Not a Number, `Inf-Inf`Inf表示正无穷大-Inf表示负无穷大
阅读全文