Hive数据仓库维度分析


1 指标与维度

这里个人理解:先有指标后有维度,指标相当于具体一些列数据,维度相当于在这一些数据中的某种条件下的数据.

要进行维度分析需要先理解两个术语:指标和维度。指标是衡量事物发展的标准,也叫度量,如价
格,销量等;指标可以求和、求平均值等计算,指标分为绝对数值和相对数值,绝对数值反映具体的大
小和多少,如价格、销量、分数等;相对数值反映一定的程度,如及格率、购买率等。
维度是事物的特征,如颜色、区域、时间等,可以根据不同的维度来对指标进行分析对比。比如根据
区域维度来分析不同区域的产品销量,根据时间来分析每个月产品的销量,同一个产品销量指标从不同
的维度分析会得出不同的结果。维度分为定性和定量两种,定性维度就是字符类型的特征,比如区域维
度包括全国各省份;定量维度就是数值类型的特征,如价格区间、销量区间等,如价格区间维度分为0-
-100、100-1000两个区间,可以按价格区间维度来对指标进行分析,说到这里,其实指标是可以转成
维度的,所转成的维度就是定量维度。

2 业务需求

课程访问量、课程购买量等。下图以课程访问量为例, 理解需求:

在这里插入图片描述

3 识别维度

在日常生活中,我们从不同的角度看待事务会有不同的体会,数据分析也如此,比如:一个在线教育
的平台,作为运营方会关注按时间段分析课程的访问量,作为教育机构则关注单个课程的访问量,都是
课程访问量指标根据不同的维度去分析得到结果不同,这就是维度分析。
比如:按时间分析课程访问量,时间维度是课程访问量的分析依据,时间维度和业务中的课程访问量
是对应的,下表列出了课程访问量明细记录:
在这里插入图片描述
上表中显示了部分课程访问的记录,每条记录表示一次课程访问,记录内容包括:IP,访问时间、课程
ID,根据上边的记录可以按时间统计每天所有课程的访问量,时间就是一个维度,如下是按时间维度分
析的课程访问量:
时间维度(天)
在这里插入图片描述
维度是数据仓库建模的基础,维度是在分析时从多个方面来进行分析,根据上边的例子,将课程访问
作为度量,识别的维度包括:课程、时间、机构、课程分类等,如下图:

在这里插入图片描述
将课程购买作为度量的维度包括:
在这里插入图片描述

4 关键指标

在进行维度分析前需要收集关键指标,关键指标就是运营管理者最关心的指标,比如市场总监提出的
产品销量、新增客户等指标;财务经理提出的营业额、利润率等。

5 分层与分级

通常在分析结果中首先看到的是一个总数,比如全年课程购买量,然后会详细去看每个季度、每个月
的课程购买量,全年、季度、月这些属于时间维度的一个层次,年、季度、月是这个层次的三个级别,
比如按地区分析课程购买量,全国、省、市、县属于地区维度的一个层次,层次中共有四个级别。
每个维度至少有一个层次且该层次至少有一个级别。下边将课程访问的各各维度定义层次和级别,如
下:
在这里插入图片描述
时间维度:
一个层次四个级别:年、月、周、天
课程维度:
课程名称:只有一个级别,每门课程的名称
课程分类:两个级别,大类和小类
课程难度:只有三个级别,简单、一般、难
课程等级:只有三个级别,初、中、高
地区维度:
一个层次三个级别:省、市、县

posted @ 2021-10-06 15:47  赵广陆  阅读(260)  评论(0编辑  收藏  举报