LEVEL I - PART 2 数据结构
PART 2 数据结构 - 总占比(15%)
总体要求:
针对表格结构 - Excel 和 表结构 - DB 的数据特征、理解表结构与表结构数据获取操作方法、理解表结构数据连接及汇总的逻辑、能够应用表结构连接及汇总逻辑关联多表进行汇总求值计算、能够制作 ER 关系图;
1.表格结构数据特征(占比 2%)
表格结构数据概念 - 【领会】
- 表格:由固定列数和任意行数构成,一般指的是 Excel、CSV等方式记录的相关数据,其特征为通过行号和列号进行定位;
表格结构数据处理工具 - 【领会】
- 相关处理工具:
- Excel - 微软开发的跨平台工具
- Numbers - 苹果公司开发的数据处理工具
- WPS OFFICE Excel - 北京金山办公公司开发的办公软件
表格结构数据特征 - 【熟知】
- 对于表格数据,以单元格作为基本的数据存储、操作单位以及引用参照对象;
- 表格工具处理批量数据的效率较低,允许使用其他工作表和工作簿中的值进行引用;
- 对象间的父子级关系:一个父级对象下包含多个不同子级对象,一个子级对象只能属于某一特定的父级对象;
2.表格结构数据的获取、引用、查询与计算(占比 3%)
表格数据来源:
- 来自于数据库
- 来自于数据文件
- 来自于数据仓库 - DW
表格结构数据的获取方法 - 【领会】
- 数据库系统、前端操作平台(ERP、CRM、财务系统)、企业外部渠道
- 电子表格支持的数据文件:csv、txt、xlsx、ET
- 表格结构获取数据方式:应用
单元格区域的特征 - 【熟知】
-
表可以按不同的区域设置格式:标题、层、角标签、行标签、列标签、数据、文字说明和脚注。对于表的每个区域,您都可以修改相关联的单元格格式。单元格格式包括文本特征(如字体、大小、颜色和样式)、水平和垂直对齐方式、背景色以及内单元格边距。
单元格格式应用到区域(信息的类别)。它们不是个别单元格的特征。当对表进行旋转时,此区别是重要的考虑因素。
表格数据的引用方法 - 【应用】
-
引用同一工作表内单元格值:“=列号+行号”如 “=A1”
-
引用不同工作表单元格值:“=表名!+列号+行号”如“=Sheet2!A1”
-
引用同一工作表内单元格区域:“=左上单元格:右下单元格”如“K4:M7”
-
引用不同工作表内单元格区域:“=表名!左上单元格:右下单元格”如“=Sheet2!K4:M7”
-
引用多行:“=上边行号:下边行号”
-
引用多列:“=左边列号:右边列号”
表格数据的查询方法 - 【应用】
- 使用查询函数
- Syntax:
VLOOKUP([value], [range], [column number], [false or true])
- 如
=vlookup(F4,A:B,2,False)
- Syntax:
表格常用的函数 - 【熟知】
函数构成:
- 等号、函数表达式、参数、操作符、返回值
数学函数:
- int mod round abs sqrt rand(随机数) Randbetween
文本函数:
- mid left right len text rept replace subtitle
统计函数:
- SUM COUNT AVERAGE
逻辑函数:
- if and or 如“=if(And(E2>=60,F2>=60,G2>=60),”通过”,”不通过”)”
日期函数:
- DATEIF Datevalue Day Days
查找与引用函数:
- VSLOOKUP
3.表结构数据特征(占比 5%)
理解主键的意义 - 【熟知】
- 主键:表中经常有一个列或多列的组合,其值能唯一地标识表中的每一行。这样的一列或多列称为表的主键,通过它可强制表的实体完整性。当创建或更改表时可通过定义 PRIMARY KEY 约束来创建主键。一个表只能有一个 PRIMARY KEY 约束,而且 PRIMARY KEY 约束中的列不能接受空值。由于 PRIMARY KEY 约束确保唯一数据,所以经常用来定义标识列。
- 作用:
- 1)保证实体的完整性;
- 2)加快数据库的操作速度
- 3)在表中添加新记录时,ACCESS会自动检查新记录的主键值,不允许该值与其他记录的主键值重复。
- 4)ACCESS自动按主键值的顺序显示表中的记录。如果没有定义主键,则按输入记录的顺序显示表中的记录。
理解维度及度量的意义 - 【熟知】
-
字段:整列数
-
记录:整行数
-
度量:业务行为结果,用来描述业务结果程度 维度字段:文本型
-
维度:业务角度,用来描述业务不同侧面 度量字段:数值型
-
度量是数据表中的数值数据,维度是类别数据。
-
汇总结果由维度、度量、汇总规则决定
-
事实表:既包含维度信息又包含度量信息。如销售表、采购表、库存表、订单表、订单详情表。表格里存储了能体现实际数据或详细数值,一般由维度编码和事实数据组成。
-
维度表:只包含维度信息的表。如客户表、产品表、品牌表。
-
一表出维度,多表出度量:不同的维度下看不同的度量值,维度就是筛选,用来筛选度量值的,那维度选用的字段必须是来自一表里面的,度量值的字段必须是来自多表的,是字段一般要取自哪个表里。
理解缺失值 - 【熟知】
-
Null值影响计算精度
-
计算机无法确保计算结果
-
阅读者无法理解
-
空值行可以删除(处理缺失值)
-
空值是空白值的简称
-
空值可能由前端系统非必填项产生
表结构数据特征 - 【熟知】
- 以列(字段)为基本数据存储及操作单位,所有字段记录行数相同
- 有且只有一个主键
- 易于批量处理大量数据
- 表结构的字段可以为Null
表结构数据与表格结构数据差异 - 【熟知】
-
表格数据中的最小单位是单元格,表数据中最小单位是字段。
-
表格数据中可以没有列名,表数据中每个字段必须有字段名,且同一个表中的字段名不能重复。
-
表格数据中每一列的数据类型可以不一致,表数据中每个字段的数据类型必须一致。
-
表格数据中每一列的行数可以不一致,表数据中每个字段的记录数必须一致,字段中可以有缺失值,但总记录数是一致的。
4. 表结构数据获取、加工与使用(占比 5%)
表结构数据获取渠道及方法 - 【领会】
- 数据库
- 数据仓库
- 可视化工具
- CSV格式文件数据
- 数据库
- Excel
- 网页数据
表数据的的获取方式: 引用 -- 很重要的一个概念
表结构分析工具:
- DB2
- POWER BI
- Excel
表结构数据连接逻辑 - 【熟知】
- 横向合并:
- 将不同表中的字段信息合并到同一个表使用
- 通过公共字段匹配
- 左连接、右连接、内连接(返回交集)
- 行数是对应项乘积的结果
- 纵向合并:多表中记录信息合并到同一个表进行使用
- 字段个数和类型相同
- Union:去重合并, Union ALL 全合并
表结构数据汇总逻辑 - 【熟知】
- 数据透视表:维度、度量、汇总计算规则
- 维度筛选度量,度量被维度筛选
- 聚合函数:SUM COUNT AVERAGE MAX MIN
- count是非空计数,应尽量针对非空字段(主键)计数
应用E-R图 -【熟知】
-
多表连接的鸟瞰图
-
连接线指向各自的公共字段
-
1代表1表,*代表多表
计算两表连接汇总值 -【熟知】
- 通过左连接、右连接、内连接之后新表的相关数值