LEVEL I - PART 1 数据分析概念与职业操守
PART 1 数据分析概念与职业操守
1.数据分析概念、方法论、角色(占比 1%)-【领会】
数据分析基本概念(数据分析、数据挖掘、大数据) 数据分析目的及其意义
数据分析(Data Analysis):
- 是以数据为分析对象,以探索数据内的有⽤信息为主要途径,以解决业
务需求为最终⽬标,包含业务理解、数据采集、数据清洗、数据探索、数据可视化、数据建模、模型结
果可视化、分析结果的业务应⽤等步骤在内的⼀整套分析流程。 - 数据分析以理性思考来进行最终决策,探索数据内有用的信息为途经,以解决业务需求为最终目标;
- 数据分析需要考虑的不仅仅是模型的精度,而且针对成本、效率等其他方面也需要进行考虑;
数据分析的目的:
- 发现有价值的信息、提出结论、为业务发展提供辅助决策。它描述了了 ”过去发⽣生了什么“、”现在正在发⽣生什什么“ 和 “未来可能发⽣生什什么”。根据分析层次的级别不不同,分为常规报表、即席查询、多维分析(⼜又称钻取或OLAP)、警报、统计分析、预报(或者时间序列列预测)、预测型建模(Predictive Model)和优化。
- 数据分析的目的是把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象的内在规律。
- 在实用中,数据分析可帮助人们作出判断,以便采取适当行动。数据分析是组织有目的地收集数据、分析数据,使之成为信息的过程。这一过程是质量管理体系的支持过程。在产品的整个寿命周期,包括从市场调研到售后服务和最终处置的各个过程都需要适当运用数据分析过程,以提升有效性。例如J.开普勒通过分析行星角位置的观测数据,找出了行星运动规律。又如,一个企业的领导人要通过市场调查,分析所得数据以判定市场动向,从而制定合适的生产及销售计划。因此数据分析有极广泛的应用范围。
数据挖掘(Data Mining) :
- 是⼀个跨学科的计算机科学分⽀,它是⽤⼈⼯智能、机器学习、统计学和数据库的交叉⽅法在相对较⼤型的数据集中发现模式的计算过程。
数据分析的⽬的:
- 发现有价值的信息、提出结论、为业务发展提供辅助决策。它描述了 ”过去发⽣了什么“、”现在正在发⽣什么“ 和 “未来可能发⽣什么”。根据分析层次的级别不同,分为常规报表、即席查询、多维分析(⼜称钻取或OLAP)、警报、统计分析、预报(或者时间序列预测)、预测型建模(Predictive Model)和优化。
大数据的含义:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。
具体可以参考MBA上关于大数据的相关定义:MBA - 大数据
数据分析方法与流程
针对数据分析的基本流程如下:
-
数据分析的基本步骤一:理清思路
清楚数据分析的目的和思路是保证数据分析过程有效进行的首要条件。其作用在于能为数据的收集、处理和分析提供清晰的指导。思想思想是整个分析过程的起点。目标不明确,则会导致方向错误;
-
数据分析的基本步骤二:收集数据
采集数据是在一定的数据分析框架下,收集相关数据的过程,为数据分析提供资料和依据。本文所述数据包括第一手资料和第二手资料,一手资料主要指可直接获得的资料,而第二手资料则指经加工整理后的资料。通常的数据来源主要以下列方式:DW、ETL、手动采集等其他方式;
-
数据分析的基本步骤三:处理数据
其中数据处理主要包括数据清洗、数据转换、数据提取、数据计算等处理方法。通常手写的数据要经过一定的处理才能用于后续的数据分析工作,即使是再“干净”的原始数据也需要一定的处理后才能使用。
-
数据分析的基本步骤四:数据分析
分析性数据是指通过合理的分析方法和工具,对处理的数据进行分析,提取出有价值的信息,形成有效结论的过程。因为数据分析大多是通过软件进行,这就要求数据分析师既要掌握各种数据分析方法,又要熟悉数据分析软件的操作。
-
数据分析的基本步骤五:呈现数据
通常,数据是以表格和图形的方式表示的,我们经常说,用图表来表达,就是这个意思。常见的数据图表有饼图、柱形图、条形图、折线图、散点图、雷达图等,当然,它们还可以经过整理加工,使其成为我们所需的图形,如金字塔图、矩阵图、漏斗图等。多数时候,人们更愿意接受图形这类数据的呈现方式,因为它更有效、直观。
-
数据分析的基本步骤六:写报告
资料分析报告实际上是整个数据分析过程的总结和呈现。将资料分析的原因、过程、结果和建议通过报告完整地呈现出来,供决策者参考。一份好的数据分析报告,首先要有一个好的分析框架,而且图文并茂,层次清晰,能让阅读者一目了然。
数据分析的八个层次:
- 1.常用报表
- 2.即席查询
- 3.多维分析
- 4.警报
- 5.统计分析
- 6.预报
- 7.预测型模型
- 8.优化
其他数据分析中可能用到的相关模型和方法论
1).CRISP-DM(Cross Industry Standard Process - Data Mining)方法论:
- 业务理解、数据理解、数据准备、建模、模型评估、模型发布
- 当今数据挖掘的通用流行标准之一
- 强调数据挖掘在商业中的应用
2).SEMMA方法论: 不怎么涉及,不作为CDA考试的相关重点;
-
SEMMA 是数据挖掘项目方法论的名称
-
流程为: 定义业务问题、环境评估、数据准备、循环往复的挖掘过程(探索、修改、建模、评估、抽样)、上线发布、检视;
-
必须要理解,SEMMA 方法论是对CRISP-DM方法中的数据准备和建模环节进行了拓展;
3).AB测试:
- 用于假设检验,在新老方案上线后效果比对方法,在同一时间维度,分别让两个或多个属性组成成分相同的访客群组访问,收集各群体用户体验数据和业务数据,最总分析评估出最好的版本进行采用;
4).EDIT模型:
- E:Exploration探索;D:Diagnosis 诊断;I:Instruction指导;T:Tool工具
- 该模型体现层次和纵深两个方面:1)层次方面,强调战略、管理、操作三个层级的业务部门人员均借助数据支持创造性的优化业务流程;2)纵深方面,以数据使用区分企业的前、中、后台,数据用户即业务人员,数据加工者即技术人员。
5).波士顿矩阵:
- 根据市场占比来决定商品的战略,波士顿矩阵是针对商品目前存在的问题进行分析,找出目前商品市场定位的问题并持续改进;
需要明白所有的模型都需要处理和解决哪些问题:
- 预测分类问题
- 相关分析
- 市场细分问题
2. 数据分析师职业道德与行为准则(占比 1%)- 【领会】
数据分析师职业道德操守数据分析师专业行为准则
这部分可以参考CDA对于道德行为准则的相关说明:CDA道德行为准则
3.大数据立法、安全、隐私(占比 1%)-【领会】
国外隐私相关法律要求(参阅《国际数据保护规则要览》)
国内大数据立法的历程和展望(参阅《中国大数据法治发展报告》)
欧盟《通用数据保护条例》(General Data Protection Regulation,简称 GDPR)中企业和个人的数据使用权限
可以参考知乎对于这方面的解释,本部分也不是相关重点:大数据——个人隐私保护面临的困境及解决策略分析