【数据分析】《统计数据分析方法与技术》:数据分析基本问题
一、数据分析基本问题
1.统计数据分类
对于数据的量化分析,其所依据的数据是对客观现象属性或特征的描述,是对研究对象观测记录或计算处理后得到的结果。每个数据都具有一定的内涵和外延,并由特定的时间、地点及对象概括。
对于数据的分析首先需要明确数据的类型,并针对不同的数据采用不同的处理和分析方法。
常见的数据分类如下:
这里比较重要的是按计量尺度的分类
1.1计量尺度
按照计量尺度,数据主要可以划分为如下类型
下面对各类数据特征进行介绍:
定类数据:按照某种属性进行分类或分组计量的数据,各类/各组数据为并列互斥关系,不反映大小、优劣、顺序等
定序数据:按照某种等级差或顺序差进行分类或分组计量的数据,各类/各组数据有优劣、大小、先后顺序之分,可以用数字表示,但不能进行数学运算
量化数据:以数值形式表示且可以进行运算的数据
定距数据:以数值对数据之间间距进行精确计量的测度,用于测度现象的绝对总量、规模、水平,又可分为连续数据、离散数据
定比数据:在定距尺度基础上,确定相应基数,并将相关数据加以对比形成的比值,又可分为相对数数据、平均数数据
1.2数据来源
观测数据:通过调查或观测而收集到的数据,在没有对事物进行人为干预条件下得到的
实验数据:采用科学实验方式,通过控制实验对象而收集到的数据
1.3时间空间
截面数据:采用空间维度(横截面),描述研究对象不同空间的个体在某一相同时间点表现出的特征和属性
时间序列数据:同一对象在不同时间连续观察所取得的数据。用于在时间维度描述对象发展变化的轨迹和规律
面板数据:时间序列与截面数据交叉形成,从时间与空间两个维度连续观测得到的数据
其中需要注意的是,对于截面数据,由于观测个体在空间上存在异质性,不同空间个体或许存在差异,但引起异质性的因素不能差异太大。同时要求不同个体的统计标准及采样时间保持一致性。
1.4数据范围
总体数据:包括研究对象的全部个体数据
样本数据:包括研究对象的部分个体数据
2.统计数据来源
在统计学中,数据的来源主要有
- 直接获取:一手数据
- 间接获取:二手数据
2.1直接来源
适用场景:
- 研究对象没有现成数据
- 现成数据可靠性存在问题而不能使用
获取方式:
- 调查
- 观测
- 科学实验
对于自然现象,主要采用科学实验和观测
对于社会经济现象,主要采用调查
常见的数据调查方式:
普查:基于特定目的、特定对象专门组织的一次性全面调查,用于收集现象在某一时点状态下的数据
注:普查涉及面广、调查单位多,需要耗费相当大的人力、物力、财力和时间
统计报表:按国家统一规定的表式、统一的指标项目、统一的报送时间,自下而上逐级定期收集基本统计数据的调查方式
注:统计报表具有统一性 、 全面性、周期性和可靠性等特点 。
典型调查:根据调查目的和要求,在对总体进行全面分析的基础上,从全部单位中选取少数有代表性的单位进行深入调查的一种非全面调查方式
注:调查单位少,省时省力,适用于对现象进行深入细致的洞查;典型调查的关键是典型单位的选取
重点调查:从研究对象中选取部分重点单位(对于所要研究的属性特征在总体中具有重要地位的单位)进行调查以获得数据的一种非全面调查方式
注:省时、省力,当研究任务是为了了解研究对象的基本情况,并且总
体存在重点单位时才适合采用重点调查收集数据
抽样调查:按照随机性原则,从研究对象中抽选一部分单位(或者个体)进行调查,并据以对研究对象作出估计和推断的调查方法
注:抽样调查是用样本数据特征推断总体特征,必然产生代表性误差,但要满足一定可信度。用于某些不能进行全面调查的事物,或者理论可行但实际上不能进行全面调查的事物。
虽然典型调查和重点调查也是利用样本数据反映总体特征的非全面调查,
但其样本的产生属于非概率抽样
2.2间接来源
使用别人调查的或者对原始数据加工整理的二手数据
重点注意:
1.使用时要了解数据中变量的含义、计算口径、计算方法,防止误用、错用
2.引用间接数据时要注明数据来源或出处
2.3常用数据获取手段
以上两种数据来源方式,更加偏重于统计学来源,但在实际的数据分析场景当中,数据的主要获取手段有以下几种:
此处着重与当前书上的内容,不作过多拓展,在之后的笔记中会详细说明。
3.数据分析步骤
3.1数据预处理
- 数据获取与录入
- 数据审核与校检
- 数据清洗
- 数据标准化
3.2数据整理
- 数据分组
- 简单分组
- 复合分组
- 数据汇总
- 求和
- 计数
- 平均值
3.3数据展示
选取合适的数据呈现方式(如图表),使数据特征规律简明、形象、清晰、美观的体现出来
3.4分析方法选取
描述分析:数据特征
- 对研究对象的规模、水平、内部结构、比例、发展变化速度、数据集中趋势、离散型、分布特征进行一般性分析
- 可以运用图表、综合指标来实现
推断分析:量化分析
- 运用特定的数量方法,对某一假设、总体未知特征、现象变化规律、现象间的关系进行分析,以验证假设或得出结论
- 具体方法:总体参数估计、假设检验、方差分析、相关分析、回归分析、时间序列趋势分析、聚类分析、判别分析、主成分分析、因子分析等
3.5分析结果评价
用文字语言对数据分析方法得到的结果分析评价,包括:
- 包含的含义、特征、规律的解释
- 存在的问题(成功的经验)及原因的分析
- 提出解决问题的措施或建议等
3.6补充内容
数据分析的步骤大都是相似的,在此梳理了一下的数据分析步骤,条理更加清晰。
目标确定:
针对一个数据分析问题,首先需要确定分析目标,根据目标开展数据分析工作。
常见的数据分析目标有两个:
-
针对现有情况分析:描述性分析
-
基于现状,预测未来情况:预测性分析
数据获取:
确定分析目标后,需要进行分析数据字段设计,并通过一定的途径进行数据提取,如数据仓库、监测与抓取等
数据清洗:
获取数据后,需要对数据进行清洗,以确保数据可用。数据清洗主要包括以下四点:
-
异常值:异常值识别、判定、处理
-
空白值:修正、平均值填补、删除
-
无效值:修正、平均值填补、删除
-
重复值:修正、平均值填补、删除
数据整理:
数据清洗后,需要对数据进行预处理,使得数据符合分析要求。常见的数据整理包括:
- 格式化:日期处理、行列格式化
- 指标计算:基础计算(平均值、总计等)
- 数据标准化等
描述分析:
在完成数据整理后,可用开始对数据进行分析。
首先进行数据描述,主要包括以下几点:
- 数据基本情况
- 数据总数
- 时间跨度
- 数据来源
其次进行指标统计,主要包括以下几点:
- 分析实际情况的数据指标
- 变化、分布、对比、预测
- 数据项之间的对比、产品线对比、用户数对比
- 根据现有的增减幅度、预测未来销售额
- 随着时间变动而增减、近期销售额表现
- 不同层次上的表现、地域分布、人群分布
常用的分析指标如下:
- 集中趋势:均值、中位数与分位数、众数
- 离中趋势:标准差、方差
- 数据分布:偏态与峰态、正态分布与三大分布
- 抽样理论:抽样误差、抽样精度
洞察结论:
数据报告的核心:要体现数据分析能力
结合相应的数据分析方法,以及数据可视化方法,洞察数据所传达的信息
撰写报告:
数据分析的最终产出是数据报告,数据分析报告中需要包含如下要素:
4.数据分析工具
此处仅罗列出常用的数据量化分析工具,不作更多说明
- Excel
- SPSS
- MATLAB
- Python
- R语言
个人小结
这一章针对数据分析中的以下几个基本问题进行了简单的介绍
- 数据分类
- 数据来源
- 数据分析步骤
- 常用分析工具
内容相对简略,后面再作扩充。