常用数据处理方式,你都会吗?
数据处理和数据管理是数据录入后紧接着需要做的事情。尤其是当面对大量数据时,数据处理可以帮助我们从大量数据中抽取出有价值的信息,达到提高处理效率及精度的目的。
为配合进行更好的分析,可能涉及到以下数据处理工作:定义变量名;制定数据标签;数据编码;计算变量;无效样本处理;特殊值处理等。
定义变量
定义变量,就是给每个指标起名字。每个变量都需要有对应的变量名,以便得到更规范的表格呈现和操作体验,spssau中通过“标题修改”定义变量名,一般用于以下情况:
- 上传数据后,对不规范标题修改
- 完成数据编码后,进行标题修改
- 完成生成变量后,进行标题修改
- 有多余无意义的标题,进行删除标题(一次只能删除一个标题)
数据标签
除了标题名需要定义,数据标签也是一个重要的属性。数据标签用于标识数据中的数字代表的意义,对数据的含义进行解释说明,比如用1表示男,用2表示女。数据标签仅影响表格展示,完全不影响分析结果。
数据编码
量表问卷中经常会使用到反向计分,反项题得到数据在分析以前,要先进行重新编码。
数据编码通常除了用于处理反项题,还会用于数据组合。
比如1代表高中,2代表大专,3代表本科,4代表硕士,5代表博士。希望组合成三组分别是:本科以下,本科,硕士及以上.则可处理为:1->1,2->1,3->2,4->3,5->3,最终数字1代表本科以下,2代表本科,3代表硕士及以上
无效样本
在数据分析之前,首先需要进行数据查看,包括数据中是否有异常值,无效样本等。如果有无效样本则需要进行处理,然后再进行分析。另外如果数据中有异常值也需要进行处理后再进行分析。无效样本会干扰分析研究,扭曲数据结论等,因而在分析前先对无效样本进行标识显示尤其必要。
如果数据来源为问卷,则很可能出现无效样本,因为填写问卷的样本是否真实填写无从判定;如果数据库下载或者使用二手数据等,也可能出现大量缺失数据等无效样本。
无效样本的常见使用场景:
1. 问卷研究中乱填问卷的样本;
2. 数据库下载的数据中有大量缺失数据;
3. 二手数据中包括无效或缺失数据;
4. 其它收集数据中有无效样本时。
异常值
缺失值或异常值是一个重要但容易被忽略的问题。不论什么研究数据,如果数据中存在可能的异常值,均应在分析之前处理,防止异常值带来的干扰,比如异常值会扭曲X和Y之间的相关关系,回归关系等,异常错误的结论;当然其它研究方法基本均会受到异常值的干扰,异常值较多或者异常稍大时,此时会直接扭曲结论。
计算变量
上传数据,并修改好各标题名、数据标签后,我们就已经得到了原始的数据库,可以开始进行数据分析了。
不过实际情况中,往往不能直接使用原始数据进行统计分析,原因是数据中可能存在因录入错误或原始问卷记录错误导致的不正确的数据。或者不同研究目的,需要结合不同分析方法进行分析,而不同的统计方法对变量的需求也不尽相同,因此需要对数据重新调整或转换。
计算变量功能是指对问卷某题项或者多个题项进行处理的一种数学变换。通常情况下,问卷研究中共有两种情况会使用此功能,分别是变量生成和变量处理。
多数情况下,一个变量由多个题项表示,而最终进行相关、回归等分析时仅能使用一个变量,此时则需要将多个题项进行计算平均值处理,多个题项的综合平均值代表此变量。另外,如果需要对数据取对数,或者进行题项或者变量之间的加减计算时,均需要使用计算变量功能实现。计算变量功能仅适用于定量数据,分类数据不需要进行加减或者取平均值处理等。
比如网购满意度由4项表示,希望将4项处理成一个整体(网购满意度),则将此4项进行选中,并且告诉SPSSAU‘变量名字’。生成变量可做以下功能:
- 平均值、求和、中位数、乘积
- 标准化、中心化、最大最小归一化
- 虚拟变量
- 平方、根号
- 自然对数、10为底对数
- 绝对值
- 正向化、逆向化
总结来说,数据处理是很容易被轻视的工作,但往往数据处理的好坏会决定之后工作的难度,并直接影响到数据分析的结果,因此把数据处理重视起来!