SPSS基础分析

 

 

SPSS基础分析
SPSS预分析
建模分析
案例分析

第一章 数据分析基础知识

什么是数据分析?

什么是数据分析?
统计学( Statistics )
收集、处理、分析、解释数据,并从数据中得出结论来指导实际生活和生产。分为描述统计学和推断统计学。
其中,描述性统计研究的是数据收集,处理,汇总,图表描述,概括与分析等统计方法;推断统计是研究如何利用样本数据进行推断总体的特征。
数据分析( Data Analysis ) 用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论,对数据加以详细研究和概括总结的过程。

数据类型有哪些?

数据类型
分类数据(定性数据)
只能归于某一类别的非数字型数据,是对事物进行分类的结果数据,表现为类别,用文字来表示。
如人口按性别分为男、女;高中教育,分为文科、理科。
顺序数据 只能归于某一有序类别的非数字型数据,数据表现为类别,但这些类别是有序的。如产品分为一等品,二等品,三等品,次品等;奖学金。
数值型数据 对事物的精确测度,结果表现为具体的数值。如身高175CM,160CM,183CM;微信运动步数。 注:日期型数据用于表示日期或时间,可以进行算数运算,是一种特殊的数值型数据。

基础概念了解吗?

平均数(算术平均数)、几何平均数(mean)算术平均数:An=(a1+a2+...+an)/n
几何平均数:Gn
=(a1a2...an)^(1/n)
中位数(median)、众数(mode)
四分位数、四分位差
对数据进行排序,处于25
%和75%位置上的值。如1、8、3、2、5、5、4、7、2,2和6处于这组数据的25%和75%位置,为这组数据的下四分位数和上四分位数,也成1/4分位数和3/4分位数。
四分位差
=上四分位数-下四分位数
异众比例 非众数的个数占总个数的比例。 如1、
2、4、4、5、6、4、8。

 

极差=最大值-最小值
平均差 各变量值与平均数离差绝对值的平均数。 平均差
= (∑|x-x’|)÷n, 例如1、2、3、4、5、6、7、8,平均差为?
方差、标准差:反映一个数据集的离散程度,用σ表示标准差。 方差 s
=[(x1-x)^2 +(x2-x)^2 +(xn-x)^2]/n

 

总体:所研究的全部元素的集合。
样本:从总体中抽取的一部分元素的集合。其中样本的元素数目成为样本容量。
参数:描述总体的特征。如总体均值、标准差、总体比例等。
统计量:描述样本特征。如样本标准差,样本均值等。
变量:被观察单位的特征,是指可变的数量标志和所有的统计指标。在校生人数、商品销售额、产品质量等级...等都是变量。
举例: 对一千个灯泡进行寿命测试,从中抽取一百个进行检测。则这一千个灯泡的集合就是总体,一百个灯泡的集合就是样本
。这一千个灯泡的寿命的平均值、标准差、合格率等描述特征的数值就是参数,
这一百个灯泡的寿命的平均值、标准差、合格率等描述特征的数值就是统计量,寿命就是变量。

第二章 SPSS软件概述

SPSS发展简史
SPSS的基本特点

SPSS的安装与激活

 

 

 

SPSS的启动与退出

SPSS界面介绍

分屏操作:出现左后符号拉动即可,上下左右

 

 

 spss文件保存格式 .sav格式

第三章  数据的导入与录入

数据的种类:

   1.一种是已经被录入为其他数据格式的资料,实现其与SPSS文件的转换。  
   例如:如何直接读取Excel类型和文本格式的数据,demo.xls,demo.txt
2.另一种是非电子化的原始数据资料,直接将调查问卷中的数据录入 SPSS,建立数据文件。

练习

练习:
1.将企业季度数据.xlsx 的移动平均、指数平滑表导入SPSS中,仅包含:时间、销售额、推广费用几个变量;

总共四列信息,包含前三列信息
2.将用户明细.txt文件导入到SPSS中并保存成用户明细.sav的格式
数据录入技巧
连续多个相同值的输入
  用“复制、选择、粘贴”功能
成批变量的定义 隔开指定的距离输入首尾行,回车后自动填充变量名
快速查找异常值(极端值) 充分利用排序功能
数据的录入的步骤:
1.定义变量名
2.指定每个变量的各种属性
3.录入数据
4.随时存盘以防断电

变量属性

 数据类型:分类、顺序、数值
数值型 应用最为广泛,如工资、年龄、成绩等都可定义为数值型
字符型(分类型变量) 也是SPSS较常用的数据类型,但由于分析、整理都较困难,建议尽量少用,改为编码录入,如性别用1、2代表男女,用变量值标签加以解释说明
日期型 实际上是特殊的数值型变量,尽量少用。日期型数据主要在时间序列分析中比较有用,在较为简单的分析问题中完全可以用数值型变量进行操作:如201610

调查问卷的数据录入

调查问卷的数据录入

问卷调查的方法用的很广泛,对于没有接触过SPSS的人来说第一步面临的就是问卷数据录入的问题。

注意:
 (1)区分变量的度量,Measure的值,其中Scale是定量、Ordinal是定序、Nominal是指定类;
 (2)注意定义不同的数据类型Type。

 

问卷数据的录入
问卷题目的类型大致: (
1)单选 (2)多选 (3)排序 (4)开放题目 它们的变量的定义和处理的方法各有不同。

点击视图,值标签打勾

单选题:答案只能有一个选项

1.当前贵组织机构是否设有面向组织的职业生涯规划系统? 
    A有    B 正在开创    C没有     D曾经有过但已中断
编码:只定义一个变量,Value值1、
2、3、4分别代表A、B、C、D 四个选项。
录入:录入选项对应值,如选C则录入3。

采用分类法或者二分法录入信息

多选题:答案可以有多个选项,其中又有项数不定多选和项数定多选

方法一(二分法):在编码时,对应每一个选项都要定义一个变量,有几个选项就有几个变量,且所有变量值标签的定义应该一致
例:贵处的职业生涯规划系统工作涵盖哪些组群?画钩时请把所有提示考虑在内。 A月薪员工 B日薪员工 C钟点工
编码:把每一个相应选项定义为一个变量,每一个变量Value值均如下定义:“0” 未选,“
1” 选。
录入:被调查者选了的选项录入1、没选录入0,如被调查者选AC,则三个变量分别录入为1、0、
1。

分类法:多选有未选的用 0来填充

 

 定向多选择题

多选题:答案可以有多个选项,其中又有项数不定多选和项数定多选
方法二(分类法):利用多个变量来对一个多选题的答案进行定义,应该用多少个变量由被访者实际可能给出的最多答案数而定。
这些变量必须为数值型变量,利用值标签将答案标出,所有变量采用一套值标签。
例:你认为开展保持党员先进性教育活动的最重要的目标是哪三项:
1() 2() 3() A、提高党员素质 B、加强基层组织 C、坚持发扬民主 D、激发创业热情 E、服务人民群众 F、促进各项工作
编码:定义三个变量分别代表题目中的1、
2、3三个括号,三个变量Value值均同样的以对应的选项定义, 即:“1”A,“2”B,“3”C,“4”D,“5”E,“6”F
录入:录入的数值1、
2、3、4、5、6分别代表ABCDEF,相应录到每个括号对应的变量下。如被调查者三个 括号分别选ACF,则在三个变量下分别录入1、3、6。

 

总结:

  单选题分类法

 

  不定项多选题分类法或者二分法

  定向多选题分类法

排序题:对选项重要性进行排序

 例:您购买商品时在①品牌  ②流行  ③质量  ④实用   ⑤价格
     中对它们的关注程度先后顺序是(请填代号重新排列)第一位  第二位  第三位 第四位  第五位
编码:定义五个变量,分别可以代表第一位到第五位,每个变量的Value都做如下定义:“
1” 品牌,“2” 流行,“3” 质量,“4” 实用,“5” 价格
录入:录入的数字1、
2、3、4、5分别代表五个选项,如被调查者把质量排在第一位则在代表第一位的 变量下输入“3”。

采用分类法:

开放题:这类题目要求被调查者自己填入数值,或者打分

 例:你的年龄(实岁):______

编码:一个变量,不定义Value值
录入:即录入被调查者实际填入的数值。
注意:对于开放性文字题,如果可能的话可以按照含义相似的答案进行编码,转换成为封闭
式选项进行分析。如果答案内容较为丰富、不容易归类的,应对这类问题直接做定性分析。

 第四章  数据的准备

标志重复个案
选择个案
数据验证模块
数据的分类汇总
重新编码为不同变量
转置

标志重复个案:

原因:在一些测验统计结果中,经常会出现重复个案,即用户名、选项完全相同的个案,如果不作处理,显然会影响统计结果。
案例文件:问卷录入数据(整理后).sav,然后按照id相同的标准查找重复记录。
操作步骤:数据——标识重复个案
删除个案:法一,直接在变量视图界面删除; 法二,数据——选择个案。 (注:在选择个案中有详细介绍)

 在ID相同的条件下按年龄进行排序,选择升序排序

 

 

 

 

 

 

 

选择个案:


主要内容:筛选出符合要求的个案。
解决的问题:不需要对整体进行处理,这时可以设置条件语句,选择符合要求的样本进行处理。
用途:

 

 

 

 

 

 

点击所有个案或者重置或者删除filter列

 

 

先选着id 排序 再删除重复个案 

 

 

数据验证模块

单变量规则-交叉变量规则


实现数据核查功能,用户通过自定义数据验证规则,并运行数据验证规则对数据进行检查,以确定个案取值是否有效。验证规则有以下两种:
1)单变量规则:包含一组应用于单个变量的数值检查的规则。如,数码产品顾客购买习惯问卷调查项目性别:只有1,2两个取值编码,年龄为14到53;
2)交叉变量规则:交叉变量规则是用户定义的涉及多个变量间逻辑关系的规则,是标记无效值的逻辑表达式,可以应用于单个变量,也可以应用于变量组合。

如:B3选中在网上购物,B5_1至B5_5中任一项选择了网上购物的支付方式或B4每月网络购物的消费不为空,否则,问卷应视为存在逻辑错误,作为废卷处理。

 

 

 

 

 

 

 练习:

CCSS_Sample.sav ,年龄:取值应当在18~65岁之间;性别:只有1,2两个取值编码,

定义规则识别年龄、性别取值违规或者说异常的个案;


定义交叉变量规则,关键题目A3、A4、A8取值不应当同时选择9,否则应作废卷处理。

 验证数据:

 

 在单变量规则 和 交叉变量规则对应

保存:

 

 数据的分类汇总

主要内容:数据太乱而不好进行分析,用SPSS软件对数据进行分类汇总,从而使数据更加直观,清晰。
也就是说,对变量不同取值进行分组,进而求得相关统计量。
解决的问题:有时我们感兴趣的是变量的不同取值内的相关统计信息,例如不同性别的均值、中位数等。

 

 

 

结果:

分类汇总

 函数可选的功能:

 重新编码为不同变量--年龄分组

编码后的结果不会覆盖原有数据

 调用年龄信息并分成三组

 

 接下来进行年龄的分组:

 

 

 

 

 重新编码为相同变量

 

 编码后的结果会覆盖原有数据

分类变量的类别合并--年龄段的合并 中年

 

 

 

 对分类变量进行合并,例如区间35-43 和 45-54 两个区间的数据一起合并成中年人

 

 

 转置

数据框下的 变换

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

111

posted on 2020-01-13 21:47  foremost  阅读(2724)  评论(0编辑  收藏  举报