Spss基础知识

SPSS基础分析

SPSS基础分析
SPSS预分析
建模分析
案例分析

第一章数据分析基础知识

什么是数据分析？

什么是数据分析？
统计学（ Statistics ）
收集、处理、分析、解释数据，并从数据中得出结论来指导实际生活和生产。分为描述统计学和推断统计学。
其中，描述性统计研究的是数据收集，处理，汇总，图表描述，概括与分析等统计方法；推断统计是研究如何利用样本数据进行推断总体的特征。

数据分析（ Data Analysis ）
用适当的统计分析方法对收集来的大量数据进行分析，提取有用信息和形成结论，对数据加以详细研究和概括总结的过程。

数据类型有哪些？

数据类型
分类数据（定性数据）
只能归于某一类别的非数字型数据，是对事物进行分类的结果数据，表现为类别，用文字来表示。
如人口按性别分为男、女；高中教育，分为文科、理科。

顺序数据
只能归于某一有序类别的非数字型数据，数据表现为类别，但这些类别是有序的。如产品分为一等品，二等品，三等品，次品等；奖学金。

数值型数据
对事物的精确测度，结果表现为具体的数值。如身高175CM，160CM，183CM；微信运动步数。
注：日期型数据用于表示日期或时间，可以进行算数运算，是一种特殊的数值型数据。

基础概念了解吗？

平均数（算术平均数）、几何平均数（mean）算术平均数：An=(a1+a2+...+an)/n

几何平均数：Gn=(a1a2...an)^(1/n)

中位数(median)、众数(mode)

四分位数、四分位差

对数据进行排序，处于25%和75%位置上的值。如1、8、3、2、5、5、4、7、2，2和6处于这组数据的25%和75%位置，为这组数据的下四分位数和上四分位数，也成1/4分位数和3/4分位数。

四分位差=上四分位数-下四分位数

异众比例
非众数的个数占总个数的比例。 如1、2、4、4、5、6、4、8。

极差=最大值-最小值

平均差
      各变量值与平均数离差绝对值的平均数。    
           平均差 = (∑|x-x’|)÷n，
      例如1、2、3、4、5、6、7、8，平均差为？

方差、标准差：反映一个数据集的离散程度，用σ表示标准差。
           方差 s=[(x1-x)^2 +(x2-x)^2 +(xn-x)^2]/n

总体：所研究的全部元素的集合。

样本：从总体中抽取的一部分元素的集合。其中样本的元素数目成为样本容量。

参数：描述总体的特征。如总体均值、标准差、总体比例等。

统计量：描述样本特征。如样本标准差，样本均值等。

变量：被观察单位的特征，是指可变的数量标志和所有的统计指标。在校生人数、商品销售额、产品质量等级...等都是变量。 

举例：
对一千个灯泡进行寿命测试，从中抽取一百个进行检测。则这一千个灯泡的集合就是总体，一百个灯泡的集合就是样本
。这一千个灯泡的寿命的平均值、标准差、合格率等描述特征的数值就是参数，
这一百个灯泡的寿命的平均值、标准差、合格率等描述特征的数值就是统计量，寿命就是变量。

第二章 SPSS软件概述

SPSS发展简史
SPSS的基本特点

SPSS的安装与激活

SPSS的启动与退出

SPSS界面介绍

分屏操作：出现左后符号拉动即可，上下左右

spss文件保存格式 .sav格式

第三章数据的导入与录入

数据的种类：

   1.一种是已经被录入为其他数据格式的资料，实现其与SPSS文件的转换。  
   例如：如何直接读取Excel类型和文本格式的数据，demo.xls，demo.txt

   2.另一种是非电子化的原始数据资料，直接将调查问卷中的数据录入
   SPSS，建立数据文件。

练习

练习：
1.将企业季度数据.xlsx 的移动平均、指数平滑表导入SPSS中，仅包含：时间、销售额、推广费用几个变量；

总共四列信息，包含前三列信息

2.将用户明细.txt文件导入到SPSS中并保存成用户明细.sav的格式

数据录入技巧

连续多个相同值的输入
  用“复制、选择、粘贴”功能

成批变量的定义
  隔开指定的距离输入首尾行，回车后自动填充变量名

快速查找异常值（极端值）         
  充分利用排序功能

数据的录入的步骤：

1.定义变量名
2.指定每个变量的各种属性
3.录入数据
4.随时存盘以防断电

变量属性

 数据类型：分类、顺序、数值

 数值型                          
 应用最为广泛，如工资、年龄、成绩等都可定义为数值型

 字符型（分类型变量）
 也是SPSS较常用的数据类型，但由于分析、整理都较困难，建议尽量少用，改为编码录入，如性别用1、2代表男女，用变量值标签加以解释说明

 日期型
 实际上是特殊的数值型变量，尽量少用。日期型数据主要在时间序列分析中比较有用，在较为简单的分析问题中完全可以用数值型变量进行操作：如201610

调查问卷的数据录入

调查问卷的数据录入

问卷调查的方法用的很广泛，对于没有接触过SPSS的人来说第一步面临的就是问卷数据录入的问题。

注意：
 （1）区分变量的度量，Measure的值，其中Scale是定量、Ordinal是定序、Nominal是指定类；
 （2）注意定义不同的数据类型Type。

问卷数据的录入

问卷题目的类型大致：
（1）单选  （2）多选    （3）排序  （4）开放题目
它们的变量的定义和处理的方法各有不同。

点击视图，值标签打勾

单选题：答案只能有一个选项

1.当前贵组织机构是否设有面向组织的职业生涯规划系统？ 
    A有    B 正在开创    C没有     D曾经有过但已中断

编码：只定义一个变量，Value值1、2、3、4分别代表A、B、C、D 四个选项。

录入：录入选项对应值，如选C则录入3。

采用分类法或者二分法录入信息

多选题：答案可以有多个选项，其中又有项数不定多选和项数定多选

方法一（二分法）：在编码时，对应每一个选项都要定义一个变量，有几个选项就有几个变量,且所有变量值标签的定义应该一致

  例：贵处的职业生涯规划系统工作涵盖哪些组群？画钩时请把所有提示考虑在内。
        A月薪员工   B日薪员工   C钟点工

  编码：把每一个相应选项定义为一个变量，每一个变量Value值均如下定义：“0” 未选，“1” 选。

  录入：被调查者选了的选项录入1、没选录入0，如被调查者选AC，则三个变量分别录入为1、0、1。

分类法：多选有未选的用 0来填充

定向多选择题

多选题：答案可以有多个选项，其中又有项数不定多选和项数定多选
方法二（分类法）：利用多个变量来对一个多选题的答案进行定义，应该用多少个变量由被访者实际可能给出的最多答案数而定。
这些变量必须为数值型变量，利用值标签将答案标出，所有变量采用一套值标签。

      例：你认为开展保持党员先进性教育活动的最重要的目标是哪三项：1（）  2（） 3（）
              A、提高党员素质    B、加强基层组织   C、坚持发扬民主
              D、激发创业热情    E、服务人民群众   F、促进各项工作

 编码：定义三个变量分别代表题目中的1、2、3三个括号，三个变量Value值均同样的以对应的选项定义，
 即：“1”A，“2”B，“3”C，“4”D，“5”E，“6”F

 录入：录入的数值1、2、3、4、5、6分别代表ABCDEF，相应录到每个括号对应的变量下。如被调查者三个
 括号分别选ACF，则在三个变量下分别录入1、3、6。

总结：

　　单选题分类法

　　不定项多选题分类法或者二分法

　　定向多选题分类法

排序题：对选项重要性进行排序

 例：您购买商品时在①品牌  ②流行  ③质量  ④实用   ⑤价格
     中对它们的关注程度先后顺序是（请填代号重新排列）第一位  第二位  第三位 第四位  第五位

 编码：定义五个变量，分别可以代表第一位到第五位，每个变量的Value都做如下定义：“1” 品牌，“2” 流行，“3” 质量，“4” 实用，“5” 价格

 录入：录入的数字1、2、3、4、5分别代表五个选项，如被调查者把质量排在第一位则在代表第一位的
 变量下输入“3”。

采用分类法：

开放题：这类题目要求被调查者自己填入数值，或者打分

 例：你的年龄（实岁）：______


 编码：一个变量，不定义Value值

 录入：即录入被调查者实际填入的数值。

 注意：对于开放性文字题，如果可能的话可以按照含义相似的答案进行编码，转换成为封闭

 式选项进行分析。如果答案内容较为丰富、不容易归类的，应对这类问题直接做定性分析。

第四章数据的准备

标志重复个案
选择个案
数据验证模块
数据的分类汇总
重新编码为不同变量
转置

标志重复个案：

原因：在一些测验统计结果中，经常会出现重复个案，即用户名、选项完全相同的个案，如果不作处理，显然会影响统计结果。

案例文件：问卷录入数据（整理后）.sav，然后按照id相同的标准查找重复记录。

操作步骤：数据——标识重复个案

删除个案：法一，直接在变量视图界面删除；
          法二，数据——选择个案。
         （注：在选择个案中有详细介绍）

在ID相同的条件下按年龄进行排序，选择升序排序

选择个案：


主要内容：筛选出符合要求的个案。

解决的问题：不需要对整体进行处理，这时可以设置条件语句，选择符合要求的样本进行处理。

用途：

点击所有个案或者重置或者删除filter列

先选着id 排序再删除重复个案

数据验证模块

单变量规则-交叉变量规则


实现数据核查功能，用户通过自定义数据验证规则，并运行数据验证规则对数据进行检查，以确定个案取值是否有效。验证规则有以下两种：

（1）单变量规则：包含一组应用于单个变量的数值检查的规则。如，数码产品顾客购买习惯问卷调查项目性别：只有1,2两个取值编码，年龄为14到53；

（2）交叉变量规则：交叉变量规则是用户定义的涉及多个变量间逻辑关系的规则，是标记无效值的逻辑表达式，可以应用于单个变量，也可以应用于变量组合。

如：B3选中在网上购物，B5_1至B5_5中任一项选择了网上购物的支付方式或B4每月网络购物的消费不为空，否则，问卷应视为存在逻辑错误，作为废卷处理。

练习：

CCSS_Sample.sav ，年龄：取值应当在18~65岁之间；性别：只有1,2两个取值编码，

定义规则识别年龄、性别取值违规或者说异常的个案；


定义交叉变量规则，关键题目A3、A4、A8取值不应当同时选择9，否则应作废卷处理。

验证数据：

在单变量规则和交叉变量规则对应

保存：

数据的分类汇总

主要内容：数据太乱而不好进行分析，用SPSS软件对数据进行分类汇总，从而使数据更加直观，清晰。
也就是说，对变量不同取值进行分组，进而求得相关统计量。

解决的问题：有时我们感兴趣的是变量的不同取值内的相关统计信息，例如不同性别的均值、中位数等。

结果：

分类汇总

函数可选的功能：

重新编码为不同变量--年龄分组

编码后的结果不会覆盖原有数据

调用年龄信息并分成三组

接下来进行年龄的分组：

重新编码为相同变量

编码后的结果会覆盖原有数据

分类变量的类别合并--年龄段的合并中年

对分类变量进行合并，例如区间35-43 和 45-54 两个区间的数据一起合并成中年人

转置

数据框下的变换

111

posted on 2020-01-13 21:47 foremost 阅读(3059) 评论(0) 收藏举报