SAS 学习 day1

数据采样

抽样方法:简单随机抽样、分层抽样、整体抽样、系统抽样

简单随机抽样     从sashelp数据集中air数据文件中选取30个数据

Proc Surveyselect Data = sashelp.air Out=test1 Noprint
Sampsize = 30; #按指定数量抽取
Run;

 Proc Surveyselect Data = sashelp.air Out=test1 Noprint
  Samprate = 0.3; #按比例抽取
  Run;

输出文件

 数据探索

数字特征的探索:均值、频数、最大值、最小值、众数、中位数、方差、标准差

数字分布的探索:是否服从正态分布

连续型变量分布

means过程

Proc means data = Data.b_rise maxdec =4; #保留小数位数
var weight;  #指定分析变量   默认有均值、标准差、最大值、最小值
title'Descriptive Statistics for weight';
run;

 

Proc means data = Data.b_rise 
maxdec =4
n mean median std var q1 q3;
var weight;
title'Descriptive Statistics for weight';
run;

 

univariate过程

 

1、weight在每个brand值上的分布状况

2、wight在每个brand值上是否服从正态分布

proc univariate data = Data.B_cereal;
class brand;
var weight;
probplot weight / normal(mu = est sigma=est color=blue w=1); #pb图来检验是否服从正态分布
假设服从normal 在曲线附近 表明实际分布和理论分布相差不大 title
'Univariate Analysis of the Cereal Data'; run;

 

 

图形化展示

 boxplot过程

proc sort data=data.b_cereal out=b_cereal;
by brand;   #先将brand中分两类数据输出
run;
proc boxplot data = b_cereal;
plot weight*brand / cboxes = black BOXSTYLE=schematic; 输出一个盒状图
run;

盒装图  上四分位数  下四分位数

 离散型变量

 计算各个类型的占比

 

在每个组合上占比
proc freq data = data.color; weight count; 频数变量
tables Eyes Hair Eyes
*Hair / out=FreqCnt outexpect sparse; title'eye and hair color of europen children'; run;

 

缺失值补充

单一插补和多重插补

单一插补:从其预测分布中取一个值填充缺失值

插补方法:业务逻辑;均值法;最小邻居法;回归法

单一插补往往会低估估计量的方差

多重插补是一种以模拟为基础的方法,对每个缺失值产生m个合理的插补值,这样插补后,得到m组完全数据,使用标准的完全数据方法分析每组数据并融合分析结果。二次估计

 

单一插补法 根据中位数来插 缺失值全部填充成中位数

proc stdize data=data.mi
reponly
method = median 采用什么方法
out = imputed;
var acctage;
run;

 

 

 

 

posted @ 2019-02-18 15:56  碎纸屑  阅读(654)  评论(0编辑  收藏  举报