SAS笔记121107

data过程的一个误区是以为数据集是一起导入的。实际上数据是一个观测一个观测导入的。这期间会产生一个或多个数据指针,也可能产生一个或多个PDV。但data过程在涉及set/merge等语句时本身相当于一个循环过程。因此不谨慎的代码很容易造成冗余的读取操作,甚至可能死循环。

set语句

格式

set<sas-data-set(s)<(data-set-option(s))>><options>;

其中sas-data-set(s)是1个到50个的数据集,注意不同于数据集选项,options不需要括号。

数据集选项有

keep=变量(组)指定读入哪些变量到PDV

drop=变量(组)指定不读入哪些变量到PDV

注:用选项读入比用语句读入效率要高得多,但是一般书很少注意这一点,这导致人们写出大量的低效代码,例如

data test;

set source.data;

keep name sex;

run;

上面这种代码在很多SAS教材里很常见,但是在大数据中这种代码是不被推荐的,因为它在输入时将整个source.data都读入了PDV,在输出的时候才删除,导致了大量的冗余操作。drop选项同理。上述代码实际上等价于

data test(keep=name sex);

set source.data;

run;

可以看到PDV在每次读入一个观测的时候将读入所有的变量。

 

rename=表达式

为变量重命名。唯一需要注意的是二级括号。

set sashelp.class(rename=(name=name_new sex=sex_new));

 

where=表达式

和rename一样,要用到二级括号

set sashelp.class(keep=sex where=(sex='M')

 

上述四个表达式选项都可以用sas sql实现,但是它们的效率远远胜过sql

 

in=变量

创建标识变量,标识当前观测是否属于某数据集

data myin;

set setone(in=ina) settwo(in=inb);

if ina=1 then flag=1;else flag=0;

run;

上述代码将setone和settwo纵向合并成一个,并生成一个新变量flag,表明观测来自于原来的哪个变量。in=选项的目的通常是为了对不同输入数据执行不同条件操作。

 

firstobs=常数和obs=常数选项

set sashelp.class(firstobs=3 obs=5);

读取class的第三到第五条观测并输出

 

注:我们发现获取一个数据集的子数据集的定位最快的方式应该是

set sashelp.class(firstobs=3 obs=6 keep=name age sex);

这样不会引起冗余读入。

 

以下是非数据集选项,即不带括号的options

 

nobs=变量,将数据集观测数传给临时变量(非输出变量)

data n_obs;

if 0 then set sashelp.class nobs=total_obs;

total=total_obs;

output;

stop;

run;

因为头文件信息在编译后就产生,这样一来if语句虽然不进行任何读入,但是nobs在编译时已经把观测数传给了total_obs.上述语句几乎是获得数据集观测数的最快的方式。

 

point=变量

data point1;

n=3;

set sashelp.class point=n;

output;

stop;

run;

获取第三条观测。注意不能写成point=3,因为point后面只能跟变量,也可以用point来获取一连串值,使用do循环:

data point2;

do n=3 to 11;

set sashelp.class point=n;

output;

end;

stop;

run;

注意stop语句绝对不能省略,否则进入死循环。

 

一个最实用的程序是快速获得最后一条观测

data mylastobs;

set sashelp.class nobs=last point=last;

output;

stop;

run;

程序在编译时nobs=观测总数就会传送给last变量,接下来程序读入class进入PDV,数据指针直接获取last值并读取最后一条数据,输出并停止Data步。

 

上述代码比朱世武教材快很多,朱书中是这样获取最后数据的

data zhu;

set sashelp.class end=obs_last;

if obs_last=1;

run;

这样的代码要读入所有数据直到发现是最后末尾才输出,显然前面nobs-1条读取操作都是没有用的。

 

end=选项就是是否结尾的标志

 

set的合并:

data conbine;

set set1 set2(obs=10);

run;

分配一个指针,生成一个PDV,顺序读入set1 set2,可以用in=选项验证。

 

data d1 d2;

set sashelp.class;

if _n_ le 10 then output d1;

else ouput d2;

run;

 

通常还有用的操作是set a;set b;操作。产生两个数据指针,一个PDV,与set a b不同的是,这是逐条依次读入PDV的,除非发现其中一条指针已经到达数据集结尾。一般要求a,b的读取数相同才使用这样的语句。

 

posted @ 2012-11-07 03:31  hilbertan  阅读(727)  评论(1编辑  收藏  举报