SAS笔记121107

data过程的一个误区是以为数据集是一起导入的。实际上数据是一个观测一个观测导入的。这期间会产生一个或多个数据指针，也可能产生一个或多个PDV。但data过程在涉及set/merge等语句时本身相当于一个循环过程。因此不谨慎的代码很容易造成冗余的读取操作，甚至可能死循环。

set语句

格式

set<sas-data-set(s)<(data-set-option(s))>><options>;

其中sas-data-set(s)是1个到50个的数据集，注意不同于数据集选项，options不需要括号。

数据集选项有

keep=变量（组）指定读入哪些变量到PDV

drop=变量（组）指定不读入哪些变量到PDV

注：用选项读入比用语句读入效率要高得多，但是一般书很少注意这一点，这导致人们写出大量的低效代码，例如

data test;

set source.data;

keep name sex;

run;

上面这种代码在很多SAS教材里很常见，但是在大数据中这种代码是不被推荐的，因为它在输入时将整个source.data都读入了PDV，在输出的时候才删除，导致了大量的冗余操作。drop选项同理。上述代码实际上等价于

data test(keep=name sex);

set source.data;

run;

可以看到PDV在每次读入一个观测的时候将读入所有的变量。

rename=表达式

为变量重命名。唯一需要注意的是二级括号。

set sashelp.class(rename=(name=name_new sex=sex_new));

where=表达式

和rename一样，要用到二级括号

set sashelp.class(keep=sex where=(sex='M')

上述四个表达式选项都可以用sas sql实现，但是它们的效率远远胜过sql

in=变量

创建标识变量，标识当前观测是否属于某数据集

data myin;

set setone(in=ina) settwo(in=inb);

if ina=1 then flag=1;else flag=0;

run;

上述代码将setone和settwo纵向合并成一个，并生成一个新变量flag，表明观测来自于原来的哪个变量。in=选项的目的通常是为了对不同输入数据执行不同条件操作。

firstobs=常数和obs=常数选项

set sashelp.class(firstobs=3 obs=5);

读取class的第三到第五条观测并输出

注：我们发现获取一个数据集的子数据集的定位最快的方式应该是

set sashelp.class(firstobs=3 obs=6 keep=name age sex);

这样不会引起冗余读入。

以下是非数据集选项，即不带括号的options

nobs=变量，将数据集观测数传给临时变量（非输出变量）

data n_obs;

if 0 then set sashelp.class nobs=total_obs;

total=total_obs;

output;

stop;

run;

因为头文件信息在编译后就产生，这样一来if语句虽然不进行任何读入，但是nobs在编译时已经把观测数传给了total_obs.上述语句几乎是获得数据集观测数的最快的方式。

point=变量

data point1;

n=3;

set sashelp.class point=n;

output;

stop;

run;

获取第三条观测。注意不能写成point=3，因为point后面只能跟变量，也可以用point来获取一连串值，使用do循环：

data point2;

do n=3 to 11;

set sashelp.class point=n;

output;

end;

stop;

run;

注意stop语句绝对不能省略，否则进入死循环。

一个最实用的程序是快速获得最后一条观测

data mylastobs;

set sashelp.class nobs=last point=last；

output;

stop;

run;

程序在编译时nobs=观测总数就会传送给last变量，接下来程序读入class进入PDV，数据指针直接获取last值并读取最后一条数据，输出并停止Data步。

上述代码比朱世武教材快很多，朱书中是这样获取最后数据的

data zhu;

set sashelp.class end=obs_last;

if obs_last=1;

run;

这样的代码要读入所有数据直到发现是最后末尾才输出，显然前面nobs-1条读取操作都是没有用的。

end=选项就是是否结尾的标志

set的合并：

data conbine;

set set1 set2(obs=10);

run;

分配一个指针，生成一个PDV，顺序读入set1 set2，可以用in=选项验证。

data d1 d2;

set sashelp.class;

if _n_ le 10 then output d1;

else ouput d2;

run;

通常还有用的操作是set a;set b;操作。产生两个数据指针，一个PDV，与set a b不同的是，这是逐条依次读入PDV的，除非发现其中一条指针已经到达数据集结尾。一般要求a,b的读取数相同才使用这样的语句。

posted @ 2012-11-07 03:31 hilbertan 阅读(727) 评论(1) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

SAS笔记121107

公告