【SAS BASE】Debuging SAS Programs

 


SAS Program的错误主要有三类:

  • Programing Logic Errors(How to identify and resolve);
  • Syntax errors(How to recogize anc correct);
  • Data errors(How to examine and resolve.

如何写一个高效的SAS Program:

  • 尽可能写易读的代码;(每一句话一行、使用缩进排版方式、多使用注释)

  • 测试Program的任意一个部分
  • 用小数据集测试Program(例如用OBS等选项)
  • 采用对语法敏感的程序编辑器(SAS Keywords 是一种颜色,Variable则是另外一种颜色;所有被银行括起来的文本呈现同一颜色)

检查语法错误的方法

1 OPTIONS OBS=0 NOREPLACE;
2       /*1) OBS=0告诉SAS不要导入任何数据
3          2)NOREPLACE选项告诉SAS不要用现有SAS数据集代替空的*/
4 确定无语法错误后,可将OBS=0改成OBS=MAX即正常使用。

 

Missing Semicolon引起的错误(DATASTMTCHK系统选项)

         (若用户丢了分号,则SAS将两句合并在一起读,从而产生puzzling的提示信息)

 

1 OPTIONS DATASTMTCHK=ALLKEYWORDS:/*命令SAS所有的关键词都不能作为数据集名*/
2 DATA toads /*漏了一个分号*/
3     INFILE 'C:\MyRawData\ToadJump.dat';
4     INPUT ToadName $ Weight Jump1 Jump2 Jump3;
5 RUN;
6 
7 【日志提示】:ERROR :INFILE is not allowed in the DATA statement when option DATASTMTCHK=ALLKEYWORDS.
8      
9 【解释】DATASMTCHK system options,可控制SAS在DATA步中可用作SAS数据集名。该选项默认MERGE,RETAIN,SET或UPDATE都不能作为数据集的名字.

 

Note: INPUT Statement Reached Past the End of the Line

【解决办法】
1  INFILE 'C:\MyRawData\Toadjmp2.dat' MISSOVER;
2 /*MISSOVER option命令SAS在读入数据时,若改行数据已读完,而后面仍有变量没有读入,则给剩余的变量分配missing values*/

 

 【可能错误原因】

  • 数据本来就是如此
  • 数据的开头或结尾的空格(查看SAS LOG的mininmum line length,若为0,则说明有空格列,应删掉)
  • 采用了list input,但是有的值之间没有空格,被当成了一个值读入;
  • 若有写数据行比其余的要宽,但此时仍采用了column 或formatted导入。(应在INFILE语句后面加上TRUNCOVER选项)。

 

Note: Lost Card

          该提示说明SAS在expecting读入下一行数据,然而却找不到这行数据。例如,每个观测需读入2行数据,则SAS数据集应该有偶数行数据,若只有奇数行,则日志会提示Lost Card信息。

Note: Invalid Data

       读入的数据域INPUT语句不符合,而导致SAS不能从原始数据中读入数据。这是SAS可能会做出两种反映:分配该变量missing values;或者在日志中打印出一个类似于probliematic观测的提示。

 【可能错误原因】

  • 本该是numeric定义的变量出现了字符型的观测值,例如数字0与字母O混淆;
  • 用户忘记定义某变量为字符型,而SAS系统自动默认为数值型
  • 错误的column specifications也许会在numeric数据中产生内置空格;
  • list-style input时,在同一行中同时出现两个periods(..),但是中间没有空格;
  • list-style input时,缺失值没有用periods(.)标记,导致SAS读入下一个数据;
  • special字符(例如tab键等)出现在numeric数据中;
  • 用错了informat,例如用MMDDYY.代替了DDMMYY.);
  • 无效日期,单用DATE格式读入,例如September 31.

【备注】:1. 当SAS遇到unprintable(例如,16进制格式等),也会在日志中出现“invalid data”的提示;

              2. 有时候用户需要运行此程序,为了保证_ERROR_=0,采用??——format modifier将此变量变为missing value:

1 INPUT IDNumber ?? 1-5 Name $ 6-18 Class $ 20-21 Q1 22 Q2 23;

 

 

 Note: Numeric Values have been converted to character, Vice Versa

      若用户把numeric变量与character变量弄混时,SAS就自动尝试将numeric转化为character,或将character转化为numeric,这种情况就会在日志中体现出来。

【Converting Variables】

  • character转化为numeric: newvar=INPUT(oldvar,informat)

         就行INPUT语句中使用informat一样,INPUT函数中使用informat,且informat必须是oldvar的输入格式,converting to的numeric data type默认为8个字符。

  • numeric转化为character: newvar=PUT(oldvar,format)

         就行PUT语句中使用format一样,PUT函数中使用format,其中oldvar为数值型(包括日期型),且format必须是用户需要converting to的character的data type.

 错误类型:DATA步的结果是错的,但是并没有提示Error Message

       事实上,在使用PUT语句时,若未与FILE语句一起使用则只写入日志;若与FILE语句一起使用,则不会被写入日志。为解决这一类型为题,应采用PUTLOG语句,功能与PUT语句一样,但是不管是否与FILE语句一起使用,都会被写入日志。

1 *Keep only students with mean below 70;
2 DATA Lowscore;
3      INFILE 'C:\MyRawData\Class.dat';
4      INPUT Name $ Score1 Score2 Score3 Homework;
5      Homework = Homework *2;
6      AverageScore=Mean(Score1+Score2+Score3+Homework);
7      PUTLOG Name= Score1= Score2= Score3= Homework=;/PUTLOG _ALL_;/*会输出IF语句之前各变量的值*/
8      IF AverageScore<70;
9 RUN;

 

Error: Statment Is Not Valid

    说明SAS can't  understand the statement at all.

 【可能原因】

  • 错误的拼写keyword;
  • 错误的分号(中英文混淆);
  • 在PROC步中使用仅能在DATA步内使用的语句,反之亦然;
  • 在DATA步或PROC步内部有RUN语句;
  • 虽然options正确,但是语句错误;
  • 引号不匹配
  • comment的符号不匹配。

 

Error: Variable is Uninitalized或Error:Variable Not Found

Error: Variable is Uninitalized:出现在DATA步内,说明用户需要初始化变量,然后重新执行此program;

Error:Variable Not Found:出现在PROC步,若错误出现在VAR上,则SAS会提示该信息,然后不执行程序;若错误出现在label上,则SAS会提示警告,并继续执行。

【可能原因】

  • 错误的拼写变量名;
  • 使用了之前已经drop掉的变量;
  • 没有正确引用数据集;
  • 有逻辑错误。

 

posted @ 2014-07-25 22:14  chenyn68  阅读(1289)  评论(0编辑  收藏  举报