一只简单的网络爬虫(基于linux C/C++)————读取命令行参数及日志宏设计
linux上面的程序刚开始启动的时候一般会从命令行获取某些参数,比如以守护进程运行啊什么的,典型的例子就是linux下的man,如下图所示
实现该功能可以使用getopt函数实现,该函数在头文件unistd.h定义
函数原型
int getopt(int argc,char * const argv[ ],const char * optstring);
函数说明
getopt()用来分析命令行参数。参数argc和argv是由main()传递的参数个数和内容。参数optstring 则代表欲处理的选项字符串。此函数会返回在argv 中下一个的选项字母,此字母会对应参数optstring 中的字母。如果选项字符串里的字母后接着冒号“:”,则表示还有相关的参数,全域变量optarg 即会指向此额外参数。如果getopt()找不到符合的参数则会印出错信息,并将全域变量optopt设为“?”字符,如果不希望getopt()印出错信息,则只要将全域变量opterr设为0即可。
短参数的定义
getopt()使用optstring所指的字串作为短参数列表,象”1ac:d::”就是一个短参数列表。短参数的定义是一个’-‘后面跟一个字母或数字,象-a, -b就是一个短参数。每个数字或字母定义一个参数。
其中短参数在getopt定义里分为三种:
1. 不带值的参数,它的定义即是参数本身。
2. 必须带值的参数,它的定义是在参数本身后面再加一个冒号。
3. 可选值的参数,它的定义是在参数本身后面加两个冒号 。
在这里拿上面的”1ac:d::”作为样例进行说明,其中的1,a就是不带值的参数,c是必须带值的参数,d是可选值的参数。
在实际调用中,’-1 -a -c cvalue -d’, ‘-1 -a -c cvalue -ddvalue’, ‘-1a -ddvalue -c cvalue’都是合法的。这里需要注意三点:
1. 不带值的参数可以连写,象1和a是不带值的参数,它们可以-1 -a分开写,也可以-1a或-a1连写。
2. 参数不分先后顺序,’-1a -c cvalue -ddvalue’和’-d -c cvalue -a1’的解析结果是一样的。
3. *要注意可选值的参数的值与参数之间不能有空格*,必须写成-ddvalue这样的格式,如果写成-d dvalue这样的格式就会解析错误。
返回值
getopt()每次调用会逐次返回命令行传入的参数。
当没有参数的最后的一次调用时,getopt()将返回-1。
当解析到一个不在optstring里面的参数,或者一个必选值参数不带值时,返回’?’。
当optstring是以’:’开头时,缺值参数的情况下会返回’:’,而不是’?’ 。
读取命令行参数函数可如下设计:
// 解析命令行参数
//getopt为标准库的函数,判断传进来的参数是否是后面参数集合的一部分
while ((ch = getopt(argc, (char* const*)argv, "vhd")) != -1)
{//这里要做一个类型转换,否则出错
switch(ch)
{
case 'v'://获取版本
version();
break;
case 'd'://守护进程
daemonized = 1;
break;
case 'h'://获取帮助
case '?':
default:
usage();
}
}
根据返回值跳转到不同的函数执行。
日志宏
下面说说日志宏的实现,日志对于服务器程序或其他长期运行的,以守护进程方式运行的程序来说是非常重要的,除了发生错误的时候查看,在开发的时候输出调试信息更是有利于我们的开发,应该有不少的人会觉得用日志信息来调试会比使用gdb调试好。muduo库里面封装了很好的日志类,并且支持日志滚动,高效异步日志,实现了一个较好的日志功能,当然,我们并不用也去开发一个那样强大的日志库,“不要重复发明轮子”,学习是可以的,因为这个爬虫并不是用muduo库写的,而且我们的要求并没有那么高,所以我们可以自己实现一个简单的日志功能。
个人觉得日志一般应该包括时间,文件,所在行,日志等级,以及我们自己要输出的信息
一个简单的日志宏可以如下实现:
#define MAX_MESG_LEN 1024
#define SPIDER_LEVEL_DEBUG 0
#define SPIDER_LEVEL_INFO 1
#define SPIDER_LEVEL_WARN 2
#define SPIDER_LEVEL_ERROR 3
#define SPIDER_LEVEL_CRIT 4
static const char * LOG_STR[] = {
"DEBUG",
"INFO",
"WARN",
"ERROR",
"CRIT"
};
extern Config *g_conf;
//可变参数
//输出日期,时间,日志级别,源码文件,行号,信息
//'\'后面不要加注释
#define SPIDER_LOG(level, format, ...) do{ \
if (level >= g_conf->log_level) {\
time_t now = time(NULL); \
char msg[MAX_MESG_LEN]; \
char buf[32]; \
sprintf(msg, format, ##__VA_ARGS__); \
strftime(buf, sizeof(buf), "%Y%m%d %H:%M:%S", localtime(&now)); \
fprintf(stdout, "[%s] [%s] [file:%s] [line:%d] %s\n", buf, LOG_STR[level],__FILE__,__LINE__, msg); \
fflush (stdout); \
}\
if (level == SPIDER_LEVEL_ERROR) {\
exit(-1); \
} \
} while(0)
fprintf(stdout, “[%s] [%s] [file:%s] [line:%d] %s\n”, buf, LOG_STR[level],FILE,LINE, msg);这个是核心的输出函数,从左到右一次输出时间,日志等级,文件,所在行号,以及我们的信息。
VA_ARGS是一个可变参数宏,可以帮助我们把我们要输出的信息按照我们所要求的特定格式写进数组msg中,可见这里
FILE和LINE(前后都是双下划线,这里显示不出来)用于获取文件和行号
日志宏不仅是只能输出到终端,即一般日志应该能够写到文件中,特别是在以守护进程方式运行的时候,我们不希望终端上出现任何的消息,而是需要的时候采取查看日志文件,这里可以简单地实现下这个功能。
在以守护进程方式运行的时候,使用dup2函数将日志文件的文件描述符复制到标准输出stdout中,这样一来,输出到stdout的内容都将写到文件中,当然我们这里只是为了实现这个功能而已,效率及其他不做考虑,大并发的日志设计可以参考muduo库
该日志的输出效果如下: