Socket网络编程--网络爬虫(2)

　　上一小节，我们实现了下载一个网页。接下来的一步就是使用提取有用的信息。如何提取呢？一个比较好用和常见的方法就是使用正则表达式来提取的。想一想我们要做个什么样的网络爬虫好呢？我记得以前好像博客园里面有人写过一个提取博客园用户名的博客。我这次就实现这个好了。

　　第一步我们要分析博客园一个URL的组成，我们每一个用户对应都有这样的一个主目录http://www.cnblogs.com/XXXXXXX 这样的一个主页(现在有了http://XXXXXXX.cnblogs.com这样的主页了，但是不常用)。所以我们判断一个字符串是不是博客园的有效用户，我们的做法就是提取一个像上面一样的URL，然后截取后面的用户名即可。

　　带正则表达式的网页下载程序

 1 #include <stdio.h>
 2 #include <stdlib.h>
 3 #include <string.h>
 4 #include <sys/types.h>
 5 #include <sys/socket.h>
 6 #include <unistd.h>
 7 #include <netdb.h>
 8 #include <netinet/in.h>
 9 #include <arpa/inet.h>
10 #include <regex.h>//正则表达式
11 
12 #define BUF_SIZE 512
13 
14 int reptile_regex(char * buf,char *pattern);
15 
16 char ch[100000];//100k
17 
18 int main(int argc,char *argv[])
19 {
20     struct sockaddr_in servAddr;
21     struct hostent * host;
22     int sockfd;
23     char sendBuf[BUF_SIZE],recvBuf[BUF_SIZE];
24     int sendSize,recvSize;
25 
26     host=gethostbyname(argv[1]);
27     if(host==NULL)
28     {
29         perror("dns 解析失败");
30     }
31     servAddr.sin_family=AF_INET;
32     servAddr.sin_addr=*((struct in_addr *)host->h_addr);
33     servAddr.sin_port=htons(atoi(argv[2]));
34     bzero(&(servAddr.sin_zero),8);
35 
36     sockfd=socket(AF_INET,SOCK_STREAM,0);
37     if(sockfd==-1)
38     {
39         perror("socket 创建失败");
40     }
41 
42     if(connect(sockfd,(struct sockaddr *)&servAddr,sizeof(struct sockaddr_in))==-1)
43     {
44         perror("connect 失败");
45     }
46 
47     //构建一个http请求
48     sprintf(sendBuf,"GET / HTTP/1.1 \r\nHost: %s \r\nConnection: Close \r\n\r\n",argv[1]);
49     if((sendSize=send(sockfd,sendBuf,BUF_SIZE,0))==-1)
50     {
51         perror("send 失败");
52     }
53     //获取http应答信息
54     memset(recvBuf,0,sizeof(recvBuf));
55     memset(ch,0,sizeof(ch));
56     char pattern[128]={0};
57     strcpy(pattern,"http://www.cnblogs.com/[[:alnum:]]*/");
58     while(recvSize=recv(sockfd,recvBuf,BUF_SIZE,0)>0)
59     {
60         //printf("%s",recvBuf);
61         strcat(ch,recvBuf);
62         memset(recvBuf,0,sizeof(recvBuf));
63     }
64     reptile_regex(ch,pattern);
65 
66     return 0;
67 }
68 
69 
70 //第一个参数是要匹配的字符串，第二个参数是匹配的规则,返回匹配的个数
71 int reptile_regex(char * buf,char *pattern)
72 {
73     size_t nmatch=100;//最多匹配100个一次
74     regmatch_t pm[100];//与上面对应
75     regex_t reg;//正则表达式指针
76     regcomp(&reg,pattern,0);//编译匹配模式
77     int z=regexec(&reg,buf,nmatch,pm,0);
78     if(z==REG_NOMATCH)
79     {
80         ;//本次没有匹配到
81     }
82     else
83     {
84         for(int i=0;i<100&&pm[i].rm_so!=-1;++i)
85         {
86             for(int j=pm[i].rm_so;j<pm[i].rm_eo;++j)
87             {
88                 printf("%c",buf[j]);
89             }
90             //上面的遍历可以用下面函数代替
91             //printf("%d=%s\n",i,substr(buf,pm[i].rm_so,pm[i].rm_eo));
92             printf("\n");
93         }
94     }
95     regfree(&reg);
96     return 0;
97 }

　　本来一开始以为这样就可以了，可是没想到每次都是匹配到第一个而已，后面怎么都匹配不到，还以为是正则写错了，但是就那么几个怎么可能错了。最后找到一篇博客，才知道，一次调用regexec是没有办法全部匹配出来的。要进行多次。哎，怎么这么麻烦呀。

　　带正则表达式的网页下载程序修改版

　　将reptile_regex函数修改如下即可实现多次匹配

 1 int reptile_regex(char * buf,char *pattern)
 2 {
 3     size_t nmatch=10;//最多匹配100个一次
 4     regmatch_t pm[10];//与上面对应
 5     regex_t reg;//正则表达式指针
 6     char * str;
 7     str=buf;
 8     regcomp(&reg,pattern,0);//编译匹配模式
 9     while(regexec(&reg,str,nmatch,pm,0)!=REG_NOMATCH)
10     {
11         for(int j=pm[0].rm_so;j<pm[0].rm_eo;++j)
12         {
13             printf("%c",str[j]);
14         }
15         //printf("%d=%s\n",i,substr(buf,pm[i].rm_so,pm[i].rm_eo));
16         printf("\n");
17         str=str+pm[0].rm_eo;
18     }
19     regfree(&reg);
20     return 0;
21 }

　　好了，现在可以多次匹配了，但是又出现一个问题了，问题就是会有重复的用户名出现。如何避免呢？一个办法是把用户名保存起来，然后来一个用户名就一个一个进行比较，看是否有相同，如果都没有就加入到用户名组里面去。依次类推。不过一般爬虫爬到的用户名都会比较多，如果这样O(N)的比较效率不是很高，可以通过HASH降低为O(1)。但是设计一个hash函数比较麻烦，为了方便，我就使用一个map来处理，效率还好有O(logN)。

　　防止重复后的网页下载程序

  ...
 22 int main(int argc,char *argv[])
 23 {
 　　　　...
 30     map<string,int> user;//第一个是用户名，第二个保存被加入的次数
 31 
　　　　...
 70     reptile_regex(ch,pattern,user);
 71     map<string,int>::iterator it;
 72     for(it=user.begin();it!=user.end();++it)
 73     {
 74         cout<<it->first<<endl;
 75     }
 76 
 77     return 0;
 78 }
 79 
 80 
 81 //第一个参数是要匹配的字符串，第二个参数是匹配的规则,返回匹配的个数
 82 int reptile_regex(char * buf,char *pattern,map<string,int> & user)
 83 {
 84     size_t nmatch=10;
 85     regmatch_t pm[10];
 86     regex_t reg;//正则表达式指针
 87     char * str;
 88     char ch[32];
 89     int i,j;
 90     str=buf;
 91     regcomp(&reg,pattern,0);//编译匹配模式
 92     while(regexec(&reg,str,nmatch,pm,0)!=REG_NOMATCH)
 93     {
 94         //http://www.cnblogs.com/
 95         i=pm[0].rm_so+23;
 96         for(j=i;j<pm[0].rm_eo;++j)
 97         {
 98             //printf("%c",str[j]);
 99             ch[j-i]=str[j];
100         }
101         ch[j-i]=0;
102         string st(ch);
103         user[st]++;
104         //printf("%s",ch);
105         //printf("%d=%s\n",i,substr(buf,pm[i].rm_so,pm[i].rm_eo));
106         //printf("\n");
107         str=str+pm[0].rm_eo;
108     }
109     regfree(&reg);
110     return 0;
111 }

　　这样就把所有查询到的用户名都保存在users中了。而且对应的int还保存了查询到的次数。这个还可以在以后用来判断该用户的博客是否经常被人提及到的一个参考值。

　　参考资料:

　　正则表达式匹配多个问题: http://blog.163.com/lixiangqiu_9202/blog/static/53575037201412311211291/

　　本文地址: http://www.cnblogs.com/wunaozai/p/3900169.html

posted @ 2014-08-09 10:57 无脑仔的小明阅读(2038) 评论(1) 编辑收藏举报

刷新页面返回顶部

无脑仔的小明

---- 努力变得更好, 让我喜欢的人, 喜欢我.

Socket网络编程--网络爬虫(2)

公告