学了C语言,如何利用cURL写一个程序验证某个网址的有效性?
2013-11-03 11:27 kingshow 阅读(1715) 评论(0) 编辑 收藏 举报在《C程序设计伴侣》以及这几篇关于cURL的文章中,我们介绍了如何利用cURL写一个下载程序,从网络下载文件。可是当我们在用这个程序下载文件时,又遇到了新问题:如果这个网址是无效的,那么我们的下载会失败,这就意味着我们在进行下载之前,需要对这个文件的网址的有效性进行验证。另外一个需要对网址进行验证的场景是,在C++11 FAQ中文版中有很多链接,因为一些后期的维护,其中的有些链接可能会失效,这就要求我们对其中的链接的有效性进行检查验证,及时地发现失效链接并进行维护。 以上这些场景下,都要求我们对网址(URL)的有效性进行验证,那么这一工作如何进行呢? 难道将需要验证的网址一个个复制到浏览器中试试看? 如果我们没有用《C程序设计伴侣》学过C语言,我们可以这样做,只是麻烦了一点,如果网址比较少还可以,如果是想验证C++11 FAQ中文版中的所有链接,恐怕就只有手抽筋的份了。 幸运的是,我们学了C语言,知道了如何利用cURL函数库来编写程序,让程序来帮我们完成这些繁杂而有规律的工作。 在学了C语言,如何利用CURL写一个下载程序?——用nmake编译CURL并安装这篇文章中,我们对cURL做了一个简单的介绍,它是一个可以用来处理各种网络事务的函数库,可以用来下载文件,自然也可以用来验证某个网址的有效性。在cURL函数库中,提供了一个curl_easy_getinfo()函数,利用这个函数,我们可以获得一个CURL网络会话的HTTP状态代码,根据服务器返回的状态码,我们就可以判断这个网址是否有效了。 当我们用curl_easy_setopt()函数设置好一个CURL网络会话的参数(URL,请求内容,响应时间等)之后,就可以用curl_easy_perform()函数来执行这个会话,向服务器发起一个连接请求,服务器就会根据情况(所请求的文件是否存在等)做出响应,返回相应的状态码。比如,最常见的404状态码表示请求失败,请求所希望得到的资源未被在服务器上发现。而200就表示请求得到正确响应。换句话说,只要某个请求的状态码是200,就意味着这个网址是有效的,而如果是其他数值,就意味着这个网址有点问题了。更多状态码的意义,可以参考维基百科上的介绍。 按照上面的思路,利用cURL函数库,我们可以将这个程序实现如下:
// checkurl.c 验证URL的有效性 #include <curl/curl.h> #include <stdio.h> #include <stdbool.h> // 为了避免屏幕输出而定义的空的写数据函数 // 不写入任何数据,只是返回应该写入的数据的字节数 // 假装已经成功写入了这么多数据 size_t processdata(void *buffer, size_t size, size_t nmemb, void *user_p) { return nmemb; } bool checkurl(char* url) { // 获得一个CURL会话,进行网络操作 CURL* handle = curl_easy_init(); if(NULL != handle && NULL != url) { // 设置本次会话的参数 // URL,就是我们要验证的网址 curl_easy_setopt(handle,CURLOPT_URL,url); // 设置连接超时 curl_easy_setopt(handle,CURLOPT_CONNECTTIMEOUT,5); // 只是获取HTML的header curl_easy_setopt(handle,CURLOPT_HEADER,true); curl_easy_setopt(handle,CURLOPT_NOBODY,true); // 设置最大重定向数为0,不允许页面重定向 curl_easy_setopt(handle,CURLOPT_MAXREDIRS,0); // 设置一个空的写入函数,屏蔽屏幕输出 curl_easy_setopt(handle,CURLOPT_WRITEFUNCTION,&processdata); // 以上面设置的参数执行这个会话,向服务器发起请求 curl_easy_perform(handle); // 获取HTTP的状态代码 // 根据代码判断网址是否有效 int retcode = 0; curl_easy_getinfo(handle, CURLINFO_RESPONSE_CODE , &retcode); bool res = false; // 如果HTTP反应代码为200,表示网址有效 if(200 == retcode) { res = true; } // 执行会话的清理工作 curl_easy_cleanup(handle); return res; } else // 无法验证 { return false; } } int main(int argc,char* argv[]) { // 检查参数 if( 2 != argc ) { puts("arguments error. e.g. checkurl www.blogger.com"); return -1; } // cURL的全局初始化 CURLcode res = curl_global_init(CURL_GLOBAL_ALL); if(CURLE_OK != res) { puts("error: cannot init cURL"); return -1; } // 验证网址的有效性 bool available = checkurl(argv[1]); // 进行cURL的全局清理工作 curl_global_cleanup(); // 输出验证结果 if(available) { printf("%s works fine.",argv[1]); } else { printf("%s seems to be unavailable.",argv[1]); } return 0; }
按照我们在学了C语言,如何利用cURL写一个下载程序?——在MinGW环境下实现中介绍的方法,我们可以用如下的方式编译和使用这个网址验证程序:
F:\code>gcc checkurl.c -lcurldll -o checkurl.exe
F:\code>checkurl.exe chenlq.net chenlq.net works fine. F:\code>checkurl.exe www.blogger.com www.blogger.com seems to be unavailable. F:\code>
这下,我们对哪些网站(chenlq.net)可以访问,哪些网站(www.blogger.com)打不开,就可以轻松验证了。有了这个程序,要想验证大量的网址也不是一件难事,这真的是学好C语言,走遍天下都不难。