小说网 找小说 无限小说 烟雨红尘 幻想小说 酷文学 深夜书屋
上一页 1 ··· 18 19 20 21 22 23 24 25 26 ··· 102 下一页

2014年8月31日

Linux企业级项目实践之网络爬虫(17)——存储页面

摘要: 在爬虫系统中数据的流量相当大,要处理的数据内容不仅包括爬虫系统的各种数据结构空间,而且包括从外部节点中得到的各种数据,比如HTTP请求,HTML页面,ROBOT.TXT等等。如果对这些内容处理不当,那么不仅造成空间的冗余浪费,使爬虫程序效率降低,而且还可能会使系统崩溃。所以,要有合适的空间分配策略... 阅读全文

posted @ 2014-08-31 23:05 牛栏山1 阅读(111) 评论(0) 推荐(0) 编辑

Linux企业级项目实践之网络爬虫(16)——使用base64传输二进制数据

摘要: 用http传输二进制的数据时,需要将二进制做一下转化,例如传输的int类型,将int类型之间转为char以后,丢失掉了长度的信息,如数字123456,本来只有4个字节,但是转化成文本的“123456”是有7个字节。在int类型的时候固然好办,但是一个数组的时候,经过转化以后,在转化回来就很麻烦了。... 阅读全文

posted @ 2014-08-31 23:02 牛栏山1 阅读(151) 评论(0) 推荐(0) 编辑

Linux企业级项目实践之网络爬虫(15)——区分文本文件和二进制文件

摘要: HTTP协议支持文本和二进制文件传输。最常见的html格式的页面即文本,图片、音乐等为二进制文件。我们要对这两类文件加以区分并分别处理。static char * BIN_SUFFIXES = ".jpg.jpeg.gif.png.ico.bmp.swf";static int is_bin_ur... 阅读全文

posted @ 2014-08-31 22:56 牛栏山1 阅读(109) 评论(0) 推荐(0) 编辑

Linux企业级项目实践之网络爬虫(14)——使用正则表达式抽取HTML正文和URL

摘要: 正则表达式,又称正规表示法、常规表示法(英语:Regular Expression,在代码中常简写为regex、regexp或RE),计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列符合某个句法规则的字符串。在很多文本编辑器里,正则表达式通常被用来检索、替换那些符合某个模式的文本。... 阅读全文

posted @ 2014-08-31 22:50 牛栏山1 阅读(75) 评论(0) 推荐(0) 编辑

Linux企业级项目实践之网络爬虫(13)——处理user-agent

摘要: User Agent即用户代理,是Http协议中的一部分,属于头域的组成部分,User Agent也简称UA。它是一个特殊字符串头,是一种向访问网站提供你所使用的浏览器类型及版本、操作系统及版本、浏览器内核、等信息的标识。通过这个标识,用户所访问的网站可以显示不同的排版从而为用户提供更好的体验或者... 阅读全文

posted @ 2014-08-31 22:43 牛栏山1 阅读(101) 评论(0) 推荐(0) 编辑

Linux企业级项目实践之网络爬虫(12)——处理HTTP应答头

摘要: Web服务器的HTTP应答一般由以下几项构成:一个状态行,一个或多个应答头,一个空行,内容文档。设置HTTP应答头往往和设置状态行中的状态代码结合起来。例如,有好几个表示“文档位置已经改变”的状态代码都伴随着一个Location头,而401(Unauthorized)状态代码则必须伴随一个WWW-... 阅读全文

posted @ 2014-08-31 22:35 牛栏山1 阅读(101) 评论(0) 推荐(0) 编辑

Linux企业级项目实践之网络爬虫(11)——处理http请求头

摘要: http请求头,HTTP客户程序(例如浏览器),向服务器发送请求的时候必须指明请求类型(一般是GET或者POST)。如有必要,客户程序还可以选择发送其他的请求头。HTTP客户程序(例如浏览器),向服务器发送请求的时候必须指明请求类型(一般是GET或者POST)。如有必要,客户程序还可以选择发送其他... 阅读全文

posted @ 2014-08-31 22:35 牛栏山1 阅读(109) 评论(0) 推荐(0) 编辑

Linux企业级项目实践之网络爬虫(10)——处理HTTP状态码

摘要: HTTP状态码(HTTP Status Code)是用以表示网页服务器HTTP响应状态的3位数字代码。所有状态码的第一个数字代表了响应的五种状态之一。他们分别是:消息(1字头)成功(2字头)这一类型的状态码,代表请求已成功被服务器接收、理解、并接受。重定向(3字头)这类状态码代表需要客户端采取进一... 阅读全文

posted @ 2014-08-31 22:25 牛栏山1 阅读(91) 评论(0) 推荐(0) 编辑

Linux企业级项目实践之网络爬虫(9)——通过URL抓取网页内容

摘要: 基本URL包含模式(或称协议)、服务器名称(或IP地址)、路径和文件名,如“协议://授权/路径?查询”。完整的、带有授权部分的普通统一资源标志符语法看上去如下:协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志爬虫系统要处理的URL是指使用超文本传输协... 阅读全文

posted @ 2014-08-31 22:19 牛栏山1 阅读(120) 评论(0) 推荐(0) 编辑

Linux企业级项目实践之网络爬虫(8)——认识URL

摘要: URL是Uniform Resource Location的缩写,译为“统一资源定位符”。也可以说,URL是Internet上用来描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL的格式由三部分组... 阅读全文

posted @ 2014-08-31 22:08 牛栏山1 阅读(111) 评论(0) 推荐(0) 编辑

上一页 1 ··· 18 19 20 21 22 23 24 25 26 ··· 102 下一页

导航