小说网 找小说 无限小说 烟雨红尘 幻想小说 酷文学 深夜书屋

2014年8月28日

Linux企业级项目实践之网络爬虫(5)——处理配置文件

摘要: 配置文件在Linux下使用得非常普遍,但是Linux下没有统一个配置文件标准。我们把配置文件的规则制定如下:1、把“#”视作注释开始2、所有的配置项都都是以键值对的形式出现3、严格区分大小写4、允许数据类型为整型的配置项5、允许数据类型为字符串类型的配置项6、允许数据类型为逻辑型的配置项,取值为y... 阅读全文

posted @ 2014-08-28 01:31 牛栏山1 阅读(118) 评论(0) 推荐(0) 编辑

Linux企业级项目实践之网络爬虫(3)——设计自己的网络爬虫

摘要: 网络抓取系统分为核心和扩展组件两部分。核心部分是一个精简的、模块化的爬虫实现,而扩展部分则包括一些便利的、实用性的功能。目标是尽量的模块化,并体现爬虫的功能特点。这部分提供简单、灵活的API,在基本不改变开发模式的情况下,编写一个爬虫。扩展组件部分提供一些扩展的功能,内置了一些常用的组件,便于对爬... 阅读全文

posted @ 2014-08-28 01:15 牛栏山1 阅读(139) 评论(0) 推荐(0) 编辑

Linux企业级项目实践之网络爬虫(4)——主程序流程

摘要: 当我们设计好程序框架之后就要开始实现它了。第一步当然是要实现主程序的流程框架。之后我们逐渐填充每个流程的细节和其需要调用的模块。 主程序的流程如下:1、 解析命令行参数,并根据参数跳转到相应的处理分支2、 解析配置文件3、 载入处理模块4、 加载种子URL5、 启动抓取任务 主程序的代码... 阅读全文

posted @ 2014-08-28 01:14 牛栏山1 阅读(140) 评论(0) 推荐(0) 编辑

Linux企业级项目实践之网络爬虫(1)——项目概述及准备工作

摘要: 我们在学习了Linux系统编程之后,需要一些实战项目来提高自己的水平,本系列我们通过编写一个爬虫程序,将我们学习的知识进行综合应用,同时在实现项目的过程中逐渐养成一些有用的思维方式,并具有初步的软件开发思想。网络爬虫是搜索引擎的一个重要基本功能。由于互联网上的信息非常庞大,我们借... 阅读全文

posted @ 2014-08-28 01:11 牛栏山1 阅读(199) 评论(0) 推荐(0) 编辑

Linux企业级项目实践之网络爬虫(2)——网络爬虫的结构与工作流程

摘要: 网络爬虫是捜索引擎抓取系统的重要组成部分。爬虫的主要目的是将互联网上的网页下载到本地形成一个或联网内容的镜像备份。一个通用的网络爬虫的框架如图所示:网络爬虫的基本工作流程如下:1.首先选取一部分精心挑选的种子URL;2.将这些URL放入待抓取URL队列;3.从待抓取URL队列中取出待抓取在URL,... 阅读全文

posted @ 2014-08-28 01:10 牛栏山1 阅读(142) 评论(0) 推荐(0) 编辑

导航