2016年8月5日

Python即时网络爬虫项目: 内容提取器的定义(Python2.7版本)

摘要: 在Python 即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间太多了(见上图),从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作中。这个项目推出以后受到很大关注,因为开放源码,大家可以在现成源码基础上进一步开发。 阅读全文

posted @ 2016-08-05 11:40 华天清 阅读(572) 评论(0) 推荐(0) 编辑

2016年7月21日

Python爬虫实战(4):豆瓣小组话题数据采集—动态网页

摘要: 注释:上一篇《Python爬虫实战(3):安居客房产经纪人信息采集》,访问的网页是静态网页,有朋友模仿那个实战来采集动态加载豆瓣小组的网页,结果不成功。本篇是针对动态网页的数据采集编程实战。 阅读全文

posted @ 2016-07-21 10:00 华天清 阅读(1333) 评论(0) 推荐(0) 编辑

2016年7月18日

Python爬虫实战(3):安居客房产经纪人信息采集

摘要: 本实战是上图中的“独立python爬虫”的一个实例,以采集安居客房产经纪人信息为例,记录整个采集流程,包括python和依赖库的安装,即便是python初学者,也可以跟着文章内容成功地完成运行。 阅读全文

posted @ 2016-07-18 10:25 华天清 阅读(1623) 评论(0) 推荐(1) 编辑

2016年7月15日

Python信息采集器使用轻量级关系型数据库SQLite

摘要: Python自带一个轻量级的关系型数据库SQLite。这一数据库使用SQL语言。SQLite作为后端数据库,可以搭配Python建网站,或者为python网络爬虫存储数据。SQLite还在其它领域有广泛的应用,比如HTML5和移动端。 阅读全文

posted @ 2016-07-15 10:24 华天清 阅读(1098) 评论(0) 推荐(0) 编辑

2016年7月6日

Python网页信息采集:使用PhantomJS采集淘宝天猫商品内容

摘要: 最近一直在看Scrapy 爬虫框架,并尝试使用Scrapy框架写一个可以实现网页信息采集的简单的小程序。尝试过程中遇到了很多小问题,希望大家多多指教。 阅读全文

posted @ 2016-07-06 11:59 华天清 阅读(4551) 评论(1) 推荐(0) 编辑

2016年7月4日

让Scrapy的Spider更通用

摘要: 《Scrapy的架构初探》一文所讲的Spider是整个架构中最定制化的一个部件,Spider负责把网页内容提取出来,而不同数据采集目标的内容结构不一样,几乎需要为每一类网页都做定制。我们有个设想:是否能做一个比较通用的Spider,把定制部分再进一步隔离出去? 阅读全文

posted @ 2016-07-04 09:54 华天清 阅读(252) 评论(0) 推荐(0) 编辑

2016年6月30日

API例子:用Python驱动Firefox采集网页数据

摘要: 本文讲解怎样用Python驱动Firefox浏览器写一个简易的网页数据采集器。GooSeeker整个Python开源爬虫项目将与Scrapy(基于twisted的异步网络框架)集成,所以本例将使用Scrapy采集淘宝这种含有大量ajax代码的网页数据,但是要注意本例一个严重缺陷:用Selenium加载网页的过程发生在Spider中,破坏了Scrapy的架构原则。 阅读全文

posted @ 2016-06-30 10:08 华天清 阅读(1855) 评论(0) 推荐(0) 编辑

2016年6月28日

API例子:用Java/JavaScript下载内容提取器

摘要: 本文讲解怎样用Java和JavaScript使用 GooSeeker API 接口下载内容提取器,这是一个示例程序。 阅读全文

posted @ 2016-06-28 14:30 华天清 阅读(375) 评论(0) 推荐(0) 编辑

2016年6月23日

Python即时网络爬虫:API说明

摘要: 通过这个API接口,你可以直接获得一个调测好的提取器脚本程序,是标准的XSLT程序,您只需针对目标网页的DOM运行它,就能获得XML格式的结果,所有字段一次性获得。 阅读全文

posted @ 2016-06-23 10:27 华天清 阅读(2070) 评论(0) 推荐(0) 编辑

2016年6月21日

Python: xml转json

摘要: 在web集成和网站前端领域,JSON越来越普遍,在Scrapy架构中,Scrapy dict数据结构本质上就是json,所以,由XML格式转换成JSON格式很有必要。 阅读全文

posted @ 2016-06-21 14:27 华天清 阅读(14828) 评论(0) 推荐(0) 编辑

导航