2016年6月17日

Scrapy:python3下的第一次运行测试

摘要: 《Scrapy的架构初探》一文讲解了Scrapy的架构,本文就实际来安装运行一下Scrapy爬虫。本文以官网的tutorial作为例子,完整的代码可以在github上下载。 阅读全文

posted @ 2016-06-17 14:35 华天清 阅读(1910) 评论(0) 推荐(0) 编辑

Scrapy入门程序点评

摘要: 在《Scrapy的架构初探》一文,我基于爬虫开发的经验对Scrapy官网文章作了点评和解读,事件驱动的异步处理架构、极强的模块化等是个绝好的框架,接着我细读了官网的《Scrapy at a glance》,更加强了我的感受:就是他了——开源Python即时网络爬虫需要一个爬虫框架,我不想重复发明轮子,只想专注于爬虫里面的提取器的生成和使用,也就是Scrapy中的Spider部分。 阅读全文

posted @ 2016-06-17 14:33 华天清 阅读(302) 评论(0) 推荐(0) 编辑

2016年6月12日

Scrapy的架构初探

摘要: Python即时网络爬虫启动的目标是一起把互联网变成大数据库。单纯的开放源代码并不是开源的全部,开源的核心是“开放的思想”,聚合最好的想法、技术、人员,所以将会参照众多领先产品,比如,Scrapy,ScrapingHub,Import.io等。本文简单讲解一下Scrapy的架构。没错,通用提取器gsExtractor就是要集成到Scrapy架构中。 阅读全文

posted @ 2016-06-12 16:29 华天清 阅读(1779) 评论(0) 推荐(0) 编辑

2016年6月11日

Python爬虫实战(2):爬取京东商品列表

摘要: 在上一篇《python爬虫实战:爬取Drupal论坛帖子列表》,爬取了一个用Drupal做的论坛,是静态页面,抓取比较容易,即使直接解析html源文件都可以抓取到需要的内容。相反,JavaScript实现的动态网页内容,无法从html源代码抓取需要的内容,必须先执行JavaScript。 阅读全文

posted @ 2016-06-11 22:12 华天清 阅读(3461) 评论(0) 推荐(1) 编辑

2016年6月7日

Python爬虫实战(1):爬取Drupal论坛帖子列表

摘要: 本文将用一个实例讲解怎样使用这个爬虫类。我们将爬集搜客老版论坛,是一个用Drupal做的论坛。 阅读全文

posted @ 2016-06-07 11:24 华天清 阅读(1379) 评论(1) 推荐(0) 编辑

2016年6月3日

Python编程规范

摘要: 根据《Google Python编程风格指南》整理出来的Python编程规范 阅读全文

posted @ 2016-06-03 11:41 华天清 阅读(416) 评论(0) 推荐(1) 编辑

2016年6月1日

Python爬虫:常用浏览器的useragent

摘要: 在写python网络爬虫程序的时候,经常需要修改UserAgent,有很多原因。修改agent值这个操作本身比较简单,UserAgent值是一串字符串,替换上即可,主要是用对UserAgent值。 阅读全文

posted @ 2016-06-01 14:45 华天清 阅读(8102) 评论(0) 推荐(2) 编辑

2016年5月30日

1分钟快速生成用于网页内容提取的xslt

摘要: 在《Python即时网络爬虫项目说明》一文我们说过要做一个通用的网络爬虫,而且能节省程序员大半的时间,而焦点问题就是提取器使用的抓取规则需要快速生成。在python使用xslt提取网页数据一文,我们已经看到这个提取规则是xslt程序,在示例程序中,直接把一长段xslt赋值给变量,但是没有讲这一段xslt是怎么来的。 阅读全文

posted @ 2016-05-30 14:49 华天清 阅读(3588) 评论(1) 推荐(0) 编辑

2016年5月27日

Python即时网络爬虫项目: 内容提取器的定义

摘要: 在python 即时网络爬虫项目启动说明中我们讨论一个数字:程序员浪费在调测内容提取规则上的时间,从而我们发起了这个项目,把程序员从繁琐的调测规则中解放出来,投入到更高端的数据处理工作中。 阅读全文

posted @ 2016-05-27 11:40 华天清 阅读(3574) 评论(1) 推荐(1) 编辑

2016年5月25日

Python读取PDF内容

摘要: 晚上翻看《Python网络数据采集》这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓取。 阅读全文

posted @ 2016-05-25 16:25 华天清 阅读(30832) 评论(3) 推荐(3) 编辑

导航