随笔档案「2017年8月16日」：scrapy 学习笔记2 ... - dahu1

2017年8月16日

本章学习爬虫的回调和跟踪链接使用参数回调和跟踪链接上一篇的另一个爬虫,这次是为了抓取作者信息这个爬虫将从主页面开始，以 parse_author 回调方法跟踪所有到作者页面的链接，以 parse 回调方法跟踪其它页面。这里我们将回调方法作为参数直接传递给 response.follow Read More

posted @ 2017-08-16 21:40 dahu1 Views(582) Comments(0) Diggs(0)

scrapy 学习笔记1

最近一段时间开始研究爬虫,后续陆续更新学习笔记爬虫,说白了就是获取一个网页的html页面,然后从里面获取你想要的东西,复杂一点的还有: 反爬技术(人家网页不让你爬,爬虫对服务器负载很大) 爬虫框架(你不可能逮到一个需求就从头写个爬虫把,框架已经有了) 多线程当然这是我自己的理解,而scrapy框 Read More

posted @ 2017-08-16 17:10 dahu1 Views(353) Comments(0) Diggs(0)

xpath语法规则

参考w3cschool教程 XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 和 XPointer 都构建于 XPath 表达之上。因此，对 XPath 的理解是很多 Read More

posted @ 2017-08-16 15:59 dahu1 Views(2561) Comments(0) Diggs(0)

dahu的菜园子

公告