入门教程(1)——从URL开始
首先感谢辛苦的沙漠君
先把沙漠君的教程载过来:)可以先看一遍
Hawk-数据抓取工具:简明教程
Hawk 数据抓取工具 使用说明(二)
20分钟无编程抓取大众点评17万数据
如果你能完美写出XPath,子流模块也能很好的使用,OK你可以跳过本教程
如果不能,我们丛理解开始讲起。
不知道你有没有使用过其他爬虫,比如pyspider,phantomjs,有些爬虫的思路是通过一个模拟浏览器来模拟点击去访问目标网页,
而我对HAWK的理解是组合出目标URL,去请求网页【难度大点的会带上post参数】,然后分析爬取响应的HTML。
所以我们会花很多心思在组合URL上,这一步骤完成了,才能进到爬取的详细页面去采集目标信息。
posted @
2016-12-13 13:32
康宁°C
阅读(
530)
评论()
编辑
收藏
举报