摘要: 一、对指定页面爬取 yield Request(url, meta={'cookiejar': response.meta['cookiejar']}, callback=self.parse_url) parse_url :处理函数 url :指定链接 cookiejar:登录验证后的cookie 阅读全文
posted @ 2016-12-25 22:56 咸鱼翻身 阅读(543) 评论(0) 推荐(0) 编辑
摘要: 一、Form表单分析 以豆瓣登录页面为例分析,豆瓣登录页是:https://accounts.douban.com/login,浏览器打开之后查看源码,查找登录的form表单HTML结构。如下: 包括了form_email、form_password、captcha-solution四个表单参数,需 阅读全文
posted @ 2016-12-25 21:26 咸鱼翻身 阅读(14944) 评论(0) 推荐(0) 编辑
摘要: 一、自动爬虫的创建,需要指定模版 如: scrapy genspider -t crawl stockinfo quote.eastmoney.com crawl : 爬虫模版 stockinfo :爬虫名称,后续敲命令执行爬虫需要输入的 quote.eastmoney.com :起始网址 通过 s 阅读全文
posted @ 2016-12-25 12:22 咸鱼翻身 阅读(1594) 评论(0) 推荐(0) 编辑