随笔档案「2016年12月25日」：Python Scrapy 自动爬虫注意细节（3） ... - 咸鱼翻身

2016年12月25日

摘要：一、对指定页面爬取 yield Request(url, meta={'cookiejar': response.meta['cookiejar']}, callback=self.parse_url) parse_url ：处理函数 url ：指定链接 cookiejar：登录验证后的cookie 阅读全文

posted @ 2016-12-25 22:56 咸鱼翻身阅读(555) 评论(0) 推荐(0)

Python Scrapy 验证码登录处理

摘要：一、Form表单分析以豆瓣登录页面为例分析，豆瓣登录页是：https://accounts.douban.com/login，浏览器打开之后查看源码，查找登录的form表单HTML结构。如下：包括了form_email、form_password、captcha-solution四个表单参数，需阅读全文

posted @ 2016-12-25 21:26 咸鱼翻身阅读(15110) 评论(0) 推荐(0)

Python Scrapy 自动爬虫注意细节（2）

摘要：一、自动爬虫的创建，需要指定模版如： scrapy genspider -t crawl stockinfo quote.eastmoney.com crawl ：爬虫模版 stockinfo ：爬虫名称，后续敲命令执行爬虫需要输入的 quote.eastmoney.com ：起始网址通过 s 阅读全文

posted @ 2016-12-25 12:22 咸鱼翻身阅读(1613) 评论(0) 推荐(0)

再出发

再出发

公告