摘要: 使⽤FormRequest.from_response()⽅法模拟⽤户登录 通常⽹站通过 实现对某些表单字段(如数据或是登录界⾯中的认证令牌等)的预填充。使⽤Scrapy 抓取⽹⻚时,如果想要预填充或重写像⽤户名、⽤户密码这 些表单字段, 可以使⽤ FormRequest.from_response 阅读全文
posted @ 2018-03-07 11:53 氢气球很漂亮 阅读(109) 评论(0) 推荐(0) 编辑
摘要: Scrapy 提供了 log 功能,可以通过 logging 模块使⽤。可以修改配置⽂件 settings.py,任意位置添加下⾯两⾏,效果会清爽很多。LOG_FILE = "TencentSpider.log"LOG_LEVEL = "INFO"Log levelsScrapy 提供 5 层 lo 阅读全文
posted @ 2018-03-07 11:52 氢气球很漂亮 阅读(120) 评论(0) 推荐(0) 编辑
摘要: CrawlSpiders是 Spider 的派⽣类,Spider 类的设计原则是只爬取 start_url 列表中的⽹页,⽽CrawlSpider 类定义了⼀些规则(rule)来提供跟进 link 的⽅便的机制(可以爬取下一页或跟进页面中其他的url),从爬取 的⽹⻚中获取 link 并继续爬取的⼯ 阅读全文
posted @ 2018-03-07 11:27 氢气球很漂亮 阅读(108) 评论(1) 推荐(0) 编辑