随笔档案「2018年3月7日」：scrapy--模拟登陆 ... - 氢气球很漂亮

2018年3月7日

摘要：使⽤FormRequest.from_response()⽅法模拟⽤户登录通常⽹站通过实现对某些表单字段（如数据或是登录界⾯中的认证令牌等）的预填充。使⽤Scrapy 抓取⽹⻚时，如果想要预填充或重写像⽤户名、⽤户密码这些表单字段，可以使⽤ FormRequest.from_response 阅读全文

posted @ 2018-03-07 11:53 氢气球很漂亮阅读(118) 评论(0) 推荐(0)

scrapy---Logging

摘要： Scrapy 提供了 log 功能，可以通过 logging 模块使⽤。可以修改配置⽂件 settings.py，任意位置添加下⾯两⾏，效果会清爽很多。LOG_FILE = "TencentSpider.log"LOG_LEVEL = "INFO"Log levelsScrapy 提供 5 层 lo 阅读全文

posted @ 2018-03-07 11:52 氢气球很漂亮阅读(136) 评论(0) 推荐(0)

CrawlSpiders

摘要： CrawlSpiders是 Spider 的派⽣类，Spider 类的设计原则是只爬取 start_url 列表中的⽹页，⽽CrawlSpider 类定义了⼀些规则(rule)来提供跟进 link 的⽅便的机制(可以爬取下一页或跟进页面中其他的url)，从爬取的⽹⻚中获取 link 并继续爬取的⼯阅读全文

posted @ 2018-03-07 11:27 氢气球很漂亮阅读(122) 评论(1) 推荐(0)

氢气球很漂亮

公告