随笔档案「2021年7月」 - 何哈哈哈

Scrapy的常用命令

摘要：一、全局命令1-startproject 创建一个新的Scrapy项目： scrapy startproject <project_name> [project_dir]例如：scrapy startproject Crawler51job 【注意】项目名称不能以数字开头 2-genspider 在阅读全文

posted @ 2021-07-16 09:41 何哈哈哈阅读(511) 评论(0) 推荐(0)

Scrapy爬虫的启动与暂停

摘要：当我们使用Scrapy进行网站爬取的时候，无法避免的会出现爬虫暂停的情况，不用担心，Scrapy已经提供了这个功能。在启动爬虫命令的时候我们使用参数 -s (set的意思)，这会将本次爬虫运行的相关信息记录在001文件夹中，在爬虫暂停重新启动后会读取信息继续进行网站的爬取。所以一次完整的爬虫无论暂阅读全文

posted @ 2021-07-12 15:18 何哈哈哈阅读(398) 评论(0) 推荐(0)

配置scrapy的动态User-Agent和IP代理以及验证码的识别

摘要：User-Agent 在scrapy的settings里写入以下代码即可配置动态User-Agent # 配置动态的user agent from fake_useragent import UserAgent ua = UserAgent() USER_AGENT = ua.random IP代理阅读全文

posted @ 2021-07-01 21:16 何哈哈哈阅读(430) 评论(0) 推荐(0)

何哈哈哈

07 2021 档案

公告