07 2021 档案

摘要:一、全局命令1-startproject 创建一个新的Scrapy项目: scrapy startproject <project_name> [project_dir]例如:scrapy startproject Crawler51job 【注意】项目名称不能以数字开头 2-genspider 在 阅读全文
posted @ 2021-07-16 09:41 何哈哈哈 阅读(511) 评论(0) 推荐(0)
摘要:当我们使用Scrapy进行网站爬取的时候,无法避免的会出现爬虫暂停的情况,不用担心,Scrapy已经提供了这个功能。 在启动爬虫命令的时候我们使用参数 -s (set的意思),这会将本次爬虫运行的相关信息记录在001文件夹中,在爬虫暂停重新启动后会读取信息继续进行网站的爬取。所以一次完整的爬虫无论暂 阅读全文
posted @ 2021-07-12 15:18 何哈哈哈 阅读(398) 评论(0) 推荐(0)
摘要:User-Agent 在scrapy的settings里写入以下代码即可配置动态User-Agent # 配置动态的user agent from fake_useragent import UserAgent ua = UserAgent() USER_AGENT = ua.random IP代理 阅读全文
posted @ 2021-07-01 21:16 何哈哈哈 阅读(430) 评论(0) 推荐(0)