06 2024 档案

摘要:一、爬虫介绍 1、场景分类 定向 指爬取指定网站 非定向 指从所有网站爬取 2、下载页面 常用的开源框架,requests&beautisoup #1.requests response=requests.get('http://') response.text #2.beautisoup模块 so 阅读全文
posted @ 2024-06-21 08:59 子不语332 阅读(2) 评论(0) 推荐(0) 编辑
摘要:一、scrapy源码流程 流程要点: 1、执行CrawlerProcess构造方法 2、CrawlerProcess对象(含有配置文件)的spiders 2.1、为每个爬虫创建一个Crawler 2.2、执行d=Crawler.crawl(...) d.addBoth(_done) 2.3、Craw 阅读全文
posted @ 2024-06-14 12:41 子不语332 阅读(7) 评论(0) 推荐(0) 编辑