06 2024 档案
摘要:一、爬虫介绍 1、场景分类 定向 指爬取指定网站 非定向 指从所有网站爬取 2、下载页面 常用的开源框架,requests&beautisoup #1.requests response=requests.get('http://') response.text #2.beautisoup模块 so
阅读全文
摘要:一、scrapy源码流程 流程要点: 1、执行CrawlerProcess构造方法 2、CrawlerProcess对象(含有配置文件)的spiders 2.1、为每个爬虫创建一个Crawler 2.2、执行d=Crawler.crawl(...) d.addBoth(_done) 2.3、Craw
阅读全文