返回顶部
扩大
缩小
大江东去,浪淘尽,千古风流人物。故垒西边,人道是,三国周郎赤壁。乱石穿空,惊涛拍岸,卷起千堆雪。江山如画,一时多少豪杰。遥想公瑾当年,小乔初嫁了,雄姿英发。羽扇纶巾,谈笑间,樯橹灰飞烟灭。故国神游,多情应笑我,早生华发。人生如梦,一尊还酹江月。

2020年11月8日

手撸分布式爬虫框架

摘要: 手撸分布式爬虫框架 分布式爬虫: 分布式爬虫: 分布式进程和进程间通信的内容 案例: 爬取 2000 个百度百科网络爬虫词条以及相关词条的标题、摘要和链接等信息,采用分布式结构改写基础爬虫,使功能更加强大 爬虫结构: 模式: 分布式爬虫采用主从模式。主从模式是指由一台主机作为控制节点负责所有运行网络 阅读全文

posted @ 2020-11-08 11:07 晨星_star 阅读(178) 评论(0) 推荐(0) 编辑

爬虫基础框架组成

摘要: 爬虫基础框架 爬虫调度器: 基础模块: URL 管理器、HTML 下载器、HTML 解析器和数据存储器等模块 调度器: 初始化各个模块,然后通过 crawl(root_url)方法传入入口 URL,方法内部实现按照运行流程控制各个模块的工作 spider 调度: from firstSpider.D 阅读全文

posted @ 2020-11-08 10:05 晨星_star 阅读(258) 评论(0) 推荐(0) 编辑

soup 解析

摘要: BeautifulSoup 数据解析 + 提取 soup = Beautifulsoup(html_str,'lxml',from_enconding='utf-8') soup = Beautifulsoup(open('index.html')) print(soup.prettify) # 输 阅读全文

posted @ 2020-11-08 09:37 晨星_star 阅读(447) 评论(0) 推荐(0) 编辑

导航