随笔分类 -  网络爬虫

摘要:pyecharts绘制中国地图时,各个省份的名字容易重叠。或者说绘制某省地图时,市名容易重叠。 随便举一个例子,以广东省为例。 注意红色框框部分,湘潭和株洲名字重叠了,如何解决这个问题呢?下边来介绍一下。 大家都知道pyecharts是基于加载整个中国或者某省地图来实现的, 所以我们要朝着修改这个地 阅读全文
posted @ 2022-07-16 19:18 理工—王栋轩 阅读(3218) 评论(0) 推荐(0) 编辑
摘要:首先来说什么是协程? 协程又被称之为是微线程,或者说是在一个线程内实现代码块的相互切换执行。 在《计算机操作系统》中我们学过,一个进程中包含若干个线程,一个线程中可以包含若干个进程。在Python中,一个线程又包含若干个协程。CPU如果在进程和进程之间切换,开销是比较大的,相对来讲,同一进程下的线程 阅读全文
posted @ 2021-11-04 16:47 理工—王栋轩 阅读(196) 评论(0) 推荐(0) 编辑
摘要:开始学着利用协程做异步爬虫,直接上代码: 先自己弄一个服务器,别问我代码什么意思,我自己都不知道,视频copy过来的。。 from flask import Flask import time app = Flask(__name__) @app.route('/tom') def index_to 阅读全文
posted @ 2021-01-21 21:53 理工—王栋轩 阅读(211) 评论(0) 推荐(0) 编辑
摘要:线程池和进程池在python中代码的编写基本上是一致的,调用 concurrent.futures 模块下的ThreadPoolExecutor,ProcessPoolExecutor。ThreadPoolExecutor是线程模块,ProcessPoolExecutor是进程模块。 下边感受下“速 阅读全文
posted @ 2021-01-17 15:30 理工—王栋轩 阅读(97) 评论(0) 推荐(0) 编辑
摘要:多线程和线程池并不是一回事 多线程是根据实际情况建立多个线程,线程池是一次性创建多个线程。 简单来说,目前有10个任务。多线程技术就是为10个任务建立10个线程。线程池可以一次性创建5个线程,来一个任务,就从线程池里取走一个线程,直到5个线程全部取走;同理,某一个线程任务结束之后,要归还给线程池。线 阅读全文
posted @ 2021-01-16 14:46 理工—王栋轩 阅读(162) 评论(0) 推荐(0) 编辑
摘要:最近学习到了爬虫进阶部分。如果下载数据量非常大时,采取之前的同步或串行编程方式,效率非常低,可能十天半个月都下不完。所以就必须要引出异步爬虫。 异步爬虫实现的方式可以分为:多线程、多进程、进程池、线程池、协程的方式。这两天的时间,主要研究这几种编程方式,先从基本思想入手,逐步实现爬虫的异步编程。 先 阅读全文
posted @ 2021-01-15 11:01 理工—王栋轩 阅读(105) 评论(0) 推荐(0) 编辑
摘要:爬取https://www.shicimingju.com 诗词名句网站中,《三国演义》全部内容。基于bs4,而不是正则。bs4相对于正则简单一些,但是正则更加精准。准确的说是基于bs4中的beautifulsoup。 同样操作步骤:导入包requests和bs4 headers--UA伪装 tex 阅读全文
posted @ 2021-01-11 15:19 理工—王栋轩 阅读(181) 评论(0) 推荐(0) 编辑
摘要:目的:爬取‘糗事百科’热图板块所有图 在网页response中可以发现,每个图是一个没有http开头的、以.jpg结尾的链接,在这个链接前边补上http可以成功访问该图片。 所以第一步应该把需要下载的图片的url下载下来,然后补上http,再下载,保存到本地就可以。 下边代码是第一步。 def do 阅读全文
posted @ 2021-01-03 21:19 理工—王栋轩 阅读(259) 评论(2) 推荐(0) 编辑
摘要:http://www.python3.vip/tut/py/extra/regex/ 大家看一个例子。 一个文本文件里面存储了 一些市场职位信息,格式如下所示 Python3 高级开发工程师 上海互教教育科技有限公司上海-浦东新区2万/月02-18满员 测试开发工程师(C++/python) 上海墨 阅读全文
posted @ 2021-01-02 18:59 理工—王栋轩 阅读(157) 评论(0) 推荐(0) 编辑
摘要:药监局网址:http://scxk.nmpa.gov.cn:81/xk/ 药监局首页: 详情页: 目的:爬取药监局所有详情页信息,保存在本地,以csv文件格式保存。 分析主页: 主页的response返回内容中,包含了这一页中的所有企业的id 修改网页参数page可以实现翻页 所以首先要通过访问主页 阅读全文
posted @ 2021-01-02 11:41 理工—王栋轩 阅读(1633) 评论(0) 推荐(0) 编辑
摘要:爬虫基本分为几步: 1、找到RUL URL不一定是网址,最准确的是打开网页抓包工具(网页按F12) 2、查看网页是get还是post请求。 get请求用requests.get(),post请求用requests.post();此方法的返回值是网页response的类型。常见的有json、test等 阅读全文
posted @ 2020-12-31 11:16 理工—王栋轩 阅读(116) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示