01 2021 档案

摘要:开始学着利用协程做异步爬虫,直接上代码: 先自己弄一个服务器,别问我代码什么意思,我自己都不知道,视频copy过来的。。 from flask import Flask import time app = Flask(__name__) @app.route('/tom') def index_to 阅读全文
posted @ 2021-01-21 21:53 理工—王栋轩 阅读(210) 评论(0) 推荐(0) 编辑
摘要:什么是协程?百度上一大堆,随时可以查。我认为协程就是微线程,比线程还要小。为什么要引入协程?我们发现在线程使用中,有一个GIL锁,线程之间访问临界资源是互斥的,这都是不利于提升代码执行效率的。我们知道线程是CPU调度的最小单位,如果我们有一个线程,线程内包含多个协程,协程之间来回切换就设计不到CPU 阅读全文
posted @ 2021-01-20 18:23 理工—王栋轩 阅读(126) 评论(0) 推荐(0) 编辑
摘要:线程池和进程池在python中代码的编写基本上是一致的,调用 concurrent.futures 模块下的ThreadPoolExecutor,ProcessPoolExecutor。ThreadPoolExecutor是线程模块,ProcessPoolExecutor是进程模块。 下边感受下“速 阅读全文
posted @ 2021-01-17 15:30 理工—王栋轩 阅读(97) 评论(0) 推荐(0) 编辑
摘要:多线程和线程池并不是一回事 多线程是根据实际情况建立多个线程,线程池是一次性创建多个线程。 简单来说,目前有10个任务。多线程技术就是为10个任务建立10个线程。线程池可以一次性创建5个线程,来一个任务,就从线程池里取走一个线程,直到5个线程全部取走;同理,某一个线程任务结束之后,要归还给线程池。线 阅读全文
posted @ 2021-01-16 14:46 理工—王栋轩 阅读(162) 评论(0) 推荐(0) 编辑
摘要:最近学习到了爬虫进阶部分。如果下载数据量非常大时,采取之前的同步或串行编程方式,效率非常低,可能十天半个月都下不完。所以就必须要引出异步爬虫。 异步爬虫实现的方式可以分为:多线程、多进程、进程池、线程池、协程的方式。这两天的时间,主要研究这几种编程方式,先从基本思想入手,逐步实现爬虫的异步编程。 先 阅读全文
posted @ 2021-01-15 11:01 理工—王栋轩 阅读(105) 评论(0) 推荐(0) 编辑
摘要:爬取https://www.shicimingju.com 诗词名句网站中,《三国演义》全部内容。基于bs4,而不是正则。bs4相对于正则简单一些,但是正则更加精准。准确的说是基于bs4中的beautifulsoup。 同样操作步骤:导入包requests和bs4 headers--UA伪装 tex 阅读全文
posted @ 2021-01-11 15:19 理工—王栋轩 阅读(181) 评论(0) 推荐(0) 编辑
摘要:目的:以学院为单位,统计本科学校为“一本”学校的占比,“第一志愿”占比。 学校单位是XX学院的是二本,XX学校的是一本;“一志愿”是第一志愿录取,“调剂”是调剂之后录取。 原始数据: 代码: import pandas as pd if __name__ == '__main__': df =pd. 阅读全文
posted @ 2021-01-06 14:23 理工—王栋轩 阅读(105) 评论(0) 推荐(0) 编辑
摘要:目的:爬取‘糗事百科’热图板块所有图 在网页response中可以发现,每个图是一个没有http开头的、以.jpg结尾的链接,在这个链接前边补上http可以成功访问该图片。 所以第一步应该把需要下载的图片的url下载下来,然后补上http,再下载,保存到本地就可以。 下边代码是第一步。 def do 阅读全文
posted @ 2021-01-03 21:19 理工—王栋轩 阅读(259) 评论(2) 推荐(0) 编辑
摘要:http://www.python3.vip/tut/py/extra/regex/ 大家看一个例子。 一个文本文件里面存储了 一些市场职位信息,格式如下所示 Python3 高级开发工程师 上海互教教育科技有限公司上海-浦东新区2万/月02-18满员 测试开发工程师(C++/python) 上海墨 阅读全文
posted @ 2021-01-02 18:59 理工—王栋轩 阅读(157) 评论(0) 推荐(0) 编辑
摘要:药监局网址:http://scxk.nmpa.gov.cn:81/xk/ 药监局首页: 详情页: 目的:爬取药监局所有详情页信息,保存在本地,以csv文件格式保存。 分析主页: 主页的response返回内容中,包含了这一页中的所有企业的id 修改网页参数page可以实现翻页 所以首先要通过访问主页 阅读全文
posted @ 2021-01-02 11:41 理工—王栋轩 阅读(1633) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示