协程-爬虫示例
from gevent import monkey;monkey.patch_all()#打补丁,使gevent识别I/O阻塞进而实现协程 import requests,re,gevent,time def get_info(url):#爬网页函数 res = requests.get(url) print(len(res.text)) return res.text def prase(res):#解析网页数据函数 res_name = re.findall(r'title="(?P<name>\S+\s?\S*?)"', res) move_name = [] for i in res_name[::2]: move_name.append(i.split('"')[0]) move_actor = re.findall(r'主演:\S+', res)#(?P<name>主演:\S+)/?\n{0,1} for i in range(len(move_name)): with open('movie_info.txt','a') as f: f.write('电影名:%s , %s'%(move_name[i],move_actor[i].split('<')[0])) f.write('\n') urls = [ 'http://maoyan.com/board/7', 'http://maoyan.com/board/6', 'http://maoyan.com/board/1', 'http://maoyan.com/board/2', 'http://maoyan.com/board/4', ] if __name__ == '__main__': start = time.time() # g_l = [] for url in urls: # print(url) g = gevent.spawn(prase,get_info(url)) # g_l.append(g) # gevent.joinall(g_l) g.join()#之所以只加一个join而不用joinall是因为主进程会等get_info(url)作为参数执行完了,主进程不会等prase执行完所以让主进程等最后一个prase即可 print('解析结束',time.time()-start)
协程确实运行很快,轻量化,节约cpu与内存使用,可以实现高并发量(伪)
【推荐】中国电信天翼云云端翼购节,2核2G云服务器一口价38元/年
【推荐】博客园携手 AI 驱动开发工具商 Chat2DB 推出联合终身会员
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· MySQL 优化利器 SHOW PROFILE 的实现原理
· 在.NET Core中使用异步多线程高效率的处理大量数据
· 聊一聊 C#前台线程 如何阻塞程序退出
· 几种数据库优化技巧
· 聊一聊坑人的 C# MySql.Data SDK
· 干掉EasyExcel!FastExcel初体验
· 跟着 8.6k Star 的开源数据库,搞 RAG!
· .NET 9 中的 多级缓存 HybridCache
· 夜莺 v8 第一个版本来了,开始做有意思的功能了
· .NET 9 增强 OpenAPI 规范,不再内置swagger