随笔分类 -  爬虫

摘要:1 scrapy介绍和安装创建项目 # Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据# 模块 》scrapy是一个框架--》类似于web框架django# scrapy就是爬虫界的django 阅读全文
posted @ 2022-03-21 21:33 甜甜de微笑 阅读(44) 评论(0) 推荐(0) 编辑
摘要:1 selenium介绍和快速使用 # web自动化测试工具 》自动操作浏览器,模拟人的行为 》通过代码控制完成本来应该人完成的功能# appnium:app端爬虫,app的自动化测试​# 解决requests不能执行js的问题 》使用requests发送请求,获取到的数据跟实际浏览器看到的数据有差 阅读全文
posted @ 2022-03-18 20:01 甜甜de微笑 阅读(54) 评论(0) 推荐(0) 编辑
摘要:# cicd,后端项目高可用,redis高可用,权限管理表设计 -持续集成持续部署 jenkins -开发写完代码 》gitlab 》jenkins定时从gitlab拉取代码 》编译 》把可执行文件 》测试服务器(docker仓库) 》供测试去测 -项目高可用是nginx做负载 -keepalive 阅读全文
posted @ 2022-03-17 23:14 甜甜de微笑 阅读(252) 评论(0) 推荐(0) 编辑
摘要:1 搭建免费代理池 # requests模拟发送http请求,频率限制 》变换ip 》代理(免费,收费) 》# 搭建代理池 》开源(参照:python,flask+爬虫) 通过爬虫去免费网站爬取 免费代理--》验证一下 》存到库中(redis) >请求一个接口,就随机返回一个代理地址 #搭建步骤 # 阅读全文
posted @ 2022-03-16 17:50 甜甜de微笑 阅读(186) 评论(0) 推荐(0) 编辑
摘要:1 爬虫介绍 # http协议 》应用层协议 》主流软件(web,app,小程序) >基本都是走http# 爬取:网站pc端,app,小程序 的数据​​# 爬虫的本质 》网络蜘蛛# 模拟发送http请求(python模块) 》服务端返回数据 》数据清洗(模块) 》入库(mysql,文件,redis, 阅读全文
posted @ 2022-03-15 22:15 甜甜de微笑 阅读(208) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示