随笔分类 - 爬虫
摘要:1 scrapy介绍和安装创建项目 # Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据# 模块 》scrapy是一个框架--》类似于web框架django# scrapy就是爬虫界的django
阅读全文
摘要:1 selenium介绍和快速使用 # web自动化测试工具 》自动操作浏览器,模拟人的行为 》通过代码控制完成本来应该人完成的功能# appnium:app端爬虫,app的自动化测试# 解决requests不能执行js的问题 》使用requests发送请求,获取到的数据跟实际浏览器看到的数据有差
阅读全文
摘要:# cicd,后端项目高可用,redis高可用,权限管理表设计 -持续集成持续部署 jenkins -开发写完代码 》gitlab 》jenkins定时从gitlab拉取代码 》编译 》把可执行文件 》测试服务器(docker仓库) 》供测试去测 -项目高可用是nginx做负载 -keepalive
阅读全文
摘要:1 搭建免费代理池 # requests模拟发送http请求,频率限制 》变换ip 》代理(免费,收费) 》# 搭建代理池 》开源(参照:python,flask+爬虫) 通过爬虫去免费网站爬取 免费代理--》验证一下 》存到库中(redis) >请求一个接口,就随机返回一个代理地址 #搭建步骤 #
阅读全文
摘要:1 爬虫介绍 # http协议 》应用层协议 》主流软件(web,app,小程序) >基本都是走http# 爬取:网站pc端,app,小程序 的数据# 爬虫的本质 》网络蜘蛛# 模拟发送http请求(python模块) 》服务端返回数据 》数据清洗(模块) 》入库(mysql,文件,redis,
阅读全文