爬虫 - 随笔分类 - 甜甜de微笑

5 scrapy

摘要：1 scrapy介绍和安装创建项目 # Scrapy一个开源和协作的框架，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据# 模块》scrapy是一个框架--》类似于web框架django# scrapy就是爬虫界的django 阅读全文

posted @ 2022-03-21 21:33 甜甜de微笑阅读(75) 评论(0) 推荐(0)

4.selenium

摘要：1 selenium介绍和快速使用 # web自动化测试工具》自动操作浏览器，模拟人的行为》通过代码控制完成本来应该人完成的功能# appnium：app端爬虫，app的自动化测试# 解决requests不能执行js的问题》使用requests发送请求，获取到的数据跟实际浏览器看到的数据有差阅读全文

posted @ 2022-03-18 20:01 甜甜de微笑阅读(74) 评论(0) 推荐(0)

bs4遍历文档树+bs4搜索文档树

摘要：# cicd，后端项目高可用，redis高可用，权限管理表设计 -持续集成持续部署 jenkins -开发写完代码》gitlab 》jenkins定时从gitlab拉取代码》编译》把可执行文件》测试服务器（docker仓库）》供测试去测 -项目高可用是nginx做负载 -keepalive 阅读全文

posted @ 2022-03-17 23:14 甜甜de微笑阅读(282) 评论(0) 推荐(0)

2 爬虫

摘要：1 搭建免费代理池 # requests模拟发送http请求，频率限制》变换ip 》代理（免费，收费）》# 搭建代理池》开源(参照：python，flask+爬虫) 通过爬虫去免费网站爬取免费代理--》验证一下》存到库中(redis) >请求一个接口，就随机返回一个代理地址 #搭建步骤 # 阅读全文

posted @ 2022-03-16 17:50 甜甜de微笑阅读(208) 评论(0) 推荐(0)

1 爬虫

摘要：1 爬虫介绍 # http协议》应用层协议》主流软件(web,app,小程序) >基本都是走http# 爬取：网站pc端，app，小程序的数据# 爬虫的本质》网络蜘蛛# 模拟发送http请求(python模块) 》服务端返回数据》数据清洗(模块) 》入库(mysql,文件，redis，阅读全文

posted @ 2022-03-15 22:15 甜甜de微笑阅读(248) 评论(0) 推荐(0)

甜甜de微笑

随笔分类 - 爬虫

公告