随笔分类 - 爬虫
摘要:1 搭建免费代理池 # requests模拟发送http请求,频率限制 》变换ip 》代理(免费,收费) 》 # 搭建代理池 》开源(参照:python,flask+爬虫) 通过爬虫去免费网站爬取 免费代理--》验证一下 》存到库中(redis) >请求一个接口,就随机返回一个代理地址 #搭建步骤
阅读全文
摘要:1 爬虫介绍 # http协议 》应用层协议 》主流软件(web,app,小程序) >基本都是走http # 爬取:网站pc端,app,小程序 的数据 # 爬虫的本质 》网络蜘蛛 # 模拟发送http请求(python模块) 》服务端返回数据 》数据清洗(模块) 》入库(mysql,文件,redis
阅读全文