摘要: 1 爬虫基本原理 1 百度是个大爬虫2 模拟浏览器发送http请求 (请求库)(频率,cookie,浏览器头。。js反扒,app逆向)(抓包工具) 》从服务器取回数据 》解析数据--(解析库)(反扒) 》入库(存储库,)3 爬虫协议: 2 requests模块 0 urllib 内置库,发送http 阅读全文
posted @ 2021-01-19 19:13 投降输一半! 阅读(158) 评论(0) 推荐(0) 编辑
摘要: 1 购买阿里云服务器 1 2核4g按流量计费2 centos7.9 2 服务器配置,软件安装 2.1 前置配置 yum update -y​yum -y groupinstall "Development tools" # 开发相关的工具包 git unzip。。。​yum install open 阅读全文
posted @ 2021-01-19 19:11 投降输一半! 阅读(116) 评论(0) 推荐(0) 编辑
摘要: 1 编写登录接口,图书5大接口,实现图书5大接口匿名用户一分钟访问3次,登录用户一分钟访问10次 -方式一: -写两个频率类(一个是根据ip限制,另一个根据userid) -方式二: -使用内置的,如果可以,就没问题就可以,如果又问题需要继承重写get_cache_key方法 2 一个接口既可以不登 阅读全文
posted @ 2021-01-19 19:08 投降输一半! 阅读(187) 评论(0) 推荐(0) 编辑