摘要: 登录图片验证码处理 超级鹰、云打码等API接口获取。 案例:古诗文网登录https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx 阅读全文
posted @ 2019-08-05 22:29 笑得好美 阅读(357) 评论(0) 推荐(0) 编辑
摘要: 代理proxies 数据采集过程中使用脚本发送请求,请求次数过于频繁,服务器监测到而采用一定的手段禁止此ip的请求,为了解决封ip的问题,我们用代理来处理这个问题。用第三方代理ip进行伪装访问,即使被封也不影响当前ip的使用,构建代理池,封了一个,其他的还可以用,这样就能缓解ip被封无法继续爬取的问 阅读全文
posted @ 2019-08-05 21:37 笑得好美 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 在获取到响应数据后,需要针对性的提取其中有用的部分,这也是采集数据最常见的方式聚焦网络爬虫。 数据解析四种方式: 1.正则表达式解析 2.xpath解析 3.bs4解析 4.pyquery解析 1.正则表达式解析(re模块) 案例:爬取糗事百科 糗图:https://www.qiushibaike. 阅读全文
posted @ 2019-08-05 19:08 笑得好美 阅读(898) 评论(0) 推荐(0) 编辑
摘要: 1. 通过代码实现如下转换: 二进制转换成十进制:v = “0b1111011” 十进制转换成二进制:v = 18 八进制转换成十进制:v = “011” 十进制转换成八进制:v = 30 十六进制转换成十进制:v = “0x12” 十进制转换成十六进制:v = 87 1 v = "0b111101 阅读全文
posted @ 2019-08-05 18:46 笑得好美 阅读(694) 评论(0) 推荐(0) 编辑
摘要: 常用函数: import re re.findall() :(正则,str)匹配str中所有符合正则的字符串并以列表返回 re.search() :(正则,str)匹配str中第一个符合规则的字符串返回结果集(没有则为None),用.group()取值(没有则报错) re.match() :(正则,str)开头匹配str中符合正则的字符串... 阅读全文
posted @ 2019-08-05 17:34 笑得好美 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 正则表达式: 1.验证某一字符串是否符合规则 2.匹配某一字符串中的符合规则的字符串 正则: 字符组: [] :一个字符组匹配一个字符[0-9][0-1a-zA-Z][ ][_] [^] :非字符组匹配(除字符组之外的其它任意字符) 元字符: \d :匹配任意一个数字... 阅读全文
posted @ 2019-08-05 17:30 笑得好美 阅读(231) 评论(0) 推荐(0) 编辑
摘要: requests是基于urllib3的一个用于发起http请求的库(中文文档)数据采集流程: 指定url>> 基于 requests模块发起请求>> 获取响应中的数据>> 数据解析>> 进行持久化存储 1.模块安装 pip install requests 2.requests之request请求 阅读全文
posted @ 2019-08-05 16:45 笑得好美 阅读(641) 评论(0) 推荐(0) 编辑
摘要: 对于想要利用django框架实现前后端分离,首要的问题是解决跨域请求的问题,什么是跨域请求?简单来说就是当前发起的请求的域与该请求指向的资源所在的域不一致。当协议+域名+端口号均相同,那么就是同一个域. 跨域问题 CORS需要浏览器和服务器同时支持。目前,所有浏览器都支持该功能,IE浏览器不能低于I 阅读全文
posted @ 2019-08-05 10:02 笑得好美 阅读(1059) 评论(0) 推荐(0) 编辑
摘要: 1 from flask import Flask 2 from flask_cors import CORS#pip install Flask-CORS#跨域请求模块 3 app = Flask(__name__) 4 app.debug = True 5 CORS(app)#跨域请求 6 7 if __name__ == '__main__': 8 app.run('0.0.0.0', 95 阅读全文
posted @ 2019-08-05 09:58 笑得好美 阅读(824) 评论(0) 推荐(0) 编辑