摘要: 本文来自于https://blog.csdn.net/stillfantasy1988/article/details/43196627?tdsourcetag=s_pcqq_aiomsg、http://www.huawei.com/ecommunity/bbs/10221255.html 1.问题 阅读全文
posted @ 2019-03-07 15:22 python杰 阅读(2196) 评论(2) 推荐(0) 编辑
摘要: ################################################################## # PUBLIC METHODS THAT ALTER ATTRIBUTES AND RETURN A NEW QUERYSET # ################ 阅读全文
posted @ 2018-11-06 15:40 python杰 阅读(269) 评论(0) 推荐(0) 编辑
摘要: %s %d %f 本文来自于https://blog.csdn.net/qq_37482544/article/details/63720726 阅读全文
posted @ 2019-03-07 16:58 python杰 阅读(103627) 评论(0) 推荐(7) 编辑
摘要: 没有用线程池进行的视频爬取代码如下: 基于线程池的视频爬取,爬取梨视频中的视频数据 使用并发机制进行多线程的数据下载:数据下载和io存储中使用并发机制 阅读全文
posted @ 2018-12-12 17:34 python杰 阅读(328) 评论(0) 推荐(0) 编辑
摘要: PhantomJS 是一款无界面的浏览器,其自动化操作流程和上述操作谷歌浏览器是一致的。由于是无界面的,为了能够展示自动化操作流程,PhantomJS为用户提供了一个截屏的功能,使用save_screenshot函数实现。 PhantomJS 驱动程序下载 链接: https://pan.baidu 阅读全文
posted @ 2018-12-12 16:15 python杰 阅读(4825) 评论(0) 推荐(0) 编辑
摘要: 什么是selenium? 是python的一个第三方库, 对外提供的接口可以操作浏览器, 然后让浏览器完成自动化的操作 环境的安装: 1.pip install selenium 2.获取某一个浏览器的驱动程序(以谷歌浏览器为例) 驱动程序安装包: 链接: https://pan.baidu.com 阅读全文
posted @ 2018-12-12 16:06 python杰 阅读(900) 评论(0) 推荐(0) 编辑
摘要: 图片懒加载 什么是图片懒加载? 图片懒加载是一种网页优化技术。图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面的首屏加载时间。为了解决这种问题,通过前后端配合,使图片仅在浏览器当前视窗内出现时才加载该图片,达到减少首屏图片请求数 阅读全文
posted @ 2018-12-12 15:44 python杰 阅读(709) 评论(0) 推荐(0) 编辑
摘要: 1 import http.client, mimetypes, urllib, json, time, requests 2 3 4 class YDMHttp: 5 apiurl = 'http://api.yundama.com/api.php' 6 username = '' 7 passw 阅读全文
posted @ 2018-12-12 15:26 python杰 阅读(1368) 评论(0) 推荐(0) 编辑
摘要: 一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方 阅读全文
posted @ 2018-12-12 15:13 python杰 阅读(860) 评论(0) 推荐(0) 编辑
摘要: 引入 相关的门户网站在进行登录的时候,如果用户连续登录的次数超过3次或者5次的时候,就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果 - 1.对携带验证码的页面数据进行抓取 - 2.可以将页面数据中验证码进行解析,验证码图片下载到本地 - 3.可以将验证码图片提交给三方平台进行识别,返回 阅读全文
posted @ 2018-12-12 15:09 python杰 阅读(362) 评论(0) 推荐(0) 编辑
摘要: class BaseHandler(object): def __init__(self): self._request_middleware = None self._view_middleware = None self._template_response_middleware = None 阅读全文
posted @ 2018-12-11 14:24 python杰 阅读(467) 评论(0) 推荐(0) 编辑