12 2018 档案

摘要:没有用线程池进行的视频爬取代码如下: 基于线程池的视频爬取,爬取梨视频中的视频数据 使用并发机制进行多线程的数据下载:数据下载和io存储中使用并发机制 阅读全文
posted @ 2018-12-12 17:34 python杰 阅读(335) 评论(0) 推荐(0)
摘要:PhantomJS 是一款无界面的浏览器,其自动化操作流程和上述操作谷歌浏览器是一致的。由于是无界面的,为了能够展示自动化操作流程,PhantomJS为用户提供了一个截屏的功能,使用save_screenshot函数实现。 PhantomJS 驱动程序下载 链接: https://pan.baidu 阅读全文
posted @ 2018-12-12 16:15 python杰 阅读(4895) 评论(0) 推荐(0)
摘要:什么是selenium? 是python的一个第三方库, 对外提供的接口可以操作浏览器, 然后让浏览器完成自动化的操作 环境的安装: 1.pip install selenium 2.获取某一个浏览器的驱动程序(以谷歌浏览器为例) 驱动程序安装包: 链接: https://pan.baidu.com 阅读全文
posted @ 2018-12-12 16:06 python杰 阅读(920) 评论(0) 推荐(0)
摘要:附:本文选自https://blog.csdn.net/huilan_same/article/details/51896672 阅读全文
posted @ 2018-12-12 15:59 python杰 阅读(422) 评论(0) 推荐(0)
摘要:图片懒加载 什么是图片懒加载? 图片懒加载是一种网页优化技术。图片作为一种网络资源,在被请求时也与普通静态资源一样,将占用网络资源,而一次性将整个页面的所有图片加载完,将大大增加页面的首屏加载时间。为了解决这种问题,通过前后端配合,使图片仅在浏览器当前视窗内出现时才加载该图片,达到减少首屏图片请求数 阅读全文
posted @ 2018-12-12 15:44 python杰 阅读(712) 评论(0) 推荐(0)
摘要:1 import http.client, mimetypes, urllib, json, time, requests 2 3 4 class YDMHttp: 5 apiurl = 'http://api.yundama.com/api.php' 6 username = '' 7 passw 阅读全文
posted @ 2018-12-12 15:26 python杰 阅读(1399) 评论(0) 推荐(0)
摘要:一.HTTP协议 1.官方概念: HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。(虽然童鞋们将这条概念都看烂了,但是也没办法,毕竟这就是HTTP的权威官方 阅读全文
posted @ 2018-12-12 15:13 python杰 阅读(887) 评论(0) 推荐(0)
摘要:引入 相关的门户网站在进行登录的时候,如果用户连续登录的次数超过3次或者5次的时候,就会在登录页中动态生成验证码。通过验证码达到分流和反爬的效果 - 1.对携带验证码的页面数据进行抓取 - 2.可以将页面数据中验证码进行解析,验证码图片下载到本地 - 3.可以将验证码图片提交给三方平台进行识别,返回 阅读全文
posted @ 2018-12-12 15:09 python杰 阅读(372) 评论(0) 推荐(0)
摘要:1 import time 2 import pymysql 3 import threading 4 from DBUtils.PooledDB import PooledDB, SharedDBConnection 5 POOL = PooledDB( 6 creator=pymysql, # 阅读全文
posted @ 2018-12-11 17:19 python杰 阅读(153) 评论(0) 推荐(0)
摘要:1 # b'\x81\x83\xceH\xb6\x85\xffz\x85' 2 3 hashstr = b'\x81\x83\xceH\xb6\x85\xffz\x85' 4 # b'\x81 \x83 \xceH\xb6\x85\xffz\x85' 5 6 # 将第二个字节也就是 \x83 第9- 阅读全文
posted @ 2018-12-11 17:17 python杰 阅读(267) 评论(0) 推荐(0)
摘要:class BaseHandler(object): def __init__(self): self._request_middleware = None self._view_middleware = None self._template_response_middleware = None 阅读全文
posted @ 2018-12-11 14:24 python杰 阅读(489) 评论(0) 推荐(0)
摘要:不要采用IO操作,容易出现问题,for循环执行效率要快于with open的效率,错误代码如下: 阅读全文
posted @ 2018-12-11 14:20 python杰 阅读(1549) 评论(0) 推荐(0)