摘要: Splash 是一个JavaScript渲染服务,是一个带有HTTP API 的轻量级浏览器,同时它对接了Python中Twisted和QT库。 1.功能介绍 1)异步方法处理多个网页渲染过程; 2)获取渲染后的页面的源代码或截图; 3)通过关闭图片渲染或者使用Adblock规则来加快页面渲染速度; 阅读全文
posted @ 2019-04-08 10:37 爱学习的红领巾 阅读(315) 评论(0) 推荐(0) 编辑
摘要: Selenim 是一个自动化测试工具,可以利用它驱动浏览器执行特定的动作,如点击、下拉等操作,同时可以获取浏览器当前呈现的页面的源代码,做到可见及可爬 1.使用流程 1)声明浏览器对象 Selenium 支持非常多的浏览器,如Chrome、Firefox、Edge等,还有Android、BlackB 阅读全文
posted @ 2019-04-08 09:38 爱学习的红领巾 阅读(1371) 评论(0) 推荐(0) 编辑
摘要: XPath 1.常用规则 2.etree python 3.5以上没有了整合的库,通过from lxml import etree 调用,pycharm会报错,但是功能还是能够实现 etree.HTML() 对html文本进行初始化 etree.tostring() 输出修正后的代码 (bytes类 阅读全文
posted @ 2019-03-28 16:49 爱学习的红领巾 阅读(397) 评论(0) 推荐(0) 编辑
摘要: USER = [ "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; AcooBrowser; .NET CLR 1.1.4322; .NET CLR 2.0.50727)", "Mozilla/4.0 (compatible; MSIE 阅读全文
posted @ 2019-03-28 13:56 爱学习的红领巾 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 1.requests 1.method 提交方式:post、get、put、delete、options、head、patch 2.url 访问地址 3.params 在url中传递的参数,GET params = {'k1':'v1','k2':'v2'} params = ‘k1=v1&k2=v 阅读全文
posted @ 2019-03-26 15:54 爱学习的红领巾 阅读(162) 评论(0) 推荐(0) 编辑
摘要: 内置函数 1.os 提供对操作系统进行调用的接口 2.sys 用于提供对解释器相关的操作 3.hashlib 用于加密相关的操作,代替了md5模块和sha模块,主要提供 SHA1, SHA224, SHA256, SHA384, SHA512 ,MD5 算法 4.json 用于字符串与python数 阅读全文
posted @ 2019-03-23 17:12 爱学习的红领巾 阅读(181) 评论(0) 推荐(0) 编辑
摘要: set,是一个无序且不重复的元素集合 深浅copy 一、数字和字符串 对于数字和字符串而言,赋值、浅拷贝和深拷贝无意义,因为其永远指向同一个内存地址。 二、其他基本数据类型 对于字典、元祖、列表 而言,进行赋值、浅拷贝和深拷贝时,其内存地址的变化是不同的。 函数 一、定义和使用 def 函数名(参数 阅读全文
posted @ 2019-03-17 13:02 爱学习的红领巾 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 实现自定制页码数类型class myPaginator(Paginator): def __init__(self,curr_page,per_page_num,*args,**kwargs): self.curr_page=int(curr_page) self.per_page_num=int( 阅读全文
posted @ 2019-03-13 15:55 爱学习的红领巾 阅读(290) 评论(0) 推荐(0) 编辑