摘要:
Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,可以按指定的命令自动操作,但是他需要与第三方浏览器结合在一起才能使用。如果我们把 Selenium和第三方浏览器(比如Chrome)结合在一起,就可以运行一个非常强大的网络爬虫了,这个爬虫可以处理 JavaScrip、Co 阅读全文
摘要:
python中自定义模块导入路径的方式主要有以下3种: (1)使用sys.path.append() 随着程序执行,会动态地添加模块导入的路径,但是程序执行结束后就会立即失效(临时性的) import sys sys.path.append('自定义路径') (2)加入到环境变量PYTHONPATH 阅读全文
摘要:
zip(*iterables) zip可以将多个可迭代对象组合成一个迭代器对象,通过迭代取值,可以得到n个长度为m的元组。其中n为长度最短可迭代对象的元素个数,m为可迭代对象的个数。并且每个元组的第i个元素都来自于第i个可迭代对象。 举例: In [1]: a = zip((1,2,3),[4,5, 阅读全文
摘要:
selenium是一个Web的自动化测试工具,它可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。但是它自身不带浏览器,不支持浏览器的功能,因此它需要与第三方浏览器结合在一起才能使用。当selenium升级到3.0之后,对不同的浏览器驱动进行了规 阅读全文
摘要:
Python自带json模块,它有loads、dumps、load和dump这4个功能,用于Json格式字符串和Python数据类型间进行转换。 一、json.loads() 把Json格式字符串解码转换成Python对象 Json中的对象和数组类型字符串会转换成Python中的字典和列表 示例 I 阅读全文
摘要:
Beautiful Soup 是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。 一、安装 sudo pip3 install beautifulsoup4 二、使用 导入模块 from bs4 import BeautifulSoup 创建BeautifulSo 阅读全文
摘要:
hmac(hex-based message authentication code)算法在计算哈希的过程中混入了key(实际上就是加盐),和hashlib模块中的普通加密算法相比,它能够防止密码被撞库破解,安全性更高。 hmac模块的使用: 导入模块 In [1]: import hmac #导入 阅读全文
摘要:
使用lxml之前,我们首先要会使用XPath。利用XPath,就可以将html文档当做xml文档去进行处理解析了。 一、XPath的简单使用: XPath (XML Path Language) 是一门在 XML 文档中查找信息的语言,可用来在 XML 文档中对元素和属性进行遍历。 1.开发工具的安 阅读全文
摘要:
只需要在Linux上安装lrzsz工具包就可以,然后使用命令sz下载文件,rz上传文件。 一、安装lrzsz工具包 sudo apt-get install lrzsz 二、从Linux下载文件--(sz命令) sz 文件名 会从当前目录选择目标文件进行下载,并弹出保存文件的窗口,您可以自行选择文件 阅读全文
摘要:
可以通过导入html包,利用html.escape()函数对字符串进行html转义,利用html.unescape()函数对字符串进行html反转义。 In [1]: import html In [2]: html.escape(''' < > ' " & ''') #html转义 Out[2]: 阅读全文