摘要: Selenium 自动化测试工具,支持多种浏览器。 爬虫中主要用来解决JavaScript渲染的问题 安装Selenium pip3 isntall selenium Selenium 基本使用 声明浏览器对象 访问页面 查找元素 单个元素 find_element_by_name find_ele 阅读全文
posted @ 2018-10-18 19:10 蒲群柱 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 强大又灵活的网页解析库。如果你觉得正则写起来太麻烦,如果你觉得BeautifulSoup语法太难记,如果你熟悉jQuery的语法,那么PyQuery就是你的绝佳选择 安装PyQuery pip3 install pyquery 初始化 字符串初始化 URL初始化 文件初始化 基本CSS选择器 查找元 阅读全文
posted @ 2018-10-18 16:22 蒲群柱 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 灵活又方便的网页解析库,处理高效,支持多种解析器。利用它不用编写正则表达式即可方便的实现网页信息的提取 安装BeautifulSoup pip3 install beautifulsoup4 解析库 解析器 | 使用方法 | 优势 | 劣势 | | | Python标准库 | BeautifulSo 阅读全文
posted @ 2018-10-18 14:43 蒲群柱 阅读(135) 评论(0) 推荐(0) 编辑
摘要: 什么是正则表达式? 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个"规则字符串",这个“规则字符串”用来表达对字符串的一种过滤逻辑 非Python独有,re模块实现 常见匹配模式 模式 | 描述 | \w |匹配字符数字及下划线 \W |匹配非 阅读全文
posted @ 2018-10-18 12:03 蒲群柱 阅读(118) 评论(0) 推荐(0) 编辑