摘要: 初识selenium selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 声明浏览器对象 阅读全文
posted @ 2019-01-24 22:52 XJT2019 阅读(581) 评论(0) 推荐(0) 编辑
摘要: PyQuery解析库 阅读目录 初始化 基本CSS选择器 查找元素 遍历 获取信息 DOM操作 伪类选择器 PyQuery解析库 阅读目录 初始化 基本CSS选择器 查找元素 遍历 获取信息 DOM操作 伪类选择器 PyQuery 是 Python 仿照 jQuery 的严格实现。语法与 jQuer 阅读全文
posted @ 2019-01-24 22:29 XJT2019 阅读(284) 评论(0) 推荐(0) 编辑
摘要: BeautifulSoup解析 HTML或XML 阅读目录 初识Beautiful Soup Beautiful Soup库的4种解析器 Beautiful Soup类的基本元素 基本使用 标签选择器 节点操作 标准选择器 find_all( name , attrs , recursive , t 阅读全文
posted @ 2019-01-24 17:03 XJT2019 阅读(368) 评论(0) 推荐(0) 编辑
摘要: 正则表达式与re模块 阅读目录 在线正则表达式测试 常见匹配模式 re.match re.search re.findall re.compile 实战练习 在线正则表达式测试 http://tool.oschina.net/regex/ 常见匹配模式 re.match re.match 尝试从字符 阅读全文
posted @ 2019-01-24 09:57 XJT2019 阅读(515) 评论(0) 推荐(0) 编辑
摘要: requests比起之前用到的urllib,requests模块的api更加便捷(本质就是封装了urllib3) #GET请求 HTTP默认的请求方法就是GET * 没有请求体 * 数据必须在1K之内! * GET请求数据会暴露在浏览器的地址栏中 GET请求常用的操作: 1. 在浏览器的地址栏中直接 阅读全文
posted @ 2019-01-24 09:41 XJT2019 阅读(799) 评论(0) 推荐(0) 编辑