摘要: 如下,使用 Selenium 打开淘宝首页并获取页面源代码: 阅读全文
posted @ 2019-03-15 21:08 孔雀东南飞 阅读(187) 评论(0) 推荐(0) 编辑
摘要: Selenium 简介 Selenium 基本用法 Selenium 查找节点 Selenium 节点交互 Selenium 动作链 Selenium 执行 JavaScript Selenium 获取节点信息 Selenium 切换 Frame Selenium 延时等待 Selenium 前进和后退 Selenium 管理 Cookies Selenium 选项卡管理 Selenium 异常... 阅读全文
posted @ 2019-03-15 20:11 孔雀东南飞 阅读(223) 评论(0) 推荐(0) 编辑
摘要: 有时候我们在用 requests 抓取页面的时候,得到的结果可能和在浏览器中看到的不一样,在浏览器中可以看到正常显示的页面数据,但是使用 requests 得到的结果并没有。这是因为 requests 获取的都是原始的 HTML 文档,而浏览器中的页面则是经过 JavaScript 处理数据后生成的 阅读全文
posted @ 2019-03-15 18:28 孔雀东南飞 阅读(602) 评论(0) 推荐(0) 编辑
摘要: 使用 Selenium 使用 Splash 阅读全文
posted @ 2019-03-15 14:08 孔雀东南飞 阅读(172) 评论(0) 推荐(0) 编辑
摘要: Python 如何提取 Ajax 真正响应的内容: 以 https://m.weibo.cn/u/2830678474 这个网页为例,选择其中一个 Ajax 请求,找到请求的URL和传递的参数 结果返回真正的响应内容: 阅读全文
posted @ 2019-03-15 10:42 孔雀东南飞 阅读(400) 评论(0) 推荐(0) 编辑
摘要: 我们如何查看到 Ajax 请求: 以 https://m.weibo.cn/u/2830678474 这个网页为例,按 F12,加载网页,然后选择资源类型为 XHR 的就可以看到 Ajax 请求了 我们看到的微博页面的真实数据并不是最原始的页面返回的,而是后来执行 JavaScript 后再次向后台 阅读全文
posted @ 2019-03-15 10:19 孔雀东南飞 阅读(256) 评论(0) 推荐(0) 编辑
摘要: 一、前言 有时候我们在用 requests 抓取页面的时候,得到的结果可能和在浏览器中看到的不一样,在浏览器中可以看到正常显示的页面数据,但是使用 requests 得到的结果并没有。这是因为 requests 获取的都是原始的 HTML 文档,而浏览器中的页面则是经过 JavaScript 处理数 阅读全文
posted @ 2019-03-15 08:17 孔雀东南飞 阅读(416) 评论(0) 推荐(0) 编辑
摘要: Ajax 简介 Ajax 分析方法 Ajax 结果提取 阅读全文
posted @ 2019-03-15 07:53 孔雀东南飞 阅读(144) 评论(0) 推荐(0) 编辑
摘要: 将爬取到的数据以 CSV 文件形式存储: 阅读全文
posted @ 2019-03-15 07:47 孔雀东南飞 阅读(415) 评论(0) 推荐(0) 编辑
摘要: 将爬取到的数据以 Json 文件形式存储: 结果如下: 阅读全文
posted @ 2019-03-15 07:21 孔雀东南飞 阅读(1078) 评论(0) 推荐(0) 编辑
摘要: 将爬取的数据以 TXT 文本形式存储: 阅读全文
posted @ 2019-03-15 07:10 孔雀东南飞 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 使用 TXT 文本存储 使用 Json 文件存储 使用 CSV 文件存储 使用 MySQL 存储 使用 MongoDB 存储 使用 Redis 存储 阅读全文
posted @ 2019-03-15 06:35 孔雀东南飞 阅读(160) 评论(0) 推荐(0) 编辑
摘要: PyQuery 用法: (1) 前面我们爬取一个网页,都是使用正则表达式来提取想要的信息,但是这种方式比较复杂,一旦有一个地方写错,就匹配不出来了,因此我们可以使用 PyQuery(2) PyQuery 是一个网页解析库,如果你觉得正则写起来太麻烦,如果你觉得 BeautifulSoup 语法太难记 阅读全文
posted @ 2019-03-15 06:33 孔雀东南飞 阅读(130) 评论(0) 推荐(0) 编辑