只有注册用户登录后才能阅读该文。 阅读全文
posted @ 2018-08-31 11:27 半虹 阅读(5560) 评论(0) 推荐(0) 编辑
摘要: 这篇文章,我们将通过 selenium 模拟用户使用浏览器的行为,爬取京东商品信息,还是先放上最终的效果图: 阅读全文
posted @ 2018-08-29 20:00 半虹 阅读(6982) 评论(0) 推荐(0) 编辑
摘要: 随着网络技术的发展,目前大部分网站都采用动态加载技术,常见的有 JavaScript 动态渲染和 Ajax 动态加载 对于爬取这些网站,一般有两种思路: 阅读全文
posted @ 2018-08-24 17:27 半虹 阅读(1583) 评论(0) 推荐(0) 编辑
摘要: 这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 阅读全文
posted @ 2018-08-23 22:47 半虹 阅读(5288) 评论(3) 推荐(1) 编辑
摘要: 这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 阅读全文
posted @ 2018-08-23 16:29 半虹 阅读(2259) 评论(0) 推荐(1) 编辑
摘要: 究竟什么是 xpath 呢?简单来说,xpath 就是一种在 XML 文档中查找信息的语言 而 XML 文档就是由一系列节点构成的树,例如,下面是一份简单的 XML 文档: 阅读全文
posted @ 2018-08-22 22:50 半虹 阅读(4817) 评论(0) 推荐(1) 编辑
摘要: 这篇文章我们将使用 requests 调用天气查询接口,实现一个天气查询的小模块,下面先贴上最终的效果图 阅读全文
posted @ 2018-08-19 16:58 半虹 阅读(785) 评论(0) 推荐(0) 编辑
摘要: requests 是一个功能强大、简单易用的 HTTP 请求库,可以使用 `pip install requests` 命令进行安装 下面我们将会介绍 requests 中常用的方法,详细内容请参考官方文档 阅读全文
posted @ 2018-08-18 17:48 半虹 阅读(894) 评论(0) 推荐(0) 编辑
摘要: 这篇文章我们将使用 urllib 和 re 模块爬取百度贴吧,并使用三种文件格式存储数据,下面先贴上最终的效果图 阅读全文
posted @ 2018-08-17 17:05 半虹 阅读(1250) 评论(0) 推荐(0) 编辑
摘要: 究竟什么是正则表达式 (Regular Expression) 呢?可以用下面的一句话简单概括: 正则表达式是一组特殊的字符序列,由一些事先定义好的字符以及这些字符的组合形成,常常用于匹配字符串 阅读全文
posted @ 2018-08-14 17:35 半虹 阅读(1119) 评论(0) 推荐(0) 编辑