半虹 - 博客园

只有注册用户登录后才能阅读该文。阅读全文

posted @ 2018-08-31 11:27 半虹阅读(5560) 评论(0) 推荐(0) 编辑

摘要：这篇文章，我们将通过 selenium 模拟用户使用浏览器的行为，爬取京东商品信息，还是先放上最终的效果图：阅读全文

posted @ 2018-08-29 20:00 半虹阅读(6982) 评论(0) 推荐(0) 编辑

摘要：随着网络技术的发展，目前大部分网站都采用动态加载技术，常见的有 JavaScript 动态渲染和 Ajax 动态加载对于爬取这些网站，一般有两种思路：阅读全文

posted @ 2018-08-24 17:27 半虹阅读(1583) 评论(0) 推荐(0) 编辑

摘要：这篇文章，我们继续利用 requests 和 xpath 爬取豆瓣电影的短评，下面还是先贴上效果图：阅读全文

posted @ 2018-08-23 22:47 半虹阅读(5288) 评论(3) 推荐(1) 编辑

摘要：这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250，下面先贴上最终的效果图：阅读全文

posted @ 2018-08-23 16:29 半虹阅读(2259) 评论(0) 推荐(1) 编辑

摘要：究竟什么是 xpath 呢？简单来说，xpath 就是一种在 XML 文档中查找信息的语言而 XML 文档就是由一系列节点构成的树，例如，下面是一份简单的 XML 文档：阅读全文

posted @ 2018-08-22 22:50 半虹阅读(4817) 评论(0) 推荐(1) 编辑

摘要：这篇文章我们将使用 requests 调用天气查询接口，实现一个天气查询的小模块，下面先贴上最终的效果图阅读全文

posted @ 2018-08-19 16:58 半虹阅读(785) 评论(0) 推荐(0) 编辑

摘要： requests 是一个功能强大、简单易用的 HTTP 请求库，可以使用 `pip install requests` 命令进行安装下面我们将会介绍 requests 中常用的方法，详细内容请参考官方文档阅读全文

posted @ 2018-08-18 17:48 半虹阅读(894) 评论(0) 推荐(0) 编辑

摘要：这篇文章我们将使用 urllib 和 re 模块爬取百度贴吧，并使用三种文件格式存储数据，下面先贴上最终的效果图阅读全文

posted @ 2018-08-17 17:05 半虹阅读(1250) 评论(0) 推荐(0) 编辑

摘要：究竟什么是正则表达式 (Regular Expression) 呢？可以用下面的一句话简单概括：正则表达式是一组特殊的字符序列，由一些事先定义好的字符以及这些字符的组合形成，常常用于匹配字符串阅读全文

posted @ 2018-08-14 17:35 半虹阅读(1119) 评论(0) 推荐(0) 编辑

半虹小站