随笔分类 -  网络爬虫

摘要:最近,博主面临着选方向的困难(唉,选择困难症患者 >﹏<),所以希望了解一下目前不同岗位的就业前景 这时,就不妨写个小爬虫,爬取一下拉勾网的职位数据,并用图形化的方法展示出来,一目了然 阅读全文
posted @ 2019-06-09 15:27 半虹 阅读(5368) 评论(0) 推荐(0) 编辑
摘要:最近,博主喜欢上了听歌,但是又苦于找不到好音乐,于是就打算到网易云的歌单中逛逛 本着 “用技术改变生活” 的想法,于是便想着写一个爬虫爬取网易云的歌单,并按播放量自动进行排序 阅读全文
posted @ 2019-04-10 17:13 半虹 阅读(6779) 评论(0) 推荐(0) 编辑
摘要:最近博主遇到这样一个需求:当用户输入一个词语时,返回这个词语的解释 我的第一个想法是做一个数据库,把常用的词语和词语的解释放到数据库里面,当用户查询时直接读取数据库结果 但是自己又没有心思做这样一个数据库,于是就想到了百度百科这么一个现成的 “数据库” 下面我们就通过 urllib 和 xpath 来获取百度百科的内容 阅读全文
posted @ 2019-03-14 17:31 半虹 阅读(7894) 评论(0) 推荐(0) 编辑
摘要:这篇文章,我们将通过 selenium 模拟用户使用浏览器的行为,爬取京东商品信息,还是先放上最终的效果图: 阅读全文
posted @ 2018-08-29 20:00 半虹 阅读(7063) 评论(0) 推荐(0) 编辑
摘要:随着网络技术的发展,目前大部分网站都采用动态加载技术,常见的有 JavaScript 动态渲染和 Ajax 动态加载 对于爬取这些网站,一般有两种思路: 阅读全文
posted @ 2018-08-24 17:27 半虹 阅读(1593) 评论(0) 推荐(0) 编辑
摘要:这篇文章,我们继续利用 requests 和 xpath 爬取豆瓣电影的短评,下面还是先贴上效果图: 阅读全文
posted @ 2018-08-23 22:47 半虹 阅读(5326) 评论(3) 推荐(1) 编辑
摘要:这篇文章我们将使用 requests 和 xpath 爬取豆瓣电影 Top250,下面先贴上最终的效果图: 阅读全文
posted @ 2018-08-23 16:29 半虹 阅读(2284) 评论(0) 推荐(1) 编辑
摘要:究竟什么是 xpath 呢?简单来说,xpath 就是一种在 XML 文档中查找信息的语言 而 XML 文档就是由一系列节点构成的树,例如,下面是一份简单的 XML 文档: 阅读全文
posted @ 2018-08-22 22:50 半虹 阅读(4830) 评论(0) 推荐(1) 编辑
摘要:这篇文章我们将使用 requests 调用天气查询接口,实现一个天气查询的小模块,下面先贴上最终的效果图 阅读全文
posted @ 2018-08-19 16:58 半虹 阅读(793) 评论(0) 推荐(0) 编辑
摘要:requests 是一个功能强大、简单易用的 HTTP 请求库,可以使用 `pip install requests` 命令进行安装 下面我们将会介绍 requests 中常用的方法,详细内容请参考官方文档 阅读全文
posted @ 2018-08-18 17:48 半虹 阅读(905) 评论(0) 推荐(0) 编辑
摘要:这篇文章我们将使用 urllib 和 re 模块爬取百度贴吧,并使用三种文件格式存储数据,下面先贴上最终的效果图 阅读全文
posted @ 2018-08-17 17:05 半虹 阅读(1263) 评论(0) 推荐(0) 编辑
摘要:究竟什么是正则表达式 (Regular Expression) 呢?可以用下面的一句话简单概括: 正则表达式是一组特殊的字符序列,由一些事先定义好的字符以及这些字符的组合形成,常常用于匹配字符串 阅读全文
posted @ 2018-08-14 17:35 半虹 阅读(1129) 评论(0) 推荐(0) 编辑
摘要:这篇文章我们将以 百度翻译 为例,分析网络请求的过程,然后使用 urllib 编写一个英语翻译的小模块 阅读全文
posted @ 2018-08-12 10:53 半虹 阅读(1058) 评论(0) 推荐(0) 编辑
摘要:urllib 是 Python3 中自带的 HTTP 请求库,无需复杂的安装过程即可正常使用,十分适合爬虫入门 阅读全文
posted @ 2018-08-11 21:48 半虹 阅读(2121) 评论(0) 推荐(0) 编辑
摘要:在这篇文章中,我们将尝试使用直观的网页分析工具(Chrome 开发者工具)对网页进行抓包分析,更加深入的了解网络爬虫的本质与内涵 阅读全文
posted @ 2018-08-10 10:51 半虹 阅读(4094) 评论(0) 推荐(0) 编辑
摘要:最近博主在学习网络爬虫的相关技术(基于 Python 语言),作为一个学习的总结,打算用博客记录下来,也希望和大家分享一下自己在学习过程中的点点滴滴,话不多说,让我们马上开始吧 阅读全文
posted @ 2018-08-09 17:35 半虹 阅读(5037) 评论(0) 推荐(0) 编辑