1 Fork me on GitHub
摘要: 1. 前言 Beautiful Soup 简称 BS4(其中 4 表示版本号)是一个 Python 第三方库,它可以从 HTML 或 XML 文档中快速地提取指定的数据。Beautiful Soup 语法简单,使用方便,并且容易理解,因此您可以快速地学习并掌握它。本节我们讲解 BS4 的基本语法。 阅读全文
posted @ 2022-09-21 14:17 v_jjling 阅读(102) 评论(0) 推荐(1) 编辑
摘要: 1. 前言 网络爬虫程序是一种 IO 密集型程序,程序中涉及了很多网络 IO 以及本地磁盘 IO 操作,这些都会消耗大量的时间,从而降低程序的执行效率,而 Python 提供的多线程能够在一定程度上提升 IO 密集型程序的执行效率。 如果想学习 Python 多进程、多线程以及 Python GIL 阅读全文
posted @ 2022-09-21 13:45 v_jjling 阅读(114) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 在使用爬虫采集数据的规程中,我们会遇到许多不同类型的网站,比如一些网站需要用户登录后才允许查看相关内容,如果遇到这种类型的网站,又应该如何编写爬虫程序呢?Cookie 模拟登录技术成功地解决了此类问题。Cookie 是一个记录了用户登录状态以及用户属性的加密字符串。当你第一次登陆网站时, 阅读全文
posted @ 2022-09-21 11:46 v_jjling 阅读(237) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,遵循欧洲计算机协会制定的 JavaScript 规范(简称 ECMAScript)。JSON 易于人阅读和编写,同时也易于机器解析和生成,能够有效的提升网信息的传输效率,因此它常被作为网络、程序之 阅读全文
posted @ 2022-09-21 11:42 v_jjling 阅读(32) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 本节讲解如何抓取豆瓣电影“分类排行榜”中的电影数据(https://movie.douban.com/chart),比如输入“犯罪”则会输出所有犯罪影片的电影名称、评分,效果如下所示: 剧情|喜剧|动作|爱情|科幻|动画|悬疑|惊悚|恐怖|纪录片|短片|情色|同性|音乐|歌舞|家庭|儿童 阅读全文
posted @ 2022-09-21 11:26 v_jjling 阅读(118) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 有道翻译是以异步方式实现数据加载的,要实现对此类网站的数据抓取,其过程相对繁琐,本节我以有道翻译为例进行详细讲解。上一节《浏览器实现抓包过程详解》,通过控制台抓包,我们得知了 POST 请求的参数以及相应的参数值,如下所示: 图1:有道翻译POST请求参数 并发现以下了规律:salt、s 阅读全文
posted @ 2022-09-21 11:09 v_jjling 阅读(382) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 几乎所有浏览器都提供了抓取数据包的功能,因为浏览器为抓包提供了一个专门的操作界面,因此这种抓包方式也被称为“控制台抓包”。本节以 Chrome 浏览器为例进行抓包演示。 控制台抓包指的是利用浏览器开的发者调试工具抓取客户端与后端服务器交互的数据,它能够将网络传输中发送与接收的数据进行截获 阅读全文
posted @ 2022-09-21 10:55 v_jjling 阅读(394) 评论(0) 推荐(0) 编辑
摘要: 1.前言 本节使用 Python 爬虫库完成链家二手房(https://bj.lianjia.com/ershoufang/rs/)房源信息抓取,包括楼层、区域、总价、单价等信息。在编写此程序的过程中,您将体会到 lxml 解析库的实际应用。 2. 编写程序流程分析 打开链家网站后,第一步,确定网站 阅读全文
posted @ 2022-09-21 10:25 v_jjling 阅读(207) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 本节通过编写一个简单的爬虫程序,进一步熟悉 lxml 解析库的使用。下面使用 lxml 库抓取猫眼电影 Top100 榜(点击访问),编写程序的过程中,注意与《Python爬虫抓取猫眼电影排行榜》中使用的正则解析方式对比,这样您会发现 lxml 解析库是如此的方便。 2. 确定信息元素结 阅读全文
posted @ 2022-09-21 10:10 v_jjling 阅读(93) 评论(0) 推荐(0) 编辑
摘要: 1.前言 lxml 是 Python 的第三方解析库,完全使用 Python 语言编写,它对 Xpath 表达式提供了良好的支持,因此能够了高效地解析 HTML/XML 文档。本节讲解如何通过 lxml 库解析 HTML 文档。 2. 安装lxml库 lxml 属于 Python 第三方库,因此需要 阅读全文
posted @ 2022-09-21 09:54 v_jjling 阅读(523) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 为了帮助大家快速掌握 Xpath 表达式的使用,这里给大家推荐一款 Xpath 表达式匹配助软件,它就是 Xpath Helper。 2. Xpath Helper介绍 Xpath Helper 是一款谷歌应用商店推出的免费工具,因此您需要在谷歌商店进行下载。下载完毕后,谷歌浏览器会将其 阅读全文
posted @ 2022-09-21 09:42 v_jjling 阅读(365) 评论(0) 推荐(0) 编辑
摘要: 1. 前言 在编写爬虫程序的过程中提取信息是非常重要的环节,但是有时使用正则表达式无法匹配到想要的信息,或者书写起来非常麻烦,此时就需要用另外一种数据解析方法,也就是本节要介绍的 Xpath 表达式。 2. Xpath表达式 XPath(全称:XML Path Language)即 XML 路径语言 阅读全文
posted @ 2022-09-21 09:39 v_jjling 阅读(73) 评论(0) 推荐(0) 编辑
AmazingCounters.com