上一页 1 ··· 59 60 61 62 63 64 65 66 67 ··· 113 下一页
摘要: Scrapy 是一个基于 Twisted 实现的异步处理爬虫框架,该框架使用纯 Python 语言编写。Scrapy 框架应用广泛,常用于数据采集、网络监测,以及自动化测试等。 提示:Twisted 是一个基于事件驱动的网络引擎框架,同样采用 Python 实现。 Scrapy下载安装 Scrapy 阅读全文
posted @ 2022-08-01 13:16 随遇而安== 阅读(134) 评论(0) 推荐(0) 编辑
摘要: 本节讲解 Python Selenium 爬虫实战案例,通过对实战案例的讲解让您进一步认识 Selenium 框架。实战案例目标:抓取京东商城(https://www.jd.com/)商品名称、商品价格、评论数量,以及商铺名称。比如输入搜索“Python书籍”,则抓取如下数据: {'name': ' 阅读全文
posted @ 2022-08-01 13:15 随遇而安== 阅读(147) 评论(0) 推荐(0) 编辑
摘要: Selenium 作为一款 Web 自动化测试框架,提供了诸多操作浏览器的方法,本节对其中的常用方法做详细介绍。 定位节点 Selenium 提供了 8 种定位单个节点的方法,如下所示: 定位节点方法 方法 说明 find_element_by_id() 通过 id 属性值定位 find_eleme 阅读全文
posted @ 2022-08-01 13:14 随遇而安== 阅读(148) 评论(0) 推荐(0) 编辑
摘要: Selenium 是一个用于测试 Web 应用程序的自动化测试工具,它直接运行在浏览器中,实现了对浏览器的自动化操作,它支持所有主流的浏览器,包括 IE,Firefox,Safari,Chrome 等。Selenium 支持所有主流平台(如,Windows、Linux、IOS、Android、Edg 阅读全文
posted @ 2022-08-01 13:13 随遇而安== 阅读(181) 评论(0) 推荐(0) 编辑
摘要: Beautiful Soup 简称 BS4(其中 4 表示版本号)是一个 Python 第三方库,它可以从 HTML 或 XML 文档中快速地提取指定的数据。Beautiful Soup 语法简单,使用方便,并且容易理解,因此您可以快速地学习并掌握它。本节我们讲解 BS4 的基本语法。 图1:BS4 阅读全文
posted @ 2022-08-01 13:11 随遇而安== 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 多线程使用流程 Python 提供了两个支持多线程的模块,分别是 _thread 和 threading。其中 _thread 模块偏底层,它相比于 threading 模块功能有限,因此推荐大家使用 threading 模块。 threading 中不仅包含了 _thread 模块中的所有方法,还 阅读全文
posted @ 2022-08-01 13:10 随遇而安== 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 在使用爬虫采集数据的规程中,我们会遇到许多不同类型的网站,比如一些网站需要用户登录后才允许查看相关内容,如果遇到这种类型的网站,又应该如何编写爬虫程序呢?Cookie 模拟登录技术成功地解决了此类问题。Cookie 是一个记录了用户登录状态以及用户属性的加密字符串。当你第一次登陆网站时,服务端会在返 阅读全文
posted @ 2022-08-01 13:09 随遇而安== 阅读(258) 评论(0) 推荐(0) 编辑
摘要: JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,遵循欧洲计算机协会制定的 JavaScript 规范(简称 ECMAScript)。JSON 易于人阅读和编写,同时也易于机器解析和生成,能够有效的提升网信息的传输效率,因此它常被作为网络、程序之间传递信息的 阅读全文
posted @ 2022-08-01 13:08 随遇而安== 阅读(68) 评论(0) 推荐(0) 编辑
摘要: 本节讲解如何抓取豆瓣电影“分类排行榜”中的电影数据(https://movie.douban.com/chart),比如输入“犯罪”则会输出所有犯罪影片的电影名称、评分,效果如下所示: 剧情|喜剧|动作|爱情|科幻|动画|悬疑|惊悚|恐怖|纪录片|短片|情色|同性|音乐|歌舞|家庭|儿童|传记|历史 阅读全文
posted @ 2022-08-01 13:07 随遇而安== 阅读(464) 评论(0) 推荐(0) 编辑
摘要: 本节使用 Python 爬虫库完成链家二手房(https://bj.lianjia.com/ershoufang/rs/)房源信息抓取,包括楼层、区域、总价、单价等信息。在编写此程序的过程中,您将体会到 lxml 解析库的实际应用。 编写程序流程分析 打开链家网站后,第一步,确定网站是否为静态网站, 阅读全文
posted @ 2022-08-01 13:05 随遇而安== 阅读(1344) 评论(0) 推荐(0) 编辑
上一页 1 ··· 59 60 61 62 63 64 65 66 67 ··· 113 下一页