随笔分类 -  爬虫

摘要:本实验首先为大家介绍了爬虫必备的知识 cookie,掌握 cookie 的使用场景之后,再结合爬虫思想实现了两款实用工具,自动点赞器与自动签到器,为大家扩展了爬虫编写工具的新思路。本节实验的最后会向大家简单介绍爬虫未来的学习方向。 #### 知识点 - cookie 与爬虫 - 实验楼社区点赞器 - 阅读全文
posted @ 2023-07-31 12:02 张Zong在修行 阅读(44) 评论(0) 推荐(0) 编辑
摘要:本实验将实现一款爬虫工具,微博热搜采集发送器,通过 requests 库加 bs4 库完成对热搜的爬取,之后通过 smtplib 库与 email 库实现邮件信息的传递。最后还为大家介绍了一个爬虫技巧,pandas 一行代码抓取表格数据。 #### 知识点 - 微博热搜爬取 - Python 邮件发 阅读全文
posted @ 2023-07-30 07:45 张Zong在修行 阅读(231) 评论(0) 推荐(0) 编辑
摘要:本实验介绍了一个全新的爬虫思路,**通过移动端 Web 站点爬取数据**,方法是借助谷歌浏览器的开发者工具,模拟出移动设备进行网站访问,然后去获取移动端网站的数据接口。后半部分通过爬取 4399 排行榜与什么值得买白菜商品两个案例,强化对于移动端 Web 站点爬取技术的学习。 #### 知识点 - 阅读全文
posted @ 2023-07-29 09:41 张Zong在修行 阅读(96) 评论(0) 推荐(0) 编辑
摘要:本实验将为大家介绍接口爬取的相关知识,通过实验楼课程列表页与 IT 之家动态页,讲解如何通过开发者工具快速判断数据来源。实验过程将通过爬取美食网、实验楼社区两个案例,说明如何针对接口编写爬虫。 #### 知识点 - 接口(API) 爬取知识 - 美食案例实操 - 实验楼社区案例实操 ### 接口(A 阅读全文
posted @ 2023-07-28 11:46 张Zong在修行 阅读(161) 评论(0) 推荐(0) 编辑
摘要:本实验将讲解 Beautiful Soup 4 库解析 HTML 的常见用法,它的中文名字是「美丽汤」。在使用 pip 安装该库时的名字是 beautifulsoup4 ,在使用该库时包的名字是 bs4 ,要注意它们的区别。 Beautiful Soup 4 专注于解析 HTML / XML 源码并 阅读全文
posted @ 2023-07-27 17:34 张Zong在修行 阅读(61) 评论(0) 推荐(0) 编辑
摘要:### 什么是爬虫 如果说把互联网比喻成蜘蛛网,那么爬虫就是在这张网上的蜘蛛,它可以在上面爬来爬去。在互联网中,爬虫就是机器人,你应该对百度和 Google 很熟悉吧,为什么我们可以很快的从它们的搜索引擎中获取到资料呢? 原因就是它们都有自己的爬虫,在整个互联网上,24小时不间断的爬取那些愿意让它们 阅读全文
posted @ 2023-07-24 15:23 张Zong在修行 阅读(115) 评论(0) 推荐(0) 编辑
摘要:本实验将从 HTTP 协议开始为你讲述爬虫的底层原理,之后将 HTTP 协议与 requests 库进行知识关联,为你解释 requests 库是如何实现 HTTP 协议中的相关内容。在实验后半节将为大家讲解 re 模块与正则表达式的泛应用技巧,该技巧可以极大地提高正则表达式编写速度与 Python 阅读全文
posted @ 2023-07-23 09:25 张Zong在修行 阅读(622) 评论(0) 推荐(0) 编辑
摘要:本文将带你认识一个爬取重点解析库 `lxml` ,该库属于爬虫“必考”知识点之一,介绍 `lxml` 的同时会给你介绍两种解析语法,一种深度结合前端知识进行操作,一种语法简洁,处理速度快。以上两部分内容分别为 `cssselect` 与 `XPath` 。 #### 知识点 - lxml 库与 cs 阅读全文
posted @ 2023-07-22 12:36 张Zong在修行 阅读(145) 评论(0) 推荐(0) 编辑
摘要:爬取 蓝桥云课 页面的课程名字和课程链接。爬取内容如下图所示: ![](https://img2023.cnblogs.com/blog/3085423/202307/3085423-20230722093853394-700752689.png) 我们先要打开开发者工具来定位代码,理清我们需要的数 阅读全文
posted @ 2023-07-22 09:39 张Zong在修行 阅读(134) 评论(0) 推荐(0) 编辑
摘要:本博客将学习用 Beautiful Soup 库来实现数据抓取。将会通过爬取世界大学校园排名的数据来讲解 Beautiful Soup 库的基础知识。它包括如何用 Beautiful Soup 库的解析器去解析页面内容、如何遍历和搜索标签树、如何提取出关键的数据并保存到列表或者字典里。 ### Be 阅读全文
posted @ 2023-07-17 22:16 张Zong在修行 阅读(112) 评论(0) 推荐(0) 编辑
摘要:在我们调用`requests.get(网址)`访问网页时,输出为``。是什么原因呢? 如下运行代码: ```python # 导入访问网页要用的库 import requests # 申明一个变量存储网址 # 网址是一个字符串变量,注意网址前后都必须有引号 url = 'https://movie. 阅读全文
posted @ 2023-07-16 22:08 张Zong在修行 阅读(3050) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示