2022 年 9月 17 日随笔档案 - v_jjling

2022年9月17日

摘要： 1. 前言 Python 提供了多个用来编写爬虫程序的库，除了前面已经介绍的 urllib 库之外，还有一个很重的 Requests 库，这个库的宗旨是“让 HTTP 服务于人类”。 Requests 是 Python 的第三方库，它的安装非常简便，如下所示： python -m pip insta 阅读全文

posted @ 2022-09-17 18:50 v_jjling 阅读(80) 评论(0) 推荐(0) 编辑

17. [实例]抓取多级页面数据

摘要： 1. 前言前面讲解的爬虫案例都是单级页面数据抓取，但有些时候，只抓取一个单级页面是无法完成数据提取的。本节讲解如何使用爬虫抓取多级页面的数据。在爬虫的过程中，多级页面抓取是经常遇见的。下面以抓取二级页面为例，对每级页面的作用进行说明：一级页面提供了获取二级页面的访问链接。二级页面作为详情页用来阅读全文

posted @ 2022-09-17 18:37 v_jjling 阅读(93) 评论(0) 推荐(0) 编辑

16. Python Pymysql实现数据存储

摘要： 1. 前言 Python 连接并操作 MySQL 数据库，主要通过 Pymysql 模块实现。本节讲解如何将抓取的数据存储至 MySQL 数据库。提示：在学习本节知识之前，您已经掌握了 SQL 语言的基本语法。可参考《MySQL教程》 2. 创建存储数据表首先您应该确定您的计算机上已经安装了 M 阅读全文

posted @ 2022-09-17 18:31 v_jjling 阅读(428) 评论(0) 推荐(0) 编辑

15. [实例]抓取猫眼电影排行榜

摘要： 1.前言本节使用 Python 爬虫抓取猫眼电影网 TOP100 排行榜（https://maoyan.com/board/4）影片信息，包括电影名称、上映时间、主演信息。在开始编写程序之前，首先要确定页面类型（静态页面或动态页面），其次找出页面的 url 规律，最后通过分析网页元素结构来确定正则阅读全文

posted @ 2022-09-17 18:24 v_jjling 阅读(164) 评论(0) 推荐(0) 编辑

14. Python csv模块（读写文件）

摘要： 1. 前言 CSV 文件又称为逗号分隔值文件，是一种通用的、相对简单的文件格式，用以存储表格数据，包括数字或者字符。CSV 是电子表格和数据库中最常见的输入、输出文件格式，可参考《CSV介绍》。通过爬虫将数据抓取的下来，然后把数据保存在文件，或者数据库中，这个过程称为数据的持久化存储。本节介绍 Py 阅读全文

posted @ 2022-09-17 18:09 v_jjling 阅读(184) 评论(0) 推荐(0) 编辑

13. Python re模块用法详解

摘要： 1. 前言在 Python 爬虫过程中，实现网页元素解析的方法有很多，正则解析只是其中之一，常见的还有 BeautifulSoup 和 lxml，它们都支持网页 HTML 元素的解析操作。本节重点讲解如何使用 re 正则解析模块实现网页信息的提取。注意：在学习本节知识之前，您应该基本掌握了 Py 阅读全文

posted @ 2022-09-17 17:58 v_jjling 阅读(161) 评论(0) 推荐(0) 编辑

12. 正则表达式基本语法

摘要： 1. 前言正则表达式(regular expression)是一种字符串匹配模式或者规则，它可以用来检索、替换那些符合特定规则的文本。正则表达式几乎适用于所有编程语言，无论是前端语言 JavaScript，还是诸如许多后端语言，比如 Python、Java、C# 等，这些语言都提供了相应的函数、模阅读全文

posted @ 2022-09-17 17:51 v_jjling 阅读(72) 评论(0) 推荐(0) 编辑

11. [实例]抓取百度贴吧数据

摘要： 1. 前言本节继续讲解 Python 爬虫实战案例：抓取百度贴吧（https://tieba.baidu.com/）页面，比如 Python爬虫吧、编程吧，只抓取贴吧的前 5 个页面即可。本节我们将使用面向对象的编程方法来编写程序。 2. 判断页面类型通过简单的分析可以得知，待抓取的百度贴吧页面阅读全文

posted @ 2022-09-17 17:47 v_jjling 阅读(304) 评论(0) 推荐(0) 编辑

10. [实例]爬虫抓取网页

摘要： 1. 前言本节讲解第一个 Python 爬虫实战案例：抓取您想要的网页，并将其保存至本地计算机。首先我们对要编写的爬虫程序进行简单地分析，该程序可分为以下三个部分：拼接 url 地址发送请求将照片保存至本地明确逻辑后，我们就可以正式编写爬虫程序了。 2. 导入所需模块本节内容使用 url 阅读全文

posted @ 2022-09-17 17:39 v_jjling 阅读(169) 评论(0) 推荐(0) 编辑

9. URL编码和解码

摘要： 1.前言当 URL 路径或者查询参数中，带有中文或者特殊字符的时候，就需要对 URL 进行编码（采用十六进制编码格式）。URL 编码的原则是使用安全字符去表示那些不安全的字符。安全字符，指的是没有特殊用途或者特殊意义的字符。 2. URL基本组成 URL 是由一些简单的组件构成，比如协议、域名、阅读全文

posted @ 2022-09-17 14:36 v_jjling 阅读(207) 评论(0) 推荐(0) 编辑

8. User-Agnet代理池

摘要： 1. 前言在编写爬虫程序时，一般都会构建一个 User-Agent （用户代理）池，就是把多个浏览器的 UA 信息放进列表中，然后再从中随机选择。构建用户代理池，能够避免总是使用一个 UA 来访问网站，因为短时间内总使用一个 UA 高频率访问的网站，可能会引起网站的警觉，从而封杀掉 IP。 2. 阅读全文

posted @ 2022-09-17 14:22 v_jjling 阅读(139) 评论(0) 推荐(0) 编辑

7. User-Agent用户代理

摘要： 1.前言 User-Agent 即用户代理，简称“UA”，它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客户端发送不同的页面。我们知道，网络爬虫使用程序代码来访问网站，而非人类亲自点击访问，因此爬虫阅读全文

posted @ 2022-09-17 14:12 v_jjling 阅读(123) 评论(0) 推荐(0) 编辑

6. 第一个Python爬虫程序

摘要： 1.前言本节编写一个最简单的爬虫程序，作为学习 Python 爬虫前的开胃小菜。下面使用 Python 内置的 urllib 库获取网页的 html 信息。注意，urllib 库属于 Python 的标准库模块，无须单独安装，它是 Python 爬虫的常用模块。 2. 获取网页html信息 1) 阅读全文

posted @ 2022-09-17 13:58 v_jjling 阅读(58) 评论(0) 推荐(0) 编辑

5. 学习前的准备工作

摘要： 1. 前言在使用 Python 编写爬虫程序之前，您需要提前做一些准备工作，这样在后续学习过程中才会得心应手。 2. 知识准备 1) Python语言 Python 爬虫作为 Python 编程的进阶知识，要求学习者具备较好的 Python 编程基础。对于没有基础的小伙伴而言，建议阅读《Pytho 阅读全文

posted @ 2022-09-17 13:47 v_jjling 阅读(103) 评论(0) 推荐(0) 编辑

4. 审查网页元素

摘要： 1. 前言对于一个优秀的爬虫工程师而言，要善于发现网页元素的规律，并且能从中提炼出有效的信息。因此，在动手编写爬虫程序前，必须要对网页元素进行审查。本节将讲解如何使用“浏览器”审查网页元素。浏览器都自带检查元素的功能，不同的浏览器对该功能的叫法不同，谷歌(Chrome)浏览器称为“检查”，而 F 阅读全文

posted @ 2022-09-17 12:46 v_jjling 阅读(263) 评论(0) 推荐(0) 编辑

3. 静态网页和动态网页

摘要： 1. 前言本节我们了解一下静态网页和动态网页的相关概念。如果您熟悉前端语言的话，那么您可以快速地了解本节知识。当我们在编写一个爬虫程序前，首先要明确待爬取的页面是静态的，还是动态的，只有确定了页面类型，才方便后续对网页进行分析和程序编写。对于不同的网页类型，编写爬虫程序时所使用的方法也不尽相同。阅读全文

posted @ 2022-09-17 12:34 v_jjling 阅读(306) 评论(0) 推荐(0) 编辑

2. 网页是怎样构成的

摘要： 1.前言爬虫程序之所以可以抓取数据，是因为爬虫能够对网页进行分析，并在网页中提取出想要的数据。在学习 Python 爬虫模块前，我们有必要先熟悉网页的基本结构，这是编写爬虫程序的必备知识。如果您熟悉前端语言，那么您可以轻松地掌握本节知识。网页一般由三部分组成，分别是 HTML（超文本标记语言）阅读全文

posted @ 2022-09-17 12:26 v_jjling 阅读(347) 评论(0) 推荐(0) 编辑

1. 网络爬虫是什么

摘要： 1. 前言网络爬虫又称网络蜘蛛、网络机器人，它是一种按照一定的规则自动浏览、检索网页信息的程序或者脚本。网络爬虫能够自动请求网页，并将所需要的数据抓取下来。通过对抓取的数据进行处理，从而提取出有价值的信息。 2. 认识爬虫我们所熟悉的一系列搜索引擎都是大型的网络爬虫，比如百度、搜狗、360浏览器阅读全文

posted @ 2022-09-17 12:17 v_jjling 阅读(629) 评论(0) 推荐(0) 编辑

v_jjling

公告