v_jjling

2022年9月17日

摘要： 1. 前言 CSV 文件又称为逗号分隔值文件，是一种通用的、相对简单的文件格式，用以存储表格数据，包括数字或者字符。CSV 是电子表格和数据库中最常见的输入、输出文件格式，可参考《CSV介绍》。通过爬虫将数据抓取的下来，然后把数据保存在文件，或者数据库中，这个过程称为数据的持久化存储。本节介绍 Py 阅读全文

posted @ 2022-09-17 18:09 v_jjling 阅读(182) 评论(0) 推荐(0) 编辑

13. Python re模块用法详解

摘要： 1. 前言在 Python 爬虫过程中，实现网页元素解析的方法有很多，正则解析只是其中之一，常见的还有 BeautifulSoup 和 lxml，它们都支持网页 HTML 元素的解析操作。本节重点讲解如何使用 re 正则解析模块实现网页信息的提取。注意：在学习本节知识之前，您应该基本掌握了 Py 阅读全文

posted @ 2022-09-17 17:58 v_jjling 阅读(160) 评论(0) 推荐(0) 编辑

12. 正则表达式基本语法

摘要： 1. 前言正则表达式(regular expression)是一种字符串匹配模式或者规则，它可以用来检索、替换那些符合特定规则的文本。正则表达式几乎适用于所有编程语言，无论是前端语言 JavaScript，还是诸如许多后端语言，比如 Python、Java、C# 等，这些语言都提供了相应的函数、模阅读全文

posted @ 2022-09-17 17:51 v_jjling 阅读(71) 评论(0) 推荐(0) 编辑

11. [实例]抓取百度贴吧数据

摘要： 1. 前言本节继续讲解 Python 爬虫实战案例：抓取百度贴吧（https://tieba.baidu.com/）页面，比如 Python爬虫吧、编程吧，只抓取贴吧的前 5 个页面即可。本节我们将使用面向对象的编程方法来编写程序。 2. 判断页面类型通过简单的分析可以得知，待抓取的百度贴吧页面阅读全文

posted @ 2022-09-17 17:47 v_jjling 阅读(303) 评论(0) 推荐(0) 编辑

10. [实例]爬虫抓取网页

摘要： 1. 前言本节讲解第一个 Python 爬虫实战案例：抓取您想要的网页，并将其保存至本地计算机。首先我们对要编写的爬虫程序进行简单地分析，该程序可分为以下三个部分：拼接 url 地址发送请求将照片保存至本地明确逻辑后，我们就可以正式编写爬虫程序了。 2. 导入所需模块本节内容使用 url 阅读全文

posted @ 2022-09-17 17:39 v_jjling 阅读(168) 评论(0) 推荐(0) 编辑

9. URL编码和解码

摘要： 1.前言当 URL 路径或者查询参数中，带有中文或者特殊字符的时候，就需要对 URL 进行编码（采用十六进制编码格式）。URL 编码的原则是使用安全字符去表示那些不安全的字符。安全字符，指的是没有特殊用途或者特殊意义的字符。 2. URL基本组成 URL 是由一些简单的组件构成，比如协议、域名、阅读全文

posted @ 2022-09-17 14:36 v_jjling 阅读(207) 评论(0) 推荐(0) 编辑

8. User-Agnet代理池

摘要： 1. 前言在编写爬虫程序时，一般都会构建一个 User-Agent （用户代理）池，就是把多个浏览器的 UA 信息放进列表中，然后再从中随机选择。构建用户代理池，能够避免总是使用一个 UA 来访问网站，因为短时间内总使用一个 UA 高频率访问的网站，可能会引起网站的警觉，从而封杀掉 IP。 2. 阅读全文

posted @ 2022-09-17 14:22 v_jjling 阅读(139) 评论(0) 推荐(0) 编辑

7. User-Agent用户代理

摘要： 1.前言 User-Agent 即用户代理，简称“UA”，它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客户端发送不同的页面。我们知道，网络爬虫使用程序代码来访问网站，而非人类亲自点击访问，因此爬虫阅读全文

posted @ 2022-09-17 14:12 v_jjling 阅读(123) 评论(0) 推荐(0) 编辑

6. 第一个Python爬虫程序

摘要： 1.前言本节编写一个最简单的爬虫程序，作为学习 Python 爬虫前的开胃小菜。下面使用 Python 内置的 urllib 库获取网页的 html 信息。注意，urllib 库属于 Python 的标准库模块，无须单独安装，它是 Python 爬虫的常用模块。 2. 获取网页html信息 1) 阅读全文

posted @ 2022-09-17 13:58 v_jjling 阅读(58) 评论(0) 推荐(0) 编辑

5. 学习前的准备工作

摘要： 1. 前言在使用 Python 编写爬虫程序之前，您需要提前做一些准备工作，这样在后续学习过程中才会得心应手。 2. 知识准备 1) Python语言 Python 爬虫作为 Python 编程的进阶知识，要求学习者具备较好的 Python 编程基础。对于没有基础的小伙伴而言，建议阅读《Pytho 阅读全文

posted @ 2022-09-17 13:47 v_jjling 阅读(103) 评论(0) 推荐(0) 编辑

公告