随遇而安== - 博客园

2022年8月1日

摘要：本节使用 Python 爬虫抓取猫眼电影网 TOP100 排行榜（https://maoyan.com/board/4）影片信息，包括电影名称、上映时间、主演信息。在开始编写程序之前，首先要确定页面类型（静态页面或动态页面），其次找出页面的 url 规律，最后通过分析网页元素结构来确定正则表达式，从阅读全文

posted @ 2022-08-01 12:53 随遇而安== 阅读(307) 评论(0) 推荐(0) 编辑

13.Python csv模块（读写文件）

摘要： CSV 文件又称为逗号分隔值文件，是一种通用的、相对简单的文件格式，用以存储表格数据，包括数字或者字符。CSV 是电子表格和数据库中最常见的输入、输出文件格式，可参考《CSV介绍》。通过爬虫将数据抓取的下来，然后把数据保存在文件，或者数据库中，这个过程称为数据的持久化存储。本节介绍 Python 内阅读全文

posted @ 2022-08-01 12:52 随遇而安== 阅读(148) 评论(0) 推荐(0) 编辑

12.Python re模块用法详解

摘要：在 Python 爬虫过程中，实现网页元素解析的方法有很多，正则解析只是其中之一，常见的还有 BeautifulSoup 和 lxml，它们都支持网页 HTML 元素的解析操作。本节重点讲解如何使用 re 正则解析模块实现网页信息的提取。注意：在学习本节知识之前，您应该基本掌握了 Python r 阅读全文

posted @ 2022-08-01 12:51 随遇而安== 阅读(69) 评论(0) 推荐(0) 编辑

11.正则表达式基本语法

摘要：正则表达式(regular expression)是一种字符串匹配模式或者规则，它可以用来检索、替换那些符合特定规则的文本。正则表达式几乎适用于所有编程语言，无论是前端语言 JavaScript，还是诸如许多后端语言，比如 Python、Java、C# 等，这些语言都提供了相应的函数、模块来支持正则阅读全文

posted @ 2022-08-01 12:50 随遇而安== 阅读(35) 评论(0) 推荐(0) 编辑

10.Python爬虫抓取百度贴吧数据

摘要：节继续讲解 Python 爬虫实战案例：抓取百度贴吧（https://tieba.baidu.com/）页面，比如 Python爬虫吧、编程吧，只抓取贴吧的前 5 个页面即可。本节我们将使用面向对象的编程方法来编写程序。判断页面类型通过简单的分析可以得知，待抓取的百度贴吧页面属于静态网页，分析方阅读全文

posted @ 2022-08-01 12:47 随遇而安== 阅读(273) 评论(0) 推荐(0) 编辑

9.Python爬虫抓取网页

摘要：本节讲解第一个 Python 爬虫实战案例：抓取您想要的网页，并将其保存至本地计算机。首先我们对要编写的爬虫程序进行简单地分析，该程序可分为以下三个部分：拼接 url 地址发送请求将照片保存至本地明确逻辑后，我们就可以正式编写爬虫程序了。导入所需模块本节内容使用 urllib 库来编写爬阅读全文

posted @ 2022-08-01 12:46 随遇而安== 阅读(507) 评论(0) 推荐(0) 编辑

7.构建User-Agnet代理池

摘要：在编写爬虫程序时，一般都会构建一个 User-Agent （用户代理）池，就是把多个浏览器的 UA 信息放进列表中，然后再从中随机选择。构建用户代理池，能够避免总是使用一个 UA 来访问网站，因为短时间内总使用一个 UA 高频率访问的网站，可能会引起网站的警觉，从而封杀掉 IP。自定义UA代理池阅读全文

posted @ 2022-08-01 12:45 随遇而安== 阅读(64) 评论(0) 推荐(0) 编辑

8.URL编码/解码详解

摘要：当 URL 路径或者查询参数中，带有中文或者特殊字符的时候，就需要对 URL 进行编码（采用十六进制编码格式）。URL 编码的原则是使用安全字符去表示那些不安全的字符。安全字符，指的是没有特殊用途或者特殊意义的字符。 URL基本组成 URL 是由一些简单的组件构成，比如协议、域名、端口号、路径和查阅读全文

posted @ 2022-08-01 12:45 随遇而安== 阅读(236) 评论(0) 推荐(0) 编辑

5.第一个Python爬虫程序

摘要：本节编写一个最简单的爬虫程序，作为学习 Python 爬虫前的开胃小菜。下面使用 Python 内置的 urllib 库获取网页的 html 信息。注意，urllib 库属于 Python 的标准库模块，无须单独安装，它是 Python 爬虫的常用模块。获取网页html信息 1) 获取响应对象向阅读全文

posted @ 2022-08-01 12:42 随遇而安== 阅读(47) 评论(0) 推荐(0) 编辑

6.User-Agent（用户代理）是什么

摘要： User-Agent 即用户代理，简称“UA”，它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客户端发送不同的页面。我们知道，网络爬虫使用程序代码来访问网站，而非人类亲自点击访问，因此爬虫程序也被称阅读全文

posted @ 2022-08-01 12:42 随遇而安== 阅读(345) 评论(0) 推荐(0) 编辑

root@su

公告