上一页 1 ··· 61 62 63 64 65 66 67 68 69 ··· 113 下一页
摘要: 本节使用 Python 爬虫抓取猫眼电影网 TOP100 排行榜(https://maoyan.com/board/4)影片信息,包括电影名称、上映时间、主演信息。在开始编写程序之前,首先要确定页面类型(静态页面或动态页面),其次找出页面的 url 规律,最后通过分析网页元素结构来确定正则表达式,从 阅读全文
posted @ 2022-08-01 12:53 随遇而安== 阅读(307) 评论(0) 推荐(0) 编辑
摘要: CSV 文件又称为逗号分隔值文件,是一种通用的、相对简单的文件格式,用以存储表格数据,包括数字或者字符。CSV 是电子表格和数据库中最常见的输入、输出文件格式,可参考《CSV介绍》。通过爬虫将数据抓取的下来,然后把数据保存在文件,或者数据库中,这个过程称为数据的持久化存储。本节介绍 Python 内 阅读全文
posted @ 2022-08-01 12:52 随遇而安== 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 在 Python 爬虫过程中,实现网页元素解析的方法有很多,正则解析只是其中之一,常见的还有 BeautifulSoup 和 lxml,它们都支持网页 HTML 元素的解析操作。本节重点讲解如何使用 re 正则解析模块实现网页信息的提取。 注意:在学习本节知识之前,您应该基本掌握了 Python r 阅读全文
posted @ 2022-08-01 12:51 随遇而安== 阅读(69) 评论(0) 推荐(0) 编辑
摘要: 正则表达式(regular expression)是一种字符串匹配模式或者规则,它可以用来检索、替换那些符合特定规则的文本。正则表达式几乎适用于所有编程语言,无论是前端语言 JavaScript,还是诸如许多后端语言,比如 Python、Java、C# 等,这些语言都提供了相应的函数、模块来支持正则 阅读全文
posted @ 2022-08-01 12:50 随遇而安== 阅读(35) 评论(0) 推荐(0) 编辑
摘要: 节继续讲解 Python 爬虫实战案例:抓取百度贴吧(https://tieba.baidu.com/)页面,比如 Python爬虫吧、编程吧,只抓取贴吧的前 5 个页面即可。本节我们将使用面向对象的编程方法来编写程序。 判断页面类型 通过简单的分析可以得知,待抓取的百度贴吧页面属于静态网页,分析方 阅读全文
posted @ 2022-08-01 12:47 随遇而安== 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 本节讲解第一个 Python 爬虫实战案例:抓取您想要的网页,并将其保存至本地计算机。首先我们对要编写的爬虫程序进行简单地分析,该程序可分为以下三个部分: 拼接 url 地址 发送请求 将照片保存至本地 明确逻辑后,我们就可以正式编写爬虫程序了。 导入所需模块 本节内容使用 urllib 库来编写爬 阅读全文
posted @ 2022-08-01 12:46 随遇而安== 阅读(507) 评论(0) 推荐(0) 编辑
摘要: 在编写爬虫程序时,一般都会构建一个 User-Agent (用户代理)池,就是把多个浏览器的 UA 信息放进列表中,然后再从中随机选择。构建用户代理池,能够避免总是使用一个 UA 来访问网站,因为短时间内总使用一个 UA 高频率访问的网站,可能会引起网站的警觉,从而封杀掉 IP。 自定义UA代理池 阅读全文
posted @ 2022-08-01 12:45 随遇而安== 阅读(64) 评论(0) 推荐(0) 编辑
摘要: 当 URL 路径或者查询参数中,带有中文或者特殊字符的时候,就需要对 URL 进行编码(采用十六进制编码格式)。URL 编码的原则是使用安全字符去表示那些不安全的字符。 安全字符,指的是没有特殊用途或者特殊意义的字符。 URL基本组成 URL 是由一些简单的组件构成,比如协议、域名、端口号、路径和查 阅读全文
posted @ 2022-08-01 12:45 随遇而安== 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 本节编写一个最简单的爬虫程序,作为学习 Python 爬虫前的开胃小菜。下面使用 Python 内置的 urllib 库获取网页的 html 信息。注意,urllib 库属于 Python 的标准库模块,无须单独安装,它是 Python 爬虫的常用模块。 获取网页html信息 1) 获取响应对象 向 阅读全文
posted @ 2022-08-01 12:42 随遇而安== 阅读(47) 评论(0) 推荐(0) 编辑
摘要: User-Agent 即用户代理,简称“UA”,它是一个特殊字符串头。网站服务器通过识别 “UA”来确定用户所使用的操作系统版本、CPU 类型、浏览器版本等信息。而网站服务器则通过判断 UA 来给客户端发送不同的页面。我们知道,网络爬虫使用程序代码来访问网站,而非人类亲自点击访问,因此爬虫程序也被称 阅读全文
posted @ 2022-08-01 12:42 随遇而安== 阅读(345) 评论(0) 推荐(0) 编辑
上一页 1 ··· 61 62 63 64 65 66 67 68 69 ··· 113 下一页