python爬虫:爬虫的简单介绍及requests模块的简单使用

阅读目录(Content)

python爬虫:爬虫的简单介绍及requests模块的简单使用😜

😬一个问题：
1.一点介绍
2.requests模块学习
headers的包装之一（UA伪装）
爬虫的步骤：（怎么写爬虫）
实战1:爬取搜狗搜索的网页代码。

<1>安装包
<2>开始写代码
<3>最后讲两句

python爬虫:爬虫的简单介绍及requests模块的简单使用😜

一点点的建议：😶

(学习爬虫前建议先去了解一下前端的知识，不要求很熟悉，差不多入门即可学习爬虫，如果有不了解的，我也会补充个一些小知识.）

(了解一些前端的知识对于学习爬虫有很大的帮助.）

这边还是先说一下，作者使用pycharm,推荐这个软件，因为这个文本编译器，有很多优秀的功能，对于新手也是非常友好的。（以后如果工作，可能是写python的程序员，用到这个软件的频率也是很高的。）

————————————————————————————————————————————————————————————————

😬一个问题：

question: 为什么我们编写爬虫就可以获取网页里的各种数据,代码？

我们使用浏览器上网，来获取网页，从而来获得我们想要的内容，

而我们编写爬虫，其实就是模拟浏览器上网，来获取网页中我们想要的内容。

1.一点介绍

requests 模块：

requests 模块是爬虫的最重要的部分之一，我们通过这个模块，来获取网页的数据，

像我们比如说，要获取某个网页的网页源码，或者是要爬取B站的某个up主的粉丝数，

或者你为了能够在一些网站白嫖某些小说，就用到了requests模块，

(注：为了获取网页的数据，requests模块并不是唯一的，在python中还有urllib模块，

也可以获取网页数据，但是urllib模块相对比较老，且不比requests模块方便，所以作者在这边选择requests模块。)

2.requests模块学习

一点前端知识：

http的请求类型有很多种，我们写爬虫时主要是用到post和get这两种。（其他的也有用，暂时不做介绍）

简单说一下，暂时就先知道get可以直接获取网页的内容，

但是有些网页的加载，需要用户输入参数才能动态加载出来，所以就比较需要post,它可以携带一些参数，从而返回我们想要的内容。

在导入requests模块后，我们就可以使用里面的对象来实现我们的要求。

requests.get(url="...",headers=...)：这个函数可以返回我们想要的数据，不过返回的是一个对象，我们要自己定义个对象来承接，然后可以将其重构成我们想要的格式。

requests.post(url="...",headers=...,params=...)：这个跟get差不多，区别是后面params携带的是你要的参数。(比如你要做一个翻译器,params就可以是你要翻译的内容。)

url就是你要爬取的网址，像headers的话，就是用来包装你的爬虫，让你的爬虫伪装成浏览器，（因为大部分的网站，会有反爬机制，他不想让爬虫来爬取自己的内容，所以我们就需要包装一下我们的爬虫。）这样就可以成功爬取网页。

headers的包装之一（UA伪装）

这里介绍一种常见的伪装方法：UA伪装，顾名思义，就是用户引擎伪装。这样可以让网站认为，你是一台电脑，而不是一个爬虫。

方法：

随便打开一个网页，摁F12,也就是java的调试工具，然后点击上面的【网络】这个键。

然后刷新你的网页,在你的调试工具网络那边左下角就会有这些出现，

接下来就是随便点击一个，在他的右边，就会出现一堆内容，先不用管，直接拉到最底下，你就会找到一个叫做【"User-Agent"】的东西。

然后就是复制到你的代码里面用字典进行包装了。

示意如下：

然后就可以用进你的代码里面了。

爬虫的步骤：（怎么写爬虫）

一般来说，爬虫的步骤，可以概括为，指定url,获取网页内容，解析网页内容，最后进行存储。然后比如你要做一些特定需求的爬虫，也是在这些步骤之上，做些变化而已。

实战1:爬取搜狗搜索的网页代码。

<1>安装包

在自己电脑的终端输入"pip install requests"即可成功安装requests包。

<2>开始写代码

(记得自己写，这边贴作者代码,还有就是这边爬取这个搜狗的代码，不需要用到headers包装。)

爬取完了之后，作者是存到了自己的文件夹下面，然后打开搜狗.html ，我们就可以看到网页的源码了。

如下图：

看起来是不是很抽象，看不懂，我们这时候，只要用编译器打开你爬取回来的网页代码，就可以看见你爬取回来的，是不是正确的网页源码。

比如这个搜狗的搜索网页：

在这里这一句，就可以充分表明，是你自己本地的网页，而不是自己又打开了搜狗搜索的网页。

<3>最后讲两句

爬虫要学习的内容还有很多，这里只是入入门，打个样让大家尝试一下，给大家一个大致印象，接下来需要更多练习跟学习来学爬虫。可以多上上视频网站看看。

(作者的更新周期很长，平常可能记起来要写博客才写的😳)

posted @ 2022-02-24 22:45 对讲鸡阅读(351) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· python爬虫实例: 对指定城市kfc餐厅信息的爬取

· K班个人编程

· python爬虫初了解

· Python爬虫基础教程之requests模块

阅读排行：
· 阿里最新开源QwQ-32B，效果媲美deepseek-r1满血版，部署成本又又又降低了！
· 单线程的Redis速度为什么快？
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决：字节Trae VS Cursor，谁才是开发者新宠？
· 展开说说关于C#中ORM框架的用法！

公告

昵称：对讲鸡
园龄： 4年1个月
粉丝： 1
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

对讲鸡

python爬虫:爬虫的简单介绍及requests模块的简单使用

python爬虫:爬虫的简单介绍及requests模块的简单使用😜

一点点的建议：😶

😬一个问题：

1.一点介绍

2.requests模块学习

headers的包装之一（UA伪装）

爬虫的步骤：（怎么写爬虫）

实战1:爬取搜狗搜索的网页代码。

<1>安装包

<2>开始写代码

爬取完了之后，作者是存到了自己的文件夹下面，然后打开搜狗.html ，我们就可以看到网页的源码了。

如下图：

看起来是不是很抽象，看不懂，我们这时候，只要用编译器打开你爬取回来的网页代码，就可以看见你爬取回来的，是不是正确的网页源码。

比如这个搜狗的搜索网页：

在这里这一句，就可以充分表明，是你自己本地的网页，而不是自己又打开了搜狗搜索的网页。

<3>最后讲两句

爬虫要学习的内容还有很多，这里只是入入门，打个样让大家尝试一下，给大家一个大致印象，接下来需要更多练习跟学习来学爬虫。可以多上上视频网站看看。

(作者的更新周期很长，平常可能记起来要写博客才写的😳)

公告

搜索

常用链接

最新随笔

积分与排名

随笔档案 (15)

阅读排行榜

最新评论

对讲鸡

python爬虫:爬虫的简单介绍及requests模块的简单使用

python爬虫:爬虫的简单介绍及requests模块的简单使用😜

一点点的建议：😶

😬一个问题：

1.一点介绍

2.requests模块学习

headers的包装之一（UA伪装）

爬虫的步骤：（怎么写爬虫）

实战1:爬取搜狗搜索的网页代码。

<1>安装包

<2>开始写代码

爬取完了之后，作者是存到了自己的文件夹下面，然后打开 搜狗.html ，我们就可以看到网页的源码了。

如下图：

看起来是不是很抽象，看不懂，我们这时候，只要用编译器打开你爬取回来的网页代码，就可以看见你爬取回来的，是不是正确的网页源码。

比如这个搜狗的搜索网页：

在这里这一句，就可以充分表明，是你自己本地的网页，而不是自己又打开了搜狗搜索的网页。

<3>最后讲两句

爬虫要学习的内容还有很多，这里只是入入门，打个样让大家尝试一下，给大家一个大致印象，接下来需要更多练习跟学习来学爬虫。可以多上上视频网站看看。

(作者的更新周期很长，平常可能记起来要写博客才写的😳)

公告

搜索

常用链接

最新随笔

积分与排名

随笔档案 (15)

阅读排行榜

最新评论

爬取完了之后，作者是存到了自己的文件夹下面，然后打开搜狗.html ，我们就可以看到网页的源码了。