关闭页面特效

一、前言

为什么要先说Requests库呢，因为这是个功能很强大的网络请求库，可以实现跟浏览器一样发送各种HTTP请求来获取网站的数据。网络上的模块、库、包指的都是同一种东西，所以后文中可能会在不同地方使用不同称谓，不要迷惑哦。

结合一个实例来讲解吧。我的一个设计师小伙伴常去一些设计类网站收集素材，其中有个网站Unsplash里面美图特别多，所以想要把里面的图片都保存下来，这样咱们的小爬虫就登场了。说干就干，赶紧开始吧。

先来准备环境

二、运行环境

系统版本
我使用的是Windows10。
好多小伙伴使用的是Mac，配置上基本相同。由于我多年混迹于微软的开发平台，经常使用Visual Studio、SQL Server啥的，用Windows用习惯了（其实主要是因为Qiong穷！）。所以这个教程我就以Windows系统为例了。

Python版本
我电脑装了好多个Python版本（学一个装一个。。。），不过推荐使用Anaconda这个科学计算版本，主要是因为它自带一个包管理工具，可以解决有些包安装错误的问题。去Anaconda官网，选择Python3.5版本，然后下载安装。
IDE
我使用的是PyCharm，是专门为Python开发的IDE。这是JetBrians的产品，点我下载。

三、requests 库的安装

使用Anaconda 版本的得小伙伴儿：用管理员权限运行cmd命令窗口，然后输入
conda install requests

看动图：

直接使用Python3.5的小伙伴儿输入这个命令：
pip install requests

如果你机器上存在多个Python版本，要给Python3.5的版本安装requests库，需要输入以下命令：
py -3 -m pip install requests

好啦，requests库安装完毕，接下来我们会在实际例子中演示它的使用。想要深入了解requests模块的小伙伴也可以仔细阅读英文官方文档，和中文官方文档，如果用到该文没有提到的功能，则查看文档即可。

四、开工

首先我们打开PyCharm，需要选择一下它的页面主题。选择你喜欢的风格，以及选择使用的Python版本。然后打开一个你想要存放爬虫的目录，进入后长这样。

我们再创建一个python文件，输入第一行代码来导入requests库：
import requests #导入requests库

然后用它来获取咱们的目标网页：

r = requests.get('https://unsplash.com') #像目标url地址发送get请求，返回一个response对象
print(r.text) #r.text是http response的网页HTML

在菜单栏点击“Run”，选择该文件（或者直接在窗口中点击右键，运行该文件）：

执行完之后，底部会出现输出结果：

可以看到底部是获取到的网页内容。这就完成了爬虫的第一步，获取到了网页的HTML内容。
怎么样，很简单吧。

这只是用到了requests库的get请求，还有其他的请求使用也与之类似。下面我们简单介绍一下每个请求的用法。

五、requests库的使用

因为有中文的官方文档，我就不介绍所有的功能了，只把常用到的说一下，大家用到更多功能的时候再去翻官方文档吧。

requests 库就是用来发送各种请求的，所以，我们就来看看各种请求怎么使用：

5.1 get 请求

r = requests.get("https://unsplash.com")
这就是我们刚刚用到的。其实就是向网站发送了一个get请求，然后网站会返回一个response。r 就是response。大家可以在运行的时候查看r的type。
print(type(r))

get请求还可以传递参数：

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.get("http://httpbin.org/get", params=payload)

上面代码向服务器发送的请求中包含了两个参数key1和key2，以及两个参数的值。实际上它构造成了如下网址：
http://httpbin.org/get?key1=value1&key2=value2

5.2 POST请求

无参数的post请求：
r = requests.post("http://httpbin.org/post")
有参数的post请求：

payload = {'key1': 'value1', 'key2': 'value2'}
r = requests.post("http://httpbin.org/post", data=payload)

post请求多用来提交表单数据，即填写一堆输入框，然后提交。

5.3 其他请求

其他一些请求例如put请求、delete请求、head请求、option请求等其实都是类似的。但是平时用的不多，就不仔细介绍了。有用到的可以去看官网文档哦。阅读官方文档是必备技能！

r = requests.put("http://httpbin.org/put")
r = requests.delete("http://httpbin.org/delete")
r = requests.head("http://httpbin.org/get")
r = requests.options("http://httpbin.org/get")

六、后语

我们刚才用requests库发送http请求获得了网页的HTML内容，那么应该如何从HTML中获得图片呢？

BeautifulSoup库就此登场啦，赶快去看一下篇来了解它的用法吧。

posted on 2020-06-08 16:31 大码王阅读(368) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

人生天地间，忽如远行gl

运行时长：2258天1小时4分16秒

您的浏览器不兼容canvas

昵称：大码王
园龄： 5年8个月
粉丝： 233
关注： 30

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (719)

clickhouse(4)

flink源码分析(2)

Groovy(1)

Java(34)

Linux(3)

office(10)

OpenStack入门(1)

Phoenix+hbase(11)

photoshop(10)

python之绘图(7)

python之爬虫(15)

python之入门到实战(26)

shell大全(1)

SparkCore(14)

sparkGraphx(2)

sparksql(8)

sparkstreaming(17)

spark源码分析(11)

博客园美化(6)

操作系统(1)

随笔档案 (693)

2024年5月(4)

2024年3月(3)

2023年9月(1)

2023年4月(2)

2023年3月(4)

2023年2月(1)

2022年12月(1)

2022年11月(1)

2022年9月(2)

2022年8月(17)

2022年7月(5)

2022年5月(3)

2022年4月(18)

2021年9月(1)

2021年6月(9)

2021年5月(19)

2021年2月(1)

2021年1月(17)

2020年12月(7)

2020年11月(19)

文章分类 (35)

airflow(4)

azkban(1)

canal(1)

Cassandra(1)

datax(1)

druid(1)

Elasticsearch(8)

java(11)

mongodb(2)

redis(3)

scala(2)

文章档案 (40)

2024年4月(2)

2023年5月(2)

2023年4月(1)

2023年1月(1)

2020年6月(9)

2020年5月(25)

一、前言

二、运行环境

三、requests 库的安装

四、开工

五、requests库的使用

5.1 get 请求

5.2 POST请求

5.3 其他请求

六、后语

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (719)

随笔档案 (693)

文章分类 (35)

文章档案 (40)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏