关闭页面特效

Python爬虫小白入门（九）Python 爬虫 – 使用requests抓取网页

Python中，requests库可用于向web服务器发出http请求，http请求有多种方式，例如，GET/POST/PUT/DELETE 等等。

这里将使用GET请求抓取页面：

import requests
page = requests.get("https://kevinhwu.github.io/demo/python-scraping/simple.html")
page

输出

<Response [200]>

发出请求之后，会返回一个响应对象。该对象包含一个status_code属性，表示页面访问是否成功:

page.status_code

输出

status_code为200，表示成功。关于http状态码，以2开头的状态代码通常表示成功，以4或5开头的代码表示错误，如需进一步了解，可参考相关资料。

可以使用content属性，打印出页面的HTML内容:

page.content

输出

b'<!DOCTYPE html>\n<html>\n<head>\n<title>\nA simple example page\n</title>\n</head>\n<body>\n<p>\nHere is some simple content for this page.\n</p>\n</body>\n</html>\n'

posted on 2020-06-22 10:12 大码王阅读(269) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

青青陵上柏，磊磊涧中L>

运行时长：2258天0小时57分56秒

您的浏览器不兼容canvas

昵称：大码王
园龄： 5年8个月
粉丝： 233
关注： 30

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 (719)

clickhouse(4)

flink源码分析(2)

Groovy(1)

Java(34)

Linux(3)

office(10)

OpenStack入门(1)

Phoenix+hbase(11)

photoshop(10)

python之绘图(7)

python之爬虫(15)

python之入门到实战(26)

shell大全(1)

SparkCore(14)

sparkGraphx(2)

sparksql(8)

sparkstreaming(17)

spark源码分析(11)

博客园美化(6)

操作系统(1)

随笔档案 (693)

2024年5月(4)

2024年3月(3)

2023年9月(1)

2023年4月(2)

2023年3月(4)

2023年2月(1)

2022年12月(1)

2022年11月(1)

2022年9月(2)

2022年8月(17)

2022年7月(5)

2022年5月(3)

2022年4月(18)

2021年9月(1)

2021年6月(9)

2021年5月(19)

2021年2月(1)

2021年1月(17)

2020年12月(7)

2020年11月(19)

文章分类 (35)

airflow(4)

azkban(1)

canal(1)

Cassandra(1)

datax(1)

druid(1)

Elasticsearch(8)

java(11)

mongodb(2)

redis(3)

scala(2)

文章档案 (40)

2024年4月(2)

2023年5月(2)

2023年4月(1)

2023年1月(1)

2020年6月(9)

2020年5月(25)

公告

搜索

常用链接

最新随笔

积分与排名

随笔分类 (719)

随笔档案 (693)

文章分类 (35)

文章档案 (40)

阅读排行榜

评论排行榜

推荐排行榜

最新评论

喜欢请打赏