使用urllib爬取百度搜索html
urllib模块库是python标准库的一部分,即python自带的。可以在官网查询相关信息:
https://docs.python.org/3.12/library/urllib.html
爬取页面
from urllib.request import urlopen
# 请求的地址
url = 'http://www.baidu.com/'
# 发送请求
response = urlopen(url)
print(response)
print(type(response))
# 读取响应内容
# recode方法将字节串bytes转换为字符串str
print(response.read().decode()[:50])
'''
print(response.read()[:50])
b'<!DOCTYPE html><!--STATUS OK--><html><head><meta h'
'''
运行结果
<http.client.HTTPResponse object at 0x0000019FE8326320>
<class 'http.client.HTTPResponse'>
<!DOCTYPE html><!--STATUS OK--><html><head><meta h