第八周总结

爬虫

urllib的基本应用

1.读取并显示网页内容

Python 标准库urllib.request 中的 urlopen()函数可以用来打开一个置顶的URL，打开成功之后，可以像读取文件一样使用 read() 方法来读取网页上的数据。

读取到的是二进制数据，需要使用 decode() 方法进行正确的解码。对于大部分网站而言，使用 decode() 方法默认的 UTF8 是可以正常解码的。

读取并显示 http://www.python.org 页面的内容：

import urllib.request

fp = urllib.request.urlopen(r'http://www.python.org')
print(fp.read(100))
print(fp.read(100).decode())
fp.close()

2.提交网页参数

对于动态网页而言，经常需要用户输入并提交参数。常用的提交参数的方式有GET和POST两种。

python标准库urllib.prase 中提供的 urlencode() 函数可以用来对用户提交的参数进行编码，然后再通过不同的方式传递给 urlopen() 函数。

使用GET方法读取并显示指定 url 的内容

import urllib.request
import urllib.parse

params = urllib.parse.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})
url = "http://www.musi-cal.com/cgi-bin/query?%s" % params
with urllib.request.urlopen(url) as f:
    print(f.read().decode('utf-8')

使用POST方法提交参数并读取指定页面内容

import urllib.request
import urllib.parse

data = urllib.parse.urlencode({'spam': 1, 'eggs': 2, 'bacon': 0})
data = data.encode('ascii')
with urllib.request.urlopen("http://requestb.in/xrb182xr", data) as f:
    print(f.read().decode('utf-8'))

3. 使用HTTP代理访问页面
当无法直接访问特定的网站时，可以通过一个代理来访问目标网站。代理就像一个中间人，负责把我们的请求发送给目标网站，并把目标网站的响应发给我们。

具体实现时，需要先使用标准库 urllib.request 的 FancyURLopener 类打开代理并创建代理对象，然后再通过代理对象的 open() 方法访问目标网站。

posted @ 2022-08-20 21:22 灰幕阅读(13) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 第六周总结

· Global对象

· Python 爬虫基础教程-Urllib详解

· Python爬虫学习笔记（一）

公告

昵称：灰幕
园龄： 3年8个月
粉丝： 0
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

shaadou

第八周总结

公告

搜索

常用链接

随笔档案

阅读排行榜