Python学习

urllib.parse
urllib.parse 用于解析 URL，格式如下：

urllib.parse.urlparse(urlstring, scheme='', allow_fragments=True)
urlstring 为字符串的 url 地址，scheme 为协议类型，

allow_fragments 参数为 false，则无法识别片段标识符。相反，它们被解析为路径，参数或查询组件的一部分，并 fragment 在返回值中设置为空字符串。

实例
from urllib.parse import urlparse

o = urlparse("https://www.runoob.com/?s=python+教程")
print(o)
以上实例输出结果为：

ParseResult(scheme='https', netloc='www.runoob.com', path='/', params='', query='s=python+%E6%95%99%E7%A8%8B', fragment='')
从结果可以看出，内容是一个元组，包含 6 个字符串：协议，位置，路径，参数，查询，判断。

我们可以直接读取协议内容：

实例
from urllib.parse import urlparse

o = urlparse("https://www.runoob.com/?s=python+教程")
print(o.scheme)
以上实例输出结果为：

https
完整内容如下：

属性

索引

值

值（如果不存在）

scheme

URL协议

scheme 参数

netloc

网络位置部分

空字符串

path

分层路径

空字符串

params

最后路径元素的参数

空字符串

query

查询组件

空字符串

fragment

片段识别

空字符串

username

用户名

None

password

密码

None

hostname

主机名（小写）

None

port

端口号为整数（如果存在）

None

urllib.robotparser
urllib.robotparser 用于解析 robots.txt 文件。

robots.txt（统一小写）是一种存放于网站根目录下的 robots 协议，它通常用于告诉搜索引擎对网站的抓取规则。

urllib.robotparser 提供了 RobotFileParser 类，语法如下：

class urllib.robotparser.RobotFileParser(url='')
这个类提供了一些可以读取、解析 robots.txt 文件的方法：

set_url(url) - 设置 robots.txt 文件的 URL。

read() - 读取 robots.txt URL 并将其输入解析器。

parse(lines) - 解析行参数。

can_fetch(useragent, url) - 如果允许 useragent 按照被解析 robots.txt 文件中的规则来获取 url 则返回 True。

mtime() -返回最近一次获取 robots.txt 文件的时间。这适用于需要定期检查 robots.txt 文件更新情况的长时间运行的网页爬虫。

modified() - 将最近一次获取 robots.txt 文件的时间设置为当前时间。

crawl_delay(useragent) -为指定的 useragent 从 robots.txt 返回 Crawl-delay 形参。如果此形参不存在或不适用于指定的 useragent 或者此形参的 robots.txt 条目存在语法错误，则返回 None。

request_rate(useragent) -以 named tuple RequestRate(requests, seconds) 的形式从 robots.txt 返回 Request-rate 形参的内容。如果此形参不存在或不适用于指定的 useragent 或者此形参的 robots.txt 条目存在语法错误，则返回 None。

site_maps() - 以 list() 的形式从 robots.txt 返回 Sitemap 形参的内容。如果此形参不存在或者此形参的 robots.txt 条目存在语法错误，则返回 None。

实例

import urllib.robotparser
rp = urllib.robotparser.RobotFileParser()
rp.set_url("http://www.musi-cal.com/robots.txt")
rp.read()
rrate = rp.request_rate("")
rrate.requests
3
rrate.seconds
20
rp.crawl_delay("")
6
rp.can_fetch("", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco")
False
rp.can_fetch("", "http://www.musi-cal.com/")
True

posted @ 2021-12-14 19:21 巩云龙阅读(48) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

巩云龙的博客

Python学习