【Python】【爬虫】【爬狼】002_自定义获取网页源码的函数

在上一篇笔记(【Python】【爬虫系列】【爬狼】001_urllib_get_获取响应结果页面代码 - 萌狼蓝天 - 博客园 (cnblogs.com/mllt))我们将一个网页,解析为了文档(源码)

如果每解析一次网页,都要写那么多内容,就会很不方便

在一次爬虫项目,我们需要解析多个网页

那么,使用 “自定义函数”可以大大提高效率,简化代码

def xrilang_UrlToDocument(url):
    """
    '本函数作用为获取网页源码'
    :param url: 需要解析的网页链接
    :return: string 网页源码 编码方式为utf-8
    """
    header = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36 Edg/96.0.1054.53"
    }
    request_Info = urllib.request.Request(url=url, headers=header)
    response = urllib.request.urlopen(request_Info)
    response_html = response.read().decode("utf-8")
    return response_html
posted @ 2021-12-15 17:33  萌狼蓝天  阅读(207)  评论(0编辑  收藏  举报