【Python】【爬虫】【爬狼】002_自定义获取网页源码的函数

在上一篇笔记（【Python】【爬虫系列】【爬狼】001_urllib_get_获取响应结果页面代码 - 萌狼蓝天 - 博客园 (cnblogs.com/mllt)）我们将一个网页，解析为了文档（源码）

如果每解析一次网页，都要写那么多内容，就会很不方便

在一次爬虫项目，我们需要解析多个网页

那么，使用 “自定义函数”可以大大提高效率，简化代码

def xrilang_UrlToDocument(url):
    """
    '本函数作用为获取网页源码'
    :param url: 需要解析的网页链接
    :return: string 网页源码 编码方式为utf-8
    """
    header = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36 Edg/96.0.1054.53"
    }
    request_Info = urllib.request.Request(url=url, headers=header)
    response = urllib.request.urlopen(request_Info)
    response_html = response.read().decode("utf-8")
    return response_html

posted @ 2021-12-15 17:33 萌狼蓝天阅读(209) 评论(0) 编辑收藏举报

刷新页面返回顶部

萌狼工作室

萌狼蓝天伴姬一生

【Python】【爬虫】【爬狼】002_自定义获取网页源码的函数

公告

萌狼工作室

萌狼蓝天 伴姬一生

【Python】【爬虫】【爬狼】002_自定义获取网页源码的函数

公告

萌狼蓝天伴姬一生