爬虫笔记（二）：爬取网页的通用代码框架

BEGIN：

爬虫系列：

上节提到r.raise_for_status()异常方法，这里将给出爬虫的通用代码框架，并将该异常方法运用到代码中。

爬取网页的通用代码框架

import requests

def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status() # 如果状态不是200，引发HTTPError异常
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return "产生异常"

if __name__=="__main__":
    url = "http://www.baidu.com"
    print(getHTMLText(url))

上述代码正常情况下返回百度页面的信息：

出现异常时，如去掉网页中的http://，则返回异常：

if __name__=="__main__":
    url = "www.baidu.com"
    print(getHTMLText(url))

结果如下：

END.

posted @ 2020-11-16 20:38 Gangpei 阅读(275) 评论(0) 编辑收藏举报

刷新页面返回顶部

Gangpei

流火

爬虫笔记（二）：爬取网页的通用代码框架

公告