Python爬虫

python爬去百度主页代码

import requests
r=requests.get("https://www.baidu.com/") print(r.status_code) r.encoding = 'utf-8' print(r.text)

Response对象属性

response库异常函数

爬虫通用代码框架:

import requests

def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status() #如果状态不是200,触发HTTPError异常
        r.encoding='utf-8'
        return r.text
    except:
        return "产生异常"

if __name__=="__main__":
    url="http://www.baidu.com"
    print(getHTMLText(url))

Requests 七个主要方法

URL是http协议存取资源的internet路径,一个URL对应一个数据资源

 http协议对资源的操作

 网络爬虫尺寸

在爬去网页或者网站时用遵守robots协议

posted @ 2019-04-25 11:08  假如年少有为  阅读(154)  评论(0编辑  收藏  举报