Python爬虫

python爬去百度主页代码

import requests
r=requests.get("https://www.baidu.com/")
print(r.status_code)
r.encoding = 'utf-8'
print(r.text)

Response对象属性

response库异常函数

爬虫通用代码框架：

import requests

def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status() #如果状态不是200，触发HTTPError异常
        r.encoding='utf-8'
        return r.text
    except:
        return "产生异常"

if __name__=="__main__":
    url="http://www.baidu.com"
    print(getHTMLText(url))

Requests 七个主要方法

URL是http协议存取资源的internet路径，一个URL对应一个数据资源

http协议对资源的操作

网络爬虫尺寸

在爬去网页或者网站时用遵守robots协议

posted @ 2019-04-25 11:08 假如年少有为阅读(154) 评论(0) 编辑收藏举报

刷新页面返回顶部

假如年少有为

Python爬虫

公告