Python爬虫
python爬去百度主页代码
import requests
r=requests.get("https://www.baidu.com/") print(r.status_code) r.encoding = 'utf-8' print(r.text)
Response对象属性
response库异常函数
爬虫通用代码框架:
import requests def getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() #如果状态不是200,触发HTTPError异常 r.encoding='utf-8' return r.text except: return "产生异常" if __name__=="__main__": url="http://www.baidu.com" print(getHTMLText(url))
Requests 七个主要方法
URL是http协议存取资源的internet路径,一个URL对应一个数据资源
http协议对资源的操作
网络爬虫尺寸
在爬去网页或者网站时用遵守robots协议