摘要: 数据的时代,网络爬虫有一定的法律风险,但是只要遵守协议知道抓爬哪些数据是不合法的,我们就能避免。 每个网站一般都有Rebots协议,没有的就都可以爬了。 Robots Exclusion Standard,网络爬虫排除标准协议 作用: 告知网络爬虫哪些页面可以抓爬,哪些不可以 形式: 在网站跟目录下 阅读全文
posted @ 2020-03-31 22:51 vhao11 阅读(373) 评论(0) 推荐(0) 编辑
摘要: Requests库得7个主要方法: requests.request() 构造一个请求,支撑以下各方法得基础方法 requests.get() 获取html网页得主要方法,对应于HTTP得GET requests.head() 获取http网页信息头的方法,对应于HTTP的HEAD requests 阅读全文
posted @ 2020-03-31 22:38 vhao11 阅读(172) 评论(0) 推荐(0) 编辑