Python---网络爬虫初识

1. 网络爬虫介绍

来自wiki的介绍:

网络爬虫（英语：web crawler），也叫网上蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。

但是我们在写网络爬虫时还要注意遵守网络规则，这样才能是我么使我们更好的利用其中的资源

爬虫访问网站的过程会消耗目标系统资源。不少网络系统并不默许爬虫工作。因此在访问大量页面时，爬虫需要考虑到规划、负载，还需要讲“礼貌”。不愿意被爬虫访问、被爬虫主人知晓的公开站点可以使用robots.txt文件之类的方法避免访问。这个文件可以要求机器人只对网站的一部分进行索引，或完全不作处理。

虽然robots.txt只是一种网站主人对爬虫爬取的一种声明，但是博主希望大家可以遵守。

2. 爬虫流程

在此之后我们所用的都是python3.x，python2.x的另找其他。

基本流程：

使用request库获取目标url的html文档
使用浏览器打开网页源代码分析其中的元素节点
通过Beautiful Soup库或正则表达式获得想要的数据
将数据保存到本地或者数据库

3. requests库的安装

在cmd中，通过如下指令安装：

pip install requests

在pythonzh检验是否安装成功

import requests

介绍：

适合于人类使用的HTTP库，封装了许多繁琐的HTTP功能，极大地简化了HTTP请求所需要的代码量

基本用法：

方法	说明
requests.request()	构造一个请求，支撑一下各方法的基础方法
requests.get()	获取HTML网页的主要方法，对应HTTP的GET
requests.head()	获取HTML网页头的信息方法，对应HTTP的HEAD
requests.post()	向HTML网页提交POST请求方法，对应HTTP的POST
requests.put()	向HTML网页提交PUT请求的方法，对应HTTP的RUT
requests.patch()	向HTML网页提交局部修改请求，对应于HTTP的PATCH
requests.delete()	向HTML页面提交删除请求,对应HTTP的DELETE

requests中文文档

requests在使用的时候有什么忘了或者需要更高级的用法可以去查中文文档，这是requests库的开发者为我们使用者提供的便利，感谢开发者！

我们使用requests.get()来做一个简单的例子，我们在这爬取一下百度(www.baidu.com)的html页面

#-*- coding:UTF-8 -*-
import requests

if __name__ == '__main__':
    target = 'https://www.baidu.com/'
    req = requests.get(url = target)
    print(req.text)

是不是很简单。。。

posted @ 2018-10-21 22:57 lived 阅读(230) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

lived

Python---网络爬虫初识

1. 网络爬虫介绍

2. 爬虫流程

3. requests库的安装

公告