章节十六：复习与反爬虫

章节十六：复习与反爬虫

1. 爬虫总复习

我还记得事情是从这张图开始的，它被用来描述浏览器的工作原理：

image.png-31kB

请求和响应。这两件事几乎构成了我们后面的所有学习内容。

在第0关，我们说爬虫，就是利用程序在网上拿到对我们有用的数据。程序所做的，最关键步骤正是“请求”和“响应”。

据此，我们定义了“爬虫四步”：获取数据（包含请求和响应两个动作）、解析数据、提取数据、存储数据。

image.png-49.6kB

同时，我们还学了最简单的请求方式：requests.get()

import requests

url = ''
response = requests.get(url)

image.png-46.5kB

1.1 工具

工欲善其事必先利其器，我们需要一个工具，在它的帮助下，我们能看到所有的请求，这样我们才能完成爬虫四步。这个工具，叫做Network。

Network能够记录浏览器的所有请求。我们最常用的是：ALL（查看全部）/XHR（仅查看XHR）/Doc（Document，第0个请求一般在这里），有时候也会看看：Img（仅查看图片）/Media（仅查看媒体文件）/Other（其他）。最后，JS和CSS，则是前端代码，负责发起请求和页面实现；Font是文字的字体；而理解WS和Manifest，需要网络编程的知识，倘若不是专门这个，你不需要了解。

image.png-51.5kB

它们组成Elements中的所有内容，也就是你平时所见的网页万紫千红。

在爬虫里，我们最常用的是XHR和Doc。我们能在Doc里找到一个网页的源代码，而在网页源代码里找不到的信息，通常你都能在XHR里找到。有它的存在，人们不必刷新/跳转网页，即可加载新的内容。在今天，已经学过“同步/异步”概念的你，也可以说XHR帮我们实现了异步请求。

而数据究竟是藏身何处，在第6关，我们提供了一个方案：

image.png-40.9kB

花开两朵，各表一枝。

1.2 解析与提取（一）

当数据藏匿于网页源代码，我们自有一条完整的“爬虫四步”链，在这里，最重要的库叫BeautifulSoup，它能提供一套完整的数据解析、数据提取解决方案。用法如下：

image.png-222.5kB

我们能写出类似这样的代码：

import requests
# 引用requests库
from bs4 import BeautifulSoup
# 引用BeautifulSoup库

res_foods = requests.get('http://www.xiachufang.com/explore/')
# 获取数据
bs_foods = BeautifulSoup(res_foods.text,'html.parser')
# 解析数据

tag_name = bs_foods.find_all('p',class_='name')
# 查找包含菜名和URL的<p>标签
tag_ingredients = bs_foods.find_all('p',class_='ing ellipsis')
# 查找包含食材的<p>标签
list_all = []
# 创建一个空列表，用于存储信息
for x in range(len(tag_name)):
# 启动一个循环，次数等于菜名的数量
    list_food = [tag_name[x].text[18:-15],tag_name[x].find('a')['href'],tag_ingredients[x].text[1:-1]]
    # 提取信息，封装为列表 
    list_all.append(list_food)
    # 将信息添加进list_all
print(list_all)
# 打印

# 以下是另外一种解法

list_foods = bs_foods.find_all('div',class_='info pure-u')
# 查找最小父级标签

list_all = []
# 创建一个空列表，用于存储信息

for food in list_foods:

    tag_a = food.find('a')
    # 提取第0个父级标签中的<a>标签
    name = tag_a.text[18:-15]
    # 菜名，使用[18:-15]切掉了多余的信息
    URL = 'http://www.xiachufang.com'+tag_a['href']
    # 获取URL
    tag_p = food.find('p',class_='ing ellipsis')
    # 提取第0个父级标签中的<p>标签
    ingredients = tag_p.text[1:-1]
    # 食材，使用[1:-1]切掉了多余的信息
    list_all.append([name,URL,ingredients])
    # 将菜名、URL、食材，封装为列表，添加进list_all

print(list_all)
# 打印

在此，我想额外强调的是编码问题，即便是许多爬虫老手也常常会在编码上重重地栽跟头，所以你不要也犯错。当response.text自动解码出问题，不要犹豫，自己动手使用response.encoding=''来对编码进行修改。

1.3 解析与提取（二）

我们来看事情的另一端——当数据在XHR中现身。

XHR所传输的数据，最重要的一种是用json格式写成的，和html一样，这种数据能够有组织地存储大量内容。json的数据类型是“文本”，在Python语言当中，我们把它称为字符串。我们能够非常轻易地将json格式的数据转化为列表/字典，也能将字典/列表转为json格式的数据。

如何解析json数据？答案如下：

image.png-43.7kB

提取自然是不难的，毕竟都已经变成列表/字典。你对列表/字典，驾轻就熟。最后，你的脑海中多了这样一张图：

image.png-57.4kB

1.4 更厉害的请求

有趣的是请求本身。在过往的学习里，你的requests.get()里面其实只有一个参数，即url。

但其实，这个请求可以有多个参数。

params，可以让我们带着参数来请求数据：我想要第几页？我想要搜索的关键词？我想要多少个数据？

headers，请求头。它告诉服务器，我的设备/浏览器是什么？我从哪个页面而来？

再往后，你发现除了get请求之外，还存在着另一种请求方式——post。post区别于get的是：get是明文显示参数，post是非明文显示参数。学会post，你又有两个参数可用：

在post请求里，我们使用data来传递参数，其用法和params非常相像。

cookies，中文名很好听是“小饼干”。但它却和“小饼干”并无关联。它的作用是让服务器“记住你”，比如一般当你登录一个网站，你都会在登录页面看到一个可勾选的选项“记住我”。如果你点了勾选，服务器就会生成一个cookies和你的账号绑定。接着，它把这个cookies告诉你的浏览器，让浏览器把cookies存储到你的本地电脑。当下一次，浏览器带着cookies访问博客，服务器会知道你是何人，你不需要再重复输入账号密码，就能直接访问。

到这，考虑极端情况。你的代码可能会写成这个模样：

import requests

url_1 = 'https://…'
headers = {'user-agent':''}
data = {}
# 定义url，headers和data

login_in = requests.post(url,headers=headers,data=data)
cookies = login_in.cookies
# 完成登录，获取cookies

url_2 = 'https://…'
params = {}
# 定义url和params

response = requests.get(url,headers=headers,params=params,cookies=cookies)
# 带着cookies重新发起请求

1.5 存储

变着花地获取数据，变着花地解析数据，提取数据。都会让你来到最后一站：存储数据。

存储数据的方法有许多，其中最常见的是： csv和excel。

image.png-29.6kB

image.png-40.5kB

#csv写入的代码：

import csv
csv_file=open('demo.csv','w',newline='')
writer = csv.writer(csv_file)
writer.writerow(['电影','豆瓣评分'])
csv_file.close()

image.png-39.3kB

#csv读取的代码：

import csv
csv_file=open('demo.csv','r',newline='')
reader=csv.reader(csv_file)
for row in reader:
    print(row)

image.png-45.8kB

#Excel写入的代码：

import openpyxl 
wb=openpyxl.Workbook() 
sheet=wb.active
sheet.title='new title'
sheet['A1'] = '漫威宇宙'
rows= [['美国队长','钢铁侠','蜘蛛侠','雷神'],['是','漫威','宇宙', '经典','人物']]
for i in rows:
    sheet.append(i)
print(rows)
wb.save('Marvel.xlsx')

image.png-48.7kB

#Excel读取的代码：

import openpyxl
wb = openpyxl.load_workbook('Marvel.xlsx')
sheet=wb['new title']
sheetname = wb.sheetnames
print(sheetname)
A1_value=sheet['A1'].value
print(A1_value)

1.6 更多的爬虫

从爬虫四步的角度来看，世上已经少有你搞不定的爬虫。因为所有的请求，你都能用Python代码模拟；所有的响应，你都懂得如何解析。当你在后面拿到任何一个爬虫需求，都能做到心中有数不慌张。

但是，如果要爬取的数据特别特别多，以至于程序会被拖得很慢怎么办？用协程。

同步与异步——

image.png-85.6kB

多协程，是一种非抢占式的异步方式。使用多协程的话，就能让多个爬取任务用异步的方式交替执行。

image.png-95.5kB

image.png-59.1kB

image.png-75.1kB

image.png-87.2kB

image.png-111kB

下为，示例代码：

import gevent,time,requests
from gevent.queue import Queue
from gevent import monkey
monkey.patch_all()

start = time.time()

url_list = ['https://www.baidu.com/',
'https://www.sina.com.cn/',
'http://www.sohu.com/',
'https://www.qq.com/',
'https://www.163.com/',
'http://www.iqiyi.com/',
'https://www.tmall.com/',
'http://www.ifeng.com/']

work = Queue()
for url in url_list:
    work.put_nowait(url)

def crawler():
    while not work.empty():
        url = work.get_nowait()
        r = requests.get(url)
        print(url,work.qsize(),r.status_code)

tasks_list  = [ ]

for x in range(2):
    task = gevent.spawn(crawler)
    tasks_list.append(task)
gevent.joinall(tasks_list)

end = time.time()
print(end-start)

1.7 更强大的爬虫——框架

当你爬虫代码越写越多，一个一站式解决所有爬虫问题的框架，就对你越来越有吸引力。

Scrapy出现在你眼前。Scrapy的结构——

image.png-190.8kB

Scrapy的工作原理——

image.png-363.3kB

Scrapy的用法——

image.png-105.7kB

1.8 给爬虫加上翅膀

除了这条爬虫从无到有，从有到多，从多到强的主线路径之外。我们还穿插学习了三个有力工具：selenium，邮件通知和定时。

它们给爬虫增添上翅膀，能更方便地做更有趣的事。

先说selenium，我们学习了可视模式与静默模式这两种浏览器的设置方法，二者各有优势。

然后学习了使用.get('URL')获取数据，以及解析与提取数据的方法。

image.png-55.9kB

在这个过程中，对象的转换过程：

image.png-46.4kB

除了上面的方法，还可以搭配BeautifulSoup解析提取数据，前提是先获取字符串格式的网页源代码。

HTML源代码字符串 = driver.page_source

以及自动操作浏览器的一些方法。

image.png-30.6kB

而关于邮件，它是这样一种流程：

image.png-115.5kB

我们要用到的模块是smtplib和email，前者负责连接服务器、登录、发送和退出的流程。后者负责填输邮件的标题与正文。

image.png-75.6kB

最后一个示例代码，是这个模样：

import smtplib 
from email.mime.text import MIMEText
from email.header import Header
#引入smtplib、MIMETex和Header

mailhost='smtp.qq.com'
#把qq邮箱的服务器地址赋值到变量mailhost上，地址应为字符串格式
qqmail = smtplib.SMTP()
#实例化一个smtplib模块里的SMTP类的对象，这样就可以调用SMTP对象的方法和属性了
qqmail.connect(mailhost,25)
#连接服务器，第一个参数是服务器地址，第二个参数是SMTP端口号。
#以上，皆为连接服务器。

account = input('请输入你的邮箱：')
#获取邮箱账号，为字符串格式
password = input('请输入你的密码：')
#获取邮箱密码，为字符串格式
qqmail.login(account,password)
#登录邮箱，第一个参数为邮箱账号，第二个参数为邮箱密码
#以上，皆为登录邮箱。

receiver=input('请输入收件人的邮箱：')
#获取收件人的邮箱。

content=input('请输入邮件正文：')
#输入你的邮件正文，为字符串格式
message = MIMEText(content, 'plain', 'utf-8')
#实例化一个MIMEText邮件对象，该对象需要写进三个参数，分别是邮件正文，文本格式和编码
subject = input('请输入你的邮件主题：')
#输入你的邮件主题，为字符串格式
message['Subject'] = Header(subject, 'utf-8')
#在等号的右边是实例化了一个Header邮件头对象，该对象需要写入两个参数，分别是邮件主题和编码，然后赋值给等号左边的变量message['Subject']。
#以上，为填写主题和正文。

try:
    qqmail.sendmail(account, receiver, message.as_string())
    print ('邮件发送成功')
except:
    print ('邮件发送失败')
qqmail.quit()
#以上为发送邮件和退出邮箱。

再说定时，我们选取了schedule模块，它的用法非常简洁，官方文档里是这样讲述：

image.png-255.9kB

下面的代码是示例：

import schedule
import time
#引入schedule和time

def job():
    print("I'm working...")
#定义一个叫job的函数，函数的功能是打印'I'm working...'

schedule.every(10).minutes.do(job)       #部署每10分钟执行一次job()函数的任务
schedule.every().hour.do(job)            #部署每×小时执行一次job()函数的任务
schedule.every().day.at("10:30").do(job) #部署在每天的10:30执行job()函数的任务
schedule.every().monday.do(job)          #部署每个星期一执行job()函数的任务
schedule.every().wednesday.at("13:15").do(job)#部署每周三的13：15执行函数的任务

while True:
    schedule.run_pending()
    time.sleep(1)    
#13-15都是检查部署的情况，如果任务准备就绪，就开始执行任务。

以上，就是我们在爬虫系列关卡当中所学到的全部内容。

2. 爬虫进阶路线指引

正如我们前文所说，爬虫学个入门够用，但较起真来它也学无止境。下面，我们会讲讲，如果想继续深入地学习爬虫，还可以学哪些内容。

对照着我们的爬虫学习路径，我们的进阶指引也分这几个板块：解析与提取、存储、数据分析与可视化（新增）、更多的爬虫、框架，以及其他。

对于这些知识，许多简单的你已经可以通过自学官方文档，掌握它们的使用方法。而对于一些复杂的，尤其是需要项目训练的知识，你可能觉得学习它们有些困难。这部分，未来我也会去设计更多的课程，更多的项目练习。

2.1 解析与提取

当我们说要学习解析和提取，是指学习解析库。除了我们关卡里所用的BeautifulSoup解析、Selenium的自带解析库之外，还会有：xpath/lxml等。它们可能语法有所不同，但底层原理都一致，你能很轻松上手，然后在一些合适的场景，去用它们。

如果说上述解析库，学或不学都影响不大，那么我要隆重地推荐你去学习正则表达式（re模块）。正则表达式功能强大，它能让你自己设定一套复杂的规则，然后把目标文本里符合条件的相关内容给找出来。举个例子，我们在第5关时，会爬取一首歌的歌词，拿到的文本里面会充斥着各种符号。

image.png-360.4kB

根据我们之前学到的知识，只能一遍又一遍，不厌其烦地切片。但用正则，就能很轻易地解决这个问题。

2.2 存储

说到存储，我们目前已经掌握的知识是csv和excel。它们并不是非常高难度的模块，我会推荐你翻阅它们的官方文档，了解更多的用法。这样，对于平时的自动化办公也会有所帮助。

但是当数据量变得十分巨大（这在爬虫界并不是什么新鲜事），同时数据与数据之间的关系，应难以用一张简单的二维平面表格来承载。那么，你需要数据库的帮助。

我推荐你从MySQL和MongoDB这两个库开始学起，它们一个是关系型数据库的典型代表，一个是非关系型数据库的典型代表。

当然，或许你会好奇什么是关系型数据库，什么是非关系型数据库。简单来说，我去设计两份表格，一张存储风变编程用户们的账户信息（昵称，头像等），一张则存储用户们的学习记录。两个表格之间，通过唯一的用户id来进行关联。这样的就是关系型数据库。没有这种特征的，自然就是非关系型数据库。

学习数据库，需要你接触另一种语言：SQL。不过它也并不难学，加油！

2.3 数据分析与可视化

徒有海量的数据的意义非常有限。数据，要被分析过才能创造出更深远的价值。举个例子：拿到全中国麦当劳门店的地址和营收数据意义并不大，但如果能从中总结出快餐店的最优策略，这就能指导商业决策。

拿到携程网上，用户对深圳欢乐谷的所有评论，意义并不大。但从中分析总结出用户游玩时真正在意的点，那就很有趣。

这里边的技能，叫做数据分析。将数据分析的结论，直观、有力地传递出来，是可视化。

认真来讲，这可并不是很简单的技能。学习数据分析，要比爬虫还要花费更多的时间。所以未来，我一定也会去做这方面的关卡，帮助大家掌握它。

如果你希望自己学习它，这是我推荐的模块与库：Pandas/Matplotlib/Numpy/Scikit-Learn/Scipy。

2.4 更多的爬虫

当你有太多的数据要爬取，你就要开始关心爬虫的速度。在此，我们介绍了一个可以让多个爬虫一起工作的工具——协程。

严格来说这并不是同时工作，而是电脑在多个任务之间快速地来回切换，看上去就仿佛是爬虫们同时工作。

所以这种工作方式对速度的优化有瓶颈。那么，如果还想有所突破还可以怎么做？

我们已经知道，协程在本质上只用到CPU的一个核。而多进程（multiprocessing库）爬虫允许你使用CPU的多个核，所以你可以使用多进程，或者是多进程与多协程结合的方式进一步优化爬虫。

理论上来说，只要CPU允许，开多少个进程，就能让你的爬虫速度提高多少倍。

那要是CPU不允许呢？比如我的电脑，也就8核。而我想突破8个进程，应该怎么办？

答，分布式爬虫。什么意思呢？分布式爬虫，就是让多个设备，去跑同一个项目。

我们去创建一个共享的队列，队列里塞满了待执行的爬虫任务。让多个设备从这个共享队列当中，去获取任务，并完成执行。这就是分布式爬虫。

如此，就不再有限制你爬虫的瓶颈——多加设备就行。在企业内，面对大量爬虫任务，他们也是使用分布式的方式来进行爬虫作业。

实现分布式爬虫，需要下一个组块的内容——框架。

2.5 更强大的爬虫——框架

目前，我们已经简单地学过Scrapy框架的基本原理和用法。而一些更深入的用法：使用Scrapy模拟登录、存储数据库、使用HTTP代理、分布式爬虫……这些就还不曾涉及。

不过好消息是，这些知识对于今天的你来说，大数都能轻松上手。因为它们的底层逻辑，你都已掌握，剩下的，不过是一些语法问题罢了。

我会推荐你先去更深入地学习、了解Scrapy框架。然后再了解一些其他的优秀框架，如：PySpider。

2.6 项目训练

现在，当你再去一些招聘网站上去浏览“爬虫工程师”的字样时，它的工作描述，已经不再有会让你陌生的字眼。

image.png-98.8kB

你开始觉得，或许自己再补充一些知识学习，也能够胜任。那么中间缺的是什么？

上述的模块/库/框架并不是那样重要，因为它们都是易于掌握的工具。对于一个爬虫工程师来说最重要的，是达成目标的思维。

相信你已经能感受到，在我们所有的项目型关卡里，都遵循着这三个核心步骤：确认目标、分析过程和代码实现（对于复杂项目，也要去做代码封装）。

其中，难度最大的不是代码实现，也不是代码封装，而是：确认一个合理的目标，分析这个目标如何实现，设计这些工具模块如何组合应用。

我们所学习的爬虫四步：获取数据、解析数据、提取数据和存储数据，都服务于“分析过程”这一步。

我要的数据在哪？怎么拿到数据？怎么更快地拿到数据？怎么更好地存储数据……这个，都属于“达成目标的思维”。

获取这种思维，需要大量的项目实操练习。

所以我想推荐你：完成我所提供的所有项目练习；多读一读，编程前辈们的博客、github主页学习案例；同时，探索更多的项目实操，丰富自己的爬虫经验。

在未来，如果我再设计更进阶的爬虫课程，教授正则、进程、分布式……的知识，也一定会将大量项目实操作为主线。

3. 反爬虫应对策略汇总

说完了进阶路线指引，我们来说反爬虫。几乎所有的技术人员对反爬虫都有一个共识：所谓的反爬虫，从不是将爬虫完全杜绝；而是想办法将爬虫的访问量限制在一个可接纳的范围，不要让它过于肆无忌惮。

原因很简单：爬虫代码写到最后，已经和真人访问网络毫无区别。服务器的那一端完全无法判断是人还是爬虫。如果想要完全禁止爬虫，正常用户也会无法访问。所以只能想办法进行限制，而非禁止。

所以，我们可以了解有哪些“反爬虫”技巧，再思考如何应对“反爬虫”。

有的网站会限制请求头，即Request Headers，那我们就去填写user-agent声明自己的身份，有时还要去填写origin和referer声明请求的来源。

有的网站会限制登录，不登录就不给你访问。那我们就用cookies和session的知识去模拟登录。

有的网站会做一些复杂的交互，比如设置“验证码”来阻拦登录。这就比较难做，解决方案一般有二：我们用Selenium去手动输入验证码；我们用一些图像处理的库自动识别验证码（tesserocr/pytesserart/pillow）。

有的网站会做IP限制，什么意思呢？我们平时上网，都会有携带一个IP地址。IP地址就好像电话号码（地址码）：有了某人的电话号码，你就能与他通话了。同样，有了某个设备的IP地址，你就能与这个设备通信。

使用搜索引擎搜索“IP”，你也能看到自己的IP地址。

image.png-62.6kB

如上，它显示出了我的IP地址，所用的网络通信服务商是深圳电信。如果这个IP地址，爬取网站频次太高，那么服务器就会暂时封掉来自这个IP地址的请求。

解决方案有二：使用time.sleep()来对爬虫的速度进行限制；建立IP代理池（你可以在网络上搜索可用的IP代理），一个IP不能用了就换一个用。大致语法是这样：

import requests
url = 'https://…'
proxies = {'http':'http://…'}
# ip地址
response = requests.get(url,proxies=proxies)

以上，就是市面上最常见的反爬虫策略，以及对应的应对策略。你会发现没什么能真正阻拦你。这正印证了那句话：所谓的反爬虫，从不是将爬虫完全杜绝；而是想办法将爬虫的访问量限制在一个可接纳的范围，不要让它过于肆无忌惮。

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· #章节九：编程思维：如何解决问题

· #章节七：布尔值和四种语句

· 【转】从爬虫小白到高手的必经之路-崔庆才

· 转：就想写个爬虫，我到底要学多少东西啊？

· (一)python分布式爬虫学习

公告

Live2D

欢迎阅读『章节十六：复习与反爬虫』

昵称：退役小学生
园龄： 6年4个月
粉丝： 41
关注： 5

+加关注

2025年3月

日

一

二

三

四

五

六

退役小学生

学习本是一个不断抄袭、模仿、练习、创新的过程。

章节十六：复习与反爬虫

章节十六：复习与反爬虫

1. 爬虫总复习

1.1 工具

1.2 解析与提取（一）

1.3 解析与提取（二）

1.4 更厉害的请求

1.5 存储

1.6 更多的爬虫

1.7 更强大的爬虫——框架

1.8 给爬虫加上翅膀

2. 爬虫进阶路线指引

2.1 解析与提取

2.2 存储

2.3 数据分析与可视化

2.4 更多的爬虫

2.5 更强大的爬虫——框架

2.6 项目训练

3. 反爬虫应对策略汇总

公告

搜索

常用链接

最新随笔

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论