深度学习与爬虫实例教学--项目基本介绍和体验

深度学习与爬虫实例教学

声明:该教程不会直接贴代码,以免凌乱,你需要先下载项目代码(第一章)并结合来看,教程中会告诉你具体代码放在什么位置,以及作用,用法

深度学习实现验证码自动识别,爬虫自动认证防ban

我们将学习如何构建一个用于验证码识别的深度学习模型和结合爬虫进行构建一个项目

教学大纲

项目基本介绍和体验
深度学习模型构建和训练
自动识别知乎认证码并实现抓取
扩展之结合scrapy,Django构建完整项目


背景

  深度学习早在上个世纪就出现,其实也就是神经网络,随着计算能力的提高,数据量的提升,深度学习有了大展拳脚的机会。如今训练一个验证码识别模型,比如你自己生成数据并用之训练,然后识别你自己生成的数据,这已经是很简单的事了,但是,如果你没有足够多已标记样本的情况,那如何训练出能真正用于生产环境的模型?
  现在很多网站都设置了反爬虫机制,而对应反爬虫我们可以有不携带cookie,随机User-Agent,随机代理IP等手段,而验证码登录功能其实也是一种反爬虫手段

解决方案

  对于没有足够已标记验证码的情况下,你可以想到GANs,迁移学习,甚至是打通内部工作人员给你足够的已标记验证码或者规则...,这里,我们就迁移学习来解决这个问题
  对于爬虫对抗验证码,我们只要拥有上面验证码识别的深度学习模型就可以了,而其他反爬虫对抗手段,我们在扩展部分结合scrapy进行实战演练

体验

  枯燥无味的背景介绍没看完就跳到这里了吧,好吧。
  点击传送门,去到项目的Github地址,请根据上面的README介绍,进行环境准备和体验

体验完之后将进入第二章深度学习模型构建和训练

posted @ 2018-02-23 16:41  littlepai  阅读(2728)  评论(0编辑  收藏  举报