非计算机专业小白自学爬虫全指南（附资源）

2018-08-22 14:22 经济与编程阅读(3713) 评论(2) 收藏举报

爬虫是我接触计算机编程的入门。哥当年写第一行代码的时候别提有多痛苦。

本文旨在用一篇文章说透爬虫如何自学可以达到找工作的要求。

爬虫的学习就是跟着实际项目去学，每个项目会涉及到不同的知识点，项目做多了，自然也就会了。练练练！！！！

本文推荐的资源就是以项目练习带动爬虫学习，囊括了大部分爬虫工程师要求的知识点。

爬虫工程师要求知识点

1、python入门和进阶（进阶的包括多进程等等）

2、HTTP知识（因为要爬的是网页，所以要了解网页）

2、web前端：HTML、CSS、Javascript等

3、爬虫知识（爬虫基本库的使用、scrapy框架等）

4、反爬虫（代理池、分布式等等）

5、数据库（大批量数据的储存涉及mysql等）

先导知识

HTTP协议：https://www.cnblogs.com/ranyonsue/p/5984001.html

html，css，javascript：学爬虫这些东西是肯定要看的，推荐W3school，倒也不用全看，懂个大概就好了

最佳学习资源推荐

前期教程：https://cuiqingcai.com/1052.html（现今网上最全的爬虫学习教程）

目录列表：

但是，只学完上面是不够找工作的，所以我整理了下面的资料，是我花了几个月时间自学，精选来的教程，重中之重。包含知识点：IP代理、mongoDB、mysql、抓包、分布式、selenium、模拟登陆、cookie等等

爬虫实战项目一，涉及知识点：mysql储存、断点续爬、抓包app、ip代理、cookie模拟登陆

1、https://zhuanlan.zhihu.com/p/26810901

2、https://zhuanlan.zhihu.com/p/26527575

3、https://www.cnblogs.com/hearzeus/p/5157016.html

4、https://www.jianshu.com/p/887af1ab4200

爬虫实战项目二，涉及知识点：scrapy具体应用

scrapy知识点：https://www.cnblogs.com/cnkai/category/1061919.html

scrapy中文文档：https://scrapy-chs.readthedocs.io/zh_CN/1.0/intro/tutorial.html

scrapy项目实战：https://www.cnblogs.com/cnkai/category/1062011.html

补充：https://segmentfault.com/a/1190000009321902

爬虫实战项目三，涉及知识点：去重、分布式、多进程、模拟登陆

1、https://cuiqingcai.com/4352.html

数据库，掌握基本用法即可

mysql：http://www.runoob.com/mysql/mysql-tutorial.html

mongodb：http://www.runoob.com/mongodb/mongodb-tutorial.html

找工作必备

计算机基础，包含（数据结构与算法、计算机网络协议等计算机专业基本课程、我前面的文章里有介绍怎么学），非计算机专业学生容易忽略

其他技能（可选，加分）

javascript，验证码，app破解

1、要想破解加密，得非常强悍的javascript基础，这个我也不是很懂

2、验证码，工业界目前破解验证码还是用打码平台

3、现在不仅仅是网站破解了，很多公司需要你抓app的数据，抓包最常用，你还得会app脱壳之类的，这些我就不懂了。

拓展阅读：

一文了解爬虫与反爬虫

https://segmentfault.com/a/1190000005840672

最后，请注意，爬虫的工作机会相对较少。

文章发布，讨论学习，公众号：learningthem

刷新页面返回顶部

经济与编程

非计算机专业小白自学爬虫全指南（附资源）

About