爬虫的难点？什么是高级的爬虫？

爬虫的难点

1，数据量小，其实没什么，难在数据量大了怎么办？百万级别的呢？

2，数据量大了还好，但是还要效率呢？短时间内要大量数据

3，这些都还好，但是还要稳定性呢，你的爬虫系统稳定吗？这是一个难点，

4，这些都还好，还有就是别人有反爬虫，这是难点，因为爬虫是有成本了，目的是低成本的获取你想要的数据，成本太高就不划算了，

这是四个难点，

5，有反爬虫还可以，最怕别人盯上你了，针对你反爬虫，这个级别也比较高了，你的爬虫威胁到了别人，

6，还有就是违法，但是你到这个级别也厉害了，你已经爬到了别人的机密，核心数据，

什么是高级的爬虫？

1，解决疑难问题，包括反爬虫，验证码问题，处理账号限制，模拟登陆，这是涉及反爬虫的问题了，

2，js逆向，app逆向

3，http协议，数据抓包，分析

4，熟悉数据库，数据库调优，海量数据处理经验，mysql，redis，mangodb，这是涉及到处理海量数据的问题了，

5，分布式爬虫，消息队列，这就是涉及到爬虫的效率问题了，

6，通用爬虫系统，--系统的稳定性的问题，

为什么做爬虫？

1，喜欢，

2，爬虫是数据，数据是互联网的基石之一，我认为互联网有几个基石，用户，数据，技术，

3，能做，往后的发展是数据分析，数据挖掘，人工只能，这是未来，我从最基础的做起，

爬虫的技术架构

1，python

2，前端

3，Django

4，数据库

5，Linux

6，框架

7，中间件，消息队列，redis，celery，

###

posted @ 2021-04-23 18:22 技术改变命运Andy 阅读(1465) 评论(0) 收藏举报

刷新页面返回顶部