爬虫的难点?什么是高级的爬虫?

爬虫的难点

1,数据量小,其实没什么,难在数据量大了怎么办?百万级别的呢?

2,数据量大了还好,但是还要效率呢?短时间内要大量数据

3,这些都还好,但是还要稳定性呢,你的爬虫系统稳定吗?这是一个难点,

4,这些都还好,还有就是别人有反爬虫,这是难点,因为爬虫是有成本了,目的是低成本的获取你想要的数据,成本太高就不划算了,

这是四个难点,

5,有反爬虫还可以,最怕别人盯上你了,针对你反爬虫,这个级别也比较高了,你的爬虫威胁到了别人,

6,还有就是违法,但是你到这个级别也厉害了,你已经爬到了别人的机密,核心数据,

 

 

什么是高级的爬虫?

1,解决疑难问题,包括反爬虫,验证码问题,处理账号限制,模拟登陆,这是涉及反爬虫的问题了,

2,js逆向,app逆向

3,http协议,数据抓包,分析

4,熟悉数据库,数据库调优,海量数据处理经验,mysql,redis,mangodb,这是涉及到处理海量数据的问题了,

5,分布式爬虫,消息队列,这就是涉及到爬虫的效率问题了,

6,通用爬虫系统,--系统的稳定性的问题,

 

 

为什么做爬虫?

1,喜欢,

2,爬虫是数据,数据是互联网的基石之一,我认为互联网有几个基石,用户,数据,技术,

3,能做,往后的发展是数据分析,数据挖掘,人工只能,这是未来,我从最基础的做起,

 

爬虫的技术架构

1,python

2,前端

3,Django

4,数据库

5,Linux

6,框架

7,中间件,消息队列,redis,celery,

 

 

 

 

 

 

###

posted @ 2021-04-23 18:22  技术改变命运Andy  阅读(1333)  评论(0编辑  收藏  举报