spider【第一篇】爬虫入门

为什么要学习爬虫

既然是模拟认为操作浏览器和APP,那数据所有人都能看到,应该是不值钱的,那为啥还要用爬虫?

众所周知,互联网已经进入了下半场,上半场积累的数据非常多,要从海量的数据中高效提取出目标数据用于数据分析、人工智能、甚至抄袭同类产品(参考今日头条)。

OK,高效提取出目标数据就是爬虫的意义

数据的来源

去第三方的公司购买数据(比如企查查)
去免费的数据网站下载数据(比如国家统计局)
通过爬虫爬取数据
人工收集数据(比如问卷调查)

在上面的来源中:
人工的方式费时费力,
免费的数据网站上的数据质量不佳(垃圾程序员满地跑)
很多第三方的数据公司他们的数据,来源往往也是爬虫获取的
所以获取数据最有效的途径,就是通过爬虫爬取

爬虫的概念

爬虫就是:模拟浏览器或APP发送网络请求,获取请求响应

爬虫的分类

通用爬虫 :通常指搜索引擎的爬虫(啥网站都爬)
聚焦爬虫 :针对特定网站的爬虫

 

 

 

 

 

  

 

posted @ 2019-04-06 18:15  沐风先生  阅读(255)  评论(0编辑  收藏  举报