spider【第一篇】爬虫入门
为什么要学习爬虫
既然是模拟认为操作浏览器和APP,那数据所有人都能看到,应该是不值钱的,那为啥还要用爬虫?
众所周知,互联网已经进入了下半场,上半场积累的数据非常多,要从海量的数据中高效提取出目标数据用于数据分析、人工智能、甚至抄袭同类产品(参考今日头条)。
OK,高效提取出目标数据就是爬虫的意义
数据的来源
去第三方的公司购买数据(比如企查查) 去免费的数据网站下载数据(比如国家统计局) 通过爬虫爬取数据 人工收集数据(比如问卷调查)
在上面的来源中:
人工的方式费时费力,
免费的数据网站上的数据质量不佳(垃圾程序员满地跑)
很多第三方的数据公司他们的数据,来源往往也是爬虫获取的
所以获取数据最有效的途径,就是通过爬虫爬取
爬虫的分类
通用爬虫 :通常指搜索引擎的爬虫(啥网站都爬) 聚焦爬虫 :针对特定网站的爬虫
谢谢