spider【第一篇】爬虫入门

为什么要学习爬虫

既然是模拟认为操作浏览器和APP，那数据所有人都能看到，应该是不值钱的，那为啥还要用爬虫?

众所周知，互联网已经进入了下半场，上半场积累的数据非常多，要从海量的数据中高效提取出目标数据用于数据分析、人工智能、甚至抄袭同类产品(参考今日头条)。

OK，高效提取出目标数据就是爬虫的意义

去第三方的公司购买数据(比如企查查)
去免费的数据网站下载数据(比如国家统计局)
通过爬虫爬取数据
人工收集数据(比如问卷调查)

在上面的来源中：
人工的方式费时费力，
免费的数据网站上的数据质量不佳（垃圾程序员满地跑）
很多第三方的数据公司他们的数据，来源往往也是爬虫获取的
所以获取数据最有效的途径，就是通过爬虫爬取

爬虫就是：模拟浏览器或APP发送网络请求，获取请求响应

通用爬虫 ：通常指搜索引擎的爬虫(啥网站都爬)
聚焦爬虫 ：针对特定网站的爬虫

posted @ 2019-04-06 18:15 沐风先生阅读(266) 评论(0) 收藏举报

刷新页面返回顶部