大白话介绍一下爬虫是啥东西
今天用一点时间给大家讲讲什么是网络爬虫
或许爬虫这一词你并不是很陌生,或许你想象中的爬虫应该是这样子:
不不不…他黑暗又神秘 他应该是这个样子;
额鹅鹅鹅… 是不是更形象一点了呢?
十月一刚过没多久,还记得十月一的一票难求吗??还记得群里发的加速加速的小程序吗?可以说抢票软件的实现就是基于爬虫的.那爬虫到底做什么了你能抢到票?其实很简单,爬虫和你一样,模仿你,打开12306 不停刷新页面,出现票了,就立即买下来通知vip加速的你付钱!你懂得多少人盯着那一张票,可是对于可怜的12306来说,一秒可能要承受几千万的请求,对服务器的损耗是非常巨大的!
曾经的淘宝和支付宝,在双十一的时候也导致了崩溃的现象,你盯着的特价商品,无数个爬虫早就看好了,正等着整点抢,哪怕只差0.01秒,东西都不可能是你的,况且你的手速,肯定是抢不过爬虫的!
我在举一个例子,为什么某某明星微博更新了之后,马上就有马仔出来发文呢?难不成他什么都不做,就盯着指定微博吗?当然这也是爬虫做的事情! 或许小时候,你很羡慕别人的空间里面的留言数目,人气非常好哈! 其实那或许就是一堆机器人刷刷存在感,或许你看到的某个文章的阅读量,点赞数,甚至微信的投票都是假的! 或许某一个看起来比较诱人的链接,某个免费的wifi,都在获取着你的信息!
以上就是我对爬虫举得几个小例子但是就在这背后却存在着巨大的产业链,数据造假最为严重,每一百着网站流量中,只有30是真实的数据!可想而知,数据造假多么严重,当你在参加某个微信投票中,你会看到某个人的投票在将要结束的时候,快速暴涨,真的是他的人缘好吗?错! 数据代表不了一切,只是参考!
爬虫很厉害,但是也没你想的那么厉害,很多网站的反扒机制,很难破解的,甚至是你一辈子都无法破解的!
那爬虫的边界到底是哪里??
爬虫只是人们快速达到目的的工具,工具嘛,凡是都是有利弊的,就像车可以帮人们拉货,代步,但同时也对人产生着危害! 比如你可以利用爬虫帮你收集一些新闻信息,帮你去获取这一刻的股票信息,批量下载一些壁纸等!
说实话,爬虫没边界,所谓的robots协议,是没人遵从的,如果没有了爬虫,当你打开百度搜索的时候,就什么都搜索不到了!
笔者认为,合理利用工具提升效率是没问题的,但是请不要侵害他人的权益!