什么样的爬虫是非法的?
什么样的爬虫是非法的?
爬虫不能涉及个人隐私!
如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。
另外,还有下列三种情况,爬虫有可能违法,严重的甚至构成犯罪:
01 非法获取相关信息
爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。
02 干扰网站正常运作
爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计算机信息系统罪”
03 采集公民个人信息
爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为,情节严重的,有可能构成“侵犯公民个人信息罪”。
什么样的爬虫合法?
遵守 Robots协议
Robots 协议能告诉爬虫,哪些信息是可以爬取,哪些信息不能被爬取,严格按照 Robots 协议 爬取网站相关信息一般不会出现太大问题。
不能造成对方服务器瘫痪
网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。
不能非法获利
恶意利用爬虫技术抓取数据,攫取不正当竞争的优势,甚至是牟取不法利益的,则可能触犯法律。实践中,非法使用爬虫技术抓取数据而产生的纠纷其实数量并不少,大多是以不正当竞争为由提请诉讼。
绝大多数公司和个人使用的爬虫都是没有问题的,不必人人自危,只要把握住不要爬取个人信息,不要利用爬虫非法获利, 不要爬取网站的付费内容,基本上不会有问题。
程序员可以说是世界上最聪明的一群人,但是在法律之中往往也会产生纰漏,在拥有技术的同时也应在工作中保持谨慎, 不要一不小心走上了法律的危险边缘。
什么样的爬虫是非法的?
爬虫不能涉及个人隐私!
如果爬虫程序采集到公民的姓名、身份证件号码、通信通讯联系方式、住址、账号密码、财产状况、行踪轨迹等个人信息,并将之用于非法途径的,则肯定构成非法获取公民个人信息的违法行为。
另外,还有下列三种情况,爬虫有可能违法,严重的甚至构成犯罪:
01 非法获取相关信息
爬虫程序规避网站经营者设置的反爬虫措施或者破解服务器防抓取措施,非法获取相关信息,情节严重的,有可能构成“非法获取计算机信息系统数据罪”。
02 干扰网站正常运作
爬虫程序干扰被访问的网站或系统正常运营,后果严重的,触犯刑法,构成“破坏计算机信息系统罪”
03 采集公民个人信息
爬虫采集的信息属于公民个人信息的,有可能构成非法获取公民个人信息的违法行为,情节严重的,有可能构成“侵犯公民个人信息罪”。
什么样的爬虫合法?
遵守 Robots协议
Robots 协议能告诉爬虫,哪些信息是可以爬取,哪些信息不能被爬取,严格按照 Robots 协议 爬取网站相关信息一般不会出现太大问题。
不能造成对方服务器瘫痪
网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止。
不能非法获利
恶意利用爬虫技术抓取数据,攫取不正当竞争的优势,甚至是牟取不法利益的,则可能触犯法律。实践中,非法使用爬虫技术抓取数据而产生的纠纷其实数量并不少,大多是以不正当竞争为由提请诉讼。
绝大多数公司和个人使用的爬虫都是没有问题的,不必人人自危,只要把握住不要爬取个人信息,不要利用爬虫非法获利, 不要爬取网站的付费内容,基本上不会有问题。
程序员可以说是世界上最聪明的一群人,但是在法律之中往往也会产生纰漏,在拥有技术的同时也应在工作中保持谨慎, 不要一不小心走上了法律的危险边缘。
腾讯安全联合实验室
已认证的官方帐号
68 人赞同了该回答
先定义一下爬虫行为,它是一种“自动化浏览网络”的程序,按照一定规则,自动抓取互联网信息,比如网页、各类文档、图片、音频、视频等,也被称为网页蜘蛛或网络机器人。一般来说,爬虫是用来批量获得网页上的公开信息的,也就是前端显示的数据信息。常见的爬虫手段包含构造合理的 HTTP 请求头、设置 cookie、降低拜候频率、隐含输入字段值、使用代办署理等。
爬虫作为一种计算机技术,一直保持着中立性,在法律上也未被禁止,但是恶意利用爬虫技术抓取数据,牟取不法利益的,则可能触犯法律。举个例子来说,像百度、谷歌这样的搜索引擎爬虫,负责采集全网网页信息,供搜索者查阅,这种就被称为善意的“合法爬虫”。
然而当事情不受控时,爬虫也变的不再“君子”了。恶意爬虫会强行突破网站反爬措施,窃取后台数据、用户数据等,干扰被访问网站的正常运营。像抢票软件这样的爬虫,不断抓取航空公司官网或火车购票平台信息,导致通过正常操作几乎无法抢到票,这种爬虫就被定义为“恶意爬虫”。腾讯针对这个还发布了2018上半年安全专题报告《互联网恶意爬虫分析:从全景视角看爬虫与反爬虫》,其中提到出行类恶意爬虫流量占比达到20.87%,火车购票站点成为爬虫光顾最频繁的业务。
爬虫和反爬虫作为“相生相克”的死对头,无论爬虫多厉害,都能被复杂的反爬虫机制发现,同样的,无论反爬虫机制多么缜密,也能被更高级的网络爬虫所攻破,这也被称为反反爬虫。当反爬虫工程师对爬虫进行了反杀,爬虫工程师也不会任人宰割,很快又研究出了各种反对抗技术,比如,通过 User-Agent 来控制拜候、通过 IP 限制来反爬虫、通过 JS 脚原本避免爬虫、通过 robots.txt 来限制爬虫等。
技术本身是无罪的,问题往往出在人无限的欲望上。在使用爬虫时,爬虫开发者的道德自持和企业经营者的良知才是避免触碰法律底线的根本所在。
一是严格遵守网站设置的robots协议;
二是在规避反爬虫措施的同时,需要优化自己的代码,避免干扰被访问网站的正常运行;
三是在设置抓取策略时,应注意编码抓取视频、音乐等可能构成作品的数据,或者针对某些特定网站批量抓取其中的用户生成内容;
四是在使用、传播抓取到的信息时,应审查所抓取的内容,如发现属于用户的个人信息、隐私或者他人的商业秘密的,应及时停止并删除。
关于如何保护数据隐私,一是对操作系统进行及时更新,堵塞操作系统的安全漏洞,提高操作系统的防御能力,防患于未然;
二是在网络终端系统中安装杀毒软件,提高防御能力,保证网络终端系统能够抵御病毒攻击,提高网络终端系统的安全性;
三是结合数据库的使用特点,对数据库中的信息采取加密技术,防止数据库中的数据被盗用,提高数据的安全性;
四是部署SSL证书,使用HTTPS加密传输协议,防止传输数据被他人窃取、篡改。