爬虫写得好,牢饭吃得早

爬虫在互联网时代并不稀奇,面对海量数据,人工获取信息的效率低、时效性差,为了提升体验很多公司都会开发爬虫系统。但是,爬虫写得好,牢饭吃得早。

来自 2018 年的公开案例:

公司 2017 年转型做互联网科技公司,主营业务是“助贷”,需要经常访问政府居住证网站,查询房产地址、房屋编码和学区房的使用情况。公司产品组经讨论后建议用爬虫自动查询相关数据

2017年12月,CTO 安排新入职的程序员负责这个项目,要求他研发一个自动定时抓取的爬虫。

2018年1月,项目经理给程序员一个抓取数据程序源代码,程序员开始修改。

2018年3月,爬虫上线,可以从公安局居住证系统查询到房产地址、房屋编码等对应的资料。

2018年4月27日10:43-12:00左右,居住证系统出现宕机现象,未定位到请求IP来源,怀疑是人为攻击。

2018年5月2日10:00-12:00左右,系统再次遭遇攻击,这次管理人员成功截取了IP地址并报案。

2018年5月17日晚上11点,CTO、程序员得知网警锁定服务器 IP,程序员怀疑是居住证系统加了验证码但爬虫未更新,导致爬虫被判断为攻击行为。

2018年8月,CTO、程序员被捕,后续 CTO 被判处有期徒刑三年,程序员被判处有期徒刑一年六个月。

我也曾在某金融公司开发过爬虫,帮助用户从银行、基金公司、邮箱等多个渠道爬取信用卡、基金交易记录,然后形成账单和分析数据用户参考。近几年看了不少因为开发爬虫被判刑的案例,独自庆幸及早抽身,已离开爬虫团队数年。

2019 年 9 月,江苏淮安于某伙同王某合谋开发爬虫网站,爬取个人借贷信息、身份证照片信息等达 84 万余次,分别被判处有期徒刑四年、有期徒刑一年六个月,并处罚金。

2021 年 5 月,上海某信息科技公司员工刘某等 12 人因爬取各类网站、社保、公积金、手机App等网络上的个人数据信息 308万余条用于开展“征信业务”,其中 8 人被判处有期徒刑三年,缓刑三年至有期徒刑一年,缓刑一年不等,各并处罚金3万元至1万元不等。该团伙中的戴某等其余4人还在审理中。

2021 年 6 月,河南商丘两人通过开发爬虫软件爬取淘宝客户数字 ID、手机号等信息共计 11.8 亿条用于开展淘宝推广赚佣金,一审均被判处有期徒刑三年以上。

本文第一个案例中,CTO 辩解说爬取的是公开信息且没有个人信息、没有出售或交换、没有通过数据牟利,而且爬虫是公司管理层决定开发、由技术程序员实施开发,是公司工作任务程序员辩解说项目经理给的源代码不知道是谁开发的,修改爬虫程序工作任务仅用于公司业务,本人并未牟利,而且开发完成后就没有继续修改了,攻击行为猜测是没有处理验证码导致的。但法院最终判决为 CTO 被判处有期徒刑三年,程序员被判处有期徒刑一年六个月,其他人员无责。

并不是所有的爬虫都违法,被爬信息完全公开,内容中不涉及个人信息、版权内容及数据资产的,爬虫频率适当不会影响被爬网站正常响应的,一般来说,都是合法合规的爬虫行为。同时也要注意,爬虫合规也不代表业务合规,如果业务违规一样会追究责任。

爬虫一般都伪造 UA,可能会成为起诉证据,在今日头条爬虫案件当中,检察院和法院,就以伪造UA作为定罪证据。部分情况下,爬虫使用代理也可能会涉嫌非法绕过防护。爬到的数据也要定期清理,以免被抓时公安固定证据,发现还有别的案件来个并案处理、数罪并罚。

比较严重的情况,最高法、最高检在《关于办理危害计算机信息系统安全刑事案件应用法律若干问题的解释》中有明确解释,简单来说就是:

  • 未经授权获取对方数据,可能会涉嫌“非法获取计算机信息系统数据”,也规定了“后果特别严重”的认定;
  • 造成对方系统不可用,可能涉嫌破坏计算机信息系统罪,而且可能被认定“后果特别严重”;

最高法、最高检的规定看起来更像是黑客犯罪,但是,由于专业背景和立场不同,公检法对技术的理解与程序员未必一致,仍然有部分地区法院以此作为罪名判决。爬虫出了问题,对方网站肯定是受害者,总要有个被告来负责,你说会是谁呢?

如果必须要做爬虫,记得找法务同学正规审批,做好风险隔离。要是没有法务参与,早点 run 吧!

https://chengxuzhixin.com/blog/article/303463.html

posted @ 2022-02-06 13:06  程序之心  阅读(136)  评论(0编辑  收藏  举报