某连锁酒店泄露数据的分析
2013-10-27 14:18 灵感之源 阅读(9905) 评论(17) 编辑 收藏 举报声明
不提供任何下载,不提供任何指引,无需问我怎么得到,我不会回答。
前言
这个分析纯粹是我喜欢数据挖掘,周末闲来无事练一下手。
源文件
源文件是一个SQL Server数据库备份文件,从数据库“shifenzheng”完整备份,从服务器GHOSTSLC-6BBFCB备份,备份日期是2013/5/27 0:45:49 备份用户名叫anyi,备份数据库大小8030071808 (约7.5GB)。
基本信息
1. 字段
数据库只有一个表,叫cdsgus。里面有姓名、身份证号码、性别、地址、国家、手机号码、电子邮件等数据,其它的如卡号、固话、传真、公司、教育、兴趣等基本上是残缺甚至没有的,甚至部分人的身份证号码也是错乱的,估计导入的时候没有处理好。
而每个字段都设为长度2000的nvarchar,相当蛋痛,相信这不是原始设计,而单纯是泄露后自行快速导入的产物。
2. 记录
里面有20050144条记录(2005万)。
3. 姓
取姓名的第一个字符做姓(不考虑复姓),有4644个性,最多是王,其次是张、李、刘、陈,似乎和中国的大姓吻合。有趣的是有人姓“色”、“糊”、“痕”、“&”、“@”、“π”(数学里面的pi)。。。相信是乱写的。
10大姓里面已经占了821万用户。
4. 性别
男性比女性多一倍。
5. 年龄段
剔除那些无效或不靠谱年龄,80后是主力,70后次之。90后只有60后的一半,貌似不科学。。。
5. 省份
省份数据基于身份证号码,部分用户使用的不是身份证号号码,部分用户提供了的数据不合法,我都一并剔除了。江苏、山东和浙江用户最多,相信是某某连锁酒店在这些地区网点最多。
6. 更多
其实我还可以分析一下如手机提供商(移动/电信/联通等)、登记时间的分布等,甚至多维如不同省份里的不同年龄段里的不同手机用户之类,不过颈椎病发作,强忍疼痛写了这篇博客,就此打住了,休息去。
后言
互联网时代,每天产生的数据越来越多,数据安全问题日益严重,譬如之前的CSDN个人信息泄露,还有几个大游戏网站的数据泄露,当然还有诸多没有公开,只是在某些组织内部流转的。
我的建议,保护好自己的个人信息,不要在网上随意填写敏感数据,譬如身份证等,尽可能不同服务使用不同密码并经常修改。电话号码等,如果非得要填写,填写一个备用号码(专门用来填写申请/注册用,可随便丢弃,不怕别人骚扰)。