本文类举各种可标识一个人/企业等个体身份的标识及标识类别,以下即为各身份类别的具体分类:
1.身份证
我国公民身份号码为18位,包含标识主体丰富的时空信息。它可表示为图1所示。由17位数字本体码和1位校验码组成。前6位是地址码编码:1-2位表示省(自治区、直辖市、特别行政区)、3-4位表示市(地区、自治州、盟及国家直辖市所属市辖区和县的汇总码)、5-6表示县(市辖区、县级市、旗)。而第7-14位数字表示出生日期,包括4位出生年份+4位生日日期;15-17位数字顺序码(其中17位的奇数分给男性,偶数分给女性),18位是数字校验码,可由确定的校验公式计算得到。
图1 - 我国公民身份证号编码结构
由上图可知,给定一个公民身份证号码,可推断出该公民相关的出生地、出生年月和性别的信息。对于共享同一种地址码的人口,可以由国内各个地区的公开人口统计得到,这个数据量与地区人口密度相关,比如东部密度大,该信息具有很弱的“身份可识别性”,而西部一些偏远地区密度小,该信息可能具有很高的“身份可识别性”。对于同一个出生日期的人口数量,为了简单估计,假设为均匀分布,年龄在0-130范围,那么同一天出生大约为3万人(14亿/(130*365))。由此可见,单单暴露身份证号码的出生日期8位,“身份可识别性”很弱。然而,将地区编码考虑进来,3万种可能性进一步消除,再经过1000种可能性的顺序码(15-17位),可完全消除多种可能性,“身份可识别性”达到唯一水平。
2 手机号
我国使用的号码编码为11位,其中前3位是网络识别码,表示是联通,移动,电信;第4-7位是地区编码;第8-11位是用户号码(随机分配)。如图2所示。根据手机号码可推断出号码用户的号码归属地、以及运营商选择信息。除去手机号的第一位默认为1,其他位的范围一般都可取0-9,那么可估计最大生成的号码规模为10^10= 100亿。