数据脱敏技术综述

1.应用背景
数据脱敏(Data MasKing),指在不降低数据安全性的前提下,对敏感数据通过脱敏规则进行数据的变形,有效地减少敏感数据在采集、传输、使用等环节中的暴露,进而降低敏感数据泄露的风险,实现对敏感数据的保护,拓展原有数据的共享对象和使用范围。
在实际应用中,数据脱敏技术通常应用在涉及到个人隐私数据存储和应用的部分行业领域:
①政务领域:由于政务数据平台往往会掌握身份信息、户籍信息等大量极为敏感的个人信息数据,需要针对数据采集、传输、应用、归档等全生命周期进行数据脱敏并同步实施其他数据安全防护手段。
②金融电信领域:由于电信客户的手机号码、通话记录、网络流量等信息以及金融客户的个人账户信息、交易记录等信息均属于重要敏感信息,使用数据脱敏技术是实现合规的首选。
③互联网领域:由于用户行为分析、个性化推荐、精准营销等应用方向是企业增收的重要渠道,也是多数互联网企业的通用服务手段,相应地分析挖掘应用不可避免,因此也需要数据脱敏。

2.现有技术
2.1 标识符和准标识符
标识符:类似于数据库的主码,个体的唯一标识,比如说姓名、地址、电话等,这些内容需要在公开数据的时候删掉。
准标识符:非唯一的标识,比如邮编、年龄、生日等,能帮助研究人员管理相关数据的标识。
2.2 K-匿名
要求发布的数据中,指定标识符(标识符或准标识符)属性值相同的每一等价类至少包含K个记录。
拿图2-1为例,假设一个公开的数据进行了2-匿名保护,如果攻击者想确认Frank的敏感信息,通过查询他的年龄、邮编和性别,攻击者会发现数据里至少有两个人是有相同的年龄、邮编和性别。这样攻击者就没办法区分这两条数据哪个是Frank了,从而也就保证了Frank的隐私不会被泄露。

K-匿名方法主要有两种:
①删除对应的数据列,用号代替。
对于邮编这样的数据,数字若全用
号代替,数据会失去很多有意义的信息,可以选择删除其中一位数字。
②用概括的方法使之无法区分,比如说把年龄这个数字概括成一个年龄段。
2.3 L-多样性
要求在公开的数据中,对于那些准标识符相同的数据中至少有L种内容不同的敏感属性,这样才能保证用户的隐私不能通过背景知识等方法推测出来。
比如图2-2满足З-多样性,有10条相同的类型的数据,其中8条购买偏好是健身器材,其它两条分别是图书和烹饪工具。

L-多样性同样也有缺点,它没有考虑敏感属性的语义,比如图2-3我们用Frank的信息可以得出两个结论:第一,Frank的工资相对较低;第二,Frank是个锻炼爱好者。

2.4 T-接近
T-接近是为了保证在相同的准标识符类型组中,敏感信息的分布情况与整个数据的敏感信息分布情况接近,不超过阈值T。

但即使同时保证了K-匿名,L-多样性,T-接近,信息依然会因为攻击者的背景知识而遭到泄露。比如图2-4,攻击者通过Frank的个人信息找到了四条数据,同时知道Frank有很多书,这样就很容易在四条数据中找到Frank的那一条。

3.具体内容
3.1 数据脱敏流程
数据脱敏的流程一般分为:敏感数据发现、敏感数据梳理、脱敏方案制定、脱敏任务执行四大步骤,并结合数据脱敏的规则、数据脱敏的算法以及数据脱敏的环境,获得最佳的数据脱敏效果。
3.1.1 敏感数据的发现
敏感数据的发现分为人工发现和自动发现2种:
①对于国家电网有限公司等相对固定的敏感数据,可以采用人工甄别,这类数据的结构及长度不会发生变化。
②借助敏感数据信息库和分词系统,自动识别数据库中包含的敏感信息,相对于人工识别可以减少工作量和防止遗漏。
3.1.2 敏感数据的梳理
通过变形、屏蔽、替换、随机、强加密、格式保留加密等多种数据脱敏的算法,针对不同的数据类型进行数据掩码扰乱。
3.1.3 脱敏方案的制定
脱敏方案的制定主要依靠脱敏策略和脱敏算法的复用来实现,通过配置和扩展脱密算法以制定最优方案。
3.1.4 脱敏任务的执行
脱敏任务的启动、停止、暂停等操作,支持脱敏任务的中断或延续,及脱敏任务的并行处理等。
3.2 数据脱敏算法的选择
依据不同的数据特征来选取不同的数据脱敏算法,如对姓名、证件号、银行账户、住址、电话号码、企业名称、组织机构代码等进行数据脱敏时,所采用的数据脱敏算法一般有:变形、屏蔽、随机、替换、强加密和格式保留加密等,如图3-1所示。

4.特色之处
4.1 保存方式
信息领域的业务是不断变化的,信息的保存方式也随之改变。数据脱敏过程中,数据信息的保存方式与具体的业务场景有关,要视具体的业务需求而定。
4.1.1只保留密文
某些有审计要求的环境是不允许保留明文数据的,这种情况下数据信息只保留脱密后的密文信息。而数据分析、查询等与明文数据相关的操作,要根据密文信息与加密逻辑统一处理。
4.1.2 只保留明文
数据信息也可以只在展示的时候以密文的形式展示,而数据存储以明文的形式保存。这种情况下,数据分析、查询等日常的业务操作较为简单,但每次数据展示要根据脱密逻辑进行实时数据脱密,比较消耗系统资源。
4.1.3 保留明文+密文
这种方式相对灵活,脱敏操作可以从保存的脱敏数据中直接取出,也可以根据脱敏策略对明文数据加密后再显示。
4.2 数据脱敏环境的选择
当前数据脱敏技术主要可以分为静态数据脱敏和动态数据脱敏两类,两者面向的使用场景不同,实现时采用的技术路线和实现机制也均有所不同。
4.2.1 静态数据脱敏
静态数据脱敏的主要目标是实现对完整数据集的大批量数据进行一次性整体脱敏处理,按照制定好的数据脱敏规则,使用类似ETL技术的处理方式,对于数据集进行统一的变形转换处理。
4.2.2动态数据脱敏
动态数据脱敏的主要目标是对外部申请访问的敏感数据进行实时脱敏处理,并即时返回处理后的结果,一般通过类似网络代理的中间件技术,按照脱敏规则对外部的访问申请和返回结果进行即时变形转换处理。

5.数据脱敏发展趋势
5.1 数据脱敏性能提升
随着信息技术的逐渐深入应用,各企业组织可保有和使用的数据量将呈爆炸性增长,相应需要进行脱敏处理的数据量也会同步提升,各依赖于数据分析进行即时反馈调整的数据应用,对于数据的实时性需求愈加强烈,在涉及到敏感数据的实时应用中,即时或短时间内完成大量数据的脱敏处理需求将会逐渐增多。
5.2 非结构化数据脱敏
相对于传统通过关系型数据库存储的结构化数据,在时下被存储和应用的数据中,图片、视频、音频、文本等非结构化数据占比不断提升。众多智能化数据应用中对于涉及个人隐私的非结构化数据的使用挖掘愈加常态化,针对于各类非结构化数据的脱敏处理技术后续将成为重点发展方向。
5.3 智能化数据脱敏
当数据的维度和种类不断膨胀时,通过用户指定数据脱敏策略,手动绑定待脱敏数据及脱敏规则和算法的方式将显得效率十分低下。使用者的人工工作量需要被进一步减少,因此已有部分企业在脱敏工具产品中实现了敏感数据自动识别发现等便利化功能。
5.4 数据脱敏技术的合规应用
随着国内外对于个人隐私数据保护相关的法律法规不断出台,近年来频发的数据泄露事件,以及针对违规使用用户隐私数据企业的处罚时有发生,共同敦促着企业将数据合规视为当下的首要任务。后续针对于企业对于个人信息使用的法规将愈加复杂并具有针对性,企业合规的人力实施成本将不断攀升。

参考文献
[1]王卓,刘国伟,王岩,李媛.数据脱敏技术发展现状及趋势研究[J].信息通信技术与政策,2020(04):18-22.
[2]黎俊延. 数据脱敏技术现状与建议[J]. 商情,2017(18):287-289.
[3]叶水勇. 数据脱敏技术的探究与实现[J]. 电力信息与通信技术,2019,17(4):23-27. DOI:10.16543/j.2095-641x.electric.power.ict.2019.04.004.
[4]王卓,刘国伟,王岩,李媛.数据脱敏技术发展现状及趋势研究[J].信息通信技术与政策,2020(04):18-22.
[5]唐迪,顾健,张凯悦,顾欣.数据脱敏技术发展趋势[J].保密科学技术,2021(04):4-11.

posted @ 2022-11-15 10:33  xiaopangpang7  阅读(1363)  评论(0编辑  收藏  举报