阿里巴巴云数据仓库 MaxCompute 数据安全最佳实践
本文作者:王璀 / 夏俊伟
简介: MaxCompute作为企业级SaaS模式云数据仓库,正在为客户业务及其数据提供持续的安全保护。 MaxCompute 近期对产品的安全能力进行了全面升级 ,结合数据生命周期,针对数据误用、数据滥用、数据泄露、数据丢失等典型数据风险场景,构建全生命周期的数据安全防护体系。
什么是
MaxCompute 是一款云原生、高效能的SaaS模式企业级数据仓库服务,被广泛用于构建现代化企业数据平台,开展BI分析、数据化运营、画像及推荐、智能预测等应用场景。
MaxCompute 构建在阿里云大规模计算、存储资源之上,以Serverless架构提供全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,并最小化用户的运维投入。
MaxCompute支持多种经典计算模型(批处理、机器学习、交互式分析等)和完善的企业管理功能,借助MaxCompute,用户可轻松集成和管理企业数据资产,简化数据平台架构,加速价值实现。
MaxCompute 企业级安全能力
· 细粒度授权、
· 数据加密 (BYOK)
· 数据脱敏(数据保护伞)
· 持续备份恢复
· 跨地域的容灾备份
· 实时审计日志
MaxCompute产品集成了众多数据安全能力,可分以下三个层面:
- 基础安全与可信平台,保障数据中心的物理安全与网络安全,主要包括数据中心保障设施、数据中心安全管控、数据中心的网络安全等几个维度的建设。
- 大数据平台的数据安全,主要从生命周期角度提供分类分级、传输加密、存储加密、备份回复、沙箱隔离、数据脱敏、细粒度权限、客户端限制等子系统,为上层安全应用或工具提供平台能力基础。
- 数据应用的安全,为用户提供安全中心、数据保护伞、数据地图,优化用户体验,帮助用户更好应对各类数据风险。
在大数据安全管理中,主要存在以下几点数据安全风险:
- 数据滥用
- 数据泄露
- 数据丢失
接下去重点介绍一下用MaxCompute的功能解决以上几点数据风险。
如何应对数据滥用
应对数据滥用,最主要的应对是对数据使用做最小化授权,严格限制数据的被访问、使用的范围。权限管理的最佳实践:
• 数据分级管理:基于 MaxCompute 的 LabelSecurity 对数据做分类分级管理。
• 授权审批流程:基于 MaxCompute 的 列级别权限管控能力,做最小化授权。
• 定期审计:对权限的申请、审批、使用情况进行分析,做到事前有审批,事后有审计。
• 及时清理:及时清理过期权限,减少数据风险。
可以依托 MaxCompute 的细粒度权限体系,使用Dataworks 等可视化工具,来实现最小化授权的最佳实践,应对数据滥用的风险,目前公共云上所有用户已经启用数据访问控制权限系统。特别是银行等金融行业客户同时还启用了数据标签分类管理策略。
MaxCompute 细粒度权限体系提供精细化的权限管理能力
MaxCompute支持不同的授权机制来完成对用户或角色的授权,包括:
• 自主访问控制机制 (DAC, Discretionary Access Control):
如何应对数据泄露
数据泄露可能发生在数据生命周期的不同阶段,如数据传输、数据存储、数据处理、数据交换等阶段。因此,我们将结合数据生命周期的不同阶段来介绍应对数据泄露的最佳实践。
1,应对数据存储过程中的数据泄露风险 - 使用数据加密(存储加密)功能
MaxCompute 具有存储加密功能,支持用户数据的落盘加密:
• MaxCompute接入秘钥管理系统KMS以保障秘钥的安全性,支持服务秘钥和用户自选秘钥(BYOK)。
• 支持加密算法:AES256,国密算法等。
• .数据加密后对用户使用保持透明,各种类型的任务不需额外改变。
例如某全球最大多元化娱乐公司,在数据上云就启用了MaxCompute的存储加密,以及数据敏感数据自动扫描识别的功能模块。
2.应对数据数据处理过程中的数据泄露风险 - MaxCompute 安全隔离能力
在数据处理过程中,应对数据泄露的风险则主要在于大数据平台的安全隔离能力。
MaxCompute 提供独立的隔离环境用于执行数据处理应用,可以支持完整的UDF种类,支持 Java和Python UDF, 还支持执行如Spark、Flink、Tensorflow 等开源三方计算引擎,提供了多元化的数据处理能力。
3.应对数据交换(共享)过程中的数据泄露风险 - MaxCompute数据隔离与权限体系
在数据交换、或者说数据共享过程中,则需要完善的数据隔离能力与权限管理体系来保障数据安全、防范数据泄露风险。MaxCompute 提供不同层级和维度上的数据隔离与权限管理机制,以支持多层次的数据保护和数据共享场景。
4. 数据生命周期中的敏感数据保护
应对数据泄露风险中的一个重要主题是敏感数据保护,前文所述在存储、处理、和交换过程中的风险应对实践,对敏感数据保护同样适用。 此外,还有一些针对敏感数据保护这一特定场景的最佳实践,特别是金融行业,国内银行,保险,证券基金等公司对数据安全防泄露要求特别高,同时随着法律法规的完善,很多互联网公司都在加强对隐私数据的保护。
数据脱敏:基于安全行业的脱敏实现或应用,实现不同客户端数据输出时的敏感数据脱敏。脱敏实现也可以与数据分类分级结合使用,对不同分类分级的数据做不同的脱敏实现。例如国内最大主打互联网的保险公司,就是用到了MaxCompute的数据脱敏功能来防范他们的数据防泄露。
如何应对数据丢失
除了恶意的数据泄露、数据滥用等风险,数据开发过程中的各种误操作,偶发的设备或机房故障,甚或是罕见的灾害意外情况,都能造成数据丢失的后果。 应对数据丢失风险的最佳实践,主要有备份恢复,以及容灾能力。
1. MaxCompute 备份与恢复
MaxCompute 具有
2. MaxCompute 异地容灾
MaxCompute 的异地容灾能力,更好的提供了在机房故障或意外灾害等极端场景下的数据安全保障。在为 MaxCompute 项目指定备份位置到备份集群后,MaxCompute 自动实现主集群与备份集群的数据复制,达到主集群与被集群数据的一致,实现异地数据容灾。当发生故障,MaxCompute 项目从主集群切换到备份集群后,使用备份集群的计算资源访问备份集群的数据,完成服务的切换和恢复。
小结
作为云数据仓库MaxCompute具备领先的安全能力,也通过了国际、欧洲、国内的多项安全合规认证,如国际主流认证ISO系列、SOC1/2/3、PCI,欧洲主流认证C5,国内主流认证安全等级保护2.0。除了以上几点可以保护自己的数据安全,同时可以利用MaxCompute原生Information Schema能力对每个用户的数据处理加工过程进行审计;也可以使用ActionTrail的实时事件风险管理平台对每个用户的数据操作进行数据监控告警或者事后审计。
数据安全不仅需要完善的工具能力,同时也需要完善组织架构来支持,做到数据标注管理,数据使用,数据审计等各个不同部门的人员通力配合,才能杜绝数据安全事件。
本文为阿里云原创内容,未经允许不得转载。