《数据安全实践指南》- 数据采集安全管理
数据采集安全管理
- 数据采集安全管理是整个数据采集安全阶段的重要步骤,可用于明确数据采集的目的及用途,采集方式和方法,采集数据的格式等,用以保证数据采集过程的合规性,正当性和一致性。
建立负责数据采集安全的职能部门
- 理论上组织机构可以设置两个数据采集安全团队,一个团队为数据采集安全管理团队,主要负责为公司制定整体的数据采集安全合规管理制度,同时推动相关制度,要求和流程的落实和执行,另一个团队则是为数据采集风险评估团队,主要负责针对不同的业务或项目场景的数据安全,给公司提供评估服务,并给出相应的改建方案;企业需要根据自身情况好的情况设置两个数据采集安全团队,不好的情况就只设置一个数据采集安全团队,全部负责制定合规制度和对应项目提供风险评估服务。
明确数据采集安全岗位的能力要求
- 熟悉国家网络安全法,以及组织机构所属行业的政策和监管要求。
- 严格按照网络安全法和个人信息安全防范等相关法律法规和行业规范执行。
- 熟悉组织机构的业务特征,了解业务线的政策方向和战略调整,具备良好的数据采集安全风险意识。
- 有针对性的风险评估报告和相应的解决方案,确保项目实施过程中数据采集能够顺利有序地进行。
数据采集安全岗位建设和人员能力评估方法
- 数据采集安全管理岗位的建设和对应人员实际执行能力的评估,可通过内部审计,外部审计等形式进行调研访谈,问卷调查,流程观察,文件调阅,技术检测等多种方式实现。
- 1.调研访谈
- 主要包含对公司数据采集安全部门管理人员和技术人员访谈两部分,具体如下:
- 数据采集安全部门管理人员的访谈内容:确认其是否能够胜任数据采集理论技术方面。
- 数据采集安全制度制定方面,数据采集法律法规方面的工作。
- 公司是否对该团队提供了足够的资源支持,确认该团队所制定的数据采集安全制度是否能够得到有效的执行。
- 数据采集安全风险评估技术人员访谈内容:确认其是否能够胜任数据风险评估技术方面和数据采集安全风险意识方面的工作。
- 确认该团队是否清楚业务,项目的战略发展方向,确认该团队所提出的风险评估报告及解决方案是否有效。
- 2.问卷调查
- 通过以纸面问卷的形式,向公司的业务部门调研数据采集风险评估团队是否可以根据不同的业务场景提供有针对性的风险评估咨询及解决方案,以及数据采集安全管理团队是否制定了有效的,可执行的数据采集安全管理制度。
- 3.流程观察
- 数据采集安全管理阶段的流程观察,主要是观察数据采集安全部门管理团队和风险评估团队两方的工作流程,从中寻找可能存在的问题点和改善点,具体如下:
- 对数据采集安全部门管理团队的观察内容为,:以中立的视角观察该团队的工作流程,包括该团队在为公司制定数据采集安全相关的标准和制度时,流程是否符合标准,相关要求和制度设计是否合理,是否符合公司整体的环境要求,在推动相关要求制度和流程的实际应用时,是否符合规范,从而确认该团队的实际工作情况。
- 对数据采集风险评估团队的观察内容为:以中立的视角观察该团队的工作流程,首先确认该团队评估的具体指标,如采集过程是否合规,采集过程安全要求是否达标,采集过程是否对其他相关工作产生影响,其次确认风险评估团队在评估过程中的评分是否标准,合理,评估过程是否符合规范等。
- 数据采集安全管理阶段的流程观察,主要是观察数据采集安全部门管理团队和风险评估团队两方的工作流程,从中寻找可能存在的问题点和改善点,具体如下:
- 4.技术检测
- 数据采集安全管理阶段的技术检测需要使用技术工具确认在实际采集数据的过程中,是否存在数据泄露的情况,是否设置了统一的数据采集策略,在进行数据采集之前是否获得了被采集方的授权和同意。
明确数据采集的目的
- 数据采集过程涉及包括个人信息和商业数据在内的海量数据,当前对个人隐私和商业秘密的保护提出了很高要求,为了防止个人信息和商业数据滥用,采集过程需要获得信息主体的授权,期间需要遵守国家相关法律,行政法规的规定和用户的约定,另外还要满足法律法规的前提下,在数据应用和数据安全保护之间寻找一个适度平衡。
- 数据采集活动的主要操作包括但不限于下面内容:发现数据源,传输数据,生成数据,缓存数据,创建数据源,数据转换,数据完整性验证等。
确立数据采集的基本原则
- 数据采集活动,需遵循合法,正当,必要的原则,具体包括如下内容:
- 权责一致:采取必要的技术和措施保障个人数据和重要数据的安全,若对数据主体的合法权益造成损害应承担相应的责任。
- 目的明确:具有明确,清晰,具体的信息处理目的。
- 选择同意:向数据主体明示信息处理的目的,方式和范围等规则,征求获得其授权和同意。
- 最小必要:只处理已获得数据主体授权和同意的,所需的最少数据类型和数量,目的达成后,应及时删除采集的数据。
- 公开透明:以明确,易懂且合理的方式公开处理数据的范围,目的和规划等,并接收外部监督。
- 确保安全:具备与应对安全风险相匹配的安全能力,并采取足够的管理措施和技术手段,保护数据的机密性,完整性和可用性。
- 主体参与:向数据主体提供能够查询,更正和删除其信息,以及撤回授权同意,注销账户和投诉等方法。
基于大数据的采集来源
- 大数据的采集主要有4种来源,分别为管理信息系统,Web信息系统,物理信息系统和科学实验系统。
- 管理信息系统:指企业,机关内部的信息,如事务处理系统,办公室自动化系统等,主要用于经营和管理,为特定用户的工作和业务提供支持,数据的产生既有终端用户的初始输入,又有系统的二次加工处理,系统的组织结构是专用,数据通常是结构化。
- Web信息系统:包括互联网中的各种信息系统,如社交网站,社会媒体,系统引擎等,主要用于构造虚拟的信息空间,为广大用户提供信息服务和社交服务,系统的组织结构是开放式的,大部分数据是半结构化或无结构的,数据的产生者主要是在线用户。
- 物理信息系统:指关于各种物理对象和物理过程的信息系统,如实时监控,实时检测等,主要用于生产调度,过程控制,现场指挥和环境保护等。系统的组织结构是封闭的,数据将由各种嵌入式传感设备产生,既可以是关于物理,化学,生物等性质和状态的基本测量值,也可以是关于行为和状态的音频,视频等多媒体数据。
- 科学实验系统:实际上属于物理信息系统,但其实验环境是预先设定的,主要用于学术研究等,数据是有选择的,可控的,有时也可能是人工模拟生产的仿真数据,数据往往具有不同的形式。
明确数据采集方式
- 数据采集活动的目的是获得数据,数据采集方式包括但不限于一下方式:
- 网络数据采集:指通过网络爬虫或网站公开的API等方式,从网上获取数据信息,该方式可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的存储方式呈现,网络数据采集方式支持图片,音频,视频等文件或附件的采集,附件与正文可以自动关联。另外对于网络流量的采集可以使用DPI或DFI等宽带管理技术进行处理。
- 系统日志采集:各种互联网企业都有自己的海量数据采集工具,例如:Hadoop的Chukwa,Cloudera的Flume,Facebook的Scribe等,这些工具均采用分布式架构。
- 其他数据采集:对于企业的生产经营数据或学科研究数据等对保密性要求较高的数据,可以通过与企业或研究机构合作或授权的方式,使用特定的系统接口来采集数据。
确定数据采集周期
- 数据采集周期根据实际数据的状态分两种情况:
- 对实时检测数据的采集,应按照实际工作条件制定数据采集周期,例如:系统连续进行10次采集,将10次采集时间的平均值作为系统的数据采集周期。
- 对于系统生产基础数据的采集,可直接采用固定期限加动态调整 的方式制定采集周期,例如:对于变化不大的数据信息,采集周期可设置为6个月,涉及数据信息变动与调整的,则可根据需要动态调整采集周期。
制定数据采集的安全策略
- 制定数据采集的安全策略目的是确保采集过程中的个人信息和重要数据不会泄露。
- 定义采集数据的目的和用途,明确数据的采集来源,采集方式,采集范围等内容,并制定标准的采集模板,采集方法,策略和规范。
- 遵循合规原则,确保数据采集的合法性,正当性和必要性。
- 设置专人负责信息生产或提供者的数据审核和采集工作。
- 对于初次采集的数据,需要采用人工与技术相结合的方式进行数据采集,并根据数据的来源,类型或重要程度进行分类。
- 最小采集数据,仅需要完成必需的采集工作即可,确保不要采集与提供服务无关的个人信息和重要数据。
- 对采集的数据进行合理化存储,依据数据的使用状态进行及时销毁处理。
制定数据采集的风险评估流程
- 在对数据进行采集的过程中,需要组织风险评估小组对采集过程进行风险评估,评估内容如下:
- 采集过程是否合规:是否有采集负责人对相关采集操作进行审核,采集的数据是否最小化,采集过程是否足够公开透明并接受了外部监督。
- 采集过程中的安全要求:是否采用了加密,完整性校验,匿名,日志和断网等保护措施,以保护被采集数据的安全。
- 数据采集相关的其他工作。
使用技术工具
- 数据采集包括外部数据和内部数据的采集,这里的外部数据指除了组织内部之外的所有数据提供方,包括第三方,合作伙伴和子公司等,在采集过程中,需要提前约好数据采集相关工作流程和制度,技术工具除了要达到基本的数据采集目标之外,还需要保障数据采集过程中的数据传输和存储安全,并提供全过程审计的能力。
- 目前主要有三种类型的数据:数据库数据,网络数据和系统日志数据,可以根据不同的数据类型,数据采集系统也分为三个主要的类型,目前数据防泄漏技术主要有数据加密技术,权限管控技术和基于内容深度识别的通道防护技术。
基于数据库的采集技术
- 数据库系统主要分为两大类:一类是关系型数据库,Oracle,SQL Server,MySQL,另一类是非关系型数据库,如MongoDB和Redis,基于数据库采集源数据主要分为以下三种方式:
- 直接数据源同步
- 生成数据文件同步
- 数据库日志同步
基于网络数据的采集技术
- 基于网络数据的采集技术是指通过网络爬虫或网站公开API等方式,从网站上获取数据信息的过程。
- 整个数据采集过程的基本步骤如下:
- 1.将需要抓取数据网站的URL信息写入URL队列
- 2.爬虫从URL队列中获取需要抓取数据网站的URL信息
- 3.获取某个具体网站的网页内容
- 4.从网页内容中抽取出该网站正文页内容的链接地址
- 5.从数据库中读取已经抓取过内容的网页地址
- 6.过滤URL,对当前URL和已经抓取过的URL进行比较,如果该网页地址没有被抓取过,则将该网页地址写入数据库,如果该网页地址已经被抓取过,则放弃对这个网址的抓取操作
- 7.获取该地址的网页内容,并抽取出所需属性的内容值
- 8.将抽取的网页内容写入数据库
基于系统日志的采集技术
- 采集工具Chukwa,Flume,Scribe等
数据防泄漏技术
- 目前数据防泄漏技术主要包含加密技术,权限管控技术,以及基于内容深度识别的通道防护技术等
- 数据加密技术
- 数据加密技术包含磁盘加密,文件加密,透明文档加解密等技术路线,目前以透明文档加解密技术最为常见,透明文档的加解密技术通过过滤驱动对受保护的敏感数据内容设置相应的参数,从而有选择性的保护特定进程产生的特定文件,写入时进行加密存储,读取文件时进行自动解密,整个过程不会影响到其他受保护的内容。
- 加密技术需要从数据泄露的源头开始对数据进行保护,即使数据离开企业内部的保护,也能防止数据泄露,但加密技术的密钥管理十分复杂,一旦密钥丢失或加密后的数据遭到损坏,就会造成原始数据无法恢复的后果,对透明文档加解密来说,如数据不是以文档的形式出现,就会无法对数据进行管控。
- 权限管控技术
- 数字权限管理(DRM)指通过设置特定的安全策略,在敏感数据文件生成,存储和传输的同时实现自动化保护,以及通过条件访问控制策略防止对敏感数据进行非法复制,泄露和扩散等操作。数字权限管理技术通常不会对数据进行加解密操作,而是通过细粒度的操作控制和身份控制策略来实现数据的权限控制,权限管控策略与业务结合比较紧密,因此会对用户现有的业务流程产生影响。
- 基于内容深度识别的通道防护技术
- 基于内容的数据防泄漏DLP,数据防泄漏以深层内容识别为核心,基于敏感数据内容策略定义,监控数据的外传通道,对敏感数据的外传进行审计和控制,数据防泄漏不会改变正常的业务流程,具备丰富的审计功能,可用于对数据泄露事件进行时候定位和追责溯源。
技术工具的使用目标和工作流程
- 数据采集安全管理技术工具应能实现一下目标:
- 统一设置采集策略,统一下发设置的采集策略,能对采集策略进行调整,采集策略遵循最小够用原则,确保采集数据的一致性,且保证采集的数据不会被滥用
- 支持全过程加密通信,从发起数据采集请求,数据采集授权到采集数据传输的通信过程应采取双向加密传输。
- 数据采集涉及敏感信息时候,工具具备数据传输钱对数据进行脱敏的能力,当通信链路存在风险时,传输前对数据进行脱敏作业能够最大限度降低数据传输过程中的风险,工具需要依照规定的敏感信息定义,对采集到的敏感信息进行脱敏处理后再进行传输。
- 具备对采集前后的数据进行完整性校验,为了防止采集前后的数据被篡改,工具需要对数据进行完整性校验,可以使用数字签名,数字证书等手段来识别所采集的数据是否已经遭到篡改。
- 存储采集的数据,保证敏感数据都经过了脱敏处理的前提下,工具需要对采集到的数据进行加密作业后再存储,工具需要对所存储的数据定期进行备份,保证存储数据的安全性,防止所存储的数据遭到窃取和破坏。
迷茫的人生,需要不断努力,才能看清远方模糊的志向!