第一章 银行的数据
1.当前银行逐步实现从“银行信息化”向“信息化银行”的转变。
2.银行信息系统的数据
3.程序=数据结构+算法
4.数据是业务和技术沟通的共同语言
5.数据列入企业资产负债表只是时间问题
第二章 银行数据治理概述
1.数据治理是对数据资产管理行使权力和控制的活动合集(规划,监控和执行)
2.数据治理的职能是指导其他数据管理职能的执行
3.数据治理是在高层次上执行数据管理制度
4.银行数据治理的目标与价值
- 更好的服务于银行决策
- 更为精准的为客户服务
- 提高银行风险管控能力
- 提升银行运营管理水平
5.商业银行数据治理体系
- 数据治理的核心领域
- 数据治理的保障机制
6.银行数据治理的核心领域
- 数据模型
- 元数据管理
- 数据标准
- 数据质量管控
- 数据生命周期管理
- 数据分布与存储
- 数据交换
- 数据安全
- 数据服务
- 非结构化数据管理
第三章 银行数据治理保障机制
商业银行数据治理组织架构
第四章 数据模型
1.数据模型是对不能直接观察的事物进行形象的描述。
2.数据模型包括了三个部分:数据结构,数据操作,数据约束。
3.数据库设计中关键一点就是数据库模型体系的设计
4.商业银行的数据模型体系一般分为4层,包括:企业级概念数据模型,企业级逻辑数据模型,应用级逻辑数据模型,应用级物理数据模型。
5.一个典型的数据模型项目或新系统开发项目中的数据库设计工作可包括以下阶段:需求收集阶段(概念数据模型),分析与设计阶段(逻辑数据模型),实现阶段(物理数据模型)。
6.逻辑数据模型的主要表现形式是实体关系图。
7.应用级逻辑数据模型反向指导企业级逻辑数据模型
8.物理数据模型是针对具体的关系型数据库系统,对逻辑数据模型进行物理模型设计,形成可供具体的关系型数据库系统中实现的表结构。
9.
10.扇形陷阱:一个实体与其他实体之间存在两个或多个一对多的关系
11.深坑陷阱:ER模型中的实体之间存在联系,但某些实例之间却不存在相应的通路。
12.若同时存在字符和数字型候选键,则优先选择数字型候选键作为主键。
13.在逻辑模型中,可能会出现以下情况:两个过多个属性存在公共的属性,而这些属性又是实体必须的部分,这就造成逻辑模型的冗余。这种情况可以使用超类和子类来解决。
14.事务是指一系列用来完成某一功能的与数据库相关的工作。
15.根据对数据库操作类型的不同,事务可分为:检索事务,更新十五,混合事务。
16.数据库的三大范式:
1NF:实体的属性必须是原子的
2NF:确保表中每列都和主键相关(主要针对联合主键)
3NF:确保每列都和主键直接相关
第五章 元数据管理
1.元数据是关于数据的数据。
2.元数据描述了数据的结构,内容等多项内容,提供了对数据对象的描述,定位,管理,检索,评估,选择,和交互等功能,是数据治理的重要基础。元数据是数据对象的信息地图,通过元数据管理,能够准确勾勒出银行数据资产的整体视图,支持科学地制定信息数据管理政策。
3.元数据包括:业务元数据,技术元数据,操作元数据。
业务元数据是定义和业务相关数据的信息,用于辅助定位,理解及访问业务信息。业务元数据的范围主要包括:业务指标,业务规则,数据质量规则,专业术语,数据标准,概念数据模型,实体/属性,逻辑数据模型等。
技术元数据分为结构性技术元数据和关联性技术元数据。技术元数据的范围主要包括:技术规则(计算/统计/转换/汇总),数据质量规则技术描述,字段/列,衍生字段/列,事实/维度,统计指标,表/视图/文件/接口,报表/多维分析,数据库/视图组/文件组/接口组,源程序,系统,软件,硬件等。技术元数据一般以已有的业务元数据为参考进行设计。
操作元数据主要是指与元数据管理相关的组织,岗位,职责,流程,项目,版本,以及系统生产运行产生的操作记录,如运行记录,应用程序,运行作业。
4.元数据的内容覆盖结构化数据,半结构化,非结构化。
5.在数据仓库中,元数据是用以描述数据仓库内数据的结构和建立方法的数据。
6.商业银行元数据管理:以建立企业级元数据管理为核心,以制定企业级元数据技术规范和指引为保障;与银行日常应用系统的研发,测试,版本制作等流程紧密结合。
7.主要元数据对象的管理:表结构,文件,接口,公共代码,指标。
第六章 数据标准
1.数据标准是对银行业务经营和管理所涉及的各项业务信息的统一定义与解释。它包含业务定义,技术定义和管理信息三个方面的内容。
2.数据标准体系建设主要包含三方面内容:基础业务信息的标准化,业务规则的标准化和关键绩效指标的标准化。
3.数据标准化管理框架:文化和变革,标准数据,制度和流程,组织和角色,管理平台。
第七章 数据质量管理
1.数据质量用以描述数据对使用者有价值和有用的程度。
2.评价数据质量的高低,必然要从一致性,唯一性,完整性等几个角度对数据进行分析。
3.只有将非结构化数据的相关元数据,主要内容抽取出来,并以类似结构化数据存储后,才能发挥价值。
4.某商业银行数据质量管理流程
5.某商业银行数据质量指标体系
第八章 数据生命周期管理
1.目前存在的问题:表数据量过大导致访问效率过慢,数据丢失,数据量大查询瓶颈。
2.数据生命周期是对不同的业务数据进行贯穿整个生命周期的管理,通过完整的数据生命周期管理解决方案,让不同类型的数据存放在适合的存储设备上,利用适当的技术手段对这些数据进行处理和分析。
3.一个完整的数据生命周期解决方案
4.数据销毁是以人工的方式销毁的
5.计算机存储信息的大小,最基本的单位是字节,一个汉字由两个字节组成,字母和数字由一个字节组成。
1KB=1024字节
1MB=1024KB
1GB=1024MB
1TB=1024GB
1PB=1024TB
第九章 数据分布与存储
1.核心系统数据量越来越大,核心系统功能日益臃肿,不能适应产品的灵活创新需求,管理成本越来越高。
2.商业银行的数据存储划分为四类存储区域,即交易性数据区,集成型数据区,分析型数据区,历史型数据区。
3.通过网络爬虫或者API方式可以将非结构化数据从网页中抽取出来,将其存储为统一的本地数据文件,并以结构化的方式存储。
4.二进制大对象(BLOB)是一种可以存储二进制对象或数据的数据类型。
5.分布式存储引擎采用mapreduce模型,并基于hadoop的hbase和hdfs实现。
6.FTP是TCP/IP协议组中的协议之一。FTP是文件传输协议。
20传输数据 21 传出控制信息
7.数据分布式存储与并行处理框架
第十章 数据交换
1.数据交换的主要目的是实现对银行数据或信息的共享,满足银行日常经营管理和业务运营过程中的数据使用需求,以及满足外部监管等需要。
2.银行数据交换包括两大类:商业银行与外部机构的数据交换,以及商业银行内部应用间的数据交换。
3.一个相对完整的银行数据交换体系:数据交换标准,数据交换体系架构,数据交换时效性管理。
4.各银行建立了自身的数据交换体系,有的通过文件传输协议工具(FTP)或者自主研发的文件传输工具进行简单传输,也有的通过统一的系统将各类抽取,转换,加载(ETL)工具以及传输工具进行整合,为银行的数据交换提供统一服务。
5.ETL一词较常出现在数据仓库,但其对象并不限于数据仓库。
6.银行数据交换体系架构:集中式数据交换模式和非集中式数据交换模式。
第十一章 数据安全
1.数据安全是指保证数据的机密性,完整性和可用性。
2.数据备份的方式有:LAN/LAN-FREE备份;LAN-FREE备份;数据库热备份和冷备份;全量备份和增量备份。
3.加密技术包括算法和密钥。
4.数据加密的技术有对称加密和非对称加密。
第十二章 数据服务
目前,主流的流数据处理技术主要有Storm,Spark,Streaming等。
第十三章 数据治理展望
信息获取可以采取爬网,FLUME等日志采集技术