国家电网全业务数据中心统一分析服务平台建设
转载自:http://geek.csdn.net/news/detail/245699
1.项目概述
1.1项目背景
2016年10 月9 日,***在中共中央政治局第三十六次集体学习时强调,要深刻认识互联网在国家管理和社会治理中的作用,以推行电子政务、建设新型智慧城市等为抓手,以数据集中和共享为途径,建设全国一体化的国家大数据中心,推进技术融合、业务融合、数据融合,实现跨层级、跨地域、跨系统、跨部门、跨业务的协同管理和服务。在2016年召开的国家电网公司学习贯彻党的十八届六中全会精神暨2016年第四季度工作会议上,电网公司董事长、党组书记舒印彪强调,要强化末端融合。加强营配调基础数据治理,建设在线、实时、共享的基础数据服务平台。加快“五位一体”落地。将业务流程、制度标准、岗位职责全面导入和固化到信息系统,以信息化打通横向协同障碍,实现五大业务数据共享和流程融合。
“十一五”和“十二五”期间,国家电网公司陆续完成了SG186 和SG-ERP工程建设,建成了总部、省(市)两级数据中心,构建了主数据的管理体系,促进了各专业的横向协同和数据的纵向贯通,支撑了电网公司的跨越式发展。树立“用数据说话、用数据管理、用数据决策、用数据创新”的理念,通过构建统一数据中心,挖掘大数据价值,是实现大数据应用的关键。当前,国家电网公司跨专业业务协同与信息共享不足,数据多头输入,数据反复抽取、冗余存储、质量不高等问题集中。同时,加快构建全球能源互联网和全面建成“一强三优”现代电网公司的目标,对全业务协同、全流程贯通提出了更高要求。因此,用数据管理企业、用信息驱动业务,对建设信息化企业具有重要意义。
1.2建设目标
通过标准化分析数据接口及数据跨库查询服务等功能建设,实现基于数据跨库查询服务的多查询、多表或视图联接合并机制,提供具备数据模型定义可配置、数据发布快速等特性的数据接口服务,从而促进业务应用系统与统一分析服务间的标准化集成,支撑全业务数据中心统一分析服务组件建设。
1.3建设内容
完成标准化分析数据接口及数据跨库查询服务等模块的需求分析和系统设计工作。其中,需求分析分需求调研、需求梳理和需求确认三个阶段,系统设计包括功能设计、非功能性需求设计、安全防护设计、灾备设计、可视化设计、数据库设计等。
2.需求分析
本项目研发内容主要是完成标准化分析数据接口及数据跨库查询服务等模块的需求分析和系统设计工作。其中,需求分析分需求调研、需求梳理和需求确认三个阶段,系统设计包括功能设计、非功能性需求设计、安全防护设计、灾备设计、可视化设计、数据库设计等。
完成标准化分析数据接口及数据跨库查询服务等模块的开发工作。
完成信息系统“业务授权许可”适应性调整和支撑功能建设。
2.1统一分析服务设计工作
统一分析服务组件系统设计工作主要包括标准化分析数据接口及数据跨库查询服务等模块的需求分析和系统设计工作,其中,需求分析分需求调研、需求梳理和需求确认三个阶段,系统设计包括功能设计、非功能性需求设计、安全防护设计、灾备设计、可视化设计、数据库设计等。
1.需求调研:结合国网全业务数据中心统一分析域总体设计要求和试点单位应用需求,开展标准化分析数据接口及数据跨库查询服务应用需求调研工作。
2.需求梳理:对应用需求调研结果进行梳理,明确应用需求内容、数据来源、分析手段、可视化界面等,形成需求清单。
3.需求确认:总部、各试点单位对标准化分析数据接口及数据跨库查询服务需求进行确认。
4.功能设计:开展标准化分析数据接口及数据跨库查询服务的功能需求梳理、分析、设计,明确平台总体架构、功能视图、数据视图、组件视图、系统集成视图、部署视图等内容。
5.可视化设计:根据标准化分析数据接口及数据跨库查询服务功能需求,开展可视化操作界面设计。
6.数据库设计:结合应用数据需求,开展标准化分析数据接口及数据跨库查询服务的概念数据模型、逻辑数据模型、数据分类、数据流转、数据存储与分布等设计。
2.2统一分析服务开发工作
完成标准化分析数据接口及数据跨库查询服务(包含标准化数据服务接口管理、数据跨库查询配置、数据查询运行3个二级模块)1个一级功能模块的开发工作。
完成信息系统“业务授权许可”适应性调整和支撑功能建设。
表格2-1统一分析服务组件-设计开发功能清单
3.建设方案
3.1总体架构
基于全业务数据中心建设分析分中心建设要求,结合业务系统功能范围特性设计电网公司统一分析服务总体架构图,总体架构图如下:
图3-1统一分析总体架构
从架构图中可以看出,统一分析服务组件由以下几个部分组成:
1.数据源管理,提供各类数据源的访问链接配置。
2.数据服务建模,结合数据源的数据模型创建对外的数据访问模型。
3.数据访问、加载策略,提供数据标准化访问和加载策略。
4.数据查询计算引擎,基于数据建模的模型,提供数据查询计算、跨库关联计算等能力。
5.数据访问服务,对外发布、运行具体的数据访问服务。
3.2统一分析服务功能实现
3.2.1功能模块
统一分析服务组件功能主要包括前端界面、服务端、统一接口、SG-I6000接口、统一权限集成五部分,其中服务端实现系统核心功能,前端界面调用服务端提供的API实现各种功能的图形化操作及展示,系统对外提供统一接口进行系统访问,SG-I6000接口实现和国网I6000监控组件的兼容,统一权限集成国网权限管理模块实现统一认证和权限配置。
统一分析服务组件功能模块包括统一接口、数据源配置、模型管理、查询主题管理、作业管理、数据查看、服务监控、日志查询、连接适配器等。功能模块划分如下图所示。
图3-2统一分析服务功能模块
统一接口:封装JDBC、Restful、Webservice标准接口,供外部调用,进行系统访问。SDK可以扩展支持的数据源和数据接入策略。
数据源配置:进行数据源连接配置,对数据源连接进行定义和驱动配置,支持数据源类型mysql,oracle,postgresql,gbase 8a,hbase,hive。
模型管理:进行服务模型的增删改查操作,根据数据同步策略完成模型数据的加载。模型的创建可通过图形化拖拽方式进行。
查询主题管理:进行查询主题的增删改查操作,支持按业务创建不同的查询主题,每一个查询主题包含多种业务应用,并且支持主题的权限控制。
作业管理:进行作业的提交、停止、调度,控制集群资源的使用。
数据查看:输入查询SQL,展示执行计划或查询结果。
服务监控:监控服务的状态、访问频度。
日志查询:可按功能模块或时间进行日志查询。
连接适配器:连接底层不同数据源,支撑数据建模和查询等功能。
3.2.2整体功能
统一分析服务组件界面主题颜色为绿色,实现的功能包括用户可访问的数据源信息概览,数据源的增删改查,数据模型的增删改查,数据源驱动的管理,查询主题的增删改查,操作日志的查询,权限管理设置,个人信息中心和运维管理等模块。
一级菜单功能有首页、主题管理、数据源管理、数据接入管理、数据查看、运维管理、日志查询。
个人信息中心和权限管理的入口在顶部的导航栏右侧处,其他各个管理模块的入口放置在界面的左侧边栏,如下图所示:
图3-3整体功能
3.2.3登录及Lisence认证
该部分主要实现的功能是已添加用户的登录认证和用户License的验证,License是用户能否使用平台的凭证。登录密码采用对称加密,用户在正确输入用户名和密码之后,登录后会首先验证License是否已经到期,未过期则通过国网统一权限管理进行用户权限认证,权限认证通过,跳转到首页,并从后台获取到用户所有的系统权限用以授权相关功能。License过期将会弹出激活License的对话框,用户需要重新上传License续期。
登录流程图如下:
图3-4登录流程图
上传License界面如下图所示:
图3-5激活LICENSE
3.2.4主题框架
系统界面主要由顶部个人信息设置、左侧菜单、中间详细内容展示和等构成,其中个人信息设置中可以查看和修改登录者的所有信息,进行角色和用户的管理,退出当前登录状态;左侧菜单栏包括系统提供的所有功能管理,分为二级菜单,可以点击右上角的白色按钮隐藏菜单栏,以便更好的进行内容浏览;
图3-6界面主体
图3-7隐藏菜单
3.2.5数据资产
通过配置代码集、数据元、目录管理和代码管理,实现数据集中数据项的添加操作和分类管理。最后通过建模设计功能实现可视化创建新的数据表及已有表编辑。
图3-8数据资产管理
图3-9数据代码项管理
3.2.6数据接入
数据接入管理包括插件管理和作业管理两个二级功能。
插件管理实现数据接入插件的查看、增加、修改、卸载功能,能够扩展支持的数据源类型和支持更多的自定义数据接入策略。
插件管理界面能够查看插件名称、包名称、所有者、安装时间、状态、版本信息。还可以按关键字搜索插件。
图3-10插件管理
作业管理实现作业的增加、删除、更新、上线、下线、查看功能。
进入作业管理界面可以查看作业名称、调度策略、上次执行时间、调度状态、执行结果等信息。
图3-11作业管理
作业新建需要输入作业名称、调度方式、触发时间、调度表达式、描述信息、错过执行策略、选择插件、采集器、下次作业开始位置信息,输入完成可保持作业,上线运行。
图3-12作业新建
3.2.7建模平台
大数据建模平台将大数据分析与图形化建模体系完美结合研发形成大数据建模分析系统,建模分析系统内置多种数据分析算法,支持图形化的模型设计功能,可直接通过图形化的组件以拖拽方式完成数据分析模型的搭建,让数据分析更有效率
大数据建模分析平台的数据分析能力随着算法库的扩展而扩展,当我们的业务模式发生变化或者将要拓展新的业务时,可以通过增加对应的数据分析组件达到数据分析覆盖面的拓展,从而实现业务系统的快速转型落地,大大提高数据分析应用的开发效率,实现从大数据分析由繁至简的极致转变。
建模平台支持大数据平台内的数据仓库、采样数据、本地文件数据三大类数据源,建模后产生的数据可以再次用于二次建模。
建模平台提供丰富的数据组件,对数据进行清洗、筛选,解决数据质量不高的问题,为用户提供精准而有效的数据。
建模平台根据业务场景的需求,可以集成各类数据分析、挖掘算法,深层次利用数据价值。
数据建模和数据可视化充分结合,在建模过程中即可准实时以可视化图表的方式展示数据模型的运行结果,及时验证模型的准确性。
建模输出的可视化图表可自由选择展示形式和类别,并可以共享到全平台内的指定用户。
基于内存的实时运算技术,单节点支持20亿+数据运算体量,实现建模流程中各个步骤秒级响应。
图3-13大数据建模平台
3.2.8数据共享
大数据平台将数据汇聚、分析处理后,通过数据总线机制,提供无障碍、跨平台的数据共享方式,为任务访问数据、系统自动化抽取数据提供高效的通道。
1.数据共享的权限控制精确到表的字段级别。
2.将数据总线与大数据平台融合,并结合使用通用的REST API,达到无协议障碍、跨平台、无缝对接各生产库系统的目标。
3.准实时的SQL,支持Service Mode的常驻进程,利用内存和网络大幅度提升效率,查询效率优于Tez。
4.每天新增3000万,总量100亿级的数据比对碰撞查询达到秒级响应。
5.可以自定义数据分析服务,通过服务注册方式添加到大数据平台。
图3-14服务注册
3.2.9数据查看
数据查看实现用户查询请求的结果展示,用户输入SQL/MQL语句后,可以查看执行计划,或执行查询显示结果。
图3-15数据查看
3.2.10运维管理
运维管理功能目前实现了服务监控部分,可以监控服务的状态、访问频度。
图3-16服务监控
3.2.11日志查询
该模块实现的是系统操作日志的查询功能,提供系统的运行状态等操作日志,方便管理员在系统运行过程中的故障恢复和审计。
点击左侧菜单栏的日志查看选项进入日志查询界面,用户选择检索类型和日期之后,点击查询,系统会获取到相应的日志信息并显示到表格中,表格中包含了日志的操作时间、操作人、日志级别、日志内容等信息。
图3-17日志查看
4.经验总结
4.1业务提升
曙光大数据定位Real-time Data-Driven Analytics Applications,国家电网发展的过程中,建设了不同类型和层级的数据管理系统,如数据仓库、Hadoop类的数据湖泊、云存储等,这些系统的建设,遵循了传统IT系统烟囱式的建设思路,为企业日常运维和运营起到了极大的作用。
在基础数据资产管理方面,得益于曙光大数据管理系统,用户在创建、优化和监控计算集群时将变得更加容易。曙光大数据系统实现了多源异构数据的统一安全访问,提升了大数据系统的适应性,满足更多的数据访问场景。
在数据分析团队效率方面,基于安全的数据共享机制,使的团队之间协作更为便捷。借助统一分析平台的交互式数据挖掘的设计模式,用户可更加方便完成大数据应用的调试、故障排查和版本控制等任务。
4.2经验和教训
1.明确建设目标
目前,国家电网公司已初步建成了国内领先、国际一流的信息集成平台。随着三地集中式数据中心的陆续投运,一级部署业务应用范围的拓展,结构化和非结构化数据中心的上线运行,电网业务数据从总量和种类上都已初具规模。大数据的“量类时”特性,已在海量、实时的电网业务数据中进一步凸显。建立电力大数据统一分析平台迫在眉睫。
2.加强与客户沟通
每个行业都有自己的业务特点和业务流程,电力行业也不例外。为了能开发更符合实际业务需求的平台,需要与用户进行深入沟通与探讨,了解业务的细节,包括数据类型、数据存储、数据流向等等,进而结合实际情况对接大数据分析平台。
3.重视测试环节
在完成系统实施上线后,需要进行整体的联合测试,该步骤需认证对待,严格测试。排除系统不稳定隐患,使系统处于最优状态交付于用户。
4.3产品亮点
曙光AUS交互分析平台为创新型产品,整合了内存计算、分布式搜索、分布式内存数据库、自助式服务门户等最新型技术,实现了性能、个性定制等方面相对传统大数据产品质的超越,尚未在市场上发现同类产品。
曙光产品功能:
1.同步和异步的数据采集聚合,支持Oracle、MS SQL、MySQL、PgSQL、Hive等现有数据源,业内最全;
2.支持数据采集后的ETL转换,支持达梦、Infomatica等ETL引擎(额外付费),更好地实现数据治理;
3.创新的内存计算引擎和分布式内存缓存库关联技术,实现相比RDBMS性能提升1000+倍(以某海关30TB业务数据集为测试基准),性能遥遥领先国内友商;
4.统一的分析接口设计,规范化的MQL语言,兼容SQL 03、SQL 11的同时实现对ML/DL的高效支持;
5.拖拽式Report和Dashboard自助服务门户,基于Role和User/Group的授权管理体系,更快捷、更安全。
4.4项目点评
该项目通过深度了解客户需求,结合曙光大数据多年技术积累,为用户建立了一套高速、可靠的大数据统一分析服务平台。平台通过标准化分析数据接口及数据跨库查询服务等功能建设,实现基于数据跨库查询服务的多查询、多表或视图联接合并机制,提供具备数据模型定义可配置、数据发布快速等特性的数据接口服务。经过测试,平台可完全满足客户实际应用需求,并且性能远超客户预期。