DataPipeline CPO 陈雷:实时数据融合之法:便捷可管理
陈雷 | DataPipeline 合伙人 & CPO
曾任 IBM 大中华区认知物联网实验室服务部首席数据科学家、资深顾问经理。十年管理经验,十五年数据科学领域与金融领域经验。综合交通大数据应用技术国家工程实验室产业创新部主任,西安交通大学软件学院大数据智能创新中心主任,中国电子学会区块链专委会委员。
在确保了实时数据融合的稳定性之后,企业开始关注数据管理能否满足数字化转型和多速IT的敏捷要求。实时数据融合产品的敏捷性、便捷性成为一个重点考量要素。
配置便捷
传统数据处理过程的构建,往往是以月为单位交付的,例如构建一个数据仓库或一个大数据平台,我们经常听到的建议是建设周期不要超过半年,即使是数据仓库构建完成之后,由于需要进行大量的代码开发,新的业务分析需求或者数据需求的交付周期也是以周为单位计算的,这很难满足业务应对市场竞争的需要,更不用说面对纷繁复杂的市场环境和竞争格局,业务形态是在不断调整变化的,这也对后端的数据支撑提出了更高的要求,数据资源作为战略资源必须在合适的时间出现在合适的地点,实时数据更是如此。
而众所周知,数据处理交付周期长的根本原因是处理过程中要面对从异构语义、映射关系到运行方式、运维方式等大量问题,这就要求实时数据融合能够在提供配置式链路定义,无代码任务构建的基础上,能够将各类涉及到运行稳定,运维管理的设置也配置化、自动化,从而帮助用户将实时数据融合从原有的研发模式转变为系统配置管理模式。
部署便捷
CPU、内存、存储、网络、操作系统、补丁、编译器、用户组,权限、安装、节点注册、负载再平衡,系统部署一直以来都不是一件让人心情愉悦的事情,这还是你做好了资源规划能够拿到系统资源的前提下,虽然近年来随着云计算技术被普遍接受,系统资源的申请、部署已经不成问题。但现在大部分的数据处理系统的部署扩展方式都不是很友好,也许就像代码才能体现程序员的价值一样,命令行才能体现运维工程师的专业性,而实时数据流量的不确定性与业务部门对实时数据利用的快捷交付要求都需要能够灵活便捷的进行部署与扩展,因此就要求实时数据融合通过高效便捷的容器化部署、高度自动化的系统资源发现、注册、负载平衡机制和高度配置化的系统资源分组管理模式满足用户对部署的便捷可管理需求。
分层管理
在今天的市场环境与技术发展的共同作用下,数据管理不仅仅需要可靠与可控性,同时为了应对移动互联网带来的客户行为和市场需求的改变,必须能够满足数字化转型和多速IT的敏捷要求,但作为业务信息化数字化的底层基础平台,数据节点的安全性、稳定性、业务连续性是不容有失的,数据本身的一致性、准确性、完整性也是业务创新的前提条件,更不用说对整个系统的监控、日志、预警等基础运维工作需要遵循企业整体的信息化管理机制,因此,如何在有效地满足数据系统管理需求的前提下,提升数据获取在各个环节的配合效率就显得至关重要。
实时数据融合作为敏捷性要求最高、覆盖业务系统数据来源最广的系统就需要对数据节点注册、数据链路配置、数据任务构建、系统资源分配等各个环节能够分层次、分租户、分用户进行解耦。
按需服务
当前的企业环境中,再去区分数据的所有者、使用者已经没有意义,随着企业级的数据仓库、大数据平台、主数据管理系统、数据管控系统的逐步建成,获取企业级的数据已经不是十分困难。而随着云计算的不断深入,系统资源的获取也已经随需应变,而对于实时数据来说,由于敏捷性要求较高,流量变化频繁,就更需要能够做到按需服务,在分层管理的基础上,在保障数据资源可控的前提下,为数据应用提供更多的自主性也是体现实时数据处理便捷可管理的一个重要方面。
实时数据处理应当将数据获取的范围、数据任务的生命周期、系统资源投入的多寡等权限更多的交给实际使用数据的业务部门或应用开发人员。
——无代码配置式链路定义,任务也交给下游部门自己跑了,我可以去看看我的排位了。
——事物都是在发展变化的,所以实时数据融合也需要能应对不断的进化,所以你再往下看。
在下一期的“实时数据融合之法,开放可扩展”中,我们将从数据节点开放性、语义特性开放性、清洗方式可扩展、配置功能可扩展四个方面展开讨论,请大家持续关注!