IT168专访|DataPipeline 合伙人&CPO陈雷:我们致力于成为中国的世界级数据中间件厂商
IT168:很高兴有机会采访到您,请您介绍一下自己,所在公司及主打产品?
陈雷:毕业之后去了方正,然后IBM11年,创业4年,一直从事数据领域的产品研发,系统交付工作。业务经验主要集中在金融、通信、能源等信息化领先行业,现在所在的公司DatePipeline是一家年轻的中国本土企业,我们致力于成为中国的世界级数据中间件厂商,产品也叫DataPipeline,是一款数据集成领域的下一代中间件产品,功能覆盖了实时数据采集、异构数据融合、实时数据处理等数据集成领域的主要场景。
IT168:您是何时进入这个行业的?这其中有没有特别的原因或者契机?
陈雷:中间件行业可能和互联网行业还不太一样,还是有一定门槛的,我相信从事软件行业的人大部分都和我一样,没有什么特别偶然的原因或者契机,就是从小喜欢计算机,根据兴趣选择了专业然后一路走过来,如果一定要说原因的话,我觉得可能是我们国家近几十年信息技术的高速发展为我们提供了一展拳脚的空间,没有让我们放弃自己的兴趣,这也是一个很幸福的事。
IT168:国内的市场格局是怎样的?都有哪些玩家?DataPipeline处于怎样的位置?
陈雷:主要分为三大类。
第一类是传统的外企,比如IBM、Oracle、Informatica等,有很成熟的产品和服务体系,但面对中国市场的新技术要求的应对稍显缓慢,比如Informatica今年宣布解散了中国公司,IBM和Oracle对国内正在逐步兴起的数据库都无法提供支持。
第二类是云厂商,特别是公有云厂商,在大规模数据管理和应用上有非常深入的探索和实践,比如OceanBase,也代表了未来的发展方向,但在数据集成这个领域还没有特别有力的产品,而且在面向重点行业企业信息化建设服务这一块还是有很多的工作要做。
第三类是一些有技术实力的行业集成商也在做相关领域的工作,但大部分都是在项目实施过程中基于开源项目慢慢积累,从商业产品角度来说适应性还有待验证。
DataPipeline从成立之初就坚持专业化、产品化发展的道路,坚持技术驱动,深耕企业服务,准确地讲在产品的适应性上已经超过了传统外企,但在产品成熟度上还有很多工作要做,我们现在也广泛的和云厂商与行业集成商合作,共同为企业客户提供更好的服务。
IT168:据您所知,数据融合市场的规模大概是多少?
陈雷:数据中间件的上下游市场正在快速增长,倒逼数据融合需求不断增长,可以说中间件和数据库及数据应用市场在同一量级,2018年全球市场320亿美元,预计到2022年,数据融合市场大概在120亿美元以上,符合增长率14%,数据融合是中间件增长最快的细分市场。
IT168:对于企业来讲,在搭建数据管理平台过程中都会面临哪些挑战和问题?
陈雷:这个内容就比较多了,讲最重要的三个挑战吧。
第一,各类数据管理技术差异越来越大,全面、准确的实时数据获取困难。随着数据技术的不断发展,针对某些具体场景的特性在不断被增强,使得各类数据技术的差异性进一步扩大,但被纳入其中的数据本身不应该因技术栈不同而阻碍其价值释放。
1、交易系统、账务系统、管理系统、分析系统、主数据、数据仓库与大数据平台采用的数据库管理技术都不尽相同,数据交换困难重重;
2、数据价值不断凸显,业务创新需要数据支撑,但大量数据没有纳入主数据管理系统,数据仓库与大数据平台又无法满足时效性要求;
3、数据时效性要求越来越高,批量数据交换无法满足需求,但针对不同数据库的增量数据实时采集需要大量的技术储备与研发成本;
4、增量识别字段等方式无法获取准确完整的增量数据,经常为实时数据应用造成障碍,也提升了实时数据的使用成本;
5、不同数据库管理技术在实例、库、模式、表等数据对象上,字段类型、精度、标度等语义模式上都有区别;
6、对上游的结构变化感知与应对都需要针对不同数据库技术区别对待;
7、传输过程中的一致性、冲突、特定类型的数据处理也需要区别对待。
第二,如何快速响应实时数据需求,把握机会快速建立竞争优势。业务需要更高的敏捷性来应对外部环境的变化,这需要整个数字化组织可以体系化的进行多速、敏捷的业务场景支撑,以及对突发业务活动有更多的可见性,以确保可以利用新出现的机会并快速建立竞争优势。
1、端到端实时数据链路的构建,往往是以月为单位交付的,甚至更多;
2、新的数据需求需要大量的代码开发,交付周期也是以周为单位计算的;
3、数十种数据库技术,多家供应商,十几个支持电话,感觉自己也是是集成商;
4、实时数据处理技术栈门槛较高,人员流失率较高,刚刚用顺手的供应商总是换人;
5、数据组的要求无法通过DBA的审核,应用研发对系统运维要求怨声载道;
6、资源使用与研发人员水平紧密相关,无法准确评估,遇到关键业务需求时捉襟见肘。
第三,实时数据链路兼具业务运营与管理支撑要求,稳定性与容错性问题重重。从客户行为分析到非交易类的触客业务到事件营销再到风控评分,实时数据链路逐渐成为业务运营的重要支撑,但作为打通各业务系统数据通道的中间层,受到的上下游的各类制约,对稳定性的影响尤其严重。
1、上下游节点的业务连续性和服务级别均高于实时数据链路,实时数据链路需要遵循上下游节点的认证、加密、权限、日志等管理机制;
2、上游数据对象结构变化与数据对象的处理机制对实时数据链路影响巨大,例如结构变化采用rename方式;
3、实时数据流量不仅仅需要参考业务交易量,与上游系统的数据处理方式有很大的关系,经常出现一个语句百万行增量的情况;
4、随着企业多中心及多云战略的执行,部署在不同网域或云环境的系统配置,网络连通性乃至专线供应商与带宽都对稳定性有影响;
5、对计划、非计划的网络不可用,上下游系统维护,物理删除等非规操作及偶发的错误数据及主键冲突数据没有相应的容错性策略配置;
6、出现系统故障时,无法保证各个组件的高可用,系统恢复困难,特别是实时数据链路的数据完整性与数据一致性很难恢复。
IT168:在过去一年中,DataPipeline在产品功能、技术研发,有哪些创新和突破?
陈雷:在过去的一年里,我们针对产品进行了一次较为彻底的改造,主要体现在几个方面。
第一,进一步加强了基于日志的增量数据获取技术(Log-based change data capture),可以为各类数据平台和应用提供实时、准确的数据变化,从而使得客户可以根据最新数据进行运营管理与决策制定。
第二,对数据节点注册、数据链路配置、数据任务构建、系统资源分配等各个环节进行分层管理,在有效地满足系统运维管理需求的前提下,提升实时数据获取与管理在各个环节的配合效率。在数据节点、数据链路、融合任务及系统资源四个基本逻辑概念中,用户只需要通过二至三项简单配置就可以定义出可以执行的融合任务,系统提供基于最佳实践的默认选项,实时数据需求的研发交付时间从2周减少为5分钟。
第三,为应对复杂的实时数据场景需求,系统提供限制配置与策略配置两大类十余种高级配置。用户可以通过这些配置对下游进行限制与管理,也可以通过这些配置来统一调整下游的执行范围与策略应用范围。同时,优化了系统整体的分布式引擎,实现了组件级高可用。从产品配置到系统部署两个方面保障实时数据链路的稳定高容错。
IT168:近年来,您观察到的数据融合市场发生了哪些变化,有哪些发展趋势,DataPipeline如何契合这些趋势?
陈雷:数据融合市场发生的变化主要有以下几点变化。
第一,市场竞争和用户行为的巨大变化。
1、用户交互时间越来越短,算法精度要求越来越高;
2、流量维度越来越多,不再局限于线上。必须适配场景来争夺注意力;
3、已经没有确定的价值锚点,企业必须不断加快自身进化速度。
第二,转变运营模式要求多速IT的支撑。
1、以客户为中心的独立产品运营模式,企业逐渐成为公共服务平台;
2、各个运营部门对数据的时效性、准确性、全面性要求都不相同;
3、对作为基础公共服务的数据平台来说,不变的是对需求的快速响应。
第三,数据需求响应从研发向配置转变。
1、数据支撑与应用开发、系统运维的协调问题必须解决;
2、在保障数据资源可控的前提下,为数据应用提供更多的自主性与敏捷性;
3、系统资源管理与系统的部署扩展必须灵活方便且平滑稳定。
IT168:在国际上是否有类似数见科技数据融合的产品?相比之下有哪些差异化?国外的产品相比国内来讲有哪些借鉴意义?
陈雷:IBM的 InfoSphere Data Replication、DataStage和Streams、Oracle的Golden Gate和Informatica的PowerExchange和PowerCenter。和这类国外产品相比,DataPipeline有以下几点区别;
第一,从功能性上来讲,IBM和Oracle对各自的数据库的支持毋庸置疑是最好的,但对新兴的数据库特别是国内正在广泛使用的数据库的支持力度就低了很多,DataPipeline通过自主研发和生态上下游的合作,不仅支持传统的Oracle等关系型数据库,也支持GaussDB、TiDB、巨杉等新兴数据库的实时数据采集。
第二,从部署架构和售卖方式上来讲,传统数据采集和数据处理工作是采用成对部署、成对售卖的方式,对客户进行高可用部署、系统扩容都不十分友好,而DataPipeline是分布式集群部署,在系统资源允许的情况下不限制用户注册数据节点,采用容器化部署方式,支持Kubernetes,支持动态扩缩容。
IT168:数见科技在做数据融合的过程中,有没有什么让您印象深刻的故事?比如第一个客户是怎么来的?比如研发过程中如何解决一个比较大的难题。
陈雷:应该说印象深刻的事情实在是太多,客户上线的喜悦,排除故障的辛劳,攻克技术难关的成就感,和每个创业者都会经历的压力,但这些其实也都很平常,这些就是一个技术人员的日常。用两句短句总结一下。
凡是过往,皆为序章,十余年沐雨栉风,百万里地北天南,也平常!
念念不忘,必有回响,再十年筚路蓝缕,献心力自强安邦,正起航!
IT168:您此前是否参加过中国数据库技术大会?有哪些地方令您印象深刻?您如何看待DTCC大会?
陈雷:我在IBM中国实验室的产品交付部门主要负责的就是数据相关的部分,包括DB2、Informix、Netezza在内的产品都是通过我们交付给中国的客户,我在这里可以说都是同行和朋友,我最大的感受是除了老朋友、老对手也有非常多的新面孔和新产品,为能够从事这个蓬勃发展的行业感到高兴,为能够参加这个欣欣向荣的顶级盛会感到荣幸,作为一个行业老兵,也对DTCC能够为中国乃至世界数据库领域一直坚持做出如此贡献表示感谢。